説明

音声認識装置、音声認識プログラム、受付装置および受付プログラム

【課題】来訪者の発話を高精度に認識することができる音声認識装置、音声認識プログラム、受付装置および受付プログラムを提供する。
【解決手段】来訪者が検知されると、受付装置から来訪者名および担当者名を質問する音声が出力される(S102)。質問に対する来訪者の応答が、複数のカテゴリに属する単語とその発音に関する情報の対応を示す汎用辞書と、予約データベースに予め記憶されている来訪者の予約に関する予約情報を基に作成された予約辞書を参照して音声認識される。汎用辞書の認識結果と予約辞書の認識結果とに基づいて決定された最終結果が得られる(S104)。最終結果が認識失敗を示す結果であれば(S105:YES)、来訪者に対して再発話が促され(S106)、認識に成功していれば(S105:NO)、最終結果に含まれる担当者名が特定され(S120)、その担当者への通知処理が行われる(S133)。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識装置、音声認識プログラム、受付装置および受付プログラムに関する。より具体的には、来訪者の発話の認識結果に応じた受付を行う音声認識装置、音声認識プログラム、受付装置および受付プログラムに関する。
【背景技術】
【0002】
従来、音声の音響的特徴を示す音響モデル、単語とその単語の発音に関する情報との対応を記述する単語辞書、および単語のつながりに関する制約を定義する言語モデルを用いた音声認識技術が知られている。このような技術では、単語辞書に含まれる単語数が増加するのに伴い、単語の組合せから構成される文の数は膨大となる。その結果、実際に発話されたのと異なる文が出力される誤認識の確率が上がる、すなわち認識精度が低下する傾向がある。
【0003】
そこで、予測された単語のみにより生成される文のみを認識候補として認識を行うことにより、誤認識を抑制する音声認識装置が提案されている(例えば、特許文献1)。
【特許文献1】特開平6−180593号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1に記載の音声認識装置では、予測された単語のみが音声認識に使用されるため、実際に発話された文が、予測された単語から構成されていない場合、すなわち、予測が外れた場合には、認識が不可能な場合がある。
【0005】
本発明は、上記問題点を解決するためになされたものであり、来訪者の発話を高精度に認識することができる音声認識装置、音声認識プログラム、受付装置および受付プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するために、請求項1に係る発明の音声認識装置は、来訪者の発話の認識結果に応じた受付を行う音声認識装置であって、来訪者を検出する来訪者検出手段によって前記来訪者が検出された後、音声入力手段から入力された前記来訪者の発する音声の音声情報を取得する音声情報取得手段と、複数のカテゴリの各々について、複数の単語と前記複数の単語の発音に関する情報との対応を示す辞書である汎用辞書を記憶する汎用辞書記憶手段に記憶された前記汎用辞書を用いて、前記音声情報取得手段によって取得された前記音声情報に基づいて前記音声の認識を行う第1の認識手段と、来訪者の予約に関する情報である予約情報を記憶する予約情報記憶手段に記憶された前記予約情報から、前記複数のカテゴリのうち少なくとも1つに属する単語を抽出し、抽出された前記単語の発音に関する情報と対応づけることにより作成された予約辞書を記憶する予約辞書記憶手段に記憶された前記予約辞書を用いて、前記音声情報取得手段によって取得された前記音声情報に基づいて前記音声の認識を行う第2の認識手段と、前記第1の認識手段の認識結果である第1の認識結果および前記第2の認識手段の認識結果である第2の認識結果に基づいて、前記音声の認識結果を決定する結果決定手段を備えている。
【0007】
請求項2に係る発明の音声認識装置では、請求項1に記載の発明の構成に加え、前記結果決定手段は、前記第2の認識手段による前記第2の認識結果が得られた場合には、前記第1の認識結果に優先して、前記第2の認識結果を前記認識結果として決定することを特徴とする。
【0008】
請求項3に係る発明の音声認識装置では、請求項1または2に記載の発明の構成に加え、前記結果決定手段は、前記第2の認識手段による前記第2の認識結果が得られなかった場合、前記第1の認識手段による前記第1の認識結果を前記認識結果として決定することを特徴とする。
【0009】
請求項4に係る発明の音声認識装置では、請求項1〜3のいずれかに記載の発明の構成に加え、前記予約辞書は、前記複数のカテゴリのうち、属する単語の数が所定量以下であるカテゴリである基準カテゴリに属する複数の単語を分類し、前記予約情報から、前記複数のカテゴリのうち少なくとも1つに属し、各分類に関連する前記単語をそれぞれ抽出して作成された複数の分割予約辞書を含み、前記第2の認識手段は、前記複数の分割予約辞書を用いて、前記音声情報取得手段によって取得された前記音声情報に基づいて前記音声の認識を行うことを特徴とする。
【0010】
請求項5に係る発明の受付装置は、請求項1〜3のいずれかに記載の音声認識装置と、前記結果決定手段によって決定された前記認識結果に基づいて、前記来訪者の応対を担当する担当者を特定する担当者特定手段と、前記担当者特定手段によって特定された前記担当者に対して、前記結果決定手段によって決定された前記認識結果に基づく通知処理を行う通知手段を備えている。
【0011】
請求項6に係る発明の受付装置では、請求項5に記載の発明の構成に加え、前記複数のカテゴリは、前記来訪者に関するカテゴリである来訪者カテゴリ、および前記担当者に関するカテゴリである担当者カテゴリを少なくとも含み、前記予約情報は、前記来訪者に関する情報、および前記来訪者に関する情報に対応付けられた前記担当者に関する情報を少なくとも含み、前記予約辞書は、前記予約情報から、前記来訪者カテゴリに属する単語をそれぞれ抽出して作成されており、前記担当者特定手段は、前記結果決定手段によって決定された前記認識結果が前記第1の認識結果である場合には、前記第1の認識結果に基づいて前記担当者を特定し、前記結果決定手段によって決定された前記認識結果が前記第2の認識結果である場合には、前記第2の認識結果に含まれる前記来訪者カテゴリに属する単語を含む前記予約情報に含まれる前記担当者に関する情報に基づいて、前記担当者を特定することを特徴とする。
【0012】
請求項7に係る発明の受付装置は、請求項4に記載の音声認識装置と、前記結果決定手段によって決定された前記認識結果に基づいて、前記来訪者の応対を担当する担当者を特定する担当者特定手段と、前記担当者特定手段によって特定された前記担当者に対して、前記結果決定手段によって決定された前記認識結果に基づく通知処理を行う通知手段を備えている。
【0013】
請求項8に係る発明の受付装置では、請求項7に記載の発明の構成に加え、前記複数のカテゴリは、前記来訪者に関するカテゴリである来訪者カテゴリ、および前記担当者に関するカテゴリである担当者カテゴリを少なくとも含み、前記予約情報は、前記来訪者に関する情報、および前記来訪者に関する情報に対応付けられた前記担当者に関する情報を少なくとも含み、前記分割予約辞書は、前記担当者カテゴリを前記基準カテゴリとして、前記予約情報から前記来訪者カテゴリに属する単語をそれぞれ抽出して作成されており、前記担当者特定手段は、前記結果決定手段によって決定された前記認識結果が前記第1の認識結果である場合には、前記第1の認識結果に基づいて前記担当者を特定し、前記結果決定手段によって決定された前記認識結果が前記第2の認識結果である場合には、前記第2の認識結果の認識に用いられた前記分割予約辞書に対応する前記担当者カテゴリの前記分類に基づいて、前記担当者を特定することを特徴とする。
【0014】
請求項9に係る発明の受付装置では、請求項5または7に記載の発明の構成に加え、前記複数のカテゴリは、前記来訪者に関するカテゴリである来訪者カテゴリ、および前記担当者に関するカテゴリである担当者カテゴリを少なくとも含み、前記予約辞書は、前記来訪者カテゴリに属する単語の発音に関する情報に対応付けられた、前記来訪者カテゴリに属する単語と前記担当者カテゴリに属する単語とを区切り文字を介して連結した単語である連結単語を含み、前記第2の認識手段による前記第2の認識結果には、前記連結単語が含まれており、前記担当者特定手段は、前記第2の認識結果に含まれる前記連結単語に基づいて前記担当者を特定することを特徴とする。
【0015】
請求項10に係る発明の音声認識プログラムは、請求項1〜4のいずれかに記載の音声認識装置の各種処理手段としてコンピュータを機能させることを特徴とする。
【0016】
請求項11に係る発明の受付プログラムは、請求項5〜9のいずれかに記載の受付装置の各種処理手段としてコンピュータを機能させることを特徴とする。
【発明の効果】
【0017】
請求項1に係る発明の音声認識装置によれば、複数の単語に関する汎用辞書を使用した音声認識の結果(第1の認識結果)と、来訪者の予約に関する予約情報を基に作成された予約辞書を使用した音声認識の結果(第2の認識結果)に基づいて、認識結果が決定される。汎用辞書は、特に制限なく複数の単語を含むため、第1の認識結果は、全体としての信頼性が高いとはいえない。一方、予約辞書は、予約情報記憶手段に記憶された来訪者の予約に関する予約情報を基にして作成されるため、含まれる単語数が絞り込まれている。その上、発話中の来訪者は、予約されている来訪者である可能性が高い。よって、発話内容が予約辞書に含まれる単語に対応していれば、予約辞書を用いた第2の認識結果は、全体としての信頼性が高いと考えられる。したがって、汎用辞書を用いた第1の認識結果と予約辞書を用いた第2の認識結果との両方に基づいて話者の音声の認識結果を決定することにより、最終的に精度の高い認識結果を得ることができる。
【0018】
請求項2に係る発明の音声認識装置によれば、予約辞書を用いた第2の認識結果がある場合、第2の認識結果が認識結果として決定される。したがって、請求項1に記載の発明の効果に加え、全体としての信頼性がより高い認識結果を得ることができる。
【0019】
請求項3に係る発明の音声認識装置によれば、予約辞書を用いた第2の認識結果がない場合、すなわち、単語数が汎用辞書よりも絞られた予約辞書での認識が失敗した場合でも、汎用辞書を用いた第1の認識結果が認識結果として決定される。したがって、請求項1または2に記載の発明の効果に加え、発話内容が予約辞書には対応していない場合でも、認識結果が得られない可能性を低減できる。
【0020】
請求項4に係る発明の音声認識装置では、予約辞書が、基準カテゴリに属する単語をさらに分類した結果に従って作成された複数の分割予約辞書を含む。つまり、分割予約辞書は、含まれる単語数がさらに絞り込まれている。したがって、請求項1〜3のいずれかに記載の発明の効果に加え、分割予約辞書を用いた第2の認識結果が得られた場合、さらに精度が高い認識結果を得ることができる。
【0021】
請求項5に係る発明の受付装置によれば、請求項1〜3のいずれかに記載の音声認識装置によって決定された精度の高い認識結果に基づいて、来訪者に応対する担当者が特定され、担当者に対する通知処理が行われる。したがって、通知を受けた担当者は、適切な来訪者の応対を行うことができる。
【0022】
請求項6に係る発明の受付装置では、予約情報記憶手段に記憶された予約情報は、来訪者に関する情報と来訪者の担当者に関する情報を含んでおり、予約辞書は、予約情報から来訪者カテゴリに属する単語を抽出して作成されている。第2の認識結果の信頼性は高いので、第2の認識結果に来訪者カテゴリの単語が含まれていれば、その単語から予約情報を辿ることにより、対応する担当者に関する情報を特定することができる。したがって、請求項5に記載の発明の効果に加え、来訪者が担当者に関する発話をしない場合にも、迅速かつ高精度に担当者を特定することができる。
【0023】
請求項7に係る発明の受付装置によれば、請求項4に記載の音声認識装置によって決定された精度の高い認識結果認識結果に基づいて、来訪者に応対する担当者が特定され、担当者に対する通知処理が行われる。したがって、通知を受けた担当者は、適切な来訪者の応対を行うことができる。
【0024】
請求項8に係る発明の受付装置では、予約情報記憶手段に記憶された予約情報は、来訪者に関する情報と来訪者の担当者に関する情報を含んでおり、分割予約辞書は、担当者カテゴリを基準カテゴリとして、つまり担当者による分類に従って、予約情報から来訪者カテゴリに属する単語を抽出して作成されている。第2の認識結果の信頼性は高いので、その認識に用いた分割予約辞書に対応する担当者の分類に基づいて担当者を特定することができる。したがって、請求項7に記載の発明の効果に加え、来訪者が担当者に関する発話をしない場合にも、迅速かつ高精度に担当者を特定することができる。
【0025】
請求項9に係る発明の受付装置では、予約辞書において、来訪者カテゴリの単語の発音に関する情報に、前記来訪者カテゴリに属する単語と前記担当者カテゴリに属する単語とを区切り文字を介して連結した連結単語が対応付けられており、第2の認識結果には連結単語が含まれる。したがって、請求項5または7に記載の発明の効果に加え、来訪者カテゴリに属する単語のみが発話された場合にも、連結単語に含まれる担当者カテゴリに関する単語に基づいて担当者を特定することができる。
【0026】
請求項10に係る発明の音声認識プログラムは、請求項1〜4のいずれかに記載の音声認識装置の各種処理手段としてコンピュータを機能させることができる。したがって、請求項1〜4のいずれかに記載の発明の効果を奏することができる。
【0027】
請求項11に係る発明の受付プログラムは、請求項5〜9のいずれかに記載の受付装置の各種処理手段としてコンピュータを機能させることができる。したがって、請求項5〜9のいずれかに記載の発明の効果を奏することができる。
【発明を実施するための最良の形態】
【0028】
以下、本発明を具現化した実施の形態について、図面を参照して説明する。なお、参照する図面は、本発明が採用しうる技術的特徴を説明するために用いられるものであり、記載されている装置の構成、各種処理のフローチャートなどは、それのみに限定する趣旨ではなく、単なる説明例である。
【0029】
<第1の実施形態>
以下、図1〜図17を参照して、第1の実施形態について説明する。まず、図1〜図9を参照して、本実施形態に係る受付システム1の全体構成、ならびに、受付システム1の構成要素である受付装置10およびユーザ端末20の構成について、順に説明する。
【0030】
最初に、図1を参照して、受付システム1の全体構成の概略を説明する。図1は、受付システム1の概略構成を示すシステム構成図である。受付システム1は、例えば、ビルや会社に設置され、来訪者に対する受付業務を行うシステムである。なお、本実施形態では、受付システム1は、会社5に設置されているものとして説明する。
【0031】
図1に示すように、受付システム1は、受付装置10および複数のユーザ端末20を備えており、これらはLAN9によって相互に接続されている。受付装置10およびユーザ端末20は、パーソナルコンピュータ等の汎用のコンピュータであってもよいし、専用の装置であってもよい。なお、本実施形態では、専用の装置であるものとして説明する。また、LAN9はその他のネットワークであってもよく、有線、無線の別も問わない。
【0032】
ここで、本実施形態の受付システム1全体で行われる処理の手順について、簡単に説明する。会社5への来訪者が、入口付近に設けられた受付装置10に近づくと、受付装置10が備える人感センサ109(図2参照)によって検知される。ここで受付装置10から来訪者および来訪者の応対担当者(以下、単に担当者という)の名前に関する質問が発せられるため、来訪者は受付装置10に対して応答する。すると、来訪者の応答が音声認識され、認識結果に基づいて、担当者が特定される。そして、受付装置10から担当者が使用するユーザ端末20に対して、来訪者が到着したことが通知され、来訪者と担当者との通話が可能とされる。このように、受付装置10は、会社5における受付業務を自動的に行うことができる。なお、ここまでで簡単に説明した処理については、後で詳述する。
【0033】
次に、図2〜図8を参照して、受付装置10の構成について説明する。図2は、受付装置10の電気的構成を示すブロック図である。図3は、ハードディスク装置15が備える記憶エリアの説明図である。図4は、予約データベース1510の説明図である。図5は、言語モデル1531の説明図である。図6は、汎用辞書1541の説明図である。図7は、予約辞書1551の説明図である。図8は、社員データベース1561の説明図である。
【0034】
まず、図2を参照して、受付装置10の電気的構成について説明する。図2に示すように、受付装置10は、CPU101と、CPU101に各々接続されたROM102およびRAM103を含む制御回路部100を備えている。CPU101には、入出力(I/O)インタフェイス104が接続されている。I/Oインタフェイス104には、ディスプレイ106、マイク107、スピーカ108、人感センサ109、通信装置110、およびハードディスク装置(HDD)150が接続されている。
【0035】
CPU101は、受付装置10全体の制御を司る。ROM102は、受付装置10の基本的な動作に必要なプログラムやそのための設定値を記憶している。CPU101は、ROM102や、HDD150に記憶されたプログラムに従って、受付装置10の動作を制御する。RAM103は、各種データを一時的に記憶するための記憶装置である。
【0036】
ディスプレイ106は、液晶パネルと駆動回路を備えた表示機器である。ディスプレイ106には、例えば、音声案内業務を行っている想定の人物やキャラクタの画像、スピーカ108から発話される音声に対応する文章等が表示される。マイク107は、音声が入力される機器であり、入力された音声を音声データに変換して出力する。スピーカ108は、入力された音声データを音声に変換して出力する機器である。なお、本実施形態では、マイク107は、本発明の「音声入力手段」に相当する。
【0037】
人感センサ109は、受付装置10の正面の所定領域内にある人体、すなわち来訪者を検知するセンサである。人感センサ109として、例えば、人体に対して赤外線を発射し、反射された赤外線の受光量の変化に基づいて人体を検知する赤外線センサ等、周知の人感センサを採用することができる。通信装置110は、LAN9を介して、ユーザ端末20等の外部機器との間でデータの送受信を行う装置である。なお、本実施形態では、人感センサ109は、本発明の「来訪者検出手段」に相当する。
【0038】
図3〜図7を参照して、HDD150について説明する。記憶装置であるHDD150には、図3に示すように、複数の記憶エリアが設けられている。複数の記憶エリアは、例えば、予約データベース(DB)記憶エリア151、音響モデル記憶エリア152、言語モデル記憶エリア153、汎用辞書記憶エリア154、予約辞書記憶エリア155、社員データベース(DB)記憶エリア156、およびプログラム記憶エリア157を含む。なお、本実施形態において、予約DB記憶エリア151は、本発明の「予約情報記憶手段に相当する。汎用辞書記憶エリア154は、「汎用辞書記憶手段」に相当する。予約辞書記憶エリア155は、「予約辞書記憶手段」に相当する。
【0039】
予約DB記憶エリア151には、来訪者の予約に関する情報である予約情報を格納する予約DB1510(図4参照)が記憶されている。予約情報は、来訪者の訪問予定が決まった時点で、来訪者1名毎に作成されるものであり、例えば、図4に示すように、会社名、会社名ヨミ、来訪者名、来訪者名ヨミ、訪問予定日時、担当者名、担当者名ヨミ、および連絡先を含む。これらのうち、会社名、会社名ヨミ、来訪者名、および来訪者名ヨミは、それぞれ、来訪者に関する情報である。担当者名、担当者ヨミ、および連絡先は、担当者に関する情報である。
【0040】
会社名は、来訪者が所属する会社や団体の名前であり、平仮名、片仮名、漢字、アルファベット等による通常の表記で記憶されている。なお、会社名としては、図4に示すように、必ずしも会社等の正式な名称ではなく、通常、身元を名乗る際に用いられる名前(通称)が記憶されていてもよい。例えば「株式会社B運送」について、「株式会社」を省略した「B運送」のみを、会社名として記憶しておくことができる。会社名ヨミは、会社名の読み方、すなわち発音であり、片仮名で記憶されている。
【0041】
来訪者名は、来訪者の名前であり、平仮名、片仮名、漢字、アルファベット等による通常の表記で記憶されている。なお、通常、来訪者は、他社の訪問時に身元を名乗る際、フルネームではなく苗字のみを使用することが多い。よって、来訪者名としては、図4に示すように、苗字のみが記憶されていてもよい。来訪者名ヨミは、来訪者名の読み方、すなわち発音であり、片仮名で記憶されている。
【0042】
訪問予定日時は、来訪者の訪問が予定されている日時である。担当者名は、来訪者の応対を担当する担当者の名前であり、平仮名、片仮名、漢字、アルファベット等による通常の表記で記憶されている。なお、通常、来訪者は、他社の訪問時に担当者名を発話する際、フルネームではなく苗字のみを使用することが多い。よって、図4に示すように、担当者名として、来訪者名と同様、苗字のみが記憶されていてもよい。担当者名ヨミは、担当者名の読み方、すなわち発音であり、片仮名で記憶されている。
【0043】
連絡先は、担当者の連絡先である。連絡先として、例えば、担当者が使用するユーザ端末20のIPアドレス、担当者の電子メールアドレス、担当者が使用するIP電話の電話番号等を採用することができる。なお、図4に示す例以外に、会社等の正式名称、来訪者名および担当者のフルネーム等が記憶されていてもよい。
【0044】
音響モデル記憶エリア152(図3参照)には、音声認識処理で使用される周知の音響モデル(図示外)が記憶されている。なお、詳細な説明は省略するが、音響モデルは、音声の音響的特徴(例えば、周波数特性)を統計的にモデル化したもので、例えば、母音、子音のそれぞれについて、特徴量と対応する音素とで表現されている。
【0045】
言語モデル記憶エリア153(図3参照)には、音声認識処理で使用される言語モデル1531(図5参照)が記憶されている。言語モデルは、単語のつながり、すなわち単語間の結びつきに関する制約を定義するものである。代表的な言語モデルとして、例えば、単語間の結びつきを文法(グラマー)で記述する記述文法モデルと、単語間の結びつきを確率で定義する統計モデル(例えば、単語N−gram)がある。
【0046】
これらの代表的な言語モデルのうち、記述文法モデルは、想定される文のパターンを、受理可能な文のパターンとして、予め人手で記述して定義するものである。したがって、記述される受理可能な文のパターンの数には限りがあるが、発話が、定義された文のパターンに対応していれば、高精度な音声認識が可能である。本実施形態では、会社5を訪問してきた人物の発話という、比較的限られた状況での発話について音声認識が行われるため、言語モデルとして記述文法モデルを採用している。しかしながら、言語モデルは必ずしも記述文法モデルである必要はなく、統計モデルを使用してもよい。
【0047】
言語モデル記憶エリア153(図3参照)には、受付装置10と来訪者との対話で想定される様々な場面に応じて予め作成された受理可能な文のパターンが、言語モデルとして記憶されている。例えば、図5に示す言語モデル1531は、来訪者名および担当者名の少なくとも一方に関する質問に対する応答として受理可能な文のパターンを示す例である。文のパターンは、例えば、文を構成する単語が属するカテゴリを順に並べることによって定義することができる。
【0048】
図4の例では、カテゴリ「会社名」、「接続」、「来訪者名」、「末尾1」、「担当者名」、「敬称」、および「末尾2」にそれぞれ属する単語が順に連結された文、カテゴリ「不要語」、「会社名」、「接続」、「来訪者名」、「末尾1」、「担当者名」、「敬称」、および「末尾2」にそれぞれ属する単語が順に連結された文、カテゴリ「来訪者名」、「末尾1」にそれぞれ属する単語が順に連結された文、ならびに、カテゴリ「担当者名」、「敬称」、および「末尾2」にそれぞれ属する単語が順に連結された文、の4種類を含む、複数の受理可能な文のパターンが定義されている。
【0049】
詳細は後述するが、本実施形態では、受付装置10から来訪者に対して、来訪者名および担当者名に関する質問、または担当者名に関する質問が発せられる。本来、来訪者名および担当者名に関する質問は、来訪者の名前と担当者の名前の2種類が応答に含まれることを要求するものであり、担当者名に関する質問は、担当者の名前が応答に含まれることを要求するものであ。しかしながら、応答者によっては、前者の質問に対して2種類の答のうち一方のみ、すなわち、来訪者名または担当者名のみを答える場合がある。また、担当者名の質問に対しても、来訪者の名前と担当者の名前の2種類で答える場合がある。
【0050】
そこで、本実施形態では、いずれの質問に対しても、来訪者名および担当者名のうち少なくとも一方が応答文に含まれていれば受理可能とすることとしている。つまり、カテゴリ「来訪者名」および「担当者名」のいずれか一方を含む文のパターンが、来訪者および担当者の名前に関する質問、ならびに担当者名に関する質問に対する応答の音声認識に使用される言語モデル1531に含まれている。
【0051】
なお、本実施形態では説明しないが、受付装置10から発せられる質問が、例えば用件に関する質問等、来訪者名および担当者名のうち少なくとも一方に関する質問以外にも用意されている場合が考えられる。このような場合は、言語モデル記憶エリア153には、図5に示す言語モデル1531以外に、他の質問に対する応答等に対応して予め作成された複数の言語モデルが記憶されていてもよい。
【0052】
汎用辞書記憶エリア154(図3参照)には、音声認識に使用される汎用辞書1541(図6参照)が記憶されている。図6に示すように、汎用辞書1541は、受付装置10が発する質問に対する応答に関連する複数のカテゴリ毎に、そのカテゴリに属する単語と、各単語の発音に関する情報とを記述するものである。なお、図6では、表記を簡略化するため、発音に関する情報として片仮名が使用されているが、実際には、汎用辞書1541では音素列として記憶されている。例えば、単語「あの」に対応する発音は、図6では片仮名で「アノ」と記載されているが、実際には、音素列にローマ字表記を用いる場合は、「ano」と記憶されている。この点は、以下の説明で使用される他の辞書の図でも同様である。
【0053】
図6は、カテゴリとして、「不要語」、「会社名」、「接続」、「来訪者名」、「末尾1」、「担当者名」、「敬称」、および「末尾2」を含む汎用辞書の例を示している。つまり、前述した言語モデル1531で定義されている文に含まれるカテゴリについて、各カテゴリに属する単語およびその発音が記述された辞書である。汎用辞書1541中のカテゴリには、カテゴリに属するどの単語を使用しても文全体としての意味には影響しないカテゴリ(以下、非重要カテゴリという)と、それ以外の、カテゴリに属する単語のうちどれを使用するかによって文全体の意味が変化するカテゴリ(以下、重要カテゴリという)とがある。
【0054】
図5の汎用辞書1541の例では、カテゴリ「不要語」、「接続」、「末尾1」、「敬称」、および「末尾2」は非重要カテゴリであり、カテゴリ「会社名」、「来訪者名」および「担当者名」は重要カテゴリである。また、カテゴリ「会社名」および「来訪者名」は、本発明の「来訪者カテゴリ」に相当し、「担当者名」は、「担当者カテゴリ」に相当する。
【0055】
汎用辞書1541において、重要カテゴリである「会社名」に属する単語数は5,000、「来訪者名」に属する単語数は10,000、「担当者名」に属する単語数は15である。つまり、カテゴリ「担当者名」に比べて、「会社名」および「来訪者名」の単語数は著しく多い。会社5に所属する担当者の数は限られているが、担当者1名に対して、例えば、面会に来る取引先の会社の数は複数あり、さらにこれらの会社に所属する人物が複数名いる場合もある。よって、汎用辞書1541では、すべての単語を網羅するために、このように「会社名」および「来訪者名」の単語数が非常に多くなる。なお、図6では、各カテゴリに属する単語の数が示されているのは単に説明目的であり、実際の汎用辞書1541には、単語数は含まれなくてよい。
【0056】
なお、前述したように、言語モデル1531(図5参照)以外に、様々な場面に応じて予め作成された他の言語モデルがある場合には、汎用辞書記憶エリア154に記憶される汎用辞書は、他の言語モデルに対応するカテゴリ毎の単語と発音に関する情報を含むものとなる。
【0057】
予約辞書記憶エリア155(図3参照)には、汎用辞書1541とともに音声認識に使用される予約辞書(図7参照)が記憶されている。予約辞書1551は、予約DB1510(図4参照)に格納された予約情報、および汎用辞書1541(図6参照)に基づいて作成される。
【0058】
予約辞書1551は、例えば、所定の時間間隔(例えば、10分間隔)で、予約DB1510に記憶されている予約情報のうち、訪問予定日時が処理時点から所定の関係にある予約情報から、汎用辞書1541に含まれる複数のカテゴリのうち少なくとも1つに属する単語を抽出し、各単語とその発音に関する情報とを対応付けることにより作成することができる。予約辞書1551は、例えば、プログラム記憶エリア157に予め記憶された予約辞書作成用のプログラムが所定の時間間隔で実行されることにより作成される。
【0059】
図7の例は、2008年5月12日の14:00が処理時点である場合に、図4に示す予約DB1510に記憶された、訪問予定日が処理時点から前後1時間以内にある予約情報を基にして作成された予約辞書1551を示している。この例で、予約辞書1551の具体的な作成方法について説明する。図4に示すように、2008年5月12日の14:00の前後1時間以内には、2008年5月12日の13:00に予約されたB運送の囲氏に関する予約情報から、2008年5月12日15:00に予約されたK化学の橋田氏に関する予約情報まで、全部で10件の予約情報がある。よって、まず、これら10件の予約情報に含まれる会社名、会社名ヨミ、来訪者名、来訪者名ヨミ、担当者名、および担当者名ヨミが抽出される。
【0060】
会社名ヨミ、来訪者名ヨミ、および担当者名ヨミが、それぞれ、音素列に変換される。この変換は、例えば、片仮名と音素との対応表を予め作成してHDD150の所定の記憶エリア(図示外)に記憶させておき、この対応表を使用して行えばよい。そして、会社名と会社名ヨミの音素列、来訪者名と来訪者名ヨミの音素列、担当者名と担当者名ヨミの音素列とが互いに対応づけられ、カテゴリ「会社名」、「来訪者名」および「担当者名」に属する単語およびその発音に関する情報として、予約辞書1551が作成される。なお、抽出された予約情報に、重複する会社名、来訪者名および担当者名がある場合は、予約辞書1551には重複して含めなくてよい。また、汎用辞書1541から、非重要カテゴリ(不要語等)の単語とその発音に関する情報が抽出され、予約辞書1551に追加される。その結果、図7に示す予約辞書1551が作成される。
【0061】
図7に示すように、予約情報に基づいて作成された予約辞書1551に含まれる重要カテゴリ「会社名」、「来訪者名」および「担当者名」に属する単語数は、それぞれ、8、10、4となる。つまり、予約辞書1551では、汎用辞書1541と比べ、重要カテゴリの単語数は少なくなる。特に、「会社名」および「来訪者名」の単語数を飛躍的に減少させることができる。また、予約辞書1551は、予約がある来訪者およびその担当者に関する情報を基に作成されているため、実際の来訪者とその担当者に関する単語が含まれている可能性が高い。なお、図7では、各カテゴリに属する単語の数が示されているのは単に説明目的であり、実際の予約辞書1551には、単語数は含まれなくてよい。
【0062】
社員DB記憶エリア156(図3参照)には、会社5の社員全員の個人情報(以下、社員情報という)を格納する社員DB1561(図8参照)が記憶されている。社員情報は、社員1名毎に作成されるものであり、例えば、図8に示すように、氏名、苗字、および連絡先を含む。連絡先としては、例えば、社員が使用するユーザ端末20のIPアドレス、社員の電子メールアドレス、電話番号等を採用することができる。なお、社員情報には、図8に示す以外に、各社員を識別する社員コードや、所属する部署等の情報が含まれていてもよい。
【0063】
プログラム記憶エリア157(図3参照)には、例えば、後述する各種処理に使用されるプログラムを含む、受付装置10の各種動作を制御するためのプログラムおよび設定値等が記憶されている。なお、プログラムは、例えばCD−ROMに記憶されたものがCD−ROMドライブ(図示外)を介してインストールされ、プログラム記憶エリア157に記憶される。または、通信装置110を介してLAN9または他のネットワーク(図示外)に接続し、外部からダウンロードされたプログラムが記憶されてもよい。また、図示はされていないが、HDD150には、その他、後述する処理でユーザ端末20に送信される表示用データや音声データも記憶されている。
【0064】
次に、図9を参照して、ユーザ端末20の構成について説明する。図9は、ユーザ端末20の電気的構成を示すブロック図である。図9に示すように、ユーザ端末20は、CPU201と、CPU201に各々接続されたROM202およびRAM203を含む制御回路部200を備えている。CPU201には、入出力(I/O)インタフェイス204が接続されている。I/Oインタフェイス204には、ディスプレイ206、マイク207、スピーカ208、通信装置210、およびハードディスク装置(HDD)250が接続されている。つまり、人感センサがない以外、ユーザ端末20の構成は、受付装置10と同様である。
【0065】
CPU201は、ユーザ端末20全体の制御を司る。ROM202は、ユーザ端末20の基本的な動作に必要なプログラムやそのための設定値を記憶している。CPU201は、ROM202や、HDD250に記憶されたプログラムに従って、ユーザ端末20の動作を制御する。RAM203は、各種データを一時的に記憶するための記憶装置である。
【0066】
ディスプレイ206は、液晶パネルと駆動回路を備えた表示機器である。ディスプレイ206には、例えば、来訪者の到着を告げる通知文等が表示される。マイク207は、音声が入力される機器であり、入力された音声を音声データに変換して出力する。スピーカ208は、入力された音声データを音声に変換して出力する機器である。例えば、スピーカ208からは、来訪者の到着を告げる通知音声が出力される。HDD250には、ユーザ端末20の各種動作を制御するためのプログラムおよび設定値等が記憶されている。
【0067】
以下に、前述のように構成された受付装置10において行われる各種処理について、図10〜図17を参照して順に説明する。図10は、受付装置10のメイン処理のフローチャートである。図11は、図10に示すメイン処理中に実行されるシナリオ処理のフローチャートである。図12は、音声認識処理のフローチャートである。図13は、音声認識処理で実行される認識結果決定処理のフローチャートである。
【0068】
図14は、図11に示すシナリオ処理において、シナリオ別処理として実行される受付シナリオ処理のフローチャートである。図15は、図14に示す受付シナリオ処理中に実行される担当者特定処理のフローチャートである。図16は、図11に示すシナリオ処理において、シナリオ別処理として実行される担当者名質問シナリオ処理のフローチャートである。図17は、図11に示すシナリオ処理において、シナリオ別処理として実行される担当者通知シナリオ処理のフローチャートである。なお、図10〜図17に示す処理は、HDD150のプログラム記憶エリア157に記憶されているプログラムに従って、受付装置10のCPU101が実行する。
【0069】
まず、図10および図11を参照して、受付装置10のメイン処理について説明する。図10に示すメイン処理は、受付装置10の電源がONにされると開始され、電源がOFFにされるまで継続して行われる。処理が開始されるとまず、開始フラグおよび終了フラグがいずれもfalseにセットされ、RAM103のフラグ記憶エリア(図示外)に記憶される(S1)。開始フラグは、後述する音声認識処理(図12参照)において、受付装置10のマイク107から入力される来訪者の発話の認識を行う期間を規定するフラグである。具体的には、開始フラグがtrueとされている間は発話の認識が行われ、falseとされると認識が中止される。終了フラグは、音声認識処理を終了させるか否かを示すフラグである。具体的には、終了フラグがfalseである間は音声認識処理が継続され、trueとされると終了する。
【0070】
続いて、音声認識処理が起動される(S2)。具体的には、HDD150のプログラム記憶エリア157に記憶されている音声認識プログラムが起動されることにより、音声認識処理(図12参照)が開始され、メイン処理と並行して実行されることになる。なお、音声認識処理については、後で詳述する。続いて、シナリオ処理が実行される(S3および図11)。シナリオ処理が終了すると、図10に示すメイン処理は終了する。
【0071】
図11を参照して、シナリオ処理について説明する。シナリオ処理は、場面に応じて予め用意された複数のシナリオ別処理を、必要に応じて切り替える処理である。具体的には、現在シナリオとしてセットされたシナリオに対応するプログラムが適宜プログラム記憶エリア157から読み込まれ、シナリオ別処理が実行される。本実施形態では、初回シナリオ、受付シナリオ、担当者名質問シナリオ、担当者通知シナリオ、代表者通知シナリオ、および通話シナリオに対応する各処理が用意されているものとする。
【0072】
まず、現在シナリオとして初回シナリオがセットされ、RAM103に記憶される(S11)。人感センサ109により、来訪者が検知されたか否かが判断される(S12)。来訪者が検知されない間は、来訪者が検知されるまで待機状態となる(S12:NO)。そして、人感センサ109により来訪者が検知されると(S12:YES)、シナリオ別処理が行われる(S13)。シナリオ別処理では、この時点でRAM103に現在シナリオとして記憶されているシナリオに応じた処理(以下、シナリオ名に応じて「〜シナリオ処理」という)が行われる。例えば、最初のシナリオ処理では、ステップS11で現在シナリオとして初回シナリオがセットされているため、ステップS13では、初回シナリオ処理が行われる。初回シナリオ処理では、次に現在シナリオにセットされるシナリオである次シナリオとして、受付シナリオをセットし、RAM103に記憶する処理のみが行われる。
【0073】
シナリオ別処理の後(S13)、RAM103に記憶されている次シナリオが初回シナリオであるか否かが判断される(S14)。次シナリオが初回シナリオではなく、受付シナリオ等、他のシナリオの場合は(S14:NO)、まだ他のシナリオに沿って同じ来訪者への対応を行う必要がある。よって、この時点でRAM103に記憶されている次シナリオが現在シナリオにセットされ(S15)、処理はステップS13に戻って、切り替えられた現在シナリオに対応するシナリオ別処理が行われる。
【0074】
来訪者への対応が一通り終了し、現在シナリオが初回シナリオとなった時点で(S14:YES)、この来訪者への対応は済んだことになる。よって、受付装置10の電源がOFFとされたか否かが判断され(S16)、電源がOFFにされていなければ(S16:NO)、処理はステップS11に戻り、前述したように、次の来訪者に対応する処理がステップS11〜S15で繰り返される。そして、受付装置10の電源がOFFにされると(S16:YES)、並行して実行されている音声認識処理も終了させるために、RAM103のフラグ記憶エリアに記憶されている終了フラグがfalseからtrueに変更され(S17)、シナリオ処理は終了して、図10に示すメイン処理に戻る。なお、受付シナリオ処理以外のシナリオ処理については、音声認識処理が関係するため、音声認識処理の説明後に詳述する。
【0075】
以下、図12を参照して、図10に示すメイン処理のステップS2で起動され、メイン処理と並行して実行される音声認識処理について説明する。図12に示すように、音声認識処理では、まず、音響モデル、言語モデルおよび辞書が、HDD150の所定の記憶エリアからそれぞれ読み出される(S21)。具体的には、音響モデル(図示外)が音響モデル記憶エリア152から読み出される。言語モデル1531(図5参照)が言語モデル記憶エリア153から読み出される。汎用辞書1541(図6参照)が汎用辞書記憶エリア154から読み出され、予約辞書1551(図7参照)が予約辞書記憶エリア155から読み出される。
【0076】
続いて、RAM103のフラグ記憶エリアに記憶されている終了フラグがfalseであるか否かが判断される(S22)。前述したように、終了フラグは、受付装置10の電源がOFFにされない限り、falseのままである(S22:YES)。この場合、フラグ記憶エリアに記憶されている開始フラグがtrueか否かが判断される(S23)。
【0077】
詳細は後述するが、開始フラグは、別途シナリオ処理(図11参照)において実行されるシナリオ別処理において、スピーカ108から何らかの質問音声が出力された後、質問に対する応答の認識開始を示すためにtrueにされる。つまり、来訪者に対して質問音声が出力されるまでの間は、falseのままである(S23:NO)。この場合、終了フラグがtrueにされるか、開始フラグがtrueにされるまで、待機状態となる(S22:YES、S23:NO)。
【0078】
受付装置10の電源がOFFにされ、図11のシナリオ処理のステップS17で終了フラグがtrueにされた場合は(S22:NO)、図12に示す音声認識処理はそのまま終了する。いずれかのシナリオ別処理で開始フラグがtrueにされた場合は(S23:YES)。質問に対する来訪者の応答の音声がマイク107から入力され、その音声データがRAM103に取得される(S24)。
【0079】
取得された音声データの音声認識が行われる(S25)。つまり、音声データが、音響モデル、言語モデル1531および辞書、すなわち汎用辞書1541および予約辞書1551を用いて、テキストに変換される。具体的には、例えば、音声データを分析し、特徴量を抽出した後、音響モデルと言語モデル1531とのマッチングが行われる。言語モデル1531は、辞書として汎用辞書1541および予約辞書1551を参照する。
【0080】
マッチングの結果、言語モデル1531で受理可能な文毎に尤度が求まり、尤度が最も高い文が認識結果として得られる。なお、尤度が既定の閾値以下の値になった場合は、認識失敗として認識結果は得られない。音声認識に成功した場合には得られた認識結果(テキスト)が、音声認識に失敗した場合には認識失敗を示す情報が、汎用辞書1541を参照して得られた結果であるのか、予約辞書1551を参照して得られた結果であるのかを識別可能な状態で、結果としてRAM103の記憶エリアに記憶される。
【0081】
本実施形態では、前述したように、辞書の数は汎用辞書1541および予約辞書1551の2つであるから、言語モデル1531を用いた認識が2通り行われることになる。つまり、両方の辞書で認識に成功すれば、それぞれの辞書に対応して2つの認識結果(テキスト)が得られる。各辞書に対応する結果の識別情報として、例えば、汎用辞書1541に対応する結果にはゼロ(0)、予約辞書1551に対応する結果には1の番号がそれぞれ付与され、結果(テキストまたは認識失敗を示す情報)と対応付けてRAM103に記憶される。なお、各辞書を参照して行われる2通りの音声認識は、並行して同時に行われても、シーケンシャルに行われてもよい。来訪者の待ち時間を考慮すると、並行して行うことが好ましい。
【0082】
このようにして音声認識が行われた後(S25)、最終的な認識結果として出力される最終結果を決定する認識結果決定処理が行われる(S26および図13)。認識結果決定処理で決定された最終結果は、並行して実行されているシナリオ別処理において、担当者名の特定に使用されることになる(図14のステップS120、または図16のステップS220)。
【0083】
認識結果決定処理の後(S26)、音声認識を一旦中止して来訪者による次の発話まで待機するために、フラグ記憶エリアにtrueとして記憶されている開始フラグがfalseに変更される(S27)。そして、処理はステップS22に戻る。受付装置10の電源がOFFにされ、終了フラグがtrueとされた場合は(S22:NO)、図12に示す音声認識処理は終了する。電源がOFFにされず、終了フラグがfalseの間は(S22:YES)、前述したようにステップS22〜S27の処理が繰り返される。
【0084】
図13を参照して、認識結果決定処理について説明する。なお、以下では、汎用辞書1541に対応する結果にはゼロ(0)、予約辞書1551に対応する結果には1が、識別番号としてそれぞれ付与されているものとして説明する。
【0085】
図13に示すように、処理が開始されるとまず、予約辞書1551を参照して得られた認識結果(以下、単に「予約辞書の認識結果」という)があるか否かが判断される(S261)。具体的には、RAM103に、識別番号1に対応して記憶されている結果が、認識結果(テキスト)であるか認識失敗を示す情報であるか否かが判断される。認識結果が記憶されている場合は、予約辞書の認識結果があると判断され(S261:YES)、予約辞書の認識結果が最終結果として決定され、RAM103に記憶される(S263)。
【0086】
一方、識別番号1に対応してRAM103に記憶されている結果が、認識失敗を示す情報の場合には、予約辞書の認識結果はないと判断される(S261:NO)。そこで、識別番号0に対応してRAM103に記憶されている結果に基づき、汎用辞書1541を参照して得られた結果(以下、単に「汎用辞書の認識結果」という)があるか否かが判断される(S262)。汎用辞書の認識結果はあると判断された場合には(S262:YES)、汎用辞書の認識結果が最終結果として決定され、RAM103に記憶される(S263)。
【0087】
汎用辞書の認識結果もない場合には(S262:NO)、予約辞書1551を参照した音声認識も、汎用辞書1541を参照した音声認識も失敗しているため、最終結果は認識失敗と決定され、RAM103に記憶される(S265)。ステップS263、S264、およびS265のいずれかで最終結果が決定された後、図13の認識結果決定処理は終了し、図12の音声認識処理に戻る。
【0088】
前述したように、予約辞書1551に含まれる単語の数は汎用辞書1541に比べて絞られているため、予約辞書1551の認識結果は、汎用辞書の認識結果よりも全体としての信頼性が高い。よって、このように、予約辞書の認識結果を最終結果として優先して採用することにより、信頼性がより高い最終結果を得ることができる。また、予約辞書1551と汎用辞書1541を音声認識で併用することにより、発話内容が予約辞書には対応しておらず、予約辞書の認識結果が得られなかった場合でも、汎用辞書の認識結果を最終結果として採用できるので、認識失敗となる可能性を低減することができる。
【0089】
以下に、図14〜図17を参照して、図11に示すシナリオ処理中にシナリオ別処理として行われる受付シナリオ処理、担当者名質問シナリオ処理、および担当者通知シナリオ処理について、順に説明する。
【0090】
まず、図14および図15を参照して、受付シナリオ処理について説明する。図14に示すように、受付シナリオ処理が開始されると、まず、再発話フラグがfalseにセットされ、RAM103のフラグ記憶エリアに記憶される(S101)。再発話フラグは、来訪者の発話の認識に失敗した場合に、来訪者にすでに同じ内容の再発話を促したか否かを示すフラグである。具体的には、再発話フラグがtrueの場合は、すでに来訪者に再発話を促したことを示し、falseの場合は、まだ再発話を促していないことを示している。
【0091】
続いて、CPU101は、来訪者名および担当者名を質問する内容の音声をスピーカ108から出力させる(S102)。より具体的には、予め作成され、HDD150の所定の記憶エリア(図示外)に記憶されている受付シナリオ用の質問文面のテキストデータが読み出される。そして、音声データに変換され、音声データがスピーカ108により音声に変換されて出力される。ここでは、例えば、「お客様のお名前と担当者の名前をお願いします」というように、来訪者名と担当者名を尋ねる音声が出力される。
【0092】
この質問に対して来訪者が応答する際の発話を認識するために、メイン処理の最初でfalseとされた開始フラグが、trueに変更される(S103)。これにより、並行して実行されている音声認識処理(図12参照)では、発話の認識が開始される。
【0093】
音声認識処理において得られた最終結果は、RAM103の所定の記憶エリアに記憶されている。そこで、CPU101は、RAM103に記憶されている最終結果を取得し(S104)、認識失敗を示すものか否かを判断する(S105)。認識失敗を示す最終結果がRAM103に記憶されている場合(S105:YES)、前述した質問に対する応答が認識できなかったことを意味する。したがって、CPU101は、RAM103のフラグ記憶エリアに記憶されている再発話フラグがfalseであるか否かを判断する(S106)。
【0094】
再発話フラグがfalseである場合(S106:YES)、来訪者は質問に対して一度応答をしただけであり、再度同じ応答をしたことはない。よって、再発話を促す内容の音声をスピーカ108から出力させる(S107)。ここでも、予め作成され、HDD150の所定の記憶エリア(図示外)に記憶されている受付シナリオ用の既定の文面のテキストデータが読み出されて音声データに変換され、さらにスピーカ208で音声に変換されて出力される。ここでは、例えば、「もう一度、お客様のお名前と担当者の名前をお願いします」というように、来訪者名と担当者名を再度尋ねる音声が出力される。そして、再発話フラグが、来訪者にすでに同じ内容の再発話を促したことを示すtrueに変更された後(S108)、処理はステップS103に戻る。
【0095】
ステップS108に続くステップS103では、並行して実行されている音声認識処理(図12参照)において最初の応答の認識の後falseとされた開始フラグが、来訪者による再発話を認識するために、trueに変更される(S103)。これにより、音声認識処理では、来訪者の再発話の認識が行われ、最終結果が取得される(S104)。
【0096】
再発話の最終結果も認識失敗を示すものである場合には(S105:YES)、再発話フラグが前の処理のステップS108でtrueにされている(S106:NO)。よって、CPU101は、それ以上来訪者に同じ質問は行わず、受付シナリオ用の既定の文面のテキストデータに基づき、代表者に取次ぎ中であることを示す内容の音声をスピーカ108から出力させる(S112)。そして、次シナリオに代表者通知シナリオをセットしてRAM103に記憶させ(S113)、受付シナリオ処理を終了して、図11に示すシナリオ処理に戻る。なお、シナリオ処理では、次シナリオは初回シナリオではないため(S14:NO)、代表者通知シナリオが現在シナリオとしてセットされて(S15)、続くステップS13で、シナリオ別処理として、代表者通知シナリオ処理が行われることになる。
【0097】
一方、来訪者名および担当者名の質問に対する来訪者の最初の応答の認識が成功した場合(S105:NO)、または、再発話を促された後の再度の応答の認識が成功した場合(S105:NO)、最終結果に基づいて担当者を特定する担当者特定処理が行われる(S120および図15)。
【0098】
図15を参照して、担当者特定処理について説明する。図15に示すように、まず、RAM103に記憶されている最終結果が、予約辞書の認識結果であるか否かが判断される(S121)。前述したように、本実施形態では、汎用辞書の認識結果には識別番号ゼロ(0)、予約辞書の認識結果には識別番号1があわせて記憶されているので、最終結果がいずれの辞書によるものかを識別できる。識別番号がゼロ(0)であり、最終結果が予約辞書の認識結果ではなく、汎用辞書の結果である場合には(S121:NO)、最終結果中に担当者名が含まれているか否かが判断される(S126)。
【0099】
前述したように、来訪者は、来訪者名および担当者名を質問したからといって、担当者名を含む応答をするとは限らない。よって、来訪者が自分の名前のみ名乗っており、最終結果に担当者名が含まれない場合には(S126:NO)、担当者名は「なし」として、RAM103に記憶され(S129)、担当者特定処理は終了して、図14に示す受付シナリオ処理に戻る。一方、最終結果に担当者名が含まれている場合には(S126:YES)、最終結果に含まれる担当者名が抽出され、担当者名としてRAM103に記憶される(S127)。そして、担当者特定処理は終了して、図14に示す受付シナリオ処理に戻る。
【0100】
ステップS121において、RAM103に識別番号1に対応する結果が記憶されており、予約辞書の認識結果があると判断された場合には(S121:YES)、最終結果に担当者名が含まれるか否かが判断される(S122)。担当者名が含まれていれば(S122:YES)、最終結果に含まれる担当者名が抽出され、担当者名としてRAM103に記憶される(S127)。そして、担当者特定処理は終了して、図14に示す受付シナリオ処理に戻る。
【0101】
一方、最終結果である予約辞書の認識結果に担当者名が含まれていない場合(S122:NO)、認識には成功しているため、最終結果には、少なくとも来訪者名は含まれていることになる。前述したように、予約辞書1551は、予約DB1510(図4参照)に記憶されている来訪者の予約情報を基にして作成されているので、予約辞書1551に含まれる来訪者に対応する担当者を、予約情報に基づいて特定することができる。
【0102】
具体的には、最終結果に含まれる来訪者名が特定され、予約DB1510において、特定された来訪者名を来訪者名として含む予約情報が検索される(S123)。検索の結果発見された予約情報に含まれる担当者名が、担当者名として特定される(S124)。なお、発見された予約情報が複数ある場合は、例えば、訪問予定日時が現在時刻に最も近い予約情報に含まれる担当者名を採用すればよい。そして、担当者特定処理は終了して、図14に示す受付シナリオ処理に戻る。
【0103】
受付シナリオ処理に戻ると、RAM103に記憶されている担当者名が「なし」であるか否かが判断される(S131)。汎用辞書1541または予約辞書1551の認識結果が得られ、前述の担当者特定処理において、担当者名が特定できた場合には(S131:NO)、CPU101は、受付シナリオ用の既定の文面のテキストデータに基づき、担当者に取次ぎ中であることを示す内容の音声をスピーカ108から出力させる(S132)。そして、次シナリオとして、担当者通知シナリオをセットしてRAM103に記憶させ(S133)、受付シナリオ処理を終了して、図11に示すシナリオ処理に戻る。なお、シナリオ処理では、次シナリオは初回シナリオではないため(S14:NO)、担当者通知シナリオが現在シナリオとしてセットされて(S15)、続くステップS13で、シナリオ別処理として、担当者通知シナリオ処理(図17参照)が行われることになる。この処理については後述する。
【0104】
一方、汎用辞書1541でも予約辞書1551でも来訪者の発話の認識結果が得られず、前述の担当者特定処理において、担当者名が「なし」とされた場合には(S131:YES)、CPU101は、次シナリオとして、担当者名質問シナリオをセットしてRAM103に記憶させ(S135)、受付シナリオ処理を終了して、図11に示すシナリオ処理に戻る。なお、シナリオ処理では、次シナリオは初回シナリオではないため(S14:NO)、担当者名質問シナリオが現在シナリオとしてセットされて(S15)、続くステップS13で、シナリオ別処理として、担当者名質問シナリオ処理(図16参照)が行われることになる。
【0105】
図16を参照して、担当者名質問シナリオ処理について説明する。この処理は、前述の受付シナリオ処理で来訪者名および担当者名を質問しても、その応答が認識できなかった場合に行われる。ここで担当者名のみを質問するのは、担当者名さえ特定できれば、その担当者に対して名前が不明な来訪者が到着したことは通知できるため、また、汎用辞書1541でも予約辞書1551でも、来訪者名に比べて担当者名の数は少ないので、来訪者名よりも担当者名の方が精度よく認識できるためである。
【0106】
図16に示すように、まず、再発話フラグがfalseにセットされる(S201)。そして、担当者名質問シナリオ用の既定の文面のテキストデータに基づき、担当者名を質問する音声をスピーカ108から出力させる(S202)。ここでは、例えば「担当者の名前をお願いします」という音声が発せられる。
【0107】
続くステップS203〜S208の処理は、前述の受付シナリオ処理(図14参照)のステップS103〜S108と同様であるため、ここでの説明は省略する。
【0108】
ステップS207で再発話を促しても認識に失敗した場合には(S205:YES)、再発話フラグがすでにtrueとされているので(S206:NO)、CPU101は、それ以上来訪者に同じ質問をする処理を行わない。担当者名質問シナリオ用の既定の文面のテキストデータに基づき、代表者に取次ぎ中である旨の音声がスピーカ108から出力され(S212)、次シナリオに後述する代表者通知シナリオがセットされる(S213)。そして、担当者名質問シナリオ処理は終了し、図11に示すシナリオ処理に戻る。
【0109】
担当者名の質問に対する応答について最終結果が得られた場合は(S205:NO)、担当者特定処理が行われる(S220)。ステップS220で行われる担当者特定処理は、受付シナリオ処理に関して図15を参照して前述した通りであるため、ここでの説明は省略する。担当者特定処理の結果、担当者名が特定されたか否かが判断される(S231)。汎用辞書1541でも予約辞書1551でも来訪者の発話の認識結果が得られず、担当者特定処理において、担当者名が「なし」とされた場合には(S231:YES)、CPU101は、それ以上来訪者に同じ質問をする処理を行うことなく、代表者に取り次ぐための処理が行われる(S212〜S213)。そして、担当者名質問シナリオ処理は終了し、図11に示すシナリオ処理に戻る。
【0110】
担当者特定処理において、担当者名が特定できた場合には(S231:NO)、CPU101は、担当者名質問シナリオ用の既定の文面のテキストデータに基づき、担当者に取次ぎ中であることを示す内容の音声をスピーカ108から出力させる(S232)。そして、次シナリオとして、担当者通知シナリオをセットしてRAM103に記憶させ(S233)、担当者名質問シナリオ処理を終了して、図11に示すシナリオ処理に戻る。なお、シナリオ処理では、次シナリオは初回シナリオではないため(S14:NO)、担当者通知シナリオが現在シナリオとしてセットされて(S15)、続くステップS13で、シナリオ別処理として、担当者通知シナリオ処理(図17参照)が行われることになる。
【0111】
図17を参照して、担当者通知シナリオ処理について説明する。この処理は、受付シナリオ処理(図14参照)または担当者名質問処理(図16参照)で担当者が特定できた場合に、担当者に来訪者の通知を行う処理である。
【0112】
図17に示すように、まず、担当者の連絡先が特定される(S301)。具体的には、RAM103に記憶されている担当者名が特定され、社員DB1561において、特定された担当者名を苗字として含む社員情報が検索される。そして、発見された社員情報に含まれる連絡先が、担当者の連絡先として特定される。続いて、特定された担当者の連絡先に対して、来訪者の到着を知らせる通知処理が行われる(S302)。
【0113】
例えば、連絡先として、担当者の使用するユーザ端末20のIPアドレスが特定された場合、CPU101は、ユーザ端末20に来訪者の到着を知らせる内容の音声データを送信し、ユーザ端末20のスピーカ208からその音声を出力させればよい。ここでは、予め定められた通知文に基づいて、例えば「お客様がいらっしゃっています」とのみ通知してもよいし、「A工業の永光様がいらっしゃっています」というように、最終結果に会社名や来訪者名が含まれる場合には、これらをあわせて通知してもよい。また、通知先として電子メールのアドレスが特定された場合は、そのアドレスに通知文のテキストデータを送信してもよい。この場合は、ユーザ端末20のディスプレイ206に、通知文が表示される。
【0114】
このような通知処理により、通知を受けた担当者は、直接来訪者と対話しなくても、来訪者が到着したという情報、または誰が来訪したのかという情報を知り、適切な対応をすることができる。その後、次シナリオとして、通話シナリオをセットしてRAM103に記憶させ(S303)、担当者通知シナリオ処理を終了して、図11に示すシナリオ処理に戻る。なお、図示は省略するが、代表者通知シナリオ処理では、担当者通知処理と同様の流れの処理が行われる。例えば、予め定められ、HDD150の所定の記憶エリアに記憶された代表者の連絡先が特定され、代表者への通知処理が行われて、次シナリオに通話シナリオがセットされる。
【0115】
担当者通知シナリオ処理または代表者通知シナリオ処理後のシナリオ処理(図11参照)では、次シナリオは通話シナリオである(S14:NO)。よって、通話シナリオが現在シナリオとしてセットされて(S15)、続くステップS13で、シナリオ別処理として、通話シナリオ処理が行われることになる。なお、図示は省略するが、通話シナリオ処理では、例えば、マイク207から入力される担当者の音声指示に基づいて、受付装置10のマイク107およびスピーカ108、ならびにユーザ端末20のマイク207およびスピーカ208を用いて、来訪者と担当者の通話が可能とされる。さらに、次シナリオに初回シナリオがセットされる。その結果、図11に示すシナリオ処理に戻ると、次シナリオは初回シナリオであると判断され(S14:YES)、電源がOFFにされていなければ(S16:NO)、ステップS11に戻り、次の来訪者の受付処理が行われることになる。
【0116】
以上に説明したように、本実施形態の受付システム1では、受付装置10で来訪者が検知されると、来訪者名と担当者名を質問する音声が出力される。質問に対して来訪者が応答すると、その音声が汎用辞書1541(図6参照)および予約辞書1551(図7参照)を参照して音声認識される。汎用辞書1541を参照して音声認識が行われた場合の認識結果と、予約辞書1551を参照して音声認識が行われた場合の認識結果に基づいて、最終的な認識結果が決定される。最終的な認識結果に含まれる担当者名が特定され、その連絡先に対して、来訪者の到着が通知される。
【0117】
汎用辞書1541は、特に制限なく多数の単語を含むため、汎用辞書の認識結果は、全体としての信頼性が高いとはいえない。一方、予約辞書1551は、予約DB記憶エリア151(図3参照)に記憶された予約DB1510(図4参照)の予約情報を基にして作成されるため、含まれる単語数が絞り込まれている。その上、発話中の来訪者は、予約されている来訪者である可能性が高い。よって、発話内容が予約辞書に含まれる単語に対応していれば、予約辞書の認識結果は、全体としての信頼性が高いと考えられる。したがって、汎用辞書の認識結果と予約辞書の認識結果との両方に基づいて最終結果を決定することにより、信頼性の高い最終結果を得ることができる。
【0118】
本実施形態では、受付装置10は、本発明の「音声認識装置」を備えた受付装置に相当する。また、図12のステップS24でマイク107から入力された音声を取得するCPU101が、本発明の「音声情報取得手段」に相当する。ステップS25で汎用辞書1541および予約辞書1551を用いて音声認識を行うCPU101が、「第1の認識手段」および「第2の認識手段」に相当する。図13のステップS263、S264、およびS265で最終結果を決定するCPU101が、「結果決定手段」に相当する。図15のステップS124、S127、およびS129で担当者を特定するCPU101が、「担当者特定手段」に相当し、図17のステップS302で通知処理を行うCPU101が、「通知手段」に相当する。
【0119】
<第2の実施形態>
以下、図12、図13、図18および図19を参照して、第2の実施形態について説明する。第1の実施形態では、図7に示す予約辞書1551は、図4に示す予約DB1510に記憶されている予約情報に基づいて、1つの辞書として作成されている。本実施形態では、予約情報に基づいて、複数の辞書が作成される点が特徴である。なお、以下の説明では、これらの複数の辞書の各々を「分割予約辞書」というものとする。図18は、分割予約辞書1552の説明図である。図19は、第2の実施形態に係る担当者特定処理のフローチャートである。
【0120】
本実施形態に係る受付システム1、ならびに受付システム1の構成要素である受付装置10およびユーザ端末20の構成は、受付装置10の予約辞書記憶エリア155に記憶される辞書が異なる以外、第1の実施形態と同一である。よって、ここでは、図18を参照して、本実施形態で予約辞書記憶エリア155に記憶されている分割予約辞書についてのみ説明し、その他の構成の説明については省略する。
【0121】
本実施形態で作成される分割予約辞書は、図18に示すように、第1の実施形態の予約辞書1551(図4参照)と同様に、重要カテゴリである「会社名」、「来訪者名」、および「担当者名」、ならびに非重要カテゴリである「不要語」、「接続」、「末尾1」、「敬称」、および「末尾2」にそれぞれ属する単語とその発音に関する情報の対応を示す辞書である。ただし、予約辞書1551とは異なり、分割予約辞書は、カテゴリ「担当者名」に1名分の単語しか含まない。つまり、本実施形態の分割予約辞書は、第1の実施形態の予約辞書1551を担当者毎に分割した辞書である。
【0122】
本実施形態の分割予約辞書は、例えば、次のように作成することができる。まず、予約辞書1551と同様、所定の時間間隔で、予約DB1510(図4参照)に記憶されている予約情報のうち、訪問予定日時が処理時点から所定の関係にある予約情報の一部が抽出される。そして、汎用辞書1541に含まれる複数のカテゴリのうち、属する単語数が所定量以下のカテゴリに属する単語を分類し、抽出された予約情報から、各分類に関連する少なくとも1つの他のカテゴリの単語がそれぞれ抽出される。さらに、抽出された各単語とその発音に関する情報とを対応付けることにより、分割予約辞書が作成される。なお、以下の説明では、汎用辞書1541に含まれる重要カテゴリのうち、分類の基準とされる、属する単語数が所定量以下のカテゴリを「基準カテゴリ」というものとする。
【0123】
基準カテゴリは、属する単語の数が所定数以下のカテゴリであってもよいし、他のカテゴリに属する単語の数に対する比率が所定値以下のカテゴリであってもよい。属する単語数が最小の重要カテゴリとすることがより好ましい。この場合、各分割辞書に含まれる単語数を最小とすることができるため、さらに認識精度を高めることができる。また、分割辞書が互いに異なる単語をそれぞれ含むように作成されていることにより、その単語に特有の認識結果を得ることができる。また、属する単語が、各々、他のカテゴリの単語と関連するカテゴリであることが好ましい。さらに、受付装置10から来訪者に対して提示される質問に対する応答に含まれるカテゴリであることが望ましい。
【0124】
本実施形態では、図6に示すように、汎用辞書1541に含まれる重要カテゴリ「会社名」、「来訪者名」および「担当者名」のうち、最も単語数が少ないのは「担当者名」である。よって、汎用辞書1541のカテゴリ「担当者名」が基準カテゴリとされる。そして、予約DB1510から抽出された担当者名が、担当者1名毎に分類され、各担当者が関係する会社および来訪者に応じて、予約DB1510から抽出された予約情報に含まれる会社名および来訪者名が、各分類に振り分けられる。そして、各分類に属する単語とその発音に関する情報を互いに対応づけることによって分割予約辞書が作成され、予約辞書記憶エリア155に記憶される。
【0125】
図18は、2008年5月12日の14:00が処理時点である場合に、訪問予定日が処理時点から前後1時間以内にある予約情報を基に、カテゴリ「担当者名」を基準カテゴリとして、会社5の担当者名が「佐藤」という分類に対して作成された分割予約辞書1552の例を示している。この例では、まず、第1の実施形態で予約辞書1551が作成される場合と同様に、図4に示す予約DB1510から、10件の予約情報に含まれる会社名、会社名ヨミ、来訪者名、来訪者名ヨミ、担当者名、および担当者名ヨミが抽出される。抽出される担当者名は「佐藤」、「渡辺」、「鈴木」、および「高橋」の4つである。各担当者名、各担当者名に対応して予約情報に含まれていた会社名および来訪者名と、それぞれの発音に関する情報とを対応付けることにより、4つの分割予約辞書が作成される。なお、非重要カテゴリの扱いは、第1の実施形態で説明した通りである。
【0126】
図18に示すように、担当者名が「佐藤」という分類の分割予約辞書1552に含まれる重要カテゴリ「会社名」、「来訪者名」および「担当者名」に属する単語数は、それぞれ、3、4、1となる。つまり、分割予約辞書1552では、「会社名」、「来訪者名」および「担当者名」に属する単語数を、第1の実施形態の予約辞書1551の単語数からさらに減少させることができる。よって、分割予約辞書の認識結果が得られた場合、さらに精度が高い最終結果を得ることができる。なお、図18では、各カテゴリに属する単語の数が示されているのは単に説明目的であり、実際の分割予約辞書1552には、単語数は含まれなくてよい。
【0127】
なお、担当者名を基準として分割予約辞書を作成する場合であっても、必ずしも各分割予約辞書に含まれる担当者名の単語数を1とする必要はない。例えば、会社5で同じ部署に所属する担当者毎、または同じ業務に携わっている担当者毎に分類して、それぞれ1〜数名を含む分割予約辞書を作成することも可能である。この場合、前述の例で作成される分割予約辞書の数は、4よりも少なくなる場合がある。
【0128】
以下、本実施形態の受付装置10において行われる各種処理について、図12、図13および図19を参照して説明する。本実施形態の処理は、基本的には第1の実施形態で行われる処理と同様であるため、同様の処理については説明を適宜省略し、異なる処理を中心に説明する。第1の実施形態と異なるのは、辞書を参照して行われる音声認識処理と、音声認識の最終結果に基づいて行われる担当者特定処理である。
【0129】
まず、本実施形態の音声認識処理について、図12および図13を参照して説明する。なお、図13において、「予約辞書」は「分割予約辞書」と読み替えるものとする。図12に示す音声認識処理が開始されると、音響モデル、言語モデル、および辞書がHDD150の所定の記憶エリアから、それぞれ読み込まれる(S21)。本実施形態では、このとき、汎用辞書1541(図6参照)とともに、複数の分割予約辞書が読み込まれる。前述の例のように分割予約辞書が作成され、予約辞書記憶エリア155に記憶されている場合には、図18に示す分割予約辞書1552を含む4つの分割予約辞書が読み込まれることになる。
【0130】
そして、ステップS25では、汎用辞書1541および4つの分割予約辞書を参照して来訪者の音声が認識されるため、合わせて5通りの認識が行われることになる。汎用辞書1541の認識結果には識別番号ゼロ(0)、分割予約辞書の認識結果には識別番号1〜4が付与されて、RAM103に記憶される。
【0131】
続くステップS26の認識結果決定処理では、図13に示すように、まず、分割予約辞書の認識結果があるか否かが判断される(S261)。前述したように、分割予約辞書は4つあるため、識別番号1〜4のいずれかに対応する結果として、認識結果(テキスト)が記憶されていれば、分割予約辞書の認識結果があると判断され(S261:YES)、分割予約辞書の認識結果が最終結果として決定される(S263)。なお、分割予約辞書による認識結果が複数ある場合には、すべての認識結果を最終結果とすればよい。
【0132】
その他の場合については、第1の実施形態と同様である。すなわち、分割予約辞書の認識結果がすべて認識失敗であった場合には(S261:NO)、識別番号ゼロ(0)に対応して記憶されている汎用辞書の認識結果があるか否かが判断される(S262)。汎用辞書の認識結果があれば(S262:YES)、それが最終結果とされ(S264)、なければ(S262:NO)、最終結果は認識失敗とされる(S265)。
【0133】
このようにして、音声認識処理で最終結果が決定されると、受付シナリオ処理(図14参照)のステップS120または担当者名質問シナリオ処理(図16参照)のステップS220では、図19に示す担当者特定処理が行われる。図19に示すように、まず、最終結果が分割予約辞書の認識結果であるか否かが判断される(S141)。
【0134】
最終結果が分割予約辞書の認識結果である場合(S141:YES)、最終結果に担当者名が含まれているか否かが判断される(S142)。含まれていないと判断された場合には(S142:NO)、少なくとも、分割予約辞書を参照した来訪者名の認識には成功している。分割予約辞書に含まれる来訪者名の単語数は少ないため、来訪者名の認識に成功している場合、認識結果の信頼性は高い。そこで、複数の分割予約辞書のうち、どの辞書で認識に成功したのかに応じて、担当者が特定される。
【0135】
具体的には、まず、最終結果に対応して記憶されている識別番号に基づいて、認識結果が得られた分割予約辞書が特定される。前述したように、本実施形態の分割予約辞書は、担当者1名毎に作成されているため、カテゴリ「担当者名」に含まれる単語は1つである。よって、この担当者名が、来訪者に応対する担当者の担当者名として特定され、RAM103に記憶されることになる(S143)。
【0136】
その他の場合については、第1の実施形態と同様である。すなわち、最終結果が分割予約辞書の認識結果ではなく、汎用辞書の結果である場合には(S141:NO)、最終結果中に担当者名が含まれているか否かが判断される(S145)。最終結果に担当者名が含まれない場合には(S145:NO)、担当者名は「なし」として、RAM103に記憶され(S149)、担当者名が含まれている場合には(S145:YES)、最終結果に含まれる担当者名が抽出され、担当者名としてRAM103に記憶される(S147)。ステップS143、S147、またはS149の後、図19に示す担当者特定処理は終了する。
【0137】
なお、最終結果として、分割予約辞書の認識結果が複数ある場合には、例えば、そのうち1つでも担当者名が含まれる最終結果があれば、その最終結果中の担当者名を担当者名とし(S147)、担当者名を含む分割予約辞書の認識結果が1つもない場合に限って、分割予約辞書に含まれる担当者名を担当者名と決定すればよい(S143)。また、ステップS143またはS147で複数の担当者名が特定された場合には、その後の担当者通知シナリオ処理(図17参照)において、複数の担当者すべてに通知処理をおこなってもよいし、代表者通知シナリオ処理(図示外)に移行するようにしてもよい。
【0138】
以上に説明したように、本実施形態では、予約DB1510に記憶された予約情報の一部が抽出され、汎用辞書1541に含まれる複数のカテゴリのうち、属する単語数が所定量以下のカテゴリに属する単語を分類し、抽出された予約情報から、各分類に関連する少なくとも1つの他のカテゴリの単語がそれぞれ抽出される。さらに、抽出された各単語とその発音に関する情報とを対応付けることにより、複数の分割予約辞書が作成される。来訪者の音声認識の際、汎用辞書1541とともに、複数の分割予約辞書が参照される。
【0139】
各分割予約辞書に含まれる単語は、予約情報に含まれ、且つ、担当者毎の分類に対応する単語のみに絞られているので、汎用辞書1541と分割予約辞書を併用して音声認識を行い、最終結果を決定することにより、さらに精度の高い最終結果を得ることができる。また、本実施形態の分割予約辞書は、担当者毎に作成されている。分割予約辞書の認識結果の信頼性は高いので、認識に成功した分割予約辞書に対応する担当者の分類に基づいて担当者を特定することにより、来訪者が担当者に関する発話をしない場合でも、迅速かつ高精度に担当者を特定することができる。
【0140】
本実施形態では、図19のステップS143、S147、およびS149で担当者を特定するCPU101が、「担当者特定手段」に相当する。
【0141】
<第3の実施形態>
以下、図12、図13、図20および図21を参照して、第3の実施形態について説明する。第1の実施形態に係る予約辞書1551(図7参照)では、各単語には、その単語そのものの発音に関する情報が対応づけられている。本実施形態では、予約辞書1553において、各単語に単語そのものの発音ではない発音の情報が対応付けられている点が特徴である。図20は、予約辞書1553の説明図である。図21は、第3の実施形態に係る担当者特定処理のフローチャートである。
【0142】
本実施形態に係る受付システム1、ならびに受付システム1の構成要素である受付装置10およびユーザ端末20の構成は、受付装置10の予約辞書記憶エリア155に記憶される辞書が異なる以外、第1の実施形態と同一である。よって、ここでは、図20を参照して、本実施形態で予約辞書記憶エリア155に記憶されている予約辞書1553についてのみ説明し、その他の構成の説明については省略する。
【0143】
図20に示す本実施形態の予約辞書1553は、図7に示す第1の実施形態の予約辞書1551とは、カテゴリ「来訪者名」に属する単語と発音に関する情報の対応が異なっている。その他のカテゴリの単語およびその発音に関する情報は、図7の予約辞書1551と同一であるため、説明および図20での図示は省略する。
【0144】
図20に示すように、本実施形態の予約辞書1553では、カテゴリ「来訪者名」に属する単語は、実際には2つの名前を含む。具体的には、来訪者名および担当者名が、区切り文字(図中の「:」)を介して連結され、カテゴリ「来訪者名」に属する1つの単語として扱われている。これは、後述する担当者特定処理(図21参照)において、来訪者の発話に来訪者名のみが含まれる場合にも、来訪者名から担当者名を特定できるようにするためである。
【0145】
本実施形態の予約辞書1553は、例えば、次のように作成することができる。まず、第1の実施形態の予約辞書1551(図7参照)と同様に、所定の時間間隔(例えば、10分間隔)で、予約DB1510に記憶されている予約情報のうち、訪問予定日時が処理時点から所定の関係にある予約情報から、汎用辞書1541に含まれる複数のカテゴリのうち少なくとも1つに属する単語を抽出し、各単語とその発音に関する情報とを対応付けることにより作成することができる。ただし、カテゴリ「来訪者名」の単語については、予約情報から抽出された来訪者名そのものではなく、来訪者名および担当者名を区切り文字(:)を介して連結したものを1語として、来訪者名として使用する。
【0146】
図20の例は、2008年5月12日の14:00が処理時点である場合に、訪問予定日が処理時点から前後1時間以内にある予約情報を基にして作成された予約辞書1553を示している。この例では、まず、第1の実施形態で予約辞書1551が作成される場合と同様に、図4に示す予約DB1510から、10件の予約情報に含まれる会社名、会社名ヨミ、来訪者名、来訪者名ヨミ、担当者名、および担当者名ヨミが抽出される。
【0147】
会社名ヨミ、来訪者名ヨミ、および担当者名ヨミが、それぞれ、音素列に変換される。そして、会社名と会社名ヨミの音素列、来訪者名および担当者名を区切り文字(:)を介して連結した単語と来訪者名ヨミの音素列、担当者名と担当者名ヨミの音素列とが互いに対応づけられ、カテゴリ「会社名」、「来訪者名」および「担当者名」に属する単語およびその発音に関する情報として、予約辞書1553が作成される。なお、非重要カテゴリの扱いは、第1の実施形態で説明した通りである。
【0148】
抽出された10件の予約情報に含まれる来訪者名の数は10あるので、図20に示すように、作成された予約辞書1553には、カテゴリ「来訪者名」に属する単語として、10の単語が含まれる。例えば、最初に格納されている来訪者名「囲:佐藤」は、図4に示す予約DB1510で2行目に記載されている予約情報の来訪者名「囲」と担当者名「佐藤」が区切り文字(:)を介して連結された単語である。そして、この来訪者名「囲:佐藤」には、同じ予約情報の来訪者名ヨミから得られた「カコイ」という発音に関する情報(音素列)が対応づけられている。
【0149】
以下、本実施形態の受付装置10において行われる処理について、図21を参照して説明する。本実施形態の処理は、基本的には第1の実施形態で行われる処理と同様であるため、同様の処理については説明を適宜省略し、異なる処理を中心に説明する。第1の実施形態と異なるのは、受付シナリオ処理(図14参照)のステップS120または担当者名質問シナリオ処理(図16参照)のステップS220で音声認識の最終結果に基づいて行われる担当者特定処理である。
【0150】
図21に示すように、担当者特定処理が開始されると、まず、最終結果が予約辞書の認識結果であるか否かが判断される(S151)。最終結果は、予約辞書の認識結果である場合(S151:YES)、最終結果に担当者名が含まれているか否かが判断される(S152)。含まれていないと判断された場合には(S152:NO)、少なくとも、予約辞書1553を参照した来訪者名の認識には成功している。予約辞書1553に含まれる来訪者名の単語数は少ないため、来訪者名の認識に成功している場合、認識結果の信頼性は高い。そこで、最終結果に含まれる来訪者名に基づいて担当者を特定する処理が行われる。
【0151】
具体的には、まず、最終結果に含まれる来訪者名が、来訪者名と担当者名とに分けられ(S153)、担当者名が特定される(S154)。音声認識では、予約辞書1553の発音に関する情報でマッチングが行われるが、認識結果として出力されるのは対応する単語である。前述したように、予約辞書1553のカテゴリ「来訪者名」の単語は、実際には来訪者名と担当者名が連結された単語である。よって、例えば「カコイ」という発音に対する最も尤度が高い場合、「囲:佐藤」という単語が最終結果とされている。この場合、区切り文字(:)の位置で単語を2分割することにより、「囲」と「佐藤」の2つの単語が得られ(S153)、「佐藤」が担当者名として特定されることになる(S154)。
【0152】
その他の場合については、第1の実施形態と同様である。すなわち、最終結果が分割予約辞書の認識結果ではなく、汎用辞書の結果である場合には(S151:NO)、最終結果中に担当者名が含まれているか否かが判断される(S155)。最終結果に担当者名が含まれない場合には(S155:NO)、担当者名は「なし」として、RAM103に記憶され(S159)、担当者名が含まれている場合には(S155:YES)、最終結果に含まれる担当者名が抽出され、担当者名としてRAM103に記憶される(S157)。ステップS154、S157、またはS159の後、図21に示す担当者特定処理は終了する。
【0153】
以上に説明したように、本実施形態では、予約DB1510に記憶された予約情報の一部が抽出され、抽出された各単語とその発音に関する情報とを対応付けることにより、予約辞書1553が作成される。ただし、カテゴリ「来訪者名」については、来訪者名と担当者を区切り文字を介して連結した単語が、来訪者名として使用される。来訪者の音声認識の際、汎用辞書1541とともに、予約辞書1553が参照される。
【0154】
予約辞書1553に含まれる単語は、予約情報に含まれる単語のみに絞られているので、汎用辞書1541と予約辞書1553を併用して音声認識を行い、最終結果を決定することにより、信頼性の高い最終結果を得ることができる。また、本実施形態の予約辞書1553では、来訪者名に担当者名が対応付けられている。予約辞書1553の認識結果の信頼性は高いので、来訪者名に対応付けられた担当者を特定することにより、来訪者が担当者に関する発話をしない場合でも、迅速かつ高精度に担当者を特定することができる。
【0155】
なお、前述の実施形態に示される構成や処理は例示であり、各種の変形が可能なことはいうまでもない。例えば、予約DB1510(図4参照)に格納された予約情報に基づいて作成される辞書には、少なくとも来訪者に関する単語が含まれていればよい。すなわち、例えば、図7に示す予約辞書1551において、重要カテゴリは「来訪者名」のみとすることができる。この場合、受付シナリオ処理(図14参照)のステップS102では、来訪者に対して来訪者名のみを質問する。そして、その後の担当者特定処理(S120および図15)では、最終結果が予約辞書の認識結果の場合(図15のS121:YES)、担当者名を含むか否かの判断は行わずに、来訪者名を基に予約DB1510の予約情報を参照して、担当者を特定すればよい(S123〜S124)。
【0156】
前述の実施形態では、予約辞書1551、分割予約辞書1552、および予約辞書1553のいずれも、訪問予定日時が、辞書が作成される時点の前後1時間以内にある予約情報を基にして作成されている。しかしながら、予約辞書1551、分割予約辞書1552、および予約辞書1553を作成する基となる予約情報は、この条件で抽出されたものに限られない。例えば、訪問予定日時が同日の予約情報や、過去1週間以内にある予約情報を用いてもよい。
【0157】
また、予約辞書1551、分割予約辞書1552、および予約辞書1553が作成されるタイミングは、10分間隔、1時間間隔、毎日午前0時等、所定の時間間隔に限られない。例えば、来訪者が人感センサ109によって検知される度に、訪問予定日時が検知時点の前後1時間以内にある予約情報を基に作成されてもよい。この場合、常に来訪者が到着した時間に近い予約情報を基にした辞書が作成されるので、来訪者の発話を高精度に認識することができる。
【0158】
前述の実施形態では、汎用辞書1541(図6参照)および予約辞書1551(図7参照)、分割予約辞書1552(図18参照)および予約辞書1553(図20参照)は、いずれも非重要カテゴリの単語すべてを含んでいる。しかしながら、非重要カテゴリに属する単語は、必ずしも汎用辞書や予約情報に基づく辞書に含める必要はなく、非重要カテゴリの単語のみを含む別の辞書を作成しておき、音声認識の際に汎用辞書または分割辞書とともに参照されるようにしてもよい。
【0159】
前述の実施形態では、受付装置10はマイク107、スピーカ108および人感センサ109を備え、来訪者の検知、音声の入出力、および音声認識等の処理をすべて同一の装置で行っている。しかしながら、前述の実施形態の受付装置10の構成の一部を別の装置とすることも可能である。例えば、マイク、スピーカおよび人感センサを備え、受付装置10に接続されたインターホン型の受付端末を会社5の入り口近辺に設置し、受付装置10は会社5内の別の場所に設置してもよい。そして、受付端末で来訪者の検知や音声の入力を行い、その情報を受付装置10に送信してもよい。また、受付装置10から受付端末に音声データを送信し、受付端末のスピーカから音声を出力すればよい。この場合、受付装置10はマイク107、スピーカ108および人感センサ109を備えている必要はない。
【0160】
また、前述の実施形態では、受付装置10にHDD150が設けられているが、HDD150に記憶されている情報(汎用辞書1541、予約辞書1551等予約情報に基づく辞書の、社員DB1561等)は、例えば、LAN9を介して受付装置10に接続可能な別個の記憶装置に記憶させておき、処理中に、必要な情報を読み出す構成としてもよい。
【0161】
前述の実施形態では、受付装置10から来訪者に対する提示される質問や再発話の指示は、スピーカ108から音声を出力することにより行われている。しかしながら、質問や再発話の指示は、ディスプレイ106に表示させることも可能である。また、音声出力と表示を同時に行ってもよい。
【0162】
さらに、前述の実施形態では、担当者の連絡先の特定に、社員DB1561(図7参照)を使用しているが、最終結果が予約辞書1551等予約情報に基づく辞書である場合、予約DB1510(図4参照)を参照して連絡先を特定することも可能である。
【図面の簡単な説明】
【0163】
【図1】受付システム1の概略構成を示すシステム構成図である。
【図2】受付装置10の電気的構成を示すブロック図である。
【図3】ハードディスク装置15が備える記憶エリアの説明図である。
【図4】予約データベース1510の説明図である。
【図5】言語モデル1531の説明図である。
【図6】汎用辞書1541の説明図である。
【図7】予約辞書1551の説明図である。
【図8】社員データベース1561の説明図である。
【図9】ユーザ端末20の電気的構成を示すブロック図である。
【図10】受付装置10のメイン処理のフローチャートである。
【図11】図10に示すメイン処理中に実行されるシナリオ処理のフローチャートである。
【図12】音声認識処理のフローチャートである。
【図13】図12に示す音声認識処理で実行される認識結果決定処理のフローチャートである。
【図14】図11に示すシナリオ処理において、シナリオ別処理として実行される受付シナリオ処理のフローチャートである。
【図15】図14に示す受付シナリオ処理中に実行される担当者特定処理のフローチャートである。
【図16】図11に示すシナリオ処理において、シナリオ別処理として実行される担当者名質問シナリオ処理のフローチャートである。
【図17】図11に示すシナリオ処理において、シナリオ別処理として実行される担当者通知シナリオ処理のフローチャートである。
【図18】分割予約辞書1552の説明図である。
【図19】第2の実施形態に係る担当者特定処理のフローチャートである。
【図20】予約辞書1553の説明図である。
【図21】第3の実施形態に係る担当者特定処理のフローチャートである。
【符号の説明】
【0164】
10 受付装置
101 CPU
107 マイク
109 人感センサ
150 HDD
154 汎用辞書記憶エリア
155 予約辞書記憶エリア
156 社員データベース記憶エリア
20 ユーザ端末

【特許請求の範囲】
【請求項1】
来訪者の発話の認識結果に応じた受付を行う音声認識装置であって、
来訪者を検出する来訪者検出手段によって前記来訪者が検出された後、音声入力手段から入力された前記来訪者の発する音声の音声情報を取得する音声情報取得手段と、
複数のカテゴリの各々について、複数の単語と前記複数の単語の発音に関する情報との対応を示す辞書である汎用辞書を記憶する汎用辞書記憶手段に記憶された前記汎用辞書を用いて、前記音声情報取得手段によって取得された前記音声情報に基づいて前記音声の認識を行う第1の認識手段と、
来訪者の予約に関する情報である予約情報を記憶する予約情報記憶手段に記憶された前記予約情報から、前記複数のカテゴリのうち少なくとも1つに属する単語を抽出し、抽出された前記単語の発音に関する情報と対応づけることにより作成された予約辞書を記憶する予約辞書記憶手段に記憶された前記予約辞書を用いて、前記音声情報取得手段によって取得された前記音声情報に基づいて前記音声の認識を行う第2の認識手段と、
前記第1の認識手段の認識結果である第1の認識結果および前記第2の認識手段の認識結果である第2の認識結果に基づいて、前記音声の認識結果を決定する結果決定手段を備えたことを特徴とする音声認識装置。
【請求項2】
前記結果決定手段は、前記第2の認識手段による前記第2の認識結果が得られた場合には、前記第1の認識結果に優先して、前記第2の認識結果を前記認識結果として決定することを特徴とする請求項1に記載の音声認識装置。
【請求項3】
前記結果決定手段は、前記第2の認識手段による前記第2の認識結果が得られなかった場合、前記第1の認識手段による前記第1の認識結果を前記認識結果として決定することを特徴とする請求項1または2に記載の音声認識装置。
【請求項4】
前記予約辞書は、前記複数のカテゴリのうち、属する単語の数が所定量以下であるカテゴリである基準カテゴリに属する複数の単語を分類し、前記予約情報から、前記複数のカテゴリのうち少なくとも1つに属し、各分類に関連する前記単語をそれぞれ抽出して作成された複数の分割予約辞書を含み、
前記第2の認識手段は、前記複数の分割予約辞書を用いて、前記音声情報取得手段によって取得された前記音声情報に基づいて前記音声の認識を行うことを特徴とする請求項1〜3のいずれかに記載の音声認識装置。
【請求項5】
請求項1〜3のいずれかに記載の音声認識装置と、
前記結果決定手段によって決定された前記認識結果に基づいて、前記来訪者の応対を担当する担当者を特定する担当者特定手段と、
前記担当者特定手段によって特定された前記担当者に対して、前記結果決定手段によって決定された前記認識結果に基づく通知処理を行う通知手段を備えたことを特徴とする受付装置。
【請求項6】
前記複数のカテゴリは、前記来訪者に関するカテゴリである来訪者カテゴリ、および前記担当者に関するカテゴリである担当者カテゴリを少なくとも含み、
前記予約情報は、前記来訪者に関する情報、および前記来訪者に関する情報に対応付けられた前記担当者に関する情報を少なくとも含み、
前記予約辞書は、前記予約情報から、前記来訪者カテゴリに属する単語をそれぞれ抽出して作成されており、
前記担当者特定手段は、前記結果決定手段によって決定された前記認識結果が前記第1の認識結果である場合には、前記第1の認識結果に基づいて前記担当者を特定し、前記結果決定手段によって決定された前記認識結果が前記第2の認識結果である場合には、前記第2の認識結果に含まれる前記来訪者カテゴリに属する単語を含む前記予約情報に含まれる前記担当者に関する情報に基づいて、前記担当者を特定することを特徴とする請求項5に記載の受付装置。
【請求項7】
請求項4に記載の音声認識装置と、
前記結果決定手段によって決定された前記認識結果に基づいて、前記来訪者の応対を担当する担当者を特定する担当者特定手段と、
前記担当者特定手段によって特定された前記担当者に対して、前記結果決定手段によって決定された前記認識結果に基づく通知処理を行う通知手段を備えたことを特徴とする受付装置。
【請求項8】
前記複数のカテゴリは、前記来訪者に関するカテゴリである来訪者カテゴリ、および前記担当者に関するカテゴリである担当者カテゴリを少なくとも含み、
前記予約情報は、前記来訪者に関する情報、および前記来訪者に関する情報に対応付けられた前記担当者に関する情報を少なくとも含み、
前記分割予約辞書は、前記担当者カテゴリを前記基準カテゴリとして、前記予約情報から前記来訪者カテゴリに属する単語をそれぞれ抽出して作成されており、
前記担当者特定手段は、前記結果決定手段によって決定された前記認識結果が前記第1の認識結果である場合には、前記第1の認識結果に基づいて前記担当者を特定し、前記結果決定手段によって決定された前記認識結果が前記第2の認識結果である場合には、前記第2の認識結果の認識に用いられた前記分割予約辞書に対応する前記担当者カテゴリの前記分類に基づいて、前記担当者を特定することを特徴とする請求項7に記載の受付装置。
【請求項9】
前記複数のカテゴリは、前記来訪者に関するカテゴリである来訪者カテゴリ、および前記担当者に関するカテゴリである担当者カテゴリを少なくとも含み、
前記予約辞書は、前記来訪者カテゴリに属する単語の発音に関する情報に対応付けられた、前記来訪者カテゴリに属する単語と前記担当者カテゴリに属する単語とを区切り文字を介して連結した単語である連結単語を含み、
前記第2の認識手段による前記第2の認識結果には、前記連結単語が含まれており、
前記担当者特定手段は、前記第2の認識結果に含まれる前記連結単語に基づいて前記担当者を特定することを特徴とする請求項5または7に記載の受付装置。
【請求項10】
請求項1〜4のいずれかに記載の音声認識装置の各種処理手段としてコンピュータを機能させるための音声認識プログラム。
【請求項11】
請求項5〜9のいずれかに記載の受付装置の各種処理手段としてコンピュータを機能させるための受付プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate


【公開番号】特開2010−54897(P2010−54897A)
【公開日】平成22年3月11日(2010.3.11)
【国際特許分類】
【出願番号】特願2008−220944(P2008−220944)
【出願日】平成20年8月29日(2008.8.29)
【出願人】(000005267)ブラザー工業株式会社 (13,856)
【Fターム(参考)】