説明

音声認識を用いた情報提供システム

【課題】通信端末から音声を入力して必要情報を入手する場合、効率的な情報提供を可能にする、音声認識を用いた情報提供システムを提供する。
【解決手段】本発明の音声認識を用いた情報提供システムは、複数の通信端末からの音声情報を受信し、その音声内容を認識する音声認識部22と、音声認識部22で認識された特定音声と関連付けされた1つ以上の関連情報を格納した情報管理部23と、関連付けされた1つ以上の関連情報の優先順位を決定し、通信端末の通信番号毎に、音声認識された特定音声と、この特定音声に対応する1つ以上の関連情報を、優先順位をつけて登録する操作者管理DB26とを具備する音声応答管理装置20を有し、通信端末10から操作者管理DB26に登録された特定音声が入力された場合、登録されている関連情報を、優先順位に従って当該通信端末10に送信する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、各人が所有、管理する各種の通信端末を介して音声情報を送信した際、その音声情報を認識して、所定の情報の提供が受けられる音声認識を用いた情報提供システムに関する。
【背景技術】
【0002】
従来、携帯電話のような通信端末を介して音声を送信した際、その音声を認識する技術が知られている。例えば、特許文献1には、音声認識による個人認証と電話予約を結びつけた電話予約スケジュール管理方法が開示されている。
【0003】
この公知技術は、予め利用者が電話により予約管理サーバに音声情報を登録しておき、その声紋データを解析することで、個人認証するようにしている。すなわち、音声情報を登録した利用者が予約管理サーバにアクセスして、病院や店等に対して予約する場合、登録されている声紋データと、アクセスしてきた人物の声紋データの認識処理を行い、同一人物であると認証されれば、実際の予約ができるよう構成されている。
【0004】
なお、音声認識に関する技術については、従来から様々な手法が存在しており、一般的には、統計的な手法を用いて話者の発音を解析することが行われている。具体的には、大量の発話を記録した学習用データから発音の特徴を学習しておき、実際に入力された音声信号から最もその特徴に近いものを認識結果として、文字列に変換したり、或いは、認識結果として記録することが行なわれている。
【特許文献1】特開2005−182241号
【発明の開示】
【発明が解決しようとする課題】
【0005】
ところで、組織内における情報伝達業務、とりわけ企業内で頻繁になされる電話を介しての情報伝達業務は、情報伝達希望者が様々な部署にアクセスし、各種の必要な情報を入手することが行われている。例えば、経営者(情報提供希望者)であれば、商品管理部等にアクセスして、当日の売上情報や、在庫管理情報を入手したり、或いは、ERPやホームサーバにアクセスして、経営資源に関する各種の情報を入手することが日常的に行われている。通常、情報提供希望者は、日常的に、略同一情報の提供を受けることが多く、電話で音声情報(入手を希望する情報の提供)を相手方の担当者等に伝える際、同一の言葉を使用するのが一般的である。例えば、当日の売上情報を知りたいのであれば、電話で「売上が知りたい」や、単に「売上」とか「あがり」等の単語を伝えるなど、人によって情報提供に伴う発話フレーズは略一致していると考えられる。
【0006】
この場合、通話を受けた担当者が情報提供希望者の言葉(日常的に使われる言葉の意味)を理解しており、それにより、必要な情報を直ちに提供できれば問題ないが、異なる担当者が通話を受けた場合等、情報提供希望者は日常的な言葉を使用したつもりでも、適切に伝わらず、必要な情報を入手する上でトラブル等が生じる可能性もある。このため、企業内において、電話などの端末を介して日常的に行われる業務連絡や各種の報告に関しては、更に効率化する余地があると考えられる。
【0007】
本発明は、上記した問題に着目してなされたものであり、例えば、企業のような組織において、通信端末から音声を入力して必要情報を入手する場合、効率的な情報提供を可能にする、音声認識を用いた情報提供システムを提供することを目的とする。
【課題を解決するための手段】
【0008】
上記した目的を達成するために、請求項1に係る発明は、それぞれ固有の通信番号を有する複数の通信端末からの音声情報を受信し、その音声内容を認識する音声認識部と、前記音声認識部で認識された特定音声と関連付けされた1つ以上の関連情報を格納した情報管理部と、前記関連付けされた1つ以上の関連情報の優先順位を決定し、通信端末の通信番号毎に、音声認識された特定音声と、この特定音声に対応する1つ以上の関連情報を、優先順位をつけて登録する通信端末用情報記憶部と、を具備する音声応答管理装置を有し、前記音声応答管理装置は、前記通信端末から、前記通信端末用情報記憶部に登録された特定音声が入力された場合、前記登録されている関連情報を、前記優先順位に従って当該通信端末に送信することを特徴とする。
【0009】
上記した構成によれば、携帯電話のような通信端末を介して音声応答管理装置にアクセスし、その所有者が日常的に使用している言葉を音声で伝えると、その音声が認識され、その通信端末に対して、認識された音声と対応付けされた関連情報が送信される。この場合、上記した音声応答管理装置における情報管理部は、様々な情報を蓄積、アップデートすることで、通信端末の所有者は、単に、音声応答管理装置にアクセスして日常的に用いる言葉を送信するだけで、必要とされる最新情報を適宜入手することが可能になる。
【0010】
また、請求項2に係る発明は、前記通信端末毎に登録されている特定音声に関連付けされた関連情報についての優先順位は、当該通信端末からその特定音声に対して要求される関連情報が変更された場合、書換え処理が成されることを特徴とする。
【0011】
このような構成では、通信端末の所有者が、日常的に使用している言葉に関連付けされる入手希望情報について、その内容を変更するような場合、常に、言葉に関連付けされる入手希望情報は最新のものに書換え処理される。例えば、それまでは、「売上」という言葉が「当日の売上情報」と関連付けされていたような場合において、「売上」については「当日の収支情報」の入手を希望するのであれば、同一の言葉に対して、それまでの入手希望情報を変更することが可能となる。すなわち、言葉と、その言葉に関連付けされる入手希望情報との間で学習機能を持たせることで、通信端末所有者は、最適な希望情報を入手することが可能になる。
【0012】
また、請求項3に係る発明は、前記通信端末用情報記憶部に記憶されている関連情報に対応する特定音声は、前記通信端末からの音声入力によって変更可能であることを特徴とする。
【0013】
このような構成では、通信端末の所有者が、日常的に使用している言葉と、それに関連付けされる入手希望情報について、その対応関係を変更することが可能であるため、例えば、通信端末の所有者は、入手希望情報と全く異なる言葉に変更することで、周囲に気兼ねすることなく、必要な情報を入手することが可能となる。
【発明の効果】
【0014】
本発明に係る音声認識を用いた情報提供システムによれば、通信端末から音声を入力して必要情報を入手する場合、効率的な情報提供が可能になる。
【発明を実施するための最良の形態】
【0015】
以下、本発明に係る音声認識を用いた情報提供システムの一実施形態について、具体的に説明する。
【0016】
図1は、音声認識を用いた情報提供システム1の概略構成を示す図である。この実施形態における情報提供システム1は、企業体としての本社2と、本社2とは別の場所(同一場所でも良い)に存在する支社3との間で構築されており、両者は、所定の通信網100を介して接続されている。
【0017】
通信網100は、例えば、一般的なアナログ電話公衆網、IP網、或いは専用回線(LAN等)で構築されており、多数の従業員が所有、管理する夫々の通信端末10が、後述する音声応答管理装置(音声応答管理サーバ)20に対してセッションを確立したときに、両者の間で各種情報(音声情報、画像情報)の送受が可能となるように作用する。この場合、通信網100は、複数のネットワークの融合ネットワークになっていても良く、その一部又は全てが携帯電話網のような無線通信に係るものであっても良い。なお、本実施形態では、通信端末10及び音声応答管理装置20間の通信方法として、例えば、VoIPを用いたIPネットワーク通信を適用しており、通信端末10から音声応答管理装置20に対して直接アクセスして、各種情報の送受信が可能となっている。
【0018】
本社2内には、前記通信網100に対して、IPネットワーク(LAN)101が接続されており、企業内における従業者は、夫々が所有する携帯可能な通信端末10から、アクセスポイント(AP)12を介して、LAN101内に設置された音声応答管理装置20にアクセス可能となっている。具体的には、各通信端末10からは、LAN101に設置されているルータ15を介して音声応答管理装置20に対してアクセス可能となっている。なお、本社2内に設置されるLAN101には、上記した音声応答管理装置20以外にも、構内交換機、いわゆるIP−PBX(Private Branch Exchange)16が設置されており、上記したLAN101に接続される各種機器同士の通信を制御する。
【0019】
図2は、上記したLAN101に接続される通信端末10の概略構成を示すブロック図である。本実施形態の通信端末10は、IP電話機能を備えた携帯可能な構成となっており、上記したアクセスポイント12、及びルータ15を介して、音声応答管理装置20との間でセッションが確立した際、両者の間で情報の送受が成されるようになっている。
【0020】
通信端末10は、中央演算処理装置(CPU)を含み、装置全体を制御する制御部10aと、LAN101との間で無線通信を実行する送受信部10bと、制御部のための動作プログラムや画像データなどが格納されると共に、制御部や送受信部10b等のワーク領域となるメモリ10cと、画像や文字等の視認可能な情報(画像と総称する)を表示するLCD等の画像表示部10dと、テンキーや各種の機能キー等を含む操作部10eと、音声情報を送受信するためのマイクやスピーカ等によって構成される音声入出力部10fなどを備えており、バス11を介して各種情報のやりとりが成されるようになっている。なお、通信端末10については、上記したような携帯型に限定されることはなく、少なくとも音声の送受信ができれば良いのであり、例えば、一般化されているIP電話機能を備えた固定電話タイプのものや、そのような機能を有するコンピュータ等であっても良い。
【0021】
図3は、上記したLAN101に接続される音声応答管理装置20の構成を示すブロック図である。音声応答管理装置20は、IPネットワークに接続されるサーバとして構成されており、各通信端末10から音声情報を受信する機能と、アクセスがあった通信端末10に対して、その通信端末10で要求される情報(関連情報と称する)を送信する機能を備えている。この場合、音声応答管理装置20は、セキュリティ管理を行なう構成、例えば、通信端末10毎に付与されるセキュリティレベル、及び関連情報に関するファイルに付与されたセキュリティレベルを保持する情報管理DB(図示せず)を備えていても良い。具体的には、各通信端末10からアクセスがあった際、その通信端末の固有の番号毎に付与されているセキュリティレベルを算出し、算出したセキュリティレベルと、要求のあったファイルのセキュリティレベルとを音声応答管理装置20に設置した判定手段において比較し、アクセスが許可されていると判定された場合に、要求されたファイルを、その通信端末に送信する。また、ユーザが通常使用している通信端末が故障した場合を想定し、音声応答管理装置にて、ユーザの音声情報から声紋などの特徴点を認識し、通信端末毎に付与されているセキュリティレベルを越えた音声応答により、要求されたファイルをその通信端末に送信する事も可能である。
【0022】
なお、本発明においては、通信端末10で要求される情報(関連情報)については、音声情報に限られず、画像情報を含んでいても良いが、本実施形態では、関連情報は、音声情報として説明する。
【0023】
音声応答管理装置20は、LAN101を介して音声情報やテンキー操作信号を受け付ける情報入力部21と、この情報入力部21から入力された音声信号を音声認識する音声認識部22と、音声認識部で認識された言葉と関連付けされた関連情報やインデックス情報を格納している情報管理部23と、音声認識部22で認識された言葉に応じて、情報管理部23に格納されている情報の中から適切なものを抽出する情報抽出部24と、通信端末10の操作者毎の情報(言葉と、それに関連付けされている関連情報、及び電話番号のような通信端末を特定可能な情報)を管理する操作者管理DB26と、操作者管理DB26に格納される操作者毎に、特定の言葉に対して関連付けされる関連情報の順位(当該操作者に送信する複数の関連情報の優位性)を変更処理する順位変更処理部28と、各操作者の通信端末に対してLAN101を介して関連情報を送信する情報出力部29と、上記した各構成部の動作を制御する音声情報制御部30とを備えている。
【0024】
上記した音声認識部22は、従来の手法、例えば、統計的な手法にしたがって、通信端末10を介して送信される音声情報を解析し、主要フレーズの中から特定音声を認識する機能を有する。例えば、「私に売上情報を送ってください」といった類の音声情報であれば、主要フレーズである「売上情報を送ってください」の中から、特定音声と考えられる「売上情報」を認識する。このような特定音声の認識に関しては、例えば、大量の発話や会話フレーズパターンを記録した学習用データから、特定音声になる可能性のある発音の特徴を予め学習させておき、実際に入力されたフレーズの中の音声信号から、その特徴に近いものを含んでいた場合、それを特定音声として割り出せば良い。
【0025】
前記情報抽出部24は、音声認識部22で認識した音声に関し、認識した音声毎に関連する情報を抽出可能となるように、例えば、図4に示すような抽出テーブルを格納している。この抽出テーブルは、認識可能な音声を予め多数登録しておき、その登録した音声毎に、それに対応する関連情報を特定するためのコード値を付与することで構成されており、例えば、認識した音声に関連するであろう複数の関連情報を、認識音声毎にコード値として関連付けしている。具体的には、認識音声が「A」(アルファベットで代用する)という言葉であれば、その「A」という言葉に関連する情報群を、それぞれコード値(a〜a)として格納している。この場合、コード値が付与されている関連情報については、aからa、a…aに行くに従って、その言葉と関連性が低くなるように定められている。なお、抽出テーブルに存在する認識音声については、その具体的表現や、語彙数は限定されることはなく、認識音声毎に対応付けされている関連情報の個数についても限定されることはない。
【0026】
前記情報管理部23は、上記したコード値毎に、そのインデックス情報(携帯端末に対して、操作者の選択を促す情報)が格納されている。例えば、図5に示す対応テーブルのように、コード値に応じて、最終的に送信する詳細な情報についてのインデックス情報が格納されている。
【0027】
この場合、各インデックス情報には、最終的に操作者の通信端末10に送信される詳細情報(本実施形態では音声情報)が関連付けされているが、この詳細な情報については、随時更新されたり、定期的にアップデートされるようなものであっても良い。このため、情報管理部23については、詳細な情報を格納する手段として、上記したLAN101内に設置される情報管理専用のサーバにそのような機能を持たせても良いし、或いはパーソナルコンピュータ等によってその機能を持たせても良い。
【0028】
前記操作者管理DB26は、発信される通信端末10を特定できる固有情報(ここでは通信端末に付与される番号)に応じてその操作者毎の個別情報を管理する機能を有する。具体的には、図6に示すように、通信端末を特定する番号毎(操作者毎)に、登録されている音声(言葉)とそれに対応付けされている関連情報(コード値として関連付けする)を管理する。この場合、以下の順位変更処理部28によって、通信端末毎に、その操作者が登録した音声に対し、優先順位を付けてコード値が格納されている。
【0029】
前記順位変更処理部28は、いわゆる学習機能として、操作者管理DB26に記録される音声毎に関連付けされる関連情報コード値の優位性を変更する機能を有する。例えば、特定の操作者が、登録されている言葉に関し、抽出する情報が頻繁に変更される場合、変更される毎にコード値に要求値を立てるようにし、その要求値が多い順に関連情報コード値に順位を付与する。具体的には、上記したように、通常であれば、コード値が付与されている関連情報については、当初は、aからa、a…に行くに従って、その言葉と関連性が低くなるように定められているが、その言葉と関連性が低い情報を操作者が要求することで、図6に示すように、関連性の低いコード値であっても優位性を高くするように変更処理する。
【0030】
前記情報出力部29は、セッションが確立した通信端末10に対し、その通信端末が要求する所望の情報(インデックス情報、及び詳細な情報)を音声情報として送信する機能を有する。この音声情報送信に際しては、上述したような情報管理DBによって、セキュリティ管理を行なうようにしても良い。すなわち、通信端末10毎に付与されるセキュリティレベル、及び関連情報に関するファイルに付与されたセキュリティレベルを保持する情報管理DBが、通信端末10との間で、情報セキュリティレベルを満たしていると判定した場合にのみ、その情報を出力するように動作し、満たさない場合は、例えば「申し訳ありませんが、情報読み出し権限がありません」等と返答しても良い。或いは、上記した操作者管理DB26は、各操作者の特徴点、例えば、音声情報による声紋や、操作者独自によって設定されたパスワード(音声であっても良いし、キー操作による入力であっても良い)等の特徴点を、セキュリティレベルを付与して記憶しておいても良い。このように、操作者毎の特徴点を、セキュリティレベルを付与して関連情報コード値に関連付けして記憶しておくことで、例えば、ユーザが通常使用している通信端末が故障した場合、或いは、手元に自らが管理する通信端末がないような場合であっても、ユーザの音声情報やパスワードからその特徴点を認識し、そのセキュリティレベルを越えたものであれば、要求されたファイルをその通信端末に送信することも可能となる。もちろん、上述したようなセキュリティ管理の手法については、適宜変形することが可能である。
【0031】
次に、図7に示すフローチャートにしたがって、上記した実施形態に関する音声応答管理装置20における音声情報制御部30が制御する動作手順の一例について説明する。
【0032】
最初、所定の通信端末10から音声信号が入力されると(ST01)、音声認識部22で特定音声が認識される(ST02)。そして、ここで認識された音声は、操作者管理DB26を参照して、その音声が、その通信端末において既に登録されたものであるか否かが判断される(ST03)。
【0033】
認識した音声が登録されていない音声であれば(ST03:No)、その認識音声に関して、情報抽出部24は、その認識音声に関連付けされているコード値に基づき、情報管理部23から、その認識音声に関するインデックス情報を抽出する(ST04)。ここで抽出されるインデックス情報は、その認識音声に関連付けされたコード値全てであっても良いし、該当するコード値が多ければ、優先順位が高い(関連性が高い)所定の個数であっても良い。そして、ここで抽出されたインデックス情報(音声情報)は、情報出力部29を介してアクセスがあった通信端末10に送信され(ST05)、その通信端末から確定操作信号(テンキー操作による確定信号)の入力を待つ。確定操作信号の入力があれば(ST06;Yes)、確定したインデックス情報に伴う詳細な音声情報を情報管理部23から抽出し、再び、その通信端末10に送信する(ST07)。
【0034】
一方、確定操作信号の入力がなく(ST06;No)、かつ新たなインデックス情報の抽出要求があれば(ST06A;Yes)、上記したST04からST06の処理が繰り返される。この場合、通信端末10に対しては、次第に、認識された音声と関連性が薄くなるインデックス情報が送信されるようになる。なお、新たなインデックス情報の抽出要求がなければ(ST06A;No)、終了となり、その通信端末に対しては、詳細な関連情報が送信されることはない。
【0035】
次に、上記したST07の詳細な音声情報を送信した後、その該当する通信端末10から、音声変更の要求があるか否かを判断する(ST08)。音声変更の要求があった場合(ST08;Yes)、すなわち、通信端末10の操作者が、必要とされる所望の情報とは関連性のない言葉により、その情報の特定をしたい場合、音声の変更処理を実施する(ST09)。これは、通信端末10に対して上記ST08の処理を実行するに際し、例えば、該当する通信端末に対して、「送信した情報を、音声×××で登録しても良いですか」といった確認音声を送信することで実施することが可能である。具体的には、そのような「音声×××」の登録について同意することなく、その操作者が独自に定めた音声を送信することで音声変更することが可能である。そして、このように変更した音声を送信することで、以後、その確定した詳細情報を関連情報として受け取ることが可能になる。
【0036】
一方、通信端末10との間で、音声変更要求がない場合(ST08;No)、或いは、ST09において、音声変更処理が終了した際、順位変更処理部28において、その確定した音声情報の順位変更処理が成され(ST10)、その音声情報が、コード値及び通信端末を特定する情報(電話番号など)と共に、操作者管理DB26に格納される。
【0037】
例えば、上記したST04からST06の処理において、その通信端末所有者が、比較的関連性の薄い情報を要求した場合等、図6の登録音声「A」に示すように、それまでは関連性が薄いコード値が、最優先情報として登録される。このため、以後、その通信端末10から、登録された音声「A」が入力されると(ST03;Yes)、操作者管理DB26で登録されている最上位の関連情報(コード値Aに対応する詳細情報)が選択され、その通信端末に送信されるようになる(ST20)。
【0038】
なお、登録された最上位の情報を送信した後、その通信端末所有者が、別途、追加して関連情報の送信を要求するのであれば(ST21;Yes)、上述したST04以降の処理が繰り返され、その都度、要求された関連情報に関するコード値の要求値が変更され、順位変更処理が成される。すなわち、このような学習機能により、その通信端末10に対しては、要求順位が高い順に、詳細な関連情報が送信されるようになる。
【0039】
以上のように、その企業に所属する従業員は、携帯電話のような通信端末10を介して
音声応答管理装置20にアクセスし、その所有者が日常的に使用している言葉を音声で伝えることで、その音声が認識され、その通信端末10に対して、認識された音声と対応付けされた関連情報が送信されるようになる。この場合、上記した音声応答管理装置20における情報管理部23は、関連情報として、様々な情報、例えば、売上に関する情報、利益率に関する情報をはじめとした各種のERP情報を蓄積、アップデートすることが可能であることから、通信端末10の所有者は、単に、音声応答管理装置20にアクセスして日常的に用いる言葉を送信するだけで、常に、必要とされる最新情報を適宜入手することが可能になる。
【0040】
以上、本発明の実施形態について説明したが、本発明は、上記した実施形態に限定されることはなく、種々変形することが可能である。例えば、上記した実施形態では、通信端末10に送信する関連情報は、音声情報のみとしたが、音声情報とは別に、或いは音声情報と共に文字や画像情報を送信するようにしても良い。具体的には、通信端末10に送信するインデックス情報を、通信端末10の画像表示部10dに文字情報として表示させ、テンキー操作等によって情報を選択するような構成であっても良い。また、実際に送信する詳細な関連情報についても、通信端末10の画像表示部10dにおいて、グラフや表等のように、視認し易い情報として送信しても良い。
【0041】
また、音声認識の手法や、システム全体を構築する上において、設置される各種のインフラ(通信網、通信方式など)についても、それが利用される環境に応じて適宜変形することが可能である。
【図面の簡単な説明】
【0042】
【図1】本発明の一実施形態を示し、音声認識を用いた情報提供システムの概略構成を示す図。
【図2】通信端末の概略構成を示すブロック図。
【図3】音声応答管理装置の構成を示すブロック図。
【図4】認識した音声毎に関連する情報を抽出可能にする抽出テーブル。
【図5】コード値毎に対応する関連情報のインデックス情報を関連付けした対応テーブル。
【図6】操作者管理DBで管理される通信端末毎の固有情報の格納例を示す図。
【図7】音声応答管理装置における音声情報制御部が制御する動作手順の一例を示したフローチャート。
【符号の説明】
【0043】
1 情報提供システム
10 通信端末
20 音声応答管理装置
22 音声認識部
23 情報管理部
26 操作者管理DB
100 通信網
101 LAN

【特許請求の範囲】
【請求項1】
それぞれ固有の通信番号を有する複数の通信端末からの音声情報を受信し、その音声内容を認識する音声認識部と、
前記音声認識部で認識された特定音声と関連付けされた1つ以上の関連情報を格納した情報管理部と、
前記関連付けされた1つ以上の関連情報の優先順位を決定し、通信端末の通信番号毎に、音声認識された特定音声と、この特定音声に対応する1つ以上の関連情報を、優先順位をつけて登録する通信端末用情報記憶部と、
を具備する音声応答管理装置を有し、
前記音声応答管理装置は、前記通信端末から、前記通信端末用情報記憶部に登録された特定音声が入力された場合、前記登録されている関連情報を、前記優先順位に従って当該通信端末に送信することを特徴とする、音声認識を用いた情報提供システム。
【請求項2】
前記通信端末毎に登録されている特定音声に関連付けされた関連情報についての優先順位は、当該通信端末からその特定音声に対して要求される関連情報が変更された場合、書換え処理が成されることを特徴とする、請求項1に記載の音声認識を用いた情報提供システム。
【請求項3】
前記通信端末用情報記憶部に記憶されている関連情報に対応する特定音声は、前記通信端末からの音声入力によって変更可能であることを特徴とする、請求項1又は2に記載の音声認識を用いた情報提供システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2009−47865(P2009−47865A)
【公開日】平成21年3月5日(2009.3.5)
【国際特許分類】
【出願番号】特願2007−213087(P2007−213087)
【出願日】平成19年8月17日(2007.8.17)
【出願人】(506314416)株式会社モビテクノ (10)
【Fターム(参考)】