説明

電話端末装置及びこれを用いた音声認識システム

【課題】内線電話端末として利用可能としつつ、音声認識処理に適した符号化を行う。
【解決手段】IP電話機能を備え、当該IP電話機能を用いて構内に敷設されたネットワークを介して内線電話端末として利用可能な電話端末装置1であって、IP電話機能の利用時に通信データの符号化を行うIP電話用コーデック10と、ユーザから入力された音声データの音声認識処理に適した符号化を行う音声認識用コーデック11と、IP電話用コーデック10と音声認識用コーデック11とを切り替えるコーデック切替部9とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、電話端末装置及びこれを用いた音声認識システムに関し、特に、IP電話機能を有する電話端末装置及びこれを用いた音声認識システムに関する。
【背景技術】
【0002】
従来、オフィス等の構内に敷設されたLAN(Local Area Network)を内線電話網として用いる構内IP電話が普及している。そして、このような構内IP電話と、オフィス等の構外で使用される携帯電話機との併用を回避するために、オフィス等の構内において、携帯電話機を構内IP電話と兼用して用いることができる携帯電話・構内IP電話兼用アダプタが提案されている(例えば、特許文献1参照)。この携帯電話・構内IP電話兼用アダプタを用いた場合には、携帯電話機を内線電話端末として利用することが可能となる。
【0003】
また、近年、無線LAN通信機能を搭載し、オフィス等の構外にある場合には、通常の携帯電話機として利用することができる一方、オフィス等の構内にある場合には、内線電話端末として機能するIP電話端末として利用することができる携帯電話機が開発されている。この携帯電話機においては、通常の携帯電話機として利用する場合に通信データの符号化を行う携帯電話機用のコーデック(携帯電話用コーデック)と、IP電話端末として利用する場合に通信データの符号化を行うIP電話端末用のコーデック(IP電話用コーデック)とを備え、携帯電話機の存在する位置に応じて符号化を行うコーデックを切り替えている。
【特許文献1】特開2004−180122号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
現在、携帯電話機には多種多様な機能が搭載され、その利用態様は多岐に亘っている。これに伴い、ユーザインターフェイスとしての機能も多機能化が要請されている。例えば、ユーザから入力される音声データに従って各種機能の制御を行うことが考えられる。この場合、ユーザは、従来のように操作キーを操作することなく、音声データを用いて携帯電話機を操作することが可能となる。そして、このような音声データによる操作を、上述したような内線電話端末として利用可能な携帯電話機で受け付け可能とする場合には、ネットワーク内に蓄積される情報との連携によって、より利用性に優れた携帯電話機を提供可能となることが予想される。
【0005】
しかしながら、上述したような内線電話端末として利用可能な携帯電話機を、音声データにより操作可能なネットワークに適用する場合には、ユーザから入力される音声データを適切に音声認識することが困難であるという問題がある。すなわち、上述したような携帯電話用コーデック及びIP電話用コーデックにおいては、音声データを音声認識するために必要な情報を圧縮し過ぎることとなり、例えば、音声認識処理を行う音声認識サーバで適切に音声認識することが困難である。このような実情は、内線電話端末として利用可能な携帯電話機に限られず、LAN(無線LAN及び有線LAN)上に接続されたIP電話機においても、同様である。
【0006】
本発明は、このような実情に鑑みて為されたものであり、内線電話端末として利用可能としつつ、音声認識処理に適した符号化を行うことができる電話端末装置及びこれを用いた音声認識システムを提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明の電話端末装置は、IP電話機能を備え、当該IP電話機能を用いて構内に敷設されたネットワークを介して内線電話端末として利用可能な電話端末装置であって、前記IP電話機能の利用時に通信データの符号化を行うIP電話用コーデックと、ユーザから入力された音声データの音声認識処理に適した符号化を行う音声認識用コーデックと、前記IP電話用コーデックと前記音声認識用コーデックとを切り替えるコーデック切替部とを具備することを特徴とする。
【0008】
この構成によれば、内線電話端末としての利用を実現するIP電話機能の利用時に通信データの符号化を行うIP電話用コーデックと、ユーザから入力された音声データの音声認識処理に適した符号化を行う音声認識用コーデックとを備え、これをコーデック切替部で切り替えるようにしたことから、電話端末装置を内線電話端末として利用可能としつつ、当該電話端末装置で音声認識処理に必要な符号化を行うことが可能となる。
【0009】
本発明の電話端末装置においては、ユーザからの指示入力を受け付ける操作部を具備し、前記コーデック切替部は、前記操作部に対する指示入力に応じて前記IP電話用コーデックと前記音声認識用コーデックとを切り替えることが好ましい。この場合には、ユーザからの指示入力に応じてIP電話用コーデックと音声認識用コーデックとを切り替えることが可能となる。
【0010】
また、本発明の電話端末装置において、前記コーデック切替部は、前記操作部から、予め定めた音声認識による操作を受け付けるための特定番号の入力を受け付けると前記音声認識用コーデックに切り替えることが好ましい。この場合には、ユーザによる特定番号の入力という簡単な作業だけで、電話端末装置において音声認識による操作を行うことが可能となる。特に、この場合には、電話端末装置に特別なボタン等を設けることなく、音声認識による操作を行うことが可能となる。
【0011】
なお、本発明の電話端末装置において、前記操作部は、ユーザからの音声認識による操作を受け付けるための特定キーを備え、前記コーデック切替部は、前記特定キーが選択されると前記音声認識用コーデックに切り替えるようにしてもよい。この場合には、操作部に設けられた特定キーを選択するだけで、電話端末装置において音声認識による操作を行うことが可能となる。
【0012】
また、本発明の電話端末装置において、前記コーデック切替部は、外部からの指示に応じて前記音声認識用コーデックに切り替えるようにしてもよい。この場合には、外部から、電話端末装置における音声認識による操作の可否を制御することが可能となる。
【0013】
また、本発明の電話端末装置においては、ユーザから入力された音声データの音声認識を行う音声認識部を具備し、前記コーデック切替部は、ユーザから入力された音声データに応じて前記音声認識用コーデックに切り替えるようにしてもよい。この場合には、ユーザから入力された音声データに応じて、電話端末装置において音声認識による操作を行うことが可能となる。
【0014】
また、本発明の電話端末装置においては、携帯電話機能を備え、前記携帯電話機能の利用時に通信データの符号化を行う携帯電話用コーデックを具備し、前記コーデック切替部は、前記携帯電話用コーデックと前記IP電話用コーデックと前記音声認識用コーデックとを切り替えることが好ましい。この場合には、コーデック切替部によって、携帯電話用コーデックとIP電話用コーデックと音声認識用コーデックとが切り替えられることから、通常の携帯電話機として利用可能な電話端末装置、内線電話端末として利用可能としつつ、当該電話端末装置において音声認識処理に必要な符号化を行うことが可能となる。
【0015】
また、本発明の電話端末装置において、前記音声認識用コーデックで符号化を行う前に、ユーザから入力された音声データの音声認識精度を向上するための処理を行う符号化前処理部を具備するようにしてもよい。この場合には、ユーザから入力された音声データの音声認識精度を向上することが可能となる。
【0016】
例えば、本発明の電話端末装置において、前記符号化前処理は、ユーザから入力された音声データに含まれるノイズを除去する。この場合には、ユーザから入力された音声データに含まれるノイズが除去されることから、必要な情報のみに対して音声認識処理を施すことができるので、当該音声データの音声認識精度を向上することが可能となる。
【0017】
また、本発明の電話端末装置において、前記符号化前処理は、ユーザから入力された音声データに対応する音声出力レベルを調整する。この場合には、ユーザから入力された音声データに対応する音声出力レベルが調整されることから、例えば、音声データの劣化を回避することができるので、当該音声データの音声認識精度を向上することが可能となる。
【0018】
本発明の音声認識システムは、上記請求項1から請求項10のいずれかに記載の電話端末装置と、前記電話端末装置の音声認識用コーデックで符号化された音声データの音声認識を行う音声認識サーバとを具備することを特徴とする。
【0019】
この構成によれば、音声認識サーバによって、電話端末装置の音声認識用コーデックで符号化された音声データの音声認識が行われることから、構内で内線電話端末として利用可能な電話端末装置からの音声データを適切に音声認識することが可能となる。
【0020】
本発明の音声認識システムにおいては、各種の情報を蓄積し、前記音声認識サーバで音声認識された認識結果に対応する情報を検索して前記電話端末装置に応答する応答サーバを具備することが好ましい。この場合には、応答サーバが音声認識サーバで音声認識された認識結果に対応する情報を検索して電話端末装置に応答することから、電話端末装置においてユーザから入力された音声データに対応する情報を電話端末装置に応答することが可能となる。
【0021】
特に、本発明の音声認識システムにおいて、前記応答サーバは、前記電話端末装置のユーザに応じて検索対象とする情報を特定することが好ましい。この場合には、応答サーバにおいて、電話端末装置のユーザに応じて検索対象とする情報が特定されることから、電話端末装置のユーザに応じて応答する情報の範囲を変更することが可能となる。
【発明の効果】
【0022】
本発明による電話端末装置及びこれを用いた音声認識システムによれば、内線電話端末として利用を実現するIP電話機能の利用時に通信データの符号化を行うIP電話用コーデックと、ユーザから入力された音声データの音声認識処理に適した符号化を行う音声認識用コーデックとを備え、これらをコーデック切替部で切り替えるようにしたことから、内線電話端末として利用可能としつつ、音声認識処理に必要な符号化を行うことが可能となる。
【発明を実施するための最良の形態】
【0023】
以下、本発明の実施の形態について添付図面を参照して詳細に説明する。なお、以下においては、本発明を電話端末装置に具現化する場合について説明するが、当該電話端末装置を用いた音声認識システムとしても成立するものである。
【0024】
本実施の形態に係る電話端末装置は、構内に敷設されたネットワークを介して通信を行う通信機能を利用したIP電話端末としての機能(IP電話機能)を備えている。そして、このIP電話機能を用いて上記ネットワークを介して内線電話端末として利用できるものである。なお、以下においては、構内に敷設されたネットワークがLANである場合について説明するが、当該ネットワークの種別については適宜変更が可能である。また、本電話端末装置が備える通信機能が無線LAN通信機能である場合について説明するが、当該通信機能についてはこれに限定されるものではなく、敷設されるLANに応じて有線LAN通信機能を備えることも可能である。
【0025】
(実施の形態1)
図1は、本発明の実施の形態1に係る電話端末装置(以下、適宜「電話機」という)1の構成を示すブロック図である。なお、図1に示すブロック図については、本発明を説明するために簡略化したものであり、電話機1は、通常の電話機に必要な機能を備えるものとする。
【0026】
図1に示すように、電話機1は、ユーザからの音声入力を受け付けるマイク2と、現在の状態に応じた音声出力を行うスピーカ3と、操作キーなどを備え、ユーザからの指示入力を受け付ける操作部4と、各種の情報を表示する表示部5とを備えている。また、電話機1は、これらのマイク2、スピーカ3、操作部4及び表示部5に対する入出力信号を処理する入出力処理部6と、入出力処理部6で処理された通信データの符号化を行うコーデック部7と、コーデック部7で符号化された信号を無線送信可能な信号に変換し、電話機1の位置に対応するアクセスポイント(AP)21に送出する無線LAN通信部8とを備えている。
【0027】
入出力処理部6は、コーデック切替部9を備えており、ユーザからの指示、或いは、外部からの指示(例えば、後述する応答サーバ29からの切替指示)に応じて通信データ(音声データを含む)の符号化を行うコーデック部7内のコーデックを切り替える。例えば、コーデック切替部9は、操作部4の操作キーから入力された内容(例えば、後述する特定番号)に応じてコーデックを切り替える。なお、マイク2から入力される音声信号のタイミング等に応じてコーデックを切り替えるようにしてもよい。
【0028】
コーデック部7は、通常のIP電話端末として利用する場合に通信データの符号化を行うIP電話用コーデック10と、後述する音声認識サーバ28における音声認識処理に適した通信データの符号化を行う音声認識用コーデック11とを備えている。IP電話用コーデック10は、例えば、IEEEが定めた無線LANの規格であるIEEE 802.11a等に準拠した符号化を行う。音声認識用コーデック11は、IP電話用コーデック10よりも情報の圧縮率が低く設定され、後述する音声認識サーバ28における音声認識処理の認識精度を予め定められる一定精度を維持可能な符号化を行う。
【0029】
このような構成を有し、実施の形態1に係る電話機1は、ユーザ或いは外部から入力された指示内容に応じてIP電話用コーデック10と、音声認識用コーデック11とを切り替えて使用することが可能である。このため、ユーザによる電話機1の利用態様に合わせて適切に通信対象となるデータの符号化を行うことが可能となる。
【0030】
図2は、実施の形態1に係る電話機1が接続されるネットワークの構成を示す図である。図2においては、本実施の形態に係る電話機1が内線電話端末として利用されるオフィス等に敷設されたLANの構成について示している。なお、本実施の形態に係る電話機1が接続されるネットワークの構成については、図2に示す構成に限定されるものではなく、適宜変更が可能である。
【0031】
図2に示すように、本実施の形態に係る電話機1が接続されるネットワークにおいては、管理装置22(第1管理装置22a及び第2管理装置22b)と、IP−PBX(Internet Protocol Private Branch eXchange)23と、DHCP(Dynamic Host Configuration Protocol)サーバ24と、DNS(domain name server)サーバ25と、PoC(Push-to-Talk over Cellular)サーバ26と、SIP(session initiation protocol)サーバ27と、音声認識サーバ28と、応答サーバ29とがルータ30を介して接続されている。
【0032】
なお、IP−PBX23、DHCPサーバ24、DNSサーバ25、PoCサーバ26、SIPサーバ27、音声認識サーバ28及び応答サーバ29には、それぞれ以下に示す処理を実行するための情報を蓄積したデータベース(DB)が接続されている。IP−PBX23、DHCPサーバ24、DNSサーバ25、PoCサーバ26、SIPサーバ27、音声認識サーバ28及び応答サーバ29は、接続されたデータベースに蓄積される情報を適宜検索して、それぞれの処理に必要な情報を取得するように構成されている。
【0033】
第1管理装置22a及び第2管理装置22bは、本実施の形態に係る電話機1が無線LAN通信機能によりアクセス可能な複数のアクセスポイント(AP)21に対する電話機1からのアクセスを管理する。例えば、第1管理装置22aは、オフィス等の1階のフロアに設置された複数のアクセスポイント21に対するアクセスを管理し、第2管理装置22bは、オフィス等の2階のフロアに設置された複数のアクセスポイント21に対するアクセスを管理する。
【0034】
IP−PBX23は、図2に示すネットワーク内で電話機1の回線交換を行なう。IP−PBX23に接続されるデータベースには、ネットワーク内の各端末に予め設定された内線電話番号と、各端末に割り当てられたIPアドレスとが対応付けて登録されている。このデータベース内の情報を参照しながら行うIP−PBX23の回線交換機能により、電話機1は、オフィス等の構内において内線電話端末として利用可能となる。特に、IP−PBX23は、電話機1からの番号種別の問い合わせに応じて番号種別を判定する処理(番号種別判定処理)を行う。この番号種別判定処理においては、電話機1から渡された番号が通常の内線電話番号であるか、音声操作のために割り当てられた番号であるが判定される。なお、この番号種別判定処理については後述する。
【0035】
DHCPサーバ24は、電話機1をインターネットに接続可能とするためにIPアドレスなど必要な情報を自動的に割り当てる。DNSサーバ25は、インターネット上でのコンピュータの名前にあたるドメイン名を、住所にあたるIPアドレスと呼ばれる4つの数字の列に変換する。これらのDHCPサーバ24及びDNSサーバ25の機能により、電話機1は、ルータ30を介して不図示のインターネット上のサイトにアクセスしたり、図2に示すネットワークの外部の携帯電話機等に電子メールを送信したりすることが可能となる。
【0036】
PoCサーバ26は、電話機1をトランシーバのように使い、特定のボタンを押している間だけ相手に話し掛けることができる半二重の通話サービスのための通信制御を行う。SIPサーバ27は、VoIPを応用したIP電話などで用いられる通話制御プロトコルであるSIPに従って通信制御を行う。このSIPサーバ27の通信制御機能により、電話機1は、図2に示すネットワーク上の他の電話機1との間でSIPプロトコルに従って通話等を行うことが可能となる。
【0037】
音声認識サーバ28は、電話機1からIP−PBX23を介して送出された音声データに対して音声認識処理を行い、検索対象コマンドを特定する。音声認識サーバ28に接続されるデータベースには、例えば、予め特定された音声データと、検索対象コマンドとを対応付けた音声認識辞書が登録されている。音声認識サーバ28は、このような音声認識辞書を参照しながら、電話機1から送出された音声データの音声認識を行う。なお、音声認識サーバ28における音声認識処理は、特定の音声認識処理に限定されるものではない。その音声認識対象となる音声データの内容や長さなどの要素に応じて、音声認識サーバ28に実装される音声認識処理は、適宜変更が可能である。
【0038】
応答サーバ29は、音声認識サーバ28で生成された検索対象コマンドに対応する検索データを検索し、この検索データをアクセスしてきた電話機1に応答する。特に、応答サーバ29は、検索対象コマンドに対応する検索データを検索する際、アクセスしてきた電話機1のユーザ情報などを考慮して検索対象とする情報を特定する。例えば、図2に示すネットワークに対応する組織の責任者などからの検索対象コマンドについては、機密情報を含む秘匿性の高い情報まで検索対象とする情報とする一方、当該組織の一構成員などからの検索対象コマンドについては、公開情報を含む秘匿性の低い情報のみを検索可能な範囲とすることが考えられる。なお、応答サーバ29に接続されるデータベースには、組織の売上高や人事情報、電車やバスの時刻表など、電話機1のユーザが入手し得るあらゆる情報を蓄積しておくことが好ましい。また、このデータベースには、電話機1のユーザ情報が蓄積される。
【0039】
なお、応答サーバ29は、例えば、IP−PBX23及び音声認識サーバ28からの指示に応じて、電話機1で使用されるコーデックを音声認識用コーデック11に切り替える指示を出力可能に構成されている。このように応答サーバ29からの音声認識用コーデック11に切り替える指示を出力可能とすることにより、外部から、電話機1における音声認識による操作の可否を制御することが可能となる。
【0040】
このような構成を有するネットワークに接続され、本実施の形態に係る電話機1は、ユーザから入力された音声データによってユーザが所望する情報を取得することが可能となっている。以下、本実施の形態に係る電話機1において、ユーザから入力された音声データに対応する情報を取得するまでの処理について説明する。図3は、実施の形態1に係る電話機1において、ユーザから入力された音声データに対応する情報を取得するまでの処理について説明するためのシーケンス図である。なお、本実施の形態に係る電話機1のコーデック部7においては、初期状態において、IP電話用コーデック10が選択されているものとする。
【0041】
この場合、電話機1においては、まず、所望の情報の取得を目的とするユーザによって操作部4を介して、予め定めた音声認識による操作を受け付けるための特定番号(以下、「音声操作特定番号」という)が入力されるか判定する(ステップ(以下、「ST」という)1)。なお、この音声操作特別番号は、図2に示すネットワークの各端末に割り当てられた内線番号と無関係に設定される。
【0042】
音声操作特定番号が入力されると、入出力処理部6のコーデック切替部9によってコーデック部7のコーデックが切り替えられる(ST2)。ここでは、コーデック部7において、IP電話用コーデック10から音声認識用コーデック11に切り替えられる。
【0043】
コーデックが切り替えられた後、音声データが入力されるか判定する(ST3)。なお、ここでは、図2に示すネットワークに対応する組織の責任者から、機密情報に相当する当該組織の売上高に対応する情報の取得を指示する音声データである「売り上げ」が入力されたものとする。
【0044】
このように入力された音声データは、入出力処理部6を介して音声認識用コーデック11に渡される。音声データを受け取ると、音声認識用コーデック11によって、この音声データに対して、音声認識サーバ28で一定の精度を有する音声認識処理を行うために適した符号化処理が行われる(ST4)。
【0045】
符号化処理が行われた音声データは、電話機1に割り当てられた内線番号と共に、無線LAN通信部8、AP21及び管理装置22を介してIP−PBX23に送信される(ST5)。ここで、電話機1の内線番号を送信するのは、応答サーバ29において、当該音声データの送信元である電話機1を特定すると共に、当該電話機1のユーザ情報を特定するためである。なお、この場合においては、音声特定番号が入力されていることから、転送先の内線番号として、音声認識サーバ28に割り当てられた内線番号が音声データ等と一緒にIP−PBX23に送信される。
【0046】
電話機1から音声データや音声認識サーバ28の内線番号等を受け取ると、IP−PBX23によって当該音声データの転送先を選択する処理が行われる(ST6:転送先選択処理)。ここでは、転送先の内線番号として、音声認識サーバ28に割り当てられた内線番号を受け取っていることから、IP−PBX23は、データベース内でこの内線番号に対応するIPアドレスを検索し、受け取った音声データを音声認識サーバ28に転送する(ST7)。また、このとき、IP−PBX23は、電話機1に対応するIPアドレスも検索し、音声認識サーバ28に転送する。
【0047】
IP−PBX23から音声データを受け取ると、音声認識サーバ28によってこの音声データに対する音声認識処理が行われる(ST8)。この場合、音声認識サーバ28は、データベースに予め記憶された音声認識辞書に基づいて、音声データの音声認識処理を行うと共に、これに対応付けられた検索対象コマンドを特定する。ここでは、検索対象コマンドとして、当該組織の売上高の対応する情報を取得する旨のコマンドが特定される。
【0048】
音声認識サーバ28により特定された検索対象コマンドは、電話機1に対応するIPアドレスと共に応答サーバ29に渡される(ST9)。ここで、電話機1のIPアドレスを送信するのは、応答サーバ29において、当該検索対象コマンドの送信元である電話機1を特定すると共に、当該携帯電話機1のユーザ情報を特定するためである。
【0049】
音声認識サーバ28から検索対象コマンドを受け取ると、応答サーバ29によってこの検索対象コマンドに対応する検索データの検索処理が行われる(ST10)。ここでは、応答サーバ29は、当該組織の売上高の対応する情報を検索する。この場合において、当該情報は、機密情報として取り扱われるため、応答サーバ29は、アクセスしてきた電話機1のユーザ情報を判定する。ここでは、電話機1のユーザが、当該組織の責任者であるため、当該情報が検索可能な情報であると判定する。
【0050】
検索された検索データは、応答サーバ29から、アクセスしてきた電話機1に送信される(ST11)。このとき、応答サーバ29は、音声認識サーバ28から受け取っていた電話機1に対応するIPアドレスに対して送信する。この場合には、当該組織の売上高に対応する情報が電話機1に対して送信される。例えば、検索データは、音声データであってもよいし、テキストデータであってもよい。予め、電話機1のユーザにより指定するようにしてもよい。
【0051】
応答サーバ29から検索データを受け取ると、電話機1において、その検索データの出力処理が行われる(ST12)。ここでは、応答サーバ29から送信された、売上高に対応する情報の出力処理が行われる。なお、例えば、この売上高に対応する情報が音声データである場合には、スピーカ3によってその出力処理が行われ、テキストデータである場合には、表示部5によって出力処理が行われる。
【0052】
ここで、実施の形態1に係る電話機1の他の利用態様について説明する。図3においては、ユーザから操作部4を介して特定番号を受け付けた後、マイク2を介して音声データを受け付ける場合について示している。例えば、特定番号の代わりに操作部4を介して他の電話機に対応する内線番号を受け付けた場合には、コーデック切替部9は、コーデック部7のコーデックをIP電話用コーデック10に切り替える。そして、内線番号に対応する他の電話機と接続した後、ユーザから入力される通信データ(音声データ)をIP電話用コーデック10で符号化しながら当該他の携帯電話機との間で通信を行う。
【0053】
なお、図3に示すシーケンスにおいては、操作部4を介して入力された音声操作特定番号に応じて、電話機1単独でコーデックを切り替える場合について示しているが、コーデックを切り替える態様については、これに限定されるものではない。例えば、操作部4を介して入力された入力番号をIP−PBX23に問い合わせる一方、当該入力番号に応じてIP−PBX23からコーデックの切替指示を出力し、この切替指示に応じてコーデックを切り替えるようにしてもよい。図4は、この場合における処理について説明するためのシーケンス図である。なお、図4において、図3と同様の処理については、同一の符号を付し、その説明を省略する。
【0054】
この場合、電話機1においては、まず、ユーザによって操作部4を介して任意の電話番号が入力されるか判定する(ST13)。そして、操作部4を介して発信指示を受け付けると、この入力番号の種別についてIP−PBX23に問い合わせる(ST14)。この問い合わせを受け付けると、IP−PBX23によって入力番号が、通常の内線番号であるか、音声操作のために割り当てられた番号であるか判定される(ST15:番号種別判定処理)。なお、この音声操作のために割り当てられた番号には、例えば、音声認識サーバ28に割り当てられた内線電話番号が用いられる。
【0055】
入力番号が、音声操作のために割り当てられた番号であると判定された場合には、IP−PBX23から電話機1に対してコーデックを切り替える指示(コーデック切替指示)が出力される(ST16)。このコーデック切替指示を受け取ると、入出力処理部6のコーデック切替部9によってコーデック部7のコーデックが、IP電話用コーデック10から音声認識用コーデック11に切り替えられ(ST2)、図3に示すST3以降の処理が行われる。
【0056】
このように、操作部4を介して入力された番号の種別をIP−PBX23で判定し、IP−PBX23からコーデック切替指示を出力してコーデックを切り替える場合にも、上述した音声操作特定番号に応じて電話機1でコーデックを切り替える場合と同様に、ユーザから入力された音声データに対応する情報を取得することが可能である。
【0057】
このように実施の形態1に係る電話機1においては、内線電話端末としての利用を実現するIP電話機能の利用時に通信データの符号化を行うIP電話用コーデック10と、ユーザから入力された音声データの音声認識処理に適した符号化を行う音声認識用コーデック11とを備え、これらをコーデック切替部9によって切り替えるようにしたことから、電話機1を内線電話端末として利用可能としつつ、当該電話機1において音声認識処理に必要な符号化を行うことが可能となる。
【0058】
特に、実施の形態1に係る電話機1においては、操作部4を介して予め定めた音声認識による操作を受け付けるための特定番号の入力を受け付けると、コーデック切替部9が音声認識用コーデック11に切り替える。このため、ユーザによる特定番号の入力という簡単な作業だけで、電話機1において音声認識による操作を行うことが可能となる。特に、この場合には、電話機1に特別なボタン等を設けることなく、音声認識による操作を行うことが可能となる。
【0059】
なお、上記実施の形態においては、操作部4を介して予め定めた音声認識による操作を受け付けるための特定番号の入力を受け付けると、コーデック切替部9が音声認識用コーデック11に切り替える場合について示しているが、音声認識用コーデック11へ切り替える契機については、これに限定されるものではなく適宜変更が可能である。例えば、操作部4に、音声認識による操作を受け付けるための特定キーを設け、ユーザによる当該特定キーの選択に応じて音声認識による操作を受け付けるようにしてもよい。この場合には、操作部4に設けられた特定キーを選択するだけで、電話機1において音声認識による操作を行うことが可能となる。
【0060】
(実施の形態2)
実施の形態2に係る電話機12は、通常の携帯電話機としての機能(携帯電話機能)を備える点で実施の形態1に係る電話機1と相違する。例えば、実施の形態2に係る電話機12は、オフィス等の構外にある場合には、通常の携帯電話機として利用できる一方、オフィス等の構内にある場合には、内線電話端末として機能するIP電話端末として利用できるものである。
【0061】
図5は、実施の形態2に係る電話機12の構成を示すブロック図である。なお、図5において、図1と同様の構成については同一の符号を付し、その説明を省略する。
【0062】
図5に示すように、電話機12は、電話機12の現在位置を検出する位置検出部13を備える点、コーデック部7が、電話機12を、通常の携帯電話機として利用する場合に通信データの符号化を行う携帯電話用コーデック14を備える点、携帯電話用コーデック14で符号化された信号を無線送信可能な信号に変換し、電話機12の位置に対応する基地局装置(基地局)20に送出するRF部15を備える点で、実施の形態1に係る電話機1と相違する。なお、携帯電話用コーデック14は、例えば、W−CDMA(Wideband Code Division Multiple Access)やCDMA2000等に準拠した符号化を行う。
【0063】
また、実施の形態2に係る電話機12においては、コーデック切替部9が、ユーザ等からの指示内容、並びに、位置検出部13における検出結果を判定して、通信データ(音声データを含む)の符号化を行うコーデック部7内のコーデックを切り替える点で、実施の形態1に係る電話機1と相違する。
【0064】
例えば、コーデック切替部9は、ユーザから入力された指示内容が、通常の携帯電話機における通信である場合には、位置検出部13の検出結果に関わらず、携帯電話用コーデック14に切り替える。また、位置検出部13によって電話機12がオフィス等の構内に存在することが検出され、ユーザから入力された指示内容が、内線電話端末としてのIP電話端末における通信である場合には、IP電話用コーデック10に切り替える。さらに、位置検出部13によって電話機12がオフィス等の構内に存在することが検出され、ユーザ等から入力された指示内容が、音声認識処理のための通信である場合には、音声認識用コーデック11に切り替える。
【0065】
このような構成を有し、実施の形態2に係る電話機12は、電話機12の位置、並びに、ユーザ等から入力された指示内容に応じて携帯電話用コーデック14、IP電話用コーデック10及び音声認識用コーデック11を切り替えて使用することが可能である。このため、ユーザによる電話機12の利用態様に合わせて適切に通信対象となるデータの符号化を行うことが可能となる。
【0066】
このような構成を有するネットワークに接続され、実施の形態2に係る電話機12は、実施の形態1に係る電話機1と同様に、ユーザから入力された音声データによってユーザが所望する情報を取得することが可能となっている。なお、実施の形態2に係る電話機12において、ユーザから入力された音声データに対応する情報を取得するまでの処理については、図3又は図4と同様の要領で行われるため、その説明は省略する。
【0067】
なお、実施の形態2に係る電話機12において、位置検出部13によって電話機12がオフィス等の構外に存在することが検出されている場合や、操作部4を介して通常の携帯電話機における通信指示を受け付けた場合、コーデック切替部9は、ユーザからの指示内容が通常の携帯電話機における通信であることを判定し、携帯電話用コーデック14に切り替える。そして、例えば、通信相手先となる他の携帯電話機と接続した後、ユーザから入力される通信データ(音声データ)を携帯電話用コーデック14で符号化しながら当該他の携帯電話機との間で通信を行う。
【0068】
このように実施の形態2に係る電話機12においては、IP電話用コーデック10及び音声認識用コーデック11に加え、電話機12を、通常の携帯電話機として利用する場合に通信データの符号化を行う携帯電話用コーデック14を備え、これらをコーデック切替部9によって切り替えるようにしたことから、通常の携帯電話機として利用可能な電話機12を、内線電話端末として利用可能としつつ、当該電話機12において音声認識処理に必要な符号化を行うことが可能となる。
【0069】
なお、本発明に係る音声認識システムは、このような電話機1(12)と、音声認識サーバ28とを含んで構成される。本音声認識システムにおいては、音声認識サーバ28によって、電話機1(12)の音声認識用コーデック14で符号化された音声データの音声認識が行われることから、オフィス等の構内で内線電話端末として利用可能な電話機1(12)からの音声データを適切に音声認識することが可能となる。
【0070】
また、本発明に係る音声認識システムにおいては、音声認識サーバ28で音声認識された認識結果に対応する検索データを検索して電話機1(12)に応答する応答サーバ29を備えている。このように、応答サーバ29が音声認識サーバ28で音声認識された認識結果に対応する情報を検索して電話機1(12)に応答することから、電話機1(12)においてユーザから入力された音声データに対応する情報を電話機1(12)に応答することが可能となる。
【0071】
特に、本発明に係る音声認識システムにおいて、応答サーバ29は、電話機1(12)のユーザに応じて検索対象とする情報を特定していることから、電話機1(12)のユーザに応じて応答する情報の範囲を変更することが可能となる。
【0072】
なお、本発明は、上記実施の形態に限定されず、本発明の効果を発揮する範囲内において種々変更して実施することが可能である。また、本発明の目的の範囲を逸脱しない限りにおいて適宜変更して実施することが可能である。
【0073】
上記実施の形態に係る電話機1(12)においては、ユーザ等からの指示内容に基づいて音声認識用コーデック11でユーザから入力された音声データを、音声認識サーバ28にて音声認識処理を行うために適した符号化を行う場合について説明している。しかしながら、本実施の形態に係る電話機1(12)の構成については、これに限定されるものではなく、適宜変更が可能である。
【0074】
例えば、音声認識用コーデック11において符号化を行う前に、音声認識サーバ28における音声認識精度を向上するための処理(以下、「符号化前処理」という)を行う符号化前処理部を備えるようにしてもよい。符号化前処理部は、例えば、音声データに含まれるノイズの除去や、音声データに対応する音声出力レベルの調整などの処理を含む。前者の場合には、ユーザから入力された音声データに含まれるノイズが除去されることから、必要な情報のみに対して音声認識処理を施すことができるので、当該音声データの音声認識精度を向上することが可能となる。また、後者の場合には、ユーザから入力された音声データに対応する音声出力レベルが調整されることから、例えば、音声データの劣化を回避することができるので、当該音声データの音声認識精度を向上することが可能となる。
【0075】
なお、上記実施の形態のように、電話機1に音声認識用コーデック11を備え、音声認識サーバ28における音声認識処理に適した符号化を行う場合には、ネットワークに送出される情報量が大きくなる。このため、同等の音声認識精度を確保しながら、ネットワーク上におけるトラフィック量を軽減することが好ましい。このような課題を解決する場合には、例えば、図6に示すように、電話機1において、音声認識用コーデック11と共に簡易音声認識部16を備えることが考えられる。この簡易音声認識部16は、ユーザから入力された音声データに対する簡易的な音声認識処理を行う。簡易音声認識部16で行われる簡易的な音声認識処理は、特定の音声認識処理に限定されるものではなく、例えば、波形整形処理を含む。なお、この簡易音声認識部16は、例えば、DSP(Digital Signal Processor)を電話機1に組み込むことで実現される。この場合、DSPのプログラムは、電話機1の外部に存在する通信ネットワーク上のバージョンアップサーバ(図示しない)から、通信を使ってバージョンアップできる事が望ましい。
【0076】
簡易音声認識部16は、例えば、コーデック切替部9によって音声認識用コーデック11に切り替えられたケースにおいて、ユーザから入力された音声データの簡易的な音声認識処理を行い、その音声認識結果をIP電話用コーデック10に渡す。IP電話用コーデック10においては、当該音声データの符号化を行うと共に、簡易音声認識部16から受け取った簡易音声認識結果の符号化を行う。このように符号化された音声データ等は、無線LAN通信部8を介してネットワークに送出され、IP−PBX23の制御の下、音声認識サーバ28に送信される。音声認識サーバ28においては、電話機1から受信した簡易音声認識結果と、音声データとを用いて音声認識処理を行う。
【0077】
この場合において、上述したように、電話機1のIP電話用コーデック10で音声データの符号化を行った場合には、音声認識処理に適した音声データを得られない場合がある。このため、音声認識サーバ28は、電話機1から受信した簡易音声認識結果を参照しながら、この音声データによる音声認識結果を適宜修正する。このように電話機1から受信した音声データと簡易音声認識結果とを用いて音声認識結果を修正する場合には、上記実施の形態と同等の音声認識精度を確保することが可能となる。
【0078】
このように電話機1に簡易音声認識部16を備えると共に、音声認識サーバ28において、簡易音声認識結果と、IP電話用コーデック10で符号化された音声データに基づく音声認識結果とを用いて音声認識結果を修正することで、上記実施の形態と同等の音声認識精度を確保することが可能となる。この場合において、電話機1からネットワークに送出される情報量は、上記実施の形態における情報量よりも低減される。従って、上記実施の形態と同等の音声認識精度を確保しながら、ネットワーク上におけるトラフィック量を軽減することが可能となる。
【0079】
なお、このように電話機1に簡易音声認識部16を備える場合には、上述したような態様と異なるコーデックを切り替える態様を実現することが可能となる。すなわち、操作部4を介して入力された音声操作特定番号に応じて電話機1単独でコーデックを切り替える態様、或いは、操作部4を介して入力された入力番号をIP−PBX23に問い合わせる一方、当該入力番号に対するIP−PBX23からのコーデック切替指示に応じてコーデックを切り替える態様と異なる他の態様でコーデックを切り替えることが可能となる。
【0080】
このように簡易音声認識部16を備える場合には、ユーザから入力された音声を電話機1自体で音声認識することができることから、操作部4を介して音声操作特定番号や入力番号の入力を要求することなく、直接、ユーザから入力された音声データに応じてコーデックを切り替えるようにすることができる。この場合にユーザから入力される音声データとしては、直接的に取得を希望する音声データ(上述の例でいえば、「売り上げ」)であってもよいし、音声認識による操作を指示する音声データ(例えば、「音声操作」など)であってもよい。後者の場合には、当該音声データを入力することでコーデックを切り替えた後、取得を希望する音声データを入力することとなる。
【0081】
このように電話機1に簡易音声認識部16を備える場合には、操作部4を介して音声操作特定番号等の入力を要求することなく、直接、ユーザから入力された音声データに応じてコーデックを切り替えることができることから、より操作性に優れた電話機1を提供することが可能となる。
【図面の簡単な説明】
【0082】
【図1】本発明の実施の形態1に係る電話端末装置の構成を示すブロック図である。
【図2】実施の形態1に係る電話端末装置が接続されるネットワークの構成を示す図である。
【図3】実施の形態1に係る電話端末装置において、ユーザから入力された音声データに対応する情報を取得するまでの処理について説明するためのシーケンス図である。
【図4】実施の形態1に係る電話端末装置において、ユーザから入力された音声データに対応する情報を取得するまでの処理について説明するためのシーケンス図である。
【図5】本発明の実施の形態2に係る電話端末装置の構成を示すブロック図である。
【図6】実施の形態1に係る携帯電話機の構成を変更した場合のブロック図である。
【符号の説明】
【0083】
1、12 電話端末装置(電話機)
2 マイク
3 スピーカ
4 操作部
5 表示部
6 入出力処理部
7 コーデック部
8 無線LAN通信部
9 コーデック切替部
10 IP電話用コーデック
11 音声認識用コーデック
13 位置検出部
14 携帯電話用コーデック
15 RF部
16 簡易音声認識部
20 基地局装置(基地局)
21 アクセスポイント(AP)
22 管理装置
22a 第1管理装置
22b 第2管理装置
23 IP−PBX
24 DHCPサーバ
25 DNSサーバ
26 PoCサーバ
27 SIPサーバ
28 音声認識サーバ
29 応答サーバ
30 ルータ

【特許請求の範囲】
【請求項1】
IP電話機能を備え、当該IP電話機能を用いて構内に敷設されたネットワークを介して内線電話端末として利用可能な電話端末装置であって、
前記IP電話機能の利用時に通信データの符号化を行うIP電話用コーデックと、ユーザから入力された音声データの音声認識処理に適した符号化を行う音声認識用コーデックと、前記IP電話用コーデックと前記音声認識用コーデックとを切り替えるコーデック切替部とを具備することを特徴とする電話端末装置。
【請求項2】
ユーザからの指示入力を受け付ける操作部を具備し、前記コーデック切替部は、前記操作部に対する指示入力に応じて前記IP電話用コーデックと前記音声認識用コーデックとを切り替えることを特徴とする請求項1記載の電話端末装置。
【請求項3】
前記コーデック切替部は、前記操作部から、予め定めた音声認識による操作を受け付けるための特定番号の入力を受け付けると前記音声認識用コーデックに切り替えることを特徴とする請求項2記載の電話端末装置。
【請求項4】
前記操作部は、ユーザからの音声認識による操作を受け付けるための特定キーを備え、前記コーデック切替部は、前記特定キーが選択されると前記音声認識用コーデックに切り替えることを特徴とする請求項2記載の電話端末装置。
【請求項5】
前記コーデック切替部は、外部からの指示に応じて前記音声認識用コーデックに切り替えることを特徴とする請求項1から請求項4のいずれかに記載の電話端末装置。
【請求項6】
ユーザから入力された音声データの音声認識を行う音声認識部を具備し、前記コーデック切替部は、ユーザから入力された音声データに応じて前記音声認識用コーデックに切り替えることを特徴とする請求項1から請求項5のいずれかに記載の電話端末装置。
【請求項7】
携帯電話機能を備え、前記携帯電話機能の利用時に通信データの符号化を行う携帯電話用コーデックを具備し、前記コーデック切替部は、前記携帯電話用コーデックと前記IP電話用コーデックと前記音声認識用コーデックとを切り替えることを特徴とする請求項1から請求項6のいずれかに記載の電話端末装置。
【請求項8】
前記音声認識用コーデックで符号化を行う前に、ユーザから入力された音声データの音声認識精度を向上するための処理を行う符号化前処理部を具備することを特徴とする請求項1から請求項7のいずれかに記載の電話端末装置。
【請求項9】
前記符号化前処理部は、ユーザから入力された音声データに含まれるノイズを除去することを特徴とする請求項8記載の電話端末装置。
【請求項10】
前記符号化前処理部は、ユーザから入力された音声データに対応する音声出力レベルを調整することを特徴とする請求項8記載の電話端末装置。
【請求項11】
請求項1から請求項10のいずれかに記載の電話端末装置と、前記電話端末装置の音声認識用コーデックで符号化された音声データの音声認識を行う音声認識サーバとを具備することを特徴とする音声認識システム。
【請求項12】
各種の情報を蓄積し、前記音声認識サーバで音声認識された認識結果に対応する情報を検索して前記電話端末装置に応答する応答サーバを具備することを特徴とする請求項11記載の音声認識システム。
【請求項13】
前記応答サーバは、前記電話端末装置のユーザに応じて検索対象とする情報を特定することを特徴とする請求項12記載の音声認識システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2009−49653(P2009−49653A)
【公開日】平成21年3月5日(2009.3.5)
【国際特許分類】
【出願番号】特願2007−213085(P2007−213085)
【出願日】平成19年8月17日(2007.8.17)
【出願人】(506314416)株式会社モビテクノ (10)
【Fターム(参考)】