説明

電話システムと通話補助方法とプログラム

【課題】聴覚障害者等に、通話相手の電話の発話内容の正確な理解を可能たらしめ、電話で円滑に会話を行うことを可能とするシステム、方法、プログラムの提供。
【解決手段】回線に接続され、呼の接続制御を行う呼制御部1と、呼制御部に接続され、音声認識部2と、画面作成部3を備えたサービスセンタ4と、を備え、発呼者からの呼が、前記呼制御部を経由し、前記サービスセンタの前記音声認識部に接続されると、前記音声認識部は、加入者の通話内容を音声認識し、音声認識結果を文字情報に変換するとともに、音声認識結果の読み情報を付加し、前記呼制御部を介して前記画面作成部に渡し、前記画面作成部は、音声認識結果とその読み情報をあわせた画面データを作成して前記呼制御部に渡し、前記呼制御部は、着呼側の加入者の端末に送信し、前記着呼側の加入者の端末では、通話内容の音声認識結果と読み情報が画面表示される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、通話内容を音声認識して端末に表示する電話システムと通話補助方法とプログラムに関する。
【背景技術】
【0002】
通話内容を音声認識して端末に表示するこの種の電話システムは、例えば聴覚障害者向けの電話補助システムに利用される。その典型的な基本的な構成は、発呼者の発声内容を音声認識装置で音声認識させ、文字表示装置にて表示するというものであり、従来のシステムは、2つのタイプに大別される。
【0003】
1つは、専用の端末内に音声認識機能を具備し、回線からの発呼者の音声を音声認識し、専用端末内の表示装置に表示するものである(「端末型」という)。
【0004】
他は、センタ側に、音声認識装置を備え、文字表示機能付き端末に、音声と文字情報(テキスト情報)をあわせて送信し、文字情報機能付き端末で表示するものである(「センタ型」という)。
【0005】
なお、特許文献1には、通話者の音声を通信システムを介して音声信号受信手段で受信し、音声/文字変換スイッチで字幕受信を選択したとき、音声認識装置により受信音声信号を認識し、認識音声を文字データに変換してディスプレイ上に字幕で表示し、逆に通話者が入力した文字列を文章として音声合成し、通話相手に送信する手段を備えたマルチメディア公衆電話システムが開示されている。また、特許文献2には、携帯電話機のマイクから入力された音声はデジタル音声データに変換され、コンピュータの音声認識部に供給されて音声認識され、音声認識結果が、携帯電話機に返送され、携帯電話機の文字編集部にて編集された後、ディスプレイに表示され、認識結果の修正コマンドを携帯電話機のボタン操作部から入力すると、インターネット等の通信回線を介して、コンピュータに送信され、修正結果が返送され携帯電話機のディスプレイに表示され、かな漢字変換を指示すると、コンピュータ(センタ)の文字編集部で変換され、変換結果が返送されディスプレイに表示される構成の文字入力装置が開示されている。また特許文献3には、音声入力された文章を編集する際にカーソルの指定を簡便に行うことのできる音声タイプライタとして、音声認識された日本語テキスト表示領域と入力テキスト表示領域を備えた構成が開示されている。
【0006】
【特許文献1】特開平10−224520号公報
【特許文献2】特開2003−304331号公報
【特許文献3】特公平6−103457号公報
【発明の開示】
【発明が解決しようとする課題】
【0007】
しかしながら、これら従来のシステムは、実際の運用上、以下のような課題がある。
【0008】
電話で不特定多数者によって自由に話される会話は、音声認識においても、認識がかなり難しい部類に属する処理である。また、電話での音声認識においては、回線網を通った音声の品質が、マイクを入力した音声の品質と比べて、著しく劣る。これは、電話回線網での伝送による、符号化の劣化、回線エコー、雑音除去の難しさ等が挙げられる。
【0009】
誤認識された音声認識結果が、さらに、仮名漢字混じりの文章に変換されると、変換誤り等のノイズが加わり、さらに、元の発話内容の推定は困難となる。
【0010】
従来より、電話音声を音声認識し文字表示する機能を備えた聴覚障害者向けの、音声認識装置、及び該装置を備えた電話システムは、各種提案されているものの、本格的な実用化には至っていない。これは、一般に電話の発話内容を、逐次、音声認識することは難しく、誤認識による性能劣化が予想されているためである。
【0011】
聴覚障害者にとっては、電話の発話内容の聞き取りは、切実な問題であり、早期の解決及び実用化が望まれている。
【0012】
したがって、本発明の目的は、聴覚障害者等に、通話相手の電話の発話内容の正確な理解を可能たらしめ、これにより、円滑な通話を可能とするシステム、方法、プログラムを提供することにある。
【課題を解決するための手段】
【0013】
本願で開示される発明は、前記課題を解決するため、概略以下の構成とされる。
【0014】
本発明の1つの側面(アスペクト)に係るシステムは、第1の端末から入力された音声信号を音声認識する手段と、前記音声認識結果の読み情報を生成する手段と、少なくとも前記読み情報を、前記第1の端末の通話相手である第2の端末に表示させる手段と、を備えている。
【0015】
本発明に係るシステムにおいて、音声認識結果の文字情報と、前記読み情報を含む画面データを作成する手段を備え、前記画像データが前記第2の端末に送信される。
【0016】
本発明に係るシステムにおいて、前記音声認識する手段、前記読み情報を生成する手段と、前記画面データを作成する手段を、呼接続部を介して回線に接続するサービスセンタに備えている。
【0017】
本発明に係るシステムにおいて、前記音声認識する手段と前記読み情報を生成する手段とを含む音声認識部を備え、前記音声認識部は、前記第1の端末からの電話音声を受け取って音声認識し、音声認識結果を文字情報(テキスト)に変換し、さらに前記音声認識結果の読み情報を生成し、テキストに変換された認識結果と、前記読み情報を含む画面データを作成する画像データ作成部を備え、前記画面データが前記第2の端末に送信され、テキストに変換された認識結果と前記読み情報を含む画面が、前記第2の端末に表示される。
【0018】
本発明に係るシステムにおいて、前記第2の端末が、前記音声認識結果の読み情報を生成する手段を備えている構成としてもよい。
【0019】
本発明に係るシステムは、回線に接続され、呼の接続制御を行う呼制御部と、呼制御部に接続され、音声認識部と、画面作成部とを備えたサービスセンタと、を備え、発呼者からの呼が、前記呼制御部を経由し、前記サービスセンタの前記音声認識部に接続されると、前記音声認識部は、発呼者からの通話内容を音声認識し、音声認識結果を文字情報に変換するとともに、音声認識結果の読み情報を付加し、前記呼制御部を介して前記画面作成部に渡し、前記画面作成部は、音声認識結果とその読み情報をあわせた画面データを作成して前記呼制御部に渡し、前記呼制御部は、着呼側の加入者の端末に送信し、前記着呼側の加入者の端末では、通話内容の音声認識結果と読み情報とが画面表示される。
【0020】
本発明に係るシステムにおいて、前記サービスセンタが、前記音声認識部とは別に読みつけ生成部を備え、呼が接続されたあと、前記サービスセンタの前記音声認識部では、発呼者からの通話内容を音声認識し、音声認識結果を、前記呼制御部に渡し、前記呼制御部は、音声認識結果を、前記サービスセンタの前記読みつけ生成部に送り、前記読みつけ生成部は、前記音声認識結果から読みを推定して読み情報を生成し、前記読み情報を、前記呼制御部に送信し、前記呼制御部は、前記サービスセンタの前記音声認識部から出力される認識結果の文字情報と、前記サービスセンタの前記読みつけ生成部からの読み情報を、前記サービスセンタの前記画面作成部に送り、前記画面作成部は、音声認識結果とその読み情報をあわせた画面データを作成する。
【0021】
本発明に係るシステムにおいて、前記音声認識部とは別に読みつけ生成部を前記着呼側の端末に備え、前記サービスセンタの前記音声認識部では、読み情報を生成せず、前記画面作成部は、音声認識結果の画面データを作成し、前記着呼側の端末の読みつけ生成部が、前記音声認識結果から読みを推定して読み情報を生成する、ようにしてもよい。
【0022】
本発明において、前記着呼側の端末からの音声は、発呼側の端末に送信され、発呼側の端末で受信され再生される。
【0023】
本発明の他のアスペクトに係るサービスセンタは、呼制御部に接続される音声認識部と、画面作成部を備えたサービスセンタであって、発呼者からの呼が、前記呼制御部を経由して前記音声認識部に接続されると、前記音声認識部は、発呼者からの通話内容を音声認識し、音声認識結果を文字情報に変換するとともに、音声認識結果の読み情報を付加し、前記呼制御部を介して前記画面作成部に渡し、前記画面作成部は、音声認識結果とその読み情報をあわせた画面データを作成して、前記呼制御部に渡し、前記呼制御部を介して、着呼側の加入者の端末に送信する。
【0024】
本発明に係るサービスセンタにおいて、読みつけ生成部をさらに備え、呼が接続されたあと、前記音声認識部は、発呼者からの通話内容を音声認識し、音声認識結果を、前記呼制御部を介して前記読みつけ生成部に送り、前記読みつけ生成部は、音声認識結果から読みを推定し、読み情報を、前記呼制御部に送信し、前記呼制御部は、サービスセンタの音声認識部からの出力結果と、読みつけ生成部からの読み情報を、前記サービスセンタの画面作成部に送り、前記画面作成部は、音声認識結果とその読み情報をあわせた画面データを作成する、ようにしてもよい。
【0025】
本発明において、前記文字情報は、前記音声認識結果を仮名漢字変換したものであり、前記読み情報は、前記音声認識結果からその読みを推定したものを、平仮名、ローマ字、発音記号のうちの少なくとも1つで表記したものである。
【0026】
本発明のさらに他のアスペクトの方法によれば、
第1の端末から入力された音声信号を音声認識する工程と、
音声認識結果の読み情報を生成する工程と、
少なくとも前記読み情報を、前記第1の端末の通話相手である第2の端末に表示させる工程と、
を含む。
【0027】
本発明に係る方法において、音声認識結果の文字情報と、前記読み情報を含む画面データを作成する工程を含み、前記画像データが前記第2の端末に送信される。
【0028】
本発明に係る方法において、前記第2の端末が、前記音声認識結果の読み情報を生成する、ようにしてもよい。
【0029】
本発明に係る方法は、回線に接続され、呼の接続制御を行う呼制御部と、前記呼制御部に接続され、音声認識部と画面作成部を備えたサービスセンタと、を備えた電話システムの通話補助方法であって、発呼者からの呼が、前記呼制御部を経由し、前記サービスセンタの前記音声認識部に接続されると、前記音声認識部は、発呼者からの通話内容を音声認識し、音声認識結果を文字情報に変換するとともに、音声認識結果の読み情報を付加し、前記呼制御部を介して前記画面作成部に渡し、
前記画面作成部は、音声認識結果とその読み情報をあわせた画面データを作成して前記呼制御部に渡し、前記呼制御部は、着呼側の加入者の端末に送信し、
前記着呼側の加入者の端末では、通話内容の音声認識結果と読み情報が画面表示される。
【0030】
本発明に係る方法おいて、前記サービスセンタが、前記音声認識部とは別に読みつけ生成部を備え、呼が接続されたあと、前記サービスセンタの前記音声認識部は、発呼者からの通話内容を音声認識し、音声認識結果を、前記呼制御部に渡し、前記呼制御部は、音声認識結果を前記サービスセンタの前記読みつけ生成部に送り、前記読みつけ生成部は、音声認識結果から読みを推定し、読み情報を、前記呼制御部に送信し、前記呼制御部は、サービスセンタの音声認識部から出力される認識結果の文字情報と、前記読みつけ生成部からの読み情報を、前記サービスセンタの画面作成部に送り、前記画面作成部は、認識結果とその読み情報をあわせた画面データを作成する、ようにしてもよい。
【0031】
本発明に係るプログラムは、
第1の端末から入力された音声信号を音声認識する処理と、
音声認識結果の読み情報を生成する処理と、
少なくとも前記読み情報を、前記第1の端末の通話相手である第2の端末に表示させる処理と、をコンピュータに実行させるプログラムよりなる。
【0032】
本発明に係るプログラムにおいて、音声認識結果の文字情報と、前記読み情報を含む画面データを作成する処理を前記コンピュータに実行させるプログラムよりなる。
【0033】
本発明に係るプログラムは、呼制御部に接続される音声認識部と、画面作成部を備え、発呼者からの呼が、前記呼制御部を経由して前記音声認識部に接続されると、前記音声認識部は、発呼者からの通話内容を音声認識し、音声認識結果を文字情報に変換するとともに、音声認識結果の読み情報を付加し前記呼制御部を介して前記画面作成部に渡し、
前記画面作成部は、音声認識結果とその読み情報をあわせた画面データを作成して、前記呼制御部に渡し、前記呼制御部を介して、着呼側の加入者の端末に送信する、サービスセンタを構成するコンピュータに、前記音声認識部と前記画面作成部の処理を実行させるプログラムよりなる。
【0034】
本発明に係るプログラムおいて、前記サービスセンタが前記音声認識部とは別に読みつけ生成部を備え、呼が接続されたあと、前記音声認識部は、発呼者からの通話内容を音声認識し、音声認識結果を文字情報に変換し、前記呼制御部を介して前記読みつけ生成部に送り、前記読みつけ生成部は、音声認識結果から読みを推定し、読み情報を、前記呼制御部に送信する前記サービスセンタを構成するコンピュータに、前記音声認識部と前記画面作成部と前記読みつけ生成部の処理を実行させるプログラムよりなる。
【発明の効果】
【0035】
本発明によれば、聴覚障害者(発呼者)が健常者(着呼者)と、電話で円滑に会話することを可能としている。その理由は、本発明においては、音声認識装置で音声認識が誤った認識結果を出したとしても、聴覚障害者(着呼者)側で、その読みから、その誤り傾向を推察し、正しく発声内容を理解できるからである。
【発明を実施するための最良の形態】
【0036】
本発明を実施するための最良の形態について以下に説明する。近年、L−モードや、IP網を使ったIP電話等、文字情報(テキスト情報)だけでなく、www(world wide web)の閲覧を可能としている画面表示機能付き電話端末が利用されている。このような端末を利用すれば、メールなどで、聴覚障害者が、いわゆる電話回線を使うことも可能であるが、発呼者の発声内容が画面に表示されれば、言語発声能力がある聴覚障害者であれば、本来の意味で、電話を使うことができるものと思料される。しかし、前述したように、電話音声認識による会話音声認識は難しく、かなりの誤認識、誤変換が生じる得ることが予想される。
【0037】
そこで、本発明は、発呼側の端末(5)からの発話内容を、音声認識して、文字情報とその読み情報に変換する音声認識部(2)と、画面表示付き端末用の画面を作成する画面作成部(3)と、通話を管理し、音声認識部(2)と画面作成部(3)を制御する呼制御部(1)を備え、画面作成部(3)で作成された画面データには、発話者の発話内容(音声認識結果)だけでなく、読み情報が含まれ、これが、着呼側の端末(6)に送信されて表示される。読み情報は、平仮名、かたかな、ローマ字、発音記号など、発話内容の音声認識結果の文字情報の読みを表すものであれば、任意である。
【0038】
本発明を聴覚障害者向け電話補助システムに適用した場合、電話端末と公衆網と音声認識部と、文字、画像が表示できる電話端末とを備えた聴覚障害者向け電話補助システムにおいて、発話音声を音声認識し、音声認識結果と音声の読み情報を付加した文字情報に変換して、聴覚障害者の表示機能付き電話端末に表示し、聴覚障害者の電話による会話を可能にしている。
【0039】
本発明の動作の概要を説明すると、発呼側の端末(5)からの呼が、呼制御部(1)を経由し、サービスセンタ(4)の音声認識部(2)に接続されると、音声認識部(2)は、加入者の通話内容を音声認識し、文字情報に変換し、その際、誤認識の可能性があるため、認識結果とともに、その読み情報を付加して、画面作成部(3)に渡す。画面作成部(3)は、音声認識結果とその読み情報をあわせた画面を加工、作成し、着呼側の加入者の端末に送信する。着呼側のサービス加入者の端末(6)では、受信した画面(通話内容の音声認識結果と読み情報)が表示される。このため、もし、音声認識における認識、変換が誤っていたとしても、読み情報と対応付けて、本来の通話内容の解読を容易化し解読に有効な手助けとなる。なお、音声認識部(2)とは別に読み情報を生成する読みつけ生成部を備えた構成としてもよい。あるいは、着呼側の加入者の端末(6)で、音声認識結果から読みを推定して読み情報を生成するようにしてもよい。以下実施例について説明する。
【実施例】
【0040】
図1は、本発明の一実施例の構成を示す図である。図1を参照すると、本実施例の電話補助システムは、呼制御部1と、音声認識部2及び画面作成部3とを含むサービスセンタ4を備えている。音声認識部2及び画面作成部3の処理は、コンピュータ上で実行されるプログラムによって実現してもよい。
【0041】
図2は、呼制御部1の構成の一例を示す図である。図2を参照すると、呼制御部1は、制御部10と、音声蓄積部11と、メディア変換部12とを備え、通話を管理し、受信した音声を音声認識部2に送信する。
【0042】
制御部10は、呼制御部1の全体制御を行い、着呼した呼の管理と、音声の送受信を行う。
【0043】
音声蓄積部11は、発呼側、着呼側の音声の蓄積機能を備え、発呼者側に対してのガイダンスメッセージ音声も格納されている。
【0044】
メディア変換部12は、プロトコル変換の機能を備え、着呼側と発呼側双方の音声データ変換を行う。
【0045】
制御部10は、通話を管理し、受信した音声を、一旦、音声蓄積部11に蓄積し、音声認識部2に送信する。
【0046】
再び図1を参照すると、音声認識部2は、受信した音声を音声認識し、その出力結果(音声認識結果と読み情報)を、呼制御部1の制御部10(図2参照)を経由して、画面作成部3に送る。本実施例において、音声認識部2は、例えば不特定話者の音声を認識するための任意の公知の手法で音声認識を行い、単語辞書を用いて単語が決定された認識結果に対して例えば仮名漢字変換を行って、発話内容に対応する文(テキスト文)を生成し、さらに、認識結果の文字情報に対して、読み情報を付加する処理を実行する。
【0047】
画面作成部3では、受信した音声認識部2の出力結果(音声認識結果と読み情報)を、画面表示機能付き電話端末で表示できる形(主に、HTML(HyperText Markup Language)言語などのページ記述言語)に加工する。
【0048】
呼制御部1の制御部10(図2参照)は、画面作成部3から出力されたデータ(画面表示データ)を受信すると、該画面表示データを着呼側回線に送信する。
【0049】
着呼側の電話端末6では、画面表示データを受信すると、画面に、発話側で発声された音声認識結果と、その読み情報が表示される。このため、音声認識結果に、多少の誤りがあっても、容易に理解することが出来る。
【0050】
着呼者の音声は、呼制御部1で受信され、呼制御部1に音声蓄積部11(図2参照)に一旦蓄積された後、発呼者側プロトコルに合わせた形で、発呼者側に送信される。
【0051】
このようにして、健常者の発呼側と、聾者の着呼側で、会話をすることができる。
【0052】
次に、図3は、本実施例の動作を説明するためのフローチャートである。図1、図2、図3(A)を参照して、本実施例の動作を説明する。ただし、呼は既に繋がっているものとする。
【0053】
発呼側端末5からの音声信号を呼制御部1が受信する(ステップS1)。
【0054】
入力された音声信号を、呼制御部1の制御部10で登録、管理し、呼制御部1の音声蓄積部11に音声を蓄積する(ステップS2)。
【0055】
呼制御部1の制御部10は、蓄積した音声を、サービスセンタ4の音声認識部2に音声認識処理を依頼して送信する(ステップS3)。
【0056】
サービスセンタ4の音声認識部2では、呼制御部1の制御部10から受信した音声信号を音響分析等して音声認識し、出力結果を、認識結果と読み情報からなる出力データとして、呼制御部1の制御部10に出力する。
【0057】
呼制御部1の制御部10は、サービスセンタ4の音声認識部2から受信した出力結果をサービスセンタ4の画面作成部3に送信する(ステップS4)。
【0058】
サービスセンタ4の画面作成部3では、受信した出力データを基に、音声認識結果(主に仮名漢字交じり文章)と、その読み情報からなる画面情報データを作成し、呼制御部1の制御部10に出力する(ステップS5)。
【0059】
呼制御部1の制御部10は、作成された画面情報を受信すると、それを着呼側の回線に送信する(ステップS6)。
【0060】
画面表示データを着呼側の端末(画面表示機能付き電話端末)6で受信し、認識結果、読み情報を、着呼側の端末6の画面に表示する(ステップS7)。
【0061】
こうして、着呼側の画面表示機能付き電話端末6で、画面情報を受け取って表示すると、音声認識結果(例えば仮名漢字文)と読み情報(例えば平仮名表記)とが表示される。音声認識結果が正しい場合は、全く問題はないが、仮名漢字文等の認識結果に誤りを含んでいる場合にも、読み情報から、本来の正しい発話内容を類察し、正しい発話内容の見当をつけることができる。
【0062】
図3(B)を参照すると、次に、受信者の音声は回線を通り、呼制御部1に到達する(ステップS11)。
【0063】
受信された音声は、呼制御部1の制御部10によって、呼制御部1の音声蓄積部11に蓄積される(ステップS12)。
【0064】
呼制御部1のメディア変換部12は、図3(A)のステップS2で登録した情報に基づき、適切な発呼者に対し、発呼側の端末5にあわせた適切な手順で送信する(ステップS13)。
【0065】
発呼側の端末5で着呼側発声音声が受信され再生される(ステップS14)。
【0066】
図4は、本発明の一実施例の着呼側の端末(画面表示機能付き電話端末)6の画面の一例を示す図である。例えば発呼元から、
「i−modeは使えないのですか?」
と、呼制御部1に入力があったとする(図3(A)のステップS1)。
【0067】
呼制御部1では、その音声信号と呼情報を、呼制御部1の制御部10で登録し、音声信号を、呼制御部1の音声蓄積部11に蓄積する(ステップS2)。
【0068】
呼制御部1の制御部10は、蓄積した音声信号を、サービスセンタ4の音声認識部2に認識処理を依頼し送信する(ステップS3)。
【0069】
サービスセンタ4の音声認識部2では、音声蓄積部11から音声信号を受け取ると、その音声信号を分析し、
認識結果:「愛も独活は使えないのですか」、及び、
読み情報:「あいもうどはつかえないのですか」
からなる出力データを、呼制御部1の制御部10に出力する。特に制限されないが、この例の場合、認識結果は、仮名漢字変換した文であり、読み情報は平仮名表記である。
【0070】
呼制御部1の制御部10は、出力データを、サービスセンタ4の画面作成部3に画面情報作成処理を依頼し、送信する(ステップS4)。
【0071】
サービスセンタ4の画面作成部3では、受信したデータを基に、音声認識結果が入った文字情報と読み情報からなる画面情報を作成し、呼制御部1の制御部10に送信する(ステップS5)。
【0072】
呼制御部1の制御部10では、作成された画面情報を受信すると、それを着呼側の回線に送信する(ステップS6)。
【0073】
画面情報を着呼側の画面表示機能付き電話端末6で受信し、発話内容認識結果と発話内容読み情報が表示される(ステップS7)。
【0074】
図4において、発話内容認識結果は、「愛も独活」と表示され、もし「独活(うど)」の読み方を知らなければ、着呼側では、「あいもどっかつ」とは何の意味かと判断に悩むことになる。
【0075】
しかし、下段の読み情報をみると、読み情報で、「あうもうど」と、表示されているので、音声認識で誤りを含んでいたとしても(例えば音声認識における単語の決定処理や仮名漢字変換処理に誤りがある場合にも)、読み情報から、正しい発話内容を類察することで、正しい発話内容である「i−mode」の見当をつけることができる。
【0076】
次に、着呼側(例えば聾者)で発声する(図4(B)のステップS11)。
【0077】
呼制御部1の制御部10は、受信した音声を音声蓄積部11に蓄積する(ステップS12)。
【0078】
呼制御部1のメディア変換部12は、登録情報に基づき蓄積された音声を発呼者に送信する(ステップS13)。このとき、たとえば、着呼側が、HTTP(Hyper Text Transport Protocol)、発呼側がVoIPであれば、RTP(Real-time Transport Protocol)に変換し、発呼側がPSTN(Public Switched Telephone Networks)であれば、デジタル・ハードウエア回線に出力する。
【0079】
発呼者側の端末5で着呼者の音声が再生される(ステップS14)。このようにして、発呼者(健常者)と聾者(着呼側)で会話をすることが出来る。
【0080】
次に、本発明の第2の実施例について説明する。図5は、本発明の第2の実施例の構成を示す図である。本実施例では、読み情報を、サービスセンタ4’側の画面作成部31で付加する。
【0081】
この場合、音声認識部2で読みを出力する必要がなくなるので、音声認識部2は、既存のものをそのまま使用することができる。
【0082】
図5を参照すると、本実施例は、呼制御部1と、音声認識部2と画面作成部31と読みつけ生成部32とを有するサービスセンタ4’を備えている。
【0083】
呼制御部1は、図2に示した構成と同様に、制御部10と、音声蓄積部11と、メディア変換部12を備えている。ただし、呼制御部1の制御部10は、音声認識部2と画面作成部31と読みつけ生成部32とに接続する。
【0084】
呼が接続されたあと、音声認識部2は、受信した音声を音声認識し、その出力結果(音声認識結果のみ)を、呼制御部1の制御部10に送信する。
【0085】
呼制御部1の制御部10は、その出力結果を音声蓄積部11に保持し、サービスセンタ4’の読みつけ生成部32に送る。
【0086】
サービスセンタ4’の読みつけ生成部32では、音声認識結果から読みを推定し、読み情報を、呼制御部1の制御部10に送信する。
【0087】
呼制御部1の制御部10は、サービスセンタ4’の音声認識部2からの出力結果と、読みつけ生成部32からの読み表記を、サービスセンタ4’の画面作成部31に送る。
【0088】
サービスセンタ4’の画面作成部31は、音声認識結果と読み情報を、画面表示機能付き電話端末6で表示できる形(主にHTML言語などのページ記述言語)に加工し、制御部10に送信する。
【0089】
呼制御部1の制御部10は、サービスセンタ4’の画面作成部31から出力されたデータを受信すると、それを着呼側回線に送信する。
【0090】
なお、着呼者の音声は、前記実施例と同様にそのまま音声として発呼者に送信される。
【0091】
図6は、本発明の第2の実施例の動作を説明するフローチャートである。図5、図2、及び図6を参照して、本発明の第2の実施例の動作を説明する。
【0092】
発呼者からの音声信号を呼制御部1が受信する(ステップS21)。
【0093】
入力された音声信号を呼制御部1の制御部10で登録、管理し、呼制御部1の音声蓄積部11に音声を蓄積する(ステップS22)。
【0094】
呼制御部1の制御部10は、蓄積した音声を、サービスセンタ4’の音声認識部2に送信する(ステップS23)。
【0095】
サービスセンタ4’の音声認識部2では、呼制御部1の制御部10から受信した音声信号を分析認識し、出力結果を認識結果を出力データとして、呼制御部1の制御部10に出力する。
【0096】
呼制御部1の制御部10は受信した出力結果を、サービスセンタ4’の読みつけ生成部32に送信する(ステップS24)。
【0097】
サービスセンタ4’の読みつけ生成部32では、受信したデータから読み情報を推定し、呼制御部1の制御部10に結果を送信する(ステップS25)。
【0098】
呼制御部1の制御部10は、サービスセンタ4’の音声認識部2の出力結果と、読みつけ生成部32の出力結果を、サービスセンタ4’の画面作成部31に送信する(ステップS26)。
【0099】
サービスセンタ4’の画面作成部31では、受信したデータを基に、音声認識結果が入った文字情報と読み情報からなる画面情報データを作成し、呼制御部1の制御部10に送信する(ステップS27)。
【0100】
呼制御部1の制御部10では、作成された画面情報を受信すると、それを着呼側の回線に送信する(ステップS28)。
【0101】
画面表示データを端末6(着呼側の画面表示機能付き電話端末)で受信し、発話内容認識結果、発話内容読み情報を着呼側の画面表示機能付き電話端末6で表示する(ステップS29)。
【0102】
着呼側の画面表示機能付き電話端末6で画面情報を受け取り、表示すると、音声認識結果と、その読み情報とが同一画面に表示されるため、音声認識結果が正しかった場合はもちろん、誤りを含んでいたとしても、読み情報から正解発音を類察し正しい発話内容の見当をつけることができる。
【0103】
次に、着呼者の電話音声は回線を通り、呼制御部1に到達する(図3(B)のステップS11)。
【0104】
受信された音声は、呼制御部1の制御部10によって音声蓄積部11に蓄積される(図3(B)のステップS12)。
【0105】
呼制御部1のメディア変換部12はステップS1で登録した情報に基づき、適切な発呼者に対し、発呼者にあわせた適切な手順で送信する(図3(B)のステップS13)。
【0106】
発呼側の端末5で、着呼側の発声した音声が受信され再生される(図3(B)のステップS14)。
【0107】
なお、本発明の第3の実施例として、読み情報を、着呼側の端末6側で生成するようにしてもよい。この場合、図1、図5のサービスセンタ4、4’の音声認識部2あるいは読みつけ生成部32において読み情報を生成する必要がなくなり、また画面作成部3において読み情報を付加する必要がなくなるため、サービスセンタ側の処理負荷、負担が軽減される。本発明の第3の実施例の処理手順については、サービスセンタ側では、読み情報を扱わず、認識結果の表示された画面情報を受信した端末6側で、読みつけ生成部が起動し、読み情報を生成する。他の処理は、前記実施例の手順に従う。
【0108】
本発明は、福祉、社会サービス等の電話サービスに提供して好適とされる。
【0109】
以上、本発明を上記実施例に即して説明したが、本発明は上記実施例の構成にのみ制限されるものでなく、本発明の範囲内で当業者であればなし得るであろう各種変形、修正を含むことは勿論である。
【図面の簡単な説明】
【0110】
【図1】本発明の一実施例の構成を示す図である。
【図2】本発明の一実施例の呼制御部の構成を示す図である。
【図3】本発明の一実施例の動作を説明するための流れ図である。
【図4】本発明の一実施例の着呼側の画面表示機能付き電話端末の画面表示例を示す図である。
【図5】本発明の別の実施例の構成を示す図である。
【図6】本発明の別の実施例の動作を説明するための流れ図である。
【符号の説明】
【0111】
1 呼制御部
2 音声認識部
3、31 画面作成部
32 読みつけ生成部
4、4’ サービスセンタ
5 発呼側の端末
6 着呼側の端末
10 制御部
11 音声蓄積部
12 メディア変換部

【特許請求の範囲】
【請求項1】
第1の端末から入力された音声信号を音声認識する手段と、
音声認識結果の読み情報を生成する手段と、
少なくとも前記読み情報を、前記第1の端末の通話相手である第2の端末に表示させる手段と、
を備えている、ことを特徴とする電話システム。
【請求項2】
前記音声認識結果と前記読み情報とを含む画面データを作成する手段を備え、前記画像データが前記第2の端末に送信される、ことを特徴とする請求項1記載の電話システム。
【請求項3】
前記音声認識する手段と、前記読み情報を生成する手段と、前記画面データを作成する手段とを、呼接続部を介して回線に接続するサービスセンタに備えている、ことを特徴とする請求項2記載の電話システム。
【請求項4】
前記音声認識する手段と前記読み情報を生成する手段とを含む音声認識部を備え、
前記音声認識部は、前記第1の端末からの電話音声を受け取って音声認識し、音声認識結果を文字情報に変換し、さらに前記音声認識結果の読み情報を生成し、
文字情報に変換された認識結果と前記読み情報を含む画面データを作成する画像データ作成部を備え、
前記画面データが前記第2の端末に送信され、前記認識結果と前記読み情報を含む画面データが前記第2の端末に表示される、ことを特徴とする請求項1記載の電話システム。
【請求項5】
前記第2の端末が、前記音声認識結果の読み情報を生成する手段を備えている、ことを特徴とする請求項1記載の電話システム。
【請求項6】
回線に接続され、呼の接続制御を行う呼制御部と、
前記呼制御部に接続され、音声認識部と、画面作成部とを備えたサービスセンタと、
を備え、
発呼者からの呼が、前記呼制御部を経由し、前記サービスセンタの前記音声認識部に接続されると、前記音声認識部は、発呼者からの通話内容を音声認識し、音声認識結果を文字情報に変換するとともに、音声認識結果の読み情報を付加し、前記呼制御部を介して前記画面作成部に渡し、
前記画面作成部は、音声認識結果とその読み情報をあわせた画面データを作成して前記呼制御部に渡し、
前記呼制御部は、着呼側の端末に送信し、
前記着呼側の端末では、通話内容の音声認識結果と読み情報とが画面表示される、ことを特徴とする電話システム。
【請求項7】
前記サービスセンタが、前記音声認識部とは別に読みつけ生成部を備え、
発呼者からの呼が接続されたあと、前記サービスセンタの前記音声認識部では、発呼者からの通話内容を音声認識し、音声認識結果を、前記呼制御部に渡し、
前記呼制御部は、音声認識結果を、前記サービスセンタの前記読みつけ生成部に送り、
前記読みつけ生成部は、前記音声認識結果から読みを推定して読み情報を生成し、前記読み情報を、前記呼制御部に送信し、
前記呼制御部は、前記サービスセンタの前記音声認識部から出力される認識結果の文字情報と、前記サービスセンタの前記読みつけ生成部からの読み情報を、前記サービスセンタの前記画面作成部に送り、
前記画面作成部は、音声認識結果とその読み情報をあわせた画面データを作成する、ことを特徴とする請求項6記載の電話システム。
【請求項8】
前記音声認識部とは別に読みつけ生成部を、前記着呼側の端末に備え、
前記サービスセンタの前記音声認識部では、読み情報を生成せず、前記画面作成部は、音声認識結果の画面データを作成し、
前記着呼側の端末の読みつけ生成部が、前記音声認識結果から読みを推定して読み情報を生成する、ことを特徴とする請求項6記載の電話システム。
【請求項9】
前記着呼側の端末からの音声は、発呼側の端末に送信され、発呼側の端末で受信され再生される、ことを特徴とする請求項6記載の電話システム。
【請求項10】
呼制御部に接続される音声認識部と、画面作成部を備えたサービスセンタであって、
発呼者からの呼が前記呼制御部を経由して前記音声認識部に接続されると、前記音声認識部は、発呼者からの通話内容を音声認識し、音声認識結果を文字情報に変換するとともに、音声認識結果の読み情報を付加し、前記呼制御部を介して、前記画面作成部に渡し、
前記画面作成部では、音声認識結果とその読み情報をあわせた画面データを作成し、前記呼制御部を介して前記画面データを、着呼側の端末に送信する、ことを特徴とするサービスセンタ。
【請求項11】
請求項10記載の前記サービスセンタにおいて、前記音声認識部とは別に読みつけ生成部をさらに備え、
発呼者からの呼が接続されたあと、前記音声認識部は、加入者の通話内容を音声認識し、音声認識結果を、前記呼制御部を介して前記読みつけ生成部に送り、
前記読みつけ生成部は、音声認識結果から読みを推定して読み情報を生成して、前記呼制御部に送信し、
前記呼制御部は、前記サービスセンタの前記音声認識部から出力される認識結果の文字情報と、前記読みつけ生成部からの読み情報を、前記サービスセンタの前記画面作成部に送る、ことを特徴とするサービスセンタ。
【請求項12】
前記認識結果の文字情報は、前記音声認識結果を仮名漢字変換したものであり、
前記読み情報は、平仮名、ローマ字、発音記号のうちの少なくとも1つで前記音声認識結果を表記したものである、ことを特徴とする請求項6乃至8のいずれか一記載の電話システム。
【請求項13】
第1の端末から入力された音声信号を音声認識する工程と、
音声認識結果の読み情報を生成する工程と、
少なくとも前記読み情報を、前記第1の端末の通話相手である第2の端末に表示させる工程と、
を含む、ことを特徴とする電話システムの通話補助方法。
【請求項14】
音声認識結果の文字情報と、前記読み情報を含む画面データを作成する工程を含み、前記画像データが前記第2の端末に送信される、ことを特徴とする請求項13記載の電話システムの通話補助方法。
【請求項15】
前記第2の端末が、前記音声認識結果の読み情報を生成する、ことを特徴とする請求項13記載の電話システムの通話補助方法。
【請求項16】
回線に接続され、呼の接続制御を行う呼制御部と、
前記呼制御部に接続され、音声認識部と画面作成部を備えたサービスセンタと、
を備えた電話システムの通話補助方法であって、
発呼者からの呼が、前記呼制御部を経由し、前記サービスセンタの前記音声認識部に接続されると、前記音声認識部は、発呼者からの通話内容を音声認識し、音声認識結果を文字情報に変換するとともに、音声認識結果の読み情報を付加し、前記呼制御部を介して前記画面作成部に渡し、
前記画面作成部は、音声認識結果とその読み情報をあわせた画面データを作成して前記呼制御部に渡し、前記呼制御部は、着呼側の端末に送信し、
前記着呼側の端末では、通話内容の音声認識結果と読み情報が画面表示される、ことを特徴とする電話システムの通話補助方法。
【請求項17】
前記サービスセンタが、前記音声認識部とは別に読みつけ生成部を備え、
発呼者からの呼が接続されたあと、前記サービスセンタの前記音声認識部は、発呼者からの通話内容を音声認識し、音声認識結果を、前記呼制御部に渡し、前記呼制御部は、音声認識結果を前記サービスセンタの前記読みつけ生成部に送り、前記読みつけ生成部は、音声認識結果から読みを推定し、読み情報を、前記呼制御部に送信し、前記呼制御部は、サービスセンタの音声認識部から出力される認識結果の文字情報と、前記読みつけ生成部からの読み情報を、前記サービスセンタの画面作成部に送り、前記画面作成部は、認識結果とその読み情報をあわせた画面データを作成する、ことを特徴とする請求項16記載の電話システムの通話補助方法。
【請求項18】
前記着呼側の端末からの音声は、発呼側の端末に送信され、発呼側の端末で受信され再生される、ことを特徴とする請求項16記載の電話システムの通話補助方法。
【請求項19】
前記文字情報は、前記音声認識結果を仮名漢字変換したものであり、
前記読み情報は、平仮名、ローマ字、発音記号のうちの少なくとも1つで前記音声認識結果を表記したものである、ことを特徴とする請求項16又は17記載の電話システムの通話補助方法。
【請求項20】
第1の端末から入力された音声信号を音声認識する処理と、
音声認識結果の読み情報を生成する処理と、
少なくとも前記読み情報を、前記第1の端末の通話相手である第2の端末に表示させる処理と、
をコンピュータに実行させるプログラム。
【請求項21】
請求項20記載のプログラムにおいて、
音声認識結果の文字情報と、前記読み情報を含む画面データを作成する処理を前記コンピュータに実行させるプログラム。
【請求項22】
呼制御部に接続される音声認識部と、画面作成部を備え、
発呼者からの呼が、前記呼制御部を経由して前記音声認識部に接続されると、前記音声認識部は、発呼者からの通話内容を音声認識し、音声認識結果を文字情報に変換するとともに、音声認識結果の読み情報を付加し前記呼制御部を介して前記画面作成部に渡し、
前記画面作成部は、音声認識結果とその読み情報をあわせた画面データを作成して、前記呼制御部に渡し、前記呼制御部を介して、着呼側の端末に送信する、サービスセンタを構成するコンピュータに、前記音声認識部と前記画面作成部の処理を実行させるプログラム。
【請求項23】
請求項22記載のプログラムにおいて、
前記サービスセンタが前記音声認識部とは別に読みつけ生成部を備え、
呼が接続されたあと、前記音声認識部は、発呼者からの通話内容を音声認識し、音声認識結果を文字情報に変換し、前記呼制御部を介して前記読みつけ生成部に送り、
前記読みつけ生成部は、音声認識結果から読みを推定し、読み情報を、前記呼制御部に送信する前記サービスセンタを構成するコンピュータに、前記音声認識部と前記画面作成部と前記読みつけ生成部の処理を実行させるプログラム。
【請求項24】
前記文字情報は、前記音声認識結果を仮名漢字変換したものであり、
前記読み情報は、前記音声認識結果からその読みを推定したものを平仮名、ローマ字、発音記号のうちの少なくとも1つで表記したものである、ことを特徴とする請求項21乃至23のいずれか一に記載のプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2008−66866(P2008−66866A)
【公開日】平成20年3月21日(2008.3.21)
【国際特許分類】
【出願番号】特願2006−240473(P2006−240473)
【出願日】平成18年9月5日(2006.9.5)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.i−mode
【出願人】(000232254)日本電気通信システム株式会社 (586)
【Fターム(参考)】