説明

端末装置と通信制御方法

【課題】音声認識を利用することで、相手の会話の内容を明確に知ることができ、聴き取りが困難な環境下でも通話可能とする端末装置及び通信制御方法の提供。
【解決手段】圧縮符号化されて伝送された通話相手の音声信号を受信回路8で受信し、復調回路9及び伸長回路10で復調及び伸長されたデジタル音声信号を受け取って音声認識し、テキストデータに変換する音声認識回路15を備え、制御部14は、音声認識回路15で変換されたテキストデータを受けとり該テキストデータを表示部16に表示させる制御を行う。

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、移動体通信システムに関し、特に、移動体通信網等において通話相手の会話を音声認識する機能を具備した端末装置及び通信制御方法に関する。
【0002】
【従来の技術】移動体通信設備をなす基地局と無線回線にて接続し交換局、電話網等を介して接続相手の電話端末と接続する携帯電話装置(移動局(MS(mobile station)),あるいは「mobile phone」ともいう)等の通信端末装置を用いて、騒音環境で通話する場合、接続相手の通話内容が周囲騒音に妨害され、聞き取りにくい場合がある。騒音環境下でも、相手の会話の内容を知ることができ、聞き取りが困難な環境下でも通話可能とした携帯電話装置の実現により、その利用範囲、利便性を増大する。
【0003】なお、音声信号を文字データに変換する音声認識手段を備えた携帯電話装置として、例えば特開平11−168552号公報には、通話中の会話の内容等を録音する音声メモ機能を有する携帯電話装置において、音声データを文字データに変換する音声認識手段を備え、変換された文字データをメモリに書き込むことで、一件あたりの音声メモに必要なデータサイズを大幅に縮減するようにした携帯電話装置が開示されている。上記特開平11−168552号公報に記載された装置は、音声メモ用のメモリの有効利用を図るために、文字データに変換してメモリに格納するというものであり、利用者が相手の会話を即時に出力するための手段を欠いている。
【0004】
【発明が解決しようとする課題】したがって、本発明が解決しようとする課題は、音声認識を利用することで、相手の会話の内容を明確に知ることができ、例えば聞き取りが困難な環境下でも通話可能とする端末装置及び通信制御方法を提供することにある。
【0005】
【課題を解決するための手段】上記課題を解決するための手段を提供する本発明に係る装置は、接続相手の端末と通話接続時に、音声認識モードに設定されている場合、前記接続相手の端末から送信された通話相手の音声をデジタル音声信号として受け取って音声認識しテキストデータに変換する音声認識手段と、前記音声認識手段で変換されたテキストデータを出力手段から出力させる制御を行う制御手段と、を備えている。
【0006】本発明に係る装置においては、音声認識の開始を指示するための操作キーを備え、前記操作キーの操作を受けて、前記操作キーの操作時点から、前記通話相手の会話を、前記音声認識手段にて音声認識し、テキストデータへの変換を開始するように制御する手段を備えた構成としてもよい。
【0007】本発明に係る装置においては、接続相手の音声信号を音声認識してテキストデータに変換する音声認識手段と、前記接続相手の音声信号の音声認識結果のテキストデータを前記接続相手の端末に送信する手段と、を備え、前記接続相手の端末から送信された音声認識結果のテキストデータを表示手段に表示する構成としてもよい。
【0008】本発明に係る装置においては、利用者が音声入力手段より入力した音声を音声認識してテキストデータに変換する音声認識手段と、前記音声認識結果であるテキストデータを接続相手の端末に送信する手段と、を備えた構成としてもよい。
【0009】本発明の他のアスペクトに係るシステムは、一の端末と他の端末との間で送受される音声信号を伝送する通信網上の少なくとも一のノードが、前記伝送される音声信号を受け取って音声認識しテキストデータに変換する手段を備え、前記変換されたテキストデータが、前記通信網上のノードから前記音声信号の受け手側の端末、又は、前記音声信号の受け手と送り手側の双方の端末に伝送される、構成とされている。
【0010】本発明の他のアスペクトに係る通信制御方法は、互いに通信接続する複数の端末のうちの一の端末が、他の端末から送信された通話相手の音声を復調及び伸張してなるデジタル音声信号を受け取って音声認識しテキストデータに変換するステップと、前記一の端末において前記テキストデータを出力手段から出力するステップと、を有する。
【0011】以下の実施の形態の説明からも、当業者には明らかであるように、上記課題は、特許請求の範囲の各請求項の発明によっても同様にして解決される。
【0012】
【発明の実施の形態】本発明の実施の形態について説明する。本発明に係る端末装置は、その好ましい一実施の形態において、図1を参照すると、接続相手の端末と通話接続時、受信回路で受信された通話相手の会話の音声信号を、復調回路及び伸張回路で復調及び伸張したデジタル音声信号を受け取って音声認識し、テキストデータに変換する音声認識手段(15)を備え、音声認識手段(15)から出力されるテキストデータを受け取り、表示手段(16)に供給して表示するように制御する制御手段(14)を備えている。
【0013】より詳細には、本発明に係る端末装置は、その好ましい一実施の形態において、図1を参照すると、音声入力手段(図1の7、28)から入力されデジタル信号に変換された音声信号を圧縮して出力する音声圧縮手段(5)と、音声圧縮手段(5)からの出力信号を変調して出力する変調手段(4)と、変調手段の出力信号を受けて無線送信する無線送信手段(3、2、1)と、無線受信手段(1、2、8)で受信された信号を復調して出力する復調手段(9)と、復調手段(9)で復調された信号を受け取って伸張しデジタル音声信号を出力する音声伸張手段(10)と、音声伸張手段(10)から出力されるデジタル音声信号を音声認識してテキストデータに変換して出力する音声認識手段(15)と、前記音声伸張手段(10)から出力されるデジタル音声信号をアナログ信号に変換した信号を受け取って音声出力する音声出力手段(12、28)と、音声認識モードに設定されている場合に、前記音声伸張手段(10)で伸張されたデジタル音声信号は、音声認識手段(15)に入力されて音声認識が行われ、音声認識手段(15)から出力されるテキストデータを、表示手段(16)に供給して表示させる制御を行う制御手段(14)と、を備えている。
【0014】本発明に係る端末装置は、その好ましい一実施の形態において、操作キーとして、音声認識開始ボタン(17)を備えており、音声認識開始ボタン(17)が押下された際に、制御手段(14)は、このボタンの押下時点からの通話相手の会話を、音声認識手段(15)にて音声認識し、テキストデータへの変換を開始するように制御する。
【0015】あるいは、本発明に係る端末装置は、その好ましい一実施の形態において、周囲の騒音レベルを監視し騒音レベルが所定の閾値を超えたと判断したとき、自動で、音声認識手段(15)による音声認識処理を起動する構成としてもよい。
【0016】さらに、本発明に係る端末装置は、その好ましい別の実施の形態において、図3を参照すると、通話相手の会話を音声認識してテキストデータに変換する音声認識手段(15)と、通話相手の会話の音声認識結果を、テキストデータにて通話相手の端末に送信する手段(14、24)を備え、テキストデータを受け取った通話相手の端末では、その表示手段(16)に、前記テキストデータが表示される。本発明に係る端末装置は、その好ましい別の実施の形態において、携帯テレビ電話機能付きである場合に、音声認識結果のテキストデータを接続相手の端末に送信される映像情報に多重して、前記接続相手の端末に送信する。
【0017】より詳細には、本発明に係る端末装置の別の実施の形態において、図3を参照すると、入力された音声信号を音声認識しテキストデータに変換して出力する音声認識手段(15)と、音声認識結果のテキストデータと、映像入力手段(21)から入力され第1のアナログデジタル変換手段(20)でデジタル信号に変換された映像情報とを入力しこれらを多重して出力する第1の多重手段(24)と、第1の多重手段(24)の出力を受けて圧縮する映像圧縮手段(19)と、音声入力手段(7、28)から入力され第2のアナログデジタル変換手段(6)でデジタル信号に変換された音声信号を圧縮する音声圧縮手段(5)と、映像圧縮手段(19)の出力と音声圧縮手段(5)の出力とを入力しこれらを多重して出力する第2の多重手段(18)と、第2の多重手段(18)の出力を変調する変調手段(4)と、変調手段(4)の出力を受けて無線送信する無線送信手段(3、2、1)と、無線受信手段(1、2、8)で受信された信号を復調する復調手段(9)と、復調手段(9)で復調された信号を入力し映像信号と音声信号とに分離して出力する分離手段(22)と、分離手段(22)で分離された映像信号を受け取り該映像信号を伸張して出力する映像伸張手段(23)と、分離手段(22)で分離された前記音声信号を受け取り前記音声信号を伸張して出力する音声伸張手段(10)と、映像伸張手段(23)で伸張されたデジタル映像信号をアナログ映像信号に変換する第1のデジタルアナログ変換手段(25)と、第1のデジタルアナログ変換手段(25)からのアナログ映像信号を表示する表示手段(16)と、音声伸張手段(10)で伸張されたデジタル音声信号をアナログ音声信号に変換する第2のデジタルアナログ変換手段(11)と、第2のデジタルアナログ変換手段(11)からの音声信号を出力する音声出力手段(12、28)と、を備え、音声認識モードに設定されている場合、音声伸張手段(10)で伸張されたデジタル音声信号は、音声認識手段(15)に入力されて音声認識が行われ、音声認識手段(15)から出力されるテキストデータを、第1の多重手段(24)に供給するように制御する制御手段(14)を備えている。この実施の形態においても、音声認識開始ボタン(17)が押下された場合に、音声認識手段(15)によって音声認識が行われる。
【0018】本発明は、第3の実施の形態において、図7R>7を参照すると、音声入力手段(7、28)から入力されアナログデジタル変換手段(6)でデジタル信号に変換された音声信号を圧縮して出力する音声圧縮手段(5)と、デジタル信号に変換された音声信号を音声認識してテキストデータに変換して出力する音声認識手段(15)と、音声圧縮手段(5)の出力を変調する第1の変調手段(4)と、テキストデータを変調する第2の変調手段(31)と、第1、第2の変調手段(4、31)の出力を受けて多重する多重手段(30)と、多重手段(30)の出力を受けて無線送信する無線送信手段(3、2、1)と、無線受信手段(1、2、8)で受信された信号をテキストデータと音声データに分離する分離手段(33)と、分離手段(33)で分離された前記音声信号を受け取り前記音声信号を復調する第1の復調手段(9)と、分離手段(33)で分離された前記テキストデータを受け取り復調する第2の復調手段(32)と、前記第1の復調手段の出力を伸張して出力する音声伸張手段(10)と、音声伸張手段(10)で伸張されたデジタル音声信号をデジタルアナログ変換手段(11)でアナログ信号に変換した信号を入力して出力する音声出力手段(12、28)と、を備え、第2の復調手段(32)は復調したテキストデータを、制御手段(14)にわたし、制御手段(14)は、第2の復調手段(32)で復調したテキストデータを受け取り、表示手段(16)にテキストデータを表示し、前記第2の変調手段(31)に供給し、音声認識手段(15)からのテキストデータを前記第2の変調手段(31)に供給する制御を行う。
【0019】さらに本発明は、第4の実施の形態において、図10を参照すると、音声入力手段(7、28)から入力されアナログデジタル変換手段(6)でデジタル信号に変換された音声信号を圧縮して出力する音声圧縮手段(5)と、デジタル信号に変換された音声信号を音声認識してテキストデータに変換して出力する音声認識手段(15)と、前記テキストデータと、映像入力手段(21)から入力されアナログデジタル変換手段(20)でデジタル信号に変換された映像情報と、を入力し、これらを多重して出力する第1の多重手段(24)と、第1の多重手段(24)の出力を受けて圧縮して出力する映像圧縮手段(19)と、前記映像圧縮手段の出力と前記音声圧縮手段の出力とを入力し、これらを多重して出力する第2の多重手段(18)と、第2の多重手段(18)の出力を変調する変調手段(4)と、変調手段(4)の出力を受けて無線送信する無線送信手段(3、2、1)と、無線受信手段(1、2、8)で受信された信号を復調する復調手段(9)と、復調手段(9)で復調された信号を入力し映像信号と音声信号とに分離して出力する分離手段(22)と、分離手段(22)で分離された前記映像信号を受け取り前記映像信号を伸張して出力する映像伸張手段(23)と、分離手段(22)で分離された前記音声信号を受け取り前記音声信号を伸張して出力する音声伸張手段(10)と、映像伸張手段(23)で伸張されたデジタル映像信号をデジタルアナログ変換手段(25)でアナログ信号に変換した信号を入力して表示する表示手段(16)と、前記音声伸張手段で伸張されたデジタル音声信号をデジタルアナログ変換手段(11)でアナログ信号に変換した信号を入力して出力する音声出力手段(12)と、音声認識モードに設定されている場合、音声認識手段(15)に入力されて音声認識が行われたテキストデータを入力し前記第1の多重手段(24)に供給する制御を行う制御手段(14)を備えている。制御手段(14)は、テキストデータを表示手段(16)にも出力する。
【0020】本発明は、第5の実施の形態において、図1313を参照すると、通信網上の一ノードをなす交換局(36)で、音声通話接続がなされている音声信号を入力して音声認識し、音声認識結果であるテキストデータを、音声信号に多重して、音声信号の受け手側の端末と、音声信号の送り手側の端末に送信する手段(42、43、38、39)を備えている。あるいは、音声認識を端末側で行い、端末のバットリ残量あるいは負荷状況に応じて、もしくは端末からの要求に応じて、通信網上で音声認識を行うように切替制御する構成としてもよい。
【0021】本発明に係る方法は、その一実施の形態において、以下のステップよりなる。
【0022】ステップ1:互いに通信接続する複数の端末のうち一の端末が、他の端末から送信された通話相手の音声を復調及び伸張してなるデジタル音声信号を受け取って音声認識しテキストデータに変換する。
【0023】ステップ2:一の端末においてテキストデータを表示部に表示する。
【0024】さらに次のステップ3を有する構成としてもよい。
【0025】ステップ3:前記一の端末が前記テキストデータを前記他の端末に送信する。これにより、通話相手の会話を音声認識した結果が前記通話相手に返送され、通話相手は、端末上で、通話相手の会話の内容を確認することができる。
【0026】本発明に係る方法は、他の実施の形態において、以下のステップよりなる。
【0027】ステップ1:利用者の端末より利用者が入力した音声を音声認識してテキストデータに変換する。
【0028】ステップ2:前記音声認識結果であるテキストデータを接続相手の端末に送信する。
【0029】本発明に係る方法の前記他の実施の形態において、上記音声認識結果であるテキストデータは、利用者の端末の表示部に表示される。また接続相手の端末では、前記利用者の端末より送信されたテキストデータが表示部に表示される。また利用者の端末より、音声認識結果であるテキストデータは、接続相手の端末に送信される音声信号又は映像信号に多重して、接続相手の端末に送信される。
【0030】
【実施例】本発明の実施の形態についてさらに詳細に説明すべく、本発明の実施例について図面を参照して説明する。以下では、本発明が実施される端末装置として携帯電話装置を用いた例に即して説明する。図1は、本発明の第1の実施例の構成を示す図である。
【0031】図1を参照すると、本発明の第1の実施例をなす携帯電話装置は、送受信兼用のアンテナ1と、送信信号と受信信号を切り換えるアンテナスイッチ2と、送信する音声信号を入力するマイクロホン7と、マイクロホン7からのアナログ音声信号をデジタル変換するA/Dコンバータ6と、A/Dコンバータ6から出力されるデジタル音声信号を圧縮する音声圧縮回路5と、音声圧縮回路5から出力される送信信号をQPSK(Quadrature Phase Shift Keying)変調する変調回路4と、変調回路4から出力される送信信号を送信周波数に変換する送信部3と、を備えている。さらに、本発明の第1の実施例をなす携帯電話装置は、受信電波の増幅と周波数同調検波を行う受信回路8と、受信回路8からの信号をQPSK復調する復調回路9と、復調回路9から出力される圧縮音声信号を伸張する音声伸張回路10と、音声伸張回路10から出力されるデジタル受信音声信号をアナログ音声信号に変換するD/Aコンバータ11と、D/Aコンバータ11から出力されるアナログ信号を受け、音声信号を出力するスピーカ12と、音声伸張回路10で伸張された信号(通話相手からのデジタル受信音声信音)を入力して音声認識を行いテキストデータに変換する音声認識回路15と、制御部14からの文字や画像を表示するLCD(Liquid Crystal Display)等の表示部16と、全体の制御を行う制御部14と、キー、ボタン等を有する操作部13と、音声認識を開始する音声認識開始ボタン17と、周囲騒音が大きいときに、利用者が装着して通話を行うためのイヤホンマイク28と、を備えている。以下の実施例において、音声認識回路15は、音響特徴量を抽出し辞書とのマッチングをとる公知の音声認識エンジンよりなり、特定話者、及び不特定話者に対応可能な構成とされている。
【0032】図2は、本発明の一実施例の携帯電話装置の外観を示す正面図である。図2において、騒音環境等で通話する通話者の携帯電話端末26であり、参照符号は、図1と対応しており、1は送受信兼用のアンテナ、7はマイクロホン、12はスピーカ、13は操作部、16は表示部、17は音声認識開始ボタン、28はイヤホンである。通話相手の話す音声信号を音声認識により、テキストに変換して、表示部16に27(「さんじにあおう」)のように表示を行う。
【0033】本発明の一実施例の携帯電話装置の動作について説明する。まず、本発明の一実施例の携帯電話装置の送信動作について説明する。この携帯電話装置は、基地局、基地局制御局を介して移動体交換局との間で通話チャネルが確立され、さらに接続先と通信接続がなされているものとする。図1において、マイクロホン7、イヤホンマイク28からのアナログ音声信号はA/Dコンバータ6でデジタル音声信号に変換され、音声圧縮回路5で帯域圧縮され、変調回路4でQPSK変調され、送信回路3で送信周波数に変換され増幅され、アンテナスイッチ2を経由してアンテナ部1より無線送信される。
【0034】次に、本発明の一実施例の携帯電話装置の受信動作について説明する。アンテナ1で受信された通信電波は、アンテナスイッチ2を経て、受信回路8に入力され、受信回路8にて、受信電波の増幅と周波数同調が行われ、受信回路8から取り出された変調信号は、復調回路9に送られる。
【0035】復調回路9でQPSK復調されたデジタル音声信号は、伸張回路10で伸張され、D/Aコンバータ11でアナログ音声信号に変換されてスピーカ12から出力される。
【0036】図5は、本発明の一実施例の携帯電話装置を用いて音声認識を行う場合の通話開始からの動作を示したフローチャートである。図1及び図5を参照して、本発明の一実施例の携帯電話装置で音声認識を行う場合の処理を説明する。通話を開始したとき、騒音環境か否かを通話者が判断し(ステップS1)、騒音環境になく、通話相手の会話が明瞭に聞き取ることができるときは、そのまま通話を継続する(ステップS3)。
【0037】一方、通話者が騒音環境にあると判断したときには、通話者は、イヤホンマイク28を装着する(ステップS2)。イヤホンマイク28を装着したとき、通話相手の会話が明瞭に聞こえるときは、そのまま会話を続ける(ステップS6)。
【0038】通話者がイヤホンマイク28を使っても、通話相手の声が明瞭に聞き取ることができないときは、通話者は音声認識開始ボタン17を押下し(ステップS5)、音声認識部15で通話相手の声の音声認識を開始し、認識結果を、テキスト表示27として、携帯電話装置の表示部16の画面に表示する(ステップS7)。
【0039】このとき、通話相手の通話データが、受信回路8で受信され、復調回路9でQPSK復調された後、伸張回路10で帯域伸張され、伸張されたデジタル音声データが音声認識部15に入力されて、音声認識処理が行われ、その音声認識結果は、制御部14により、表示部16の画面上に、図2の27のようにテキスト表示される。
【0040】なお、音声認識開始ボタン17の押下によって音声認識部15での音声認識を起動するというマニュアル操作の代わりに、携帯電話装置内部で背景の騒音の音量(雑音レベル)等を監視し、雑音レベルを予め定められた閾値と比較判定し、雑音レベルが閾値を超えている場合に、音声認識部15による音声認識とテキスト表示を行うように自動で制御する構成としてもよい。あるいは、イヤホンマイクの装着を検出し、音声認識部15による音声認識とテキスト表示を行うようにしてもよい。
【0041】テキスト表示は、表示部16の一行に横スクロールで表示する代わりに、表示画面中の所定のウインドウに複数行にわたって縦にスクロール表示するようにしてもよい。
【0042】さらに音声認識結果であるテキストデータを、図示されないメモリに格納しておき、後に、電子メールで送信する等の機能を具備してもよい。
【0043】次に、本発明の第2の実施例について説明する。本発明の第2の実施例の携帯電話装置は、携帯テレビ電話を用いて、音声認識を用いた騒音環境にある携帯テレビ電話を実現したものである。図3は、本発明の第2の実施例の携帯電話装置の構成を示す図であり、図4R>4は、その外観を示す正面図である。
【0044】図3を参照すると、本発明の第2の実施例をなす携帯テレビ電話装置は、送受信兼用のアンテナ1と、送信信号と受信信号を切り換えるアンテナスイッチ2と、送信するための映像を撮影するカメラ21と、カメラ21からのアナログ映像信号をデジタル信号に変換するA/Dコンバータ20と、音声認識の結果得られたテキストデータを映像信号に重畳する(例えばテキストデータを予め決められたタイミング(画面上の位置及び大きさ)でビデオ信号にスーパーインポーズする)多重回路24と、A/Dコンバータ20から出力されるデジタル映像信号を圧縮する映像圧縮回路19と、送信する音声信号を入力するマイクロホン7と、マイクロホン7、イヤホンマイク28からのアナログ音声信号をデジタル変換するA/Dコンバータ6と、A/Dコンバータ6から出力されるデジタル音声信号を圧縮する音声圧縮回路5と、映像圧縮回路19からの映像信号と音声圧縮回路5からの音声信号を多重する多重回路18と、多重回路18から出力される送信信号をQPSK変調する変調回路4と、変調回路4から出力される送信信号を送信周波数に変換する送信回路3と、を備えている。
【0045】さらに、第2の実施例の携帯テレビ電話装置は、受信電波の増幅と周波数同調検波を行う受信回路8と、受信回路8からの信号をQPSK復調する復調回路9と、復調回路9で復調された信号を入力し音声信号と映像信号を分離する分離回路22と、分離回路22で分離された圧縮音声信号を伸張する音声伸張回路10と、音声伸張回路10から出力されるデジタル化されている受信音声信号をアナログ音声信号に変換するD/Aコンバータ11と、音声信号を出力するスピーカ12と、分離回路22で分離された圧縮映像信号を伸張する映像伸張回路23と、映像伸張回路23から出力されるデジタル化されている受信映像信号をアナログ映像信号に変換するD/Aコンバータ25と、受信映像や制御部14からの文字や映像を表示する表示部16と、全体の制御を行う制御部14と、携帯電話の操作回路13と、通話相手からのデジタル音声信号を音声認識を行うことにより、テキストデータに変換する音声認識回路15と、音声認識を開始する音声認識開始ボタン17と、を備えている。
【0046】図4には、本発明の第2の実施例として、騒音環境で通話する通話者の携帯テレビ電話装置26A(図4(b)参照)と、通話相手の携帯テレビ電話装置26B(図4(a)参照)が示されている。携帯テレビ電話装置26Aは、通話相手の話す音声信号を音声認識により、テキストデータに変換して、表示部16に符号27に示すように表示を行うと同時に、通話相手の携帯テレビ電話装置26Bにテキストデータを送信し、携帯テレビ電話装置26Bにも、表示部16に符号29に示すように表示を行う。
【0047】本発明の第2の実施例の携帯テレビ電話装置の動作について、図3を参照して説明する。本発明の第2の実施例における携帯テレビ電話装置の送信動作は次のようにして行われる。マイクロホン7、イヤホンマイク28からのアナログ音声信号はA/Dコンバータ6でデジタル信号に変換され、音声圧縮回路5で帯域圧縮される。ビデオカメラ21で撮影されたアナログ映像信号は、A/Dコンバータ20でデジタル信号に変換され、映像圧縮回路19で帯域圧縮される。帯域圧縮された映像信号は、多重回路18で、圧縮された音声信号と多重され、以降は、音声通話のみの前記実施例の場合と同様の経路で送信される。
【0048】次に本発明の第2の実施例における携帯テレビ電話装置の受信動作について説明する。受信された音声信号は、受信回路8、復調回路9を経て、分離回路22を経由し、分離回路22で分離された音声信号は音声伸張回路10で伸張され、D/Aコンバータ11でアナログ音声信号に変換されてスピーカ12から出力される。
【0049】分離回路22で音声信号から分離された映像信号は、映像伸張回路23で、送信時圧縮された映像信号を伸張する。
【0050】映像伸張回路23で伸張されたデジタル映像信号は、D/Aコンバータ25でアナログ映像信号に変換され、表示部16に表示される。
【0051】図6は、本発明の第2の実施例の携帯テレビ電話装置が、通話開始からの動作を示したフローチャートである。図3、図4、及び図6を参照して、本発明の第2の実施例の動作について説明する。通話を開始したとき、騒音環境かどうかを通話者が判断し(図6のステップS1)、騒音環境になく、通話相手の会話が明瞭に聞き取ることができるときは、そのまま通話を継続する(ステップS3)。騒音環境にあると判断したときには、通話者はイヤホンマイク28を装着する(ステップS2)。通話者がイヤホンマイク28を装着したとき、通話相手の会話が明瞭に聞こえるときはそのまま会話を続ける(ステップS6)。
【0052】通話者がイヤホンマイク28を使っても通話相手の声が明瞭に聞き取ることができないときは(ステップS4のNO分岐)、音声認識開始ボタン17を押下して(ステップS5)、通話相手の声の音声認識を開始し、その結果をテキスト表示27として携帯電話装置26の表示部16に表示する(ステップS7)。
【0053】通話相手の通話データが、受信回路8で受信され、復調回路9でQPSK復調された後、伸張回路10で帯域伸張され、伸張されたデジタル音声データは、音声認識部15で音声認識処理が行われ、その結果は、制御部14により、表示部16において、図4(b)の27のようにテキスト表示される。
【0054】また、テレビ電話モードに設定されている場合において(ステップS8のYES分岐)、送信映像にテキストを重畳する場合(ステップS9のYES分岐)、制御部14により、ビデオカメラ21で撮影され、A/Dコンバータ20でデジタル変換された映像信号に、音声認識されたテキスト信号がテキスト多重回路24で、重畳される。
【0055】テキストが重畳された映像信号は、通話相手の携帯電話装置に送られ、図4(a)の29のように表示される(ステップS10)。テレビ電話モードに設定されていない場合(ステップS8のNO分岐)と、テレビ電話モードに設定されているが、送信映像に重畳しない場合(ステップS9のNO分岐)、テキストの映像信号への重畳、通話相手の携帯電話装置への送信は行われない(ステップS11)。
【0056】なお上記実施例において、音声認識開始ボタン17を再度押下することで、音声認識機能を停止させるように制御してもよいことは勿論である。
【0057】上記した本発明の第1、第2の実施例の作用効果について説明する。
【0058】本発明の実施例においては、デジタル移動体通信網を介して伝送された通話相手の音声信号から、テキストデータに変換する音声認識手段を備え、通話相手の音声は、圧縮符号化されたデジタルデータとして伝送されてくるため、アナログからデジタルに変換する必要がなく、そのまま、音声認識し、テキストデータに変換することができる。
【0059】音声信号から、音声認識手段により変換された、テキストデータを表示手段で表示することにより、通話相手の会話内容を理解するための補助データとすることができ、騒音環境でも会話を行うことができる。
【0060】通話中に、操作キーを制御することにより、その時点からの通話相手の会話を音声認識によりテキストデータへの変換を開始する操作キーを備え、騒音環境で通話中、相手の会話内容が聞き取ることができない場合、キー入力により簡易に、音声認識を開始することができる。
【0061】上記実施例によれば、通話相手の会話を音声認識によりテキストデータへの変換をし、表示部に表示することにより、騒音環境下で音声通話の理解しにくい部分を、音声認識されたテキスト表示を見ることにより、通話相手の会話の内容の理解を助けることができる。また、かかるテキスト表示機能は、聴覚障害者、難聴のユーザに対しても、携帯電話装置の利便性を向上している。
【0062】通話相手の会話を音声認識によりテキストデータへの変換をし、そのテキストデータを通話相手にも伝送し、通話相手の端末の表示部に表示することができる構成とされ、騒音環境下にいる通話者の携帯電話装置に表示されている相手の通話を音声認識し変換後のテキストデータを通話相手の電話機に伝送して表示し、通話相手側でも、自分が話した内容を、テキストに変換されている内容を通して確認することができる。
【0063】携帯テレビ電話装置を利用したテレビ会議等において、通話相手の音声認識結果であるテキストデータを、図示されないメモリに格納しておき,後に、会議の議事録の一部として利用することもできる。このテキストデータを電子メールで配布してもよい。
【0064】なお、接続相手に伝送される音声認識結果のテキストデータは、音声情報、映像情報等に多重化して情報チャネル(TCH)を用いて転送される。音声認識結果のテキストデータは例えば日本語1文字(例えばJIS)で2バイト、英数字等は1文字で1バイトと、そのデータ容量(バイト数)は小さいことから、情報チャネルで本来転送されるべき情報を圧迫することはない。また音声認識結果のテキストデータは、基地局と携帯電話装置との間の無線チャネルのうち、制御チャネル(CCH)等に付加して伝送してもよい。
【0065】次に本発明の第3の実施例について説明する。前記第1及び第2の実施例では、騒音環境下にある携帯電話装置の側で受信音声の音声認識を行っているが、送信側の端末で話者が入力した音声を認識し、音声認識の結果得たテキストデータを、制御チャネルを用いて、あるいは、音声信号に多重し、騒音環境下の携帯電話に送り、表示するようにしている。
【0066】図7は、本発明の第3の実施例の構成を示す図である。図7を参照すると、本発明の第3の実施例をなす携帯電話装置は、送受信兼用のアンテナ1と、送信信号と受信信号を切り換えるアンテナスイッチ2と、送信する音声信号を入力するマイクロホン7と、マイクロホン7からのアナログ音声信号をデジタル変換するA/Dコンバータ6と、A/Dコンバータ6から出力されるデジタル音声信号を圧縮する音声圧縮回路5と、音声圧縮回路5から出力される送信信号を例えばQPSK変調する変調回路4と、制御部14から出力されるテキストデータを受け取り変調する変調回路31と、変調回路4からの信号と変調回路31から出力されるテキスト変調信号を入力して多重化して出力する多重回路30と、多重回路30から出力される送信信号を送信周波数に変換する送信部3と、を備えている。
【0067】さらに、この第3の実施例の携帯電話装置は、受信電波の増幅と周波数同調検波を行う受信回路8と、受信回路8からの信号を音声変調信号とテキスト変調信号に分離する分離回路33と、分離回路33で分離された音声変調信号をQPSK復調する復調回路9と、分離回路33で分離されたテキスト変調信号を復調する復調回路32と、復調回路9から出力される圧縮音声信号を伸張する音声伸張回路10と、音声伸張回路10から出力されるデジタル受信音声信号をアナログ音声信号に変換するD/Aコンバータ11と、D/Aコンバータ11から出力されるアナログ信号を受け、音声信号を出力するスピーカ12と、A/Dコンバータ6から出力されるデジタル音声信号を入力して音声認識を行いテキストデータに変換する音声認識回路15と、制御部14からの文字や画像を表示する、LCD(Liquid Crystal Display)等の表示部16と、キー、ボタン等を有する操作部13と、音声認識を開始する音声認識開始ボタン17と、利用者が装着して通話を行うためのイヤホンマイク28と、全体の制御を行う制御部14とを備えている。制御部14は、音声認識開始ボタン17の入力、操作部13の入力を受け取る。また制御部14は、復調回路32で復調されたテキストデータを受け取り、表示部16への表示を制御する。また制御部14は、音声認識回路15で音声認識されたテキストデータを受け取り、表示部16へ出力する。制御部14は、音声認識回路15で音声認識されたテキストデータを変調回路31へ出力する。
【0068】図8は、本発明の第3の実施例の携帯電話装置の外観を示す図である。図8の26Cは、マイクロホン7からの音声入力を音声認識して送信する側の携帯電話装置、26Dは、騒音下にありイヤホンマイク28を用いて通話し、携帯電話装置26Cから音声認識されたテキストデータを表示部16に表示している携帯電話装置である。なお、携帯電話装置の参照符号は図5に示したものと同様とされる。図9は、本発明の第3の実施例の動作を説明するための流れ図である。
【0069】図7乃至図9を参照すると、騒音環境にあり、イヤホンマイク28を装着した状態で、相手の声が明瞭に聞こえない場合(図9のステップS4がNOの場合)、通話相手の携帯電話装置の音声認識開始ボタン17を押してもらう(ステップS12)。
【0070】すると、相手端末において、マイクロホン7からのアナログ音声信号がA/Dコンバータ6でデジタル変換された後、音声認識部15で音声認識され、認識された結果であるテキストデータは制御部14を経由し、図8(a)に示すように、端末26Cにおいて、表示部16に、符号29で示すように表示される(ステップS13)。
【0071】テキストデータは、変調回路31で変調され多重回路30で変調された音声信号と多重される。多重された信号は送信回路3で送信周波数に変換され、増幅されてアンテナスイッチ2を経由してアンテナ部1より送信される。
【0072】騒音環境下の端末では、アンテナ1で受信した通信電波はアンテナスイッチ2を経て受信回路8に入力される。受信回路8で受信電波の増幅と周波数同調が行われる。受信回路8から取り出された後、変調信号は分離回路33で音声変調信号とテキスト変調信号とに分離される。分離されたテキスト変調信号は、復調回路32でテキストデータに復調され、復調されたテキストデータは、図8(b)に示すように、端末26Dにおいて、制御部14を経由して表示部16で符号27で示すように表示される。
【0073】次に、本発明の第4の実施例について説明する。この第4の実施例は、前記第3の実施例の機能を、携帯テレビ電話の場合に適用したものである。図10R>0は、本発明の第4の実施例の携帯電話装置の構成を示す図であり、図11は、その外観の一例を示す正面図である。
【0074】図10を参照すると、本発明の第4の実施例をなす携帯テレビ電話装置は、送受信兼用のアンテナ1と、送信信号と受信信号を切り換えるアンテナスイッチ2と、送信するための映像を撮影するビデオカメラ21と、ビデオカメラ21からのアナログ映像信号をデジタル信号に変換するA/Dコンバータ20と、送信する音声信号を入力するマイクロホン7と、マイクロホン7又はイヤホンマイク28からのアナログ音声信号をデジタル変換するA/Dコンバータ6と、A/Dコンバータ6から出力されるデジタル音声信号を圧縮する音声圧縮回路5と、A/Dコンバータ6から出力されるデジタル音声信号を音声認識してテキストデータに変換し制御部14に出力する音声認識回路15と、制御部14から供給される音声認識結果であるテキストデータを、A/Dコンバータ20から出力されるデジタル映像信号に重畳するテキスト多重回路24と、テキスト多重回路24から出力されるデジタル映像信号を圧縮する映像圧縮回路19と、映像圧縮回路19からの映像信号と、音声圧縮回路5からの音声信号を多重する多重回路18と、多重回路18から出力される送信信号をQPSK変調する変調回路4と、変調回路4から出力される送信信号を送信周波数に変換する送信回路3と、を備えている。
【0075】さらに、この第4の実施例の携帯電話装置は、受信電波の増幅と周波数同調検波を行う受信回路8と、受信回路8からの信号をQPSK復調する復調回路9と、復調回路9で復調された信号を入力し音声信号と映像信号を分離する分離回路22と、分離回路22で分離された圧縮音声信号を伸張する音声伸張回路10と、音声伸張回路10から出力されるデジタル化されている受信音声信号をアナログ音声信号に変換するD/Aコンバータ11と、音声信号を出力するスピーカ12と、分離回路22で分離された圧縮映像信号を伸張する映像伸張回路23と、映像伸張回路23から出力されるデジタル化されている受信映像信号をアナログ映像信号に変換するD/Aコンバータ25と、受信映像や制御部14からの文字や映像を表示する表示部16と、全体の制御を行う制御部14と、携帯電話の操作回路13と、音声認識を開始する音声認識開始ボタン17と、を備えている。
【0076】図12は、本発明の第4の実施例の動作を説明するための流れ図である。図10乃至図12を参照して、本発明の第4の実施例の動作について説明する。騒音環境下で、通話相手の声が明瞭に聞こえない場合(図12のステップS4のNO)で、テレビ電話モードの場合(ステップS14のYES)、通話相手に、音声認識開始ボタン17を押してもらう(ステップS15)。
【0077】通話相手の端末では、マイクロホン7からのアナログ音声信号をA/Dコンバータ6でデジタル変換されたデジタル音声信号は、音声認識回路15で音声認識される。
【0078】音声認識の結果として出力されるテキストデータは、図11(a)の装置26Eにおいて、制御部14を経由して表示部16に29のように表示する(ステップS16)。音声認識の結果として制御部14から出力されるテキストデータはテキスト重畳回路24に入力され、ビデオカメラ21で撮影され、A/Dコンバータ20でデジタル変換された映像信号に重畳される。その後、テキスト重畳された映像信号は、映像圧縮回路19で帯域圧縮された後、多重回路18で音声信号と多重されて相手端末に送信される。
【0079】次に、テキストデータと映像信号と音声信号が多重化されて伝送される信号を受け取る側の端末の受信動作の経路について説明する。受信回路8、復調回路9を経て、分離回路22を経由し、デジタルの映像信号と音声信号に分離され、映像信号は、映像伸張回路23で、送信時圧縮された映像信号を伸張する。伸張された映像信号はD/Aコンバータ25でアナログ映像信号に変換され、表示部16に表示される。映像信号に多重されたテキストデータは、図11(b)の装置26Fにおいて、表示部16に27のように表示される(ステップ12のS17)。
【0080】この実施例では、話者側で音声認識した結果のテキストデータを相手側端末に送信する構成としたことにより、伝送系等でのノイズを受けることなく、相手側端末に表示させることができる。
【0081】次に、第5の実施例について説明する。前記各実施例では、通信端末側で音声認識を行っているが、端末間の通信網で音声信号の音声認識を行ってもよいことは勿論である。音声認識の開始は、通信端末からの指示で行う場合、通信事業者が通信網で常時行うようにしてもよい。あるいは、通信端末と通信網側で分散処理して行ってもよい。
【0082】図13は、本発明の第5の実施例として、交換局36で音声認識を行う場合の構成の一例を示している。交換局36は、基地局35に接続する側から、交換局インタフェース37、交換機40、交換局インタフェース41を備え、交換機40と交換局インタフェース37の間の双方の経路に、音声認識回路42による音声認識結果をテキスト変換回路43でテキストデータに変換したものと音声信号を多重する多重回路38、39を備えている。
【0083】騒音環境下の端末26と通話している端末26’からの音声データは、交換機40で交換された後、音声認識回路42で、音声認識され、テキスト変換回路43でテキストデータに変換され、多重回路38で、交換機40から出力された音声信号と多重される。
【0084】テキストデータが多重された音声信号は、交換局インタフェース37を経由して騒音環境下の端末26に送られ、前記第1の実施例と同様にして、端末26の表示部にテキストデータが表示される。
【0085】交換局36で、騒音環境下の端末26からの音声信号に、テキスト変換回路43からのテキストデータが重畳され、端末26’の表示部でも、テキストデータが表示され、端末26’側の話者も音声認識結果を確認することができる。なお、騒音環境下の端末26が、前記第1の実施例の携帯電話装置よりなり、交換局36側では、端末26の負荷状況に基づき、あるいは、端末26からの要求により、音声認識回路42で音声認識を行い、テキスト変換回路43でテキストデータに変換する構成としてもよい。
【0086】現在のPDC移動体パケット通信システム(第2世代)、及び次世代移動通信IMT−2000ではインターネットへの簡易なアクセス能力が提供される。したがって、本発明において、音声認識が行われる通信網上のノードとしては、上記した交換局に限定されるものでなく、音声信号等をパケット化して伝送するゲートウエイ、ルータ等で音声認識を行い、音声認識結果をパケットに挿入して相手端末宛てに経路選択して伝送構成としてもよい。例えば3GPP(Third Generation Partnership Project)のコアネットワーク方式では、図14に示すように、回線交換機能(MSC(Mobile services Switching Center)/GMSC(Gateway MSC))とパケット交換機能(PDSN(Packet Data Serving Node)/PDGN(Packet Data Gateway Node))を単一ノードに統合化することで、音声トラフィックから各種メディアを統合的に交換・伝送できることが知られている。ユーザIP(internet protocol)パケットをノードATM(Asynchronous Transfer Mode)アドレスに基づくATM−SVC(SwitchedVirtual Connection)によりトネリングし、QoS(Quality of Services)を提供しているが、このコアネットワークで音声の認識を行い、回線交換又はパケット交換で交換・伝送される音声データに、音声認識結果であるテキストデータを付加して宛先端末に伝送するようにしてもよい。図14に示したコアネットワークは、立川敬二監修、「W−CDMA移動通信方式」、丸善(株)発行、平成13年6月25日発行の第239頁の図4.2、あるいは、木下 耕太著、「やさしいIMT−2000 第3世代移動通信方式」、電気通信協会、平成13年5月10日発行、第81頁の図5.2が参照される。
【0087】上記実施例によれば、通信網側で、音声認識した結果のテキストデータを接続先端末に送信する構成としたことにより、音声認識処理を実行するDSP(デジタル信号プロセッサ)等の処理負荷を削減し、バッテリ駆動の端末の消費電流の増大を抑止することができる。
【0088】上記した各実施例では、携帯電話装置の構成として、表示部と音声通話部とが一体型とされた例に基づき説明したが、音声通話部と、映像表示のための表示部とを着脱自在な構成とし、音声通話部と、表示部を分離し単独に使用可能とした構成としてもよい。音声通話部を映像表示/撮像部から分離独立させた携帯電話装置については、本願発明者による特開2000−50223号公報等が参照される。映像表示/撮像部と、音声通話部は、赤外線、Bluetooth等の無線で通信する構成としてもよい。音声通話部と、表示部を分離し単独に使用可能とした構成の場合、利用者はイヤホンマイクを装着することなく、表示部に表示されるテキストを見ることができる。
【0089】携帯電話装置は、PHS(Personal Handyphone System)端末、携帯情報端末(PDA)等であってもよいことは勿論である。あるいは、VoIP(Voice OverIP)機能を備えたパソコン等の端末であってもよい。以上本発明を上記実施例に即して説明したが、本発明は、上記実施例の構成にのみ限定されるものでなく、特許請求の範囲の各請求項の発明の範囲内で、当業者であればなし得るであろう各種変形、修正を含むことは勿論である。
【0090】
【発明の効果】以上説明したように、本発明によれば下記記載の効果を奏する。
【0091】本発明によれば、通話相手の音声信号をテキストデータに変換する音声認識手段を備えたことにより、通話相手の会話内容の理解を助け、例えば騒音環境でも会話を行うことができる、という効果を奏する。
【0092】本発明によれば、通話中に、キーの操作時点からの通話相手の会話を音声認識によりテキストデータへの変換を開始する操作キーを備え、騒音環境で通話中、相手の会話内容が聞き取ることができない場合、キー入力により簡易に、音声認識を開始することができる、という効果を奏する。
【0093】さらに、本発明によれば、通話相手の会話を音声認識によりテキストデータへ変換して、該テキストデータを通話相手に伝送し、通話相手の端末の表示部にも表示できるようにしたことにより、通話相手側でも自分が話した内容を、テキストに変換されている内容を通して知ることができ、利便性を向上している。
【0094】本発明によれば、話者側で音声認識した結果のテキストデータを相手側端末に送信する構成としたことにより、伝送系等でのノイズを受けることなく、相手側端末に表示させることができる。
【0095】本発明によれば、通信網側で、音声認識した結果のテキストデータを接続先端末に送信する構成としたことにより、端末での処理負荷を低減し、バッテリ駆動の端末の消費電力の増大を抑止低減することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施例の携帯電話装置の構成を示す図である。
【図2】本発明の第1の実施例の携帯電話装置の外観を示す図である。
【図3】本発明の第2の実施例の携帯電話装置の構成を示す図である。
【図4】本発明の第2の実施例の携帯電話装置の外観を示す図である。
【図5】本発明の第1の実施例の携帯電話装置の動作を説明するための流れ図である。
【図6】本発明の第2の実施例の携帯電話装置の動作を説明するための流れ図である。
【図7】本発明の第3の実施例の携帯電話装置の構成を示す図である。
【図8】本発明の第3の実施例の携帯電話装置の外観を示す図である。
【図9】本発明の第3の実施例の携帯電話装置の動作を説明するための流れ図である。
【図10】本発明の第4の実施例の携帯電話装置の構成を示す図である。
【図11】本発明の第4の実施例の携帯電話装置の外観を示す図である。
【図12】本発明の第4の実施例の携帯電話装置の動作を説明するための流れ図である。
【図13】本発明の第5の実施例の交換局の構成を示す図である。
【図14】本発明が適用される3GPPコアネットワークの構成を示す図である。
【符号の説明】
1 送受信兼用のアンテナ
2 アンテナスイッチ
3 送信部
4 変調回路
5 音声圧縮回路
6、20 A/Dコンバータ
7 マイクロホン
8 受信回路
9 復調回路
10 音声伸張回路
11、25 D/Aコンバータ
12 スピーカ
13 操作部
14 制御部
15 音声認識回路
16 表示部
17 音声認識開始ボタン
18 多重回路
19 映像圧縮回路
21 ビデオカメラ
22 分離回路
23 映像伸張回路
24 多重回路
26、26C、26D 携帯電話装置
26A、26B、26E、26F 携帯テレビ電話装置
27、29 テキスト表示
28 イヤホンマイク
30 多重回路
31 変調回路
32 復調回路
33 分離回路
35 基地局
36 交換局
37、41 交換局インタフェース
38、39 多重回路
40 交換機
42 音声認識回路
43 テキスト変換回路

【特許請求の範囲】
【請求項1】接続相手の端末と通話接続時に、音声認識モードに設定されている場合、前記接続相手の端末から送信された通話相手の音声をデジタル音声信号として受け取って音声認識しテキストデータに変換する音声認識手段と、前記音声認識手段で変換されたテキストデータを出力手段から出力させる制御を行う制御手段と、を備えている、ことを特徴とする端末装置。
【請求項2】前記出力手段が、表示手段よりなり、前記テキストデータが前記表示手段に表示される、ことを特徴とする請求項1に記載の端末装置。
【請求項3】前記出力手段として、前記音声認識手段から出力される前記テキストデータを前記接続相手の端末に送信する手段を備えている、ことを特徴とする請求項1又は2に記載の端末装置。
【請求項4】接続相手の端末から送信された音声信号を音声認識してテキストデータに変換する音声認識手段と、前記音声認識結果のテキストデータを前記接続相手の端末に送信する手段と、を備えている、ことを特徴とする端末装置。
【請求項5】請求項4に記載の前記端末装置と通信接続する端末装置であって、請求項4に記載の前記端末装置から送信される前記テキストデータを受け取り表示手段に表示する制御を行う手段を備えている、ことを特徴とする端末装置。
【請求項6】接続相手の端末から送信された音声信号を音声認識してテキストデータに変換する音声認識手段と、前記音声認識結果のテキストデータを前記接続相手の端末に送信する手段と、接続相手の端末から送信された信号からテキストデータを取りだし前記テキストデータを表示手段に表示させる制御を行う手段と、を備えている、ことを特徴とする端末装置。
【請求項7】前記音声認識結果のテキストデータを、前記接続相手の端末に送信される信号に多重して前記接続相手の端末に送信する手段を備えている、ことを特徴とする請求項6に記載の端末装置。
【請求項8】前記音声認識結果のテキストデータを、前記接続相手の端末に送信される映像情報に多重して前記接続相手の端末に送信する手段を備えている、ことを特徴とする請求項6に記載の端末装置。
【請求項9】前記音声認識手段は、前記接続相手の端末から送信された通話相手の音声を復調手段で復調し伸張手段で伸張してなるデジタル音声信号を入力として受け取り音声認識を行う、ことを特徴とする請求項1乃至4、請求項6乃至8のいずれか一に記載の端末装置。
【請求項10】音声入力手段から入力されデジタル信号に変換された音声信号を圧縮して出力する音声圧縮手段と、前記音声圧縮手段からの出力信号を変調して出力する変調手段と、前記変調手段の出力信号を受けて無線送信する無線送信手段と、無線受信手段で受信された信号を復調して出力する復調手段と、前記復調手段で復調された信号を受け取って伸張しデジタル音声信号を出力する音声伸張手段と、前記音声伸張手段から出力されるデジタル音声信号を音声認識してテキストデータに変換して出力する音声認識手段と、前記音声伸張手段から出力されるデジタル音声信号をアナログ信号に変換した信号を受け取って音声出力する音声出力手段と、音声認識モードに設定されている場合に、前記音声伸張手段で伸張された前記デジタル音声信号は、前記音声認識手段に入力されて音声認識が行われ、前記音声認識手段から出力されるテキストデータを、表示手段に供給して表示させる制御を行う制御手段と、を備えている、ことを特徴とする端末装置。
【請求項11】入力された音声信号を音声認識してテキストデータに変換して出力する音声認識手段と、前記音声認識手段から出力される音声認識結果のテキストデータと、映像入力手段から入力されデジタル信号に変換された映像情報とを入力し、これらを多重して出力する第1の多重手段と、前記第1の多重手段の出力信号を受け圧縮して出力する映像圧縮手段と、音声入力手段から入力されデジタル信号に変換された音声信号を圧縮して出力する音声圧縮手段と、前記映像圧縮手段からの出力信号と前記音声圧縮手段からの出力信号とを入力し、これらの信号を多重して出力する第2の多重手段と、前記第2の多重手段の出力信号を変調して出力する変調手段と、前記変調手段の出力信号を受けて無線送信する無線送信手段と、無線受信手段で受信された信号を復調して出力する復調手段と、前記復調手段で復調された信号を入力し映像信号と音声信号とに分離して出力する分離手段と、前記分離手段で分離された前記映像信号を受け取って伸張しデジタル映像信号を出力する映像伸張手段と、前記分離手段で分離された前記音声信号を受け取って伸張しデジタル音声信号を出力する音声伸張手段と、前記映像伸張手段から出力されるデジタル映像信号をアナログ信号に変換した信号を受け取って表示する表示手段と、前記音声伸張手段から出力されるデジタル音声信号をアナログ信号に変換した信号を受け取って音声出力する音声出力手段と、音声認識モードに設定されている場合に、前記音声伸張手段で伸張された前記デジタル音声信号は、前記音声認識手段に入力されて音声認識が行われ、前記音声認識手段から出力されるテキストデータを、前記第1の多重手段に供給する制御を行う制御手段と、を備えている、ことを特徴とする端末装置。
【請求項12】前記制御手段が、前記音声認識手段から出力されるテキストデータを表示手段に供給して表示させるように制御する手段を備えている、ことを特徴とする請求項11に記載の端末装置。
【請求項13】利用者が音声入力手段より入力した音声を音声認識してテキストデータに変換する音声認識手段と、前記音声認識結果であるテキストデータを接続相手の端末装置に送信する手段と、を備えている、ことを特徴とする端末装置。
【請求項14】前記音声認識結果であるテキストデータが表示手段に表示される、ことを特徴とする端末装置。
【請求項15】請求項13又は14に記載の端末装置に接続する前記接続相手の端末装置であって、請求項13又は14に記載の前記端末装置から送信された信号からテキストデータを抽出し前記テキストデータを表示手段に表示する制御を行う手段を備えている、ことを特徴とする端末装置。
【請求項16】前記音声認識結果であるテキストデータを、前記接続相手の端末装置に送信する音声信号、又は、前記接続相手の端末装置に送信する映像信号に多重して前記接続相手の端末装置に送信する手段を備えている、ことを特徴とする請求項13又は14に記載の端末装置。
【請求項17】音声入力手段から入力されデジタル信号に変換された音声信号を圧縮して出力する音声圧縮手段と、前記音声入力手段から入力されデジタル信号に変換された音声信号を音声認識してテキストデータに変換して出力する音声認識手段と、前記音声圧縮手段の出力信号を変調して出力する第1の変調手段と、入力されたテキストデータを変調して出力する第2の変調手段と、前記第1及び第2の変調手段の出力信号を受け、これらの信号を多重して出力する多重手段と、前記多重手段の出力信号を受けて無線送信する無線送信手段と、無線受信手段で受信された信号をテキスト信号と音声信号に分離して出力する分離手段と、前記分離手段で分離された前記音声信号を受け取り前記音声信号を復調して出力する第1の復調手段と、前記分離手段で分離された前記テキスト信号を受け取り前記テキスト信号を復調しテキストデータを出力する第2の復調手段と、前記第1の復調手段の出力信号を受け取って伸張しデジタル音声信号を出力する音声伸張手段と、前記音声伸張手段で伸張されたデジタル音声信号をアナログ信号に変換した信号を受け取り音声出力する音声出力手段と、を備え、前記第2の復調手段は、復調した前記テキストデータを制御手段に受けわたし、前記制御手段は、前記第2の復調手段で復調された前記テキストデータを受け取り、表示手段に前記テキストデータを表示するとともに、前記第2の変調手段に供給し、さらに、前記制御手段は、前記音声認識手段からのテキストデータを受け取り前記第2の変調手段に供給する制御を行う、ことを特徴とする端末装置。
【請求項18】音声入力手段から入力されデジタル信号に変換された音声信号を圧縮して出力する音声圧縮手段と、前記音声入力手段から入力されデジタル信号に変換された音声信号を音声認識してテキストデータに変換して出力する音声認識手段と、前記テキストデータと、映像入力手段から入力されデジタル信号に変換された映像情報とを入力し、これらを多重して出力する第1の多重手段と、前記第1の多重手段の出力信号を受け取り圧縮した映像信号を出力する映像圧縮手段と、前記映像圧縮手段からの出力信号と前記音声圧縮手段からの出力信号とを入力し、これらの信号を多重して出力する第2の多重手段と、前記第2の多重手段の出力信号を変調して出力する変調手段と、前記変調手段の出力信号を受けて無線送信する無線送信手段と、無線受信手段で受信された信号を復調して出力する復調手段と、前記復調手段で復調された信号を入力し映像信号と音声信号とに分離して出力する分離手段と、前記分離手段で分離された前記映像信号を受け取って伸張しデジタル映像信号を出力する映像伸張手段と、前記分離手段で分離された前記音声信号を受け取って伸張しデジタル音声信号を出力する音声伸張手段と、前記映像伸張手段で伸張されたデジタル映像信号をアナログ信号に変換した信号を受け取り表示する表示手段と、前記音声伸張手段で伸張されたデジタル音声信号をアナログ信号に変換した信号を受け取り音声出力する音声出力手段と、音声認識モードに設定されている場合に、前記音声認識手段で音声認識が行われて出力されるテキストデータを前記第1の多重手段に供給する制御を行う制御手段と、を備えている、ことを特徴とする端末装置。
【請求項19】前記制御手段が、前記テキストデータを、前記表示手段に供給して表示する、ことを特徴とする請求項18に記載の端末装置。
【請求項20】音声認識の開始を指示するための操作キーを備え、前記操作キーの所定の操作が行われた際に、前記音声認識手段による音声のテキストデータへの変換処理を開始させる手段を備えている、ことを特徴とする請求項1乃至4、請求項6乃至14、請求項16乃至19のいずれか一に記載の端末装置。
【請求項21】監視対象の所定の信号の状態が予め定められた条件を満たしている場合に、前記音声認識手段による音声のテキストデータへの変換処理を開始させる手段を備えている、ことを特徴とする請求項1乃至4、請求項6乃至14、請求項16乃至19のいずれか一に記載の端末装置。
【請求項22】一の端末と他の端末との間で送受される音声信号を伝送する通信網上の少なくとも一のノードが、前記伝送される音声信号を受け取って音声認識しテキストデータに変換する手段を備え、前記変換されたテキストデータが、前記通信網上の前記一のノードから前記音声信号の受け手側の端末、又は、前記音声信号の受け手と送り手側の双方の端末に伝送される、ことを特徴とする通信システム。
【請求項23】前記音声信号の受け手、又は、前記音声信号の受け手と送り手の端末が、音声信号を音声認識してテキストデータに変換する手段を備え、前記音声信号の受け手及び/又は送り手の端末の負荷状況に基づき、あるいは、前記音声信号の受け手及び/又は送り手の端末からの要求により、前記通信網側で音声認識を行う、ことを特徴とする請求項22に記載の通信システム。
【請求項24】請求項1乃至4、請求項6乃至14、請求項16乃至21のいずれか一に記載の端末装置において、前記端末装置が、基地局と無線通信する移動局である、ことを特徴とする端末装置。
【請求項25】請求項22又は23に記載の前記通信網に接続する端末が、基地局と無線通信する移動局である、ことを特徴とする端末装置。
【請求項26】請求項1乃至4、請求項6乃至14、請求項16乃至21のいずれか一に記載の端末装置において、音声入力手段と音声出力手段とを備えた第1のユニットと、表示手段を備えた第2のユニットとに互いに分離自在とされている、ことを特徴とする端末装置。
【請求項27】互いに通信接続する複数の端末のうち一の端末が、他の端末から送信された通話相手の音声を復調及び伸張してなるデジタル音声信号を受け取って音声認識しテキストデータに変換するステップと、前記一の端末において前記テキストデータを出力手段から出力するステップと、を含む、ことを特徴とする通信制御方法。
【請求項28】前記テキストデータを、前記一の端末において前記出力手段をなす表示部に表示する、ことを特徴とする請求項27に記載の通信制御方法。
【請求項29】前記一の端末が前記テキストデータを前記他の端末に送信するステップを有し、通話相手の会話を音声認識した結果が前記通話相手に返送される、ことを特徴とする請求項27又は28に記載の通信制御方法。
【請求項30】前記他の端末において、前記一の端末から送信される前記テキストデータを前記他の端末の表示部に表示するステップを有する、ことを特徴とする請求項27又は28に記載の通信制御方法。
【請求項31】前記一の端末上での予め定められた所定の操作キーの操作により、あるいは、予め定められた監視対象の信号が所定の条件を満たしている場合に、前記一の端末において、通話相手の会話を音声認識し、テキストデータへの変換を開始するように制御する、ことを特徴とする請求項27乃至30のいずれか一に記載の通信制御方法。
【請求項32】一の端末が、接続相手の端末から送信された音声信号を音声認識してテキストデータに変換するステップと、前記一の端末が、音声認識結果のテキストデータを、前記接続相手の端末に送信するステップと、前記一の端末が、接続相手の端末から送信された音声認識結果のテキストデータを表示手段に表示させる制御を行うステップと、を含む、ことを特徴とする通信制御方法。
【請求項33】前記各端末が携帯テレビ電話機能付きの端末よりなり、前記一の端末は、前記音声認識結果のテキストデータを前記接続相手の端末に送信される映像情報に多重して前記接続相手の端末に送信する、ことを特徴とする請求項32記載の通信制御方法。
【請求項34】利用者が一の端末より入力した音声を音声認識してテキストデータに変換するステップと、前記音声認識結果であるテキストデータを接続相手の端末に送信するステップと、を含む、ことを特徴とする通信制御方法。
【請求項35】前記音声認識結果であるテキストデータが前記一の端末の表示部に表示される、ことを特徴とする請求項34記載の通信制御方法。
【請求項36】前記接続相手の端末では、前記一の端末より送信されたテキストデータを表示部に表示する、ことを特徴とする請求項34又は35記載の通信制御方法。
【請求項37】前記一の端末より、音声認識結果であるテキストデータを、前記接続相手の端末に送信される音声信号又は映像信号に多重して、前記接続相手の端末に送信するステップを含む、ことを特徴とする請求項34又は35記載の通信制御方法。
【請求項38】少なくとも話者の音声信号を伝送する送信側端末と受信側端末との間の通信網に設けられている音声認識装置が前記音声信号を受け取って音声認識しテキストデータに変換するステップと、前記通信網上の音声認識装置で変換されたテキストデータが、受信側の端末、又は、受信側の端末と送信側の端末に伝送されるステップと、を含む、ことを特徴とする通信制御方法。

【図1】
image rotate


【図2】
image rotate


【図3】
image rotate


【図4】
image rotate


【図5】
image rotate


【図6】
image rotate


【図7】
image rotate


【図8】
image rotate


【図9】
image rotate


【図10】
image rotate


【図11】
image rotate


【図13】
image rotate


【図12】
image rotate


【図14】
image rotate


【公開番号】特開2003−143256(P2003−143256A)
【公開日】平成15年5月16日(2003.5.16)
【国際特許分類】
【出願番号】特願2001−332769(P2001−332769)
【出願日】平成13年10月30日(2001.10.30)
【出願人】(000004237)日本電気株式会社 (19,353)
【Fターム(参考)】