説明

音声処理方法と通信システム並びに通信端末およびサーバとプログラム

【課題】通信端末にあらかじめ内蔵されたプログラムおよびデータと音声処理とを連携させて動作させるシステムの提供。
【解決手段】通信端末100は、第1プログラムおよびデータ格納手段101と、音声処理手段102と、音声処理手段用の言語情報を作成する音声処理言語情報作成手段103と、サーバ200からプログラム/データを取得する送受信手段104と、取得したプログラム/データを記憶する第2プログラムおよびデータ格納手段105と、第2プログラムおよびデータ格納手段105に記憶されたプログラム/データに基づいて、音声処理手段102と、第1プログラムおよびデータ格納手段101のプログラム/データを連携制御する制御手段106を含み、サーバ200は、送受信手段201と、通信端末から送信されたデータを基に言語情報を作成する音声処理言語情報作成手段202を含む。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、通信システムに関し、特に、端末と、該端末と通信接続されるサーバとが処理の連携を実現するシステムと方法並びにコンピュータ・プログラムに関する。
【背景技術】
【0002】
従来の通信端末およびシステムの一例が、後記特許文献1、特許文献2等に記載されている。このうち、後記特許文献1に記載の通信端末は、音声認識部と、音声合成部、制御部、送受信部、データ変換部を備え、入力音声を音声認識によりテキストに変換して送信し、送受信部より受信したデータを音声合成により読み上げるものである。
【0003】
また、後記特許文献2に記載された通信端末は、音声認識部と、音声合成部、制御部(メール処理部)を備え、音声入力によりメールを作成し、音声合成によりメールを読み上げるものである。
【0004】
【特許文献1】特開2003−188948号公報(第4頁、第1図)
【特許文献2】特開2002−077315号号公報(第2、3頁、第1図)
【発明の開示】
【発明が解決しようとする課題】
【0005】
上記した従来の端末では、端末外部より受信したプログラムが、端末に内蔵されているプログラムや、プログラムが管理するデータ、特に、ユーザ独自のデータやシステムの状態に応じて、ダイナミックに変化するデータと、音声処理機能とを、例えば端末に固有の所望の態様で、連携させて動作させることができない。
【0006】
したがって、本発明の目的は、通信端末に内蔵されたプログラム及び/又はデータと、音声処理等の処理とを組み合わせて所望の機能を実現可能とした通信システムおよびサーバおよび通信端末を提供することにある。
【課題を解決するための手段】
【0007】
本願で開示される発明は、上記目的を達成するため、概略以下の構成とされる。
【0008】
本発明の一つのアスペクト(側面)に係る通信端末は、音声認識及び/又は音声合成の処理を行う音声処理部と、通信端末上で予め定められた所定の機能を実現するためのプログラム及び/又はデータを少なくとも記憶する第1の記憶部と、前記通信端末外部から前記通信端末に入力され、前記第1の記憶部に記憶されているプログラム及び/又はデータと、前記音声処理部による音声処理との連携の仕方を規定するプログラム及び又はデータを少なくとも記憶する第2の記憶部と、前記通信端末外部から入力された前記プログラム及び/又はデータと、前記第1の記憶部に記憶されている前記プログラム及び/又はデータと用いて、前記音声処理部による音声処理と、前記第1の記憶部に記憶されている前記プログラム及び/又はデータによる前記機能と、を連携動作させる制御を行う制御部と、を備えている。
【0009】
本発明において、前記制御部は、前記第2の記憶部に記憶されているプログラムを起動し、起動された前記プログラムが、前記第1の記憶部に記憶されているプログラムを呼び出すか、データを用いて、前記音声処理部による音声処理と、前記第1の記憶部に記憶されているプログラム及び/又はデータとを連携動作させる。
【0010】
本発明の一つのアスペクト(側面)に係る通信端末は、音声認識及び/又は音声合成の処理を行う音声処理部と、通信端末が保持する情報を少なくとも記憶する第1の記憶部と、前記通信端末の外部から前記通信端末に入力され、音声処理用の言語情報を作成する手順を規定したプログラムを少なくとも記憶する第2の記憶部と、前記第2の記憶部に記憶されている、音声処理用の言語情報を作成する手順を規定したプログラムの起動を制御する制御部と、を備え、前記第2の記憶部に記憶されている前記音声処理用の言語情報を作成する手順を規定したプログラムは、少なくとも、前記第1の記憶部に記憶された情報を用いて、前記音声処理部での音声処理に用いられる言語情報を作成し、前記音声処理部は、前記作成された言語情報を用いて前記音声処理を行う。
【0011】
本発明の他のアスペクト(側面)に係るシステムと、前記通信端末と通信接続するサーバと、を備え、前記通信端末は、前記通信端末に予め記憶されているプログラム及び/又はデータに基づいて、音声処理手段で用いられる言語情報を作成する手段と、前記言語情報を用いて、前記通信端末に予め記憶されているプログラム及び/又はデータと、前記サーバからダウンロードしたプログラム及び/又はデータとに基づき音声処理を連携動作する手段と、を備えている。
【0012】
本発明の他のアスペクト(側面)に係るシステムは、通信端末と、前記通信端末と通信接続するサーバと、を備え、前記通信端末が、前記通信端末が予め記憶保持するプログラム及び/又はデータを記憶する第1の記憶部と、音声認識と音声合成の少なくとも一方の音声処理を行う音声処理手段と、前記第1の記憶部に記憶されているプログラム及び/又はデータに従って、前記音声処理手段で用いられる言語情報(例えば辞書や文法や言語モデル等)を作成する音声処理言語情報作成手段と、前記サーバからプログラム及び/又はデータを取得する手段と、前記サーバから取得した前記プログラム及び/又はデータを記憶する第2の記憶部と、前記第2の記憶部に記憶されたプログラム及び/又はデータに基づいて、前記音声処理手段と、前記第1の記憶部のプログラム及び/又はデータを連携制御する制御手段と、を含む。また、前記サーバは、前記通信端末から送信される情報を受信し、前記サーバで生成されたプログラム及び/又はデータを前記通信端末に送信する手段と、前記通信端末から送信されたデータを基に前記サーバ側に格納されているデータより、音声処理手段で用いられる言語情報を作成する音声処理言語情報作成手段と、を含む。
【0013】
本発明のさらに他のアスペクト(側面)に係るシステムは、前記音声処理言語情報作成手段が、前記第1の記憶部と前記第2の記憶部に記憶されているプログラム及び/又はデータに従って、前記音声処理手段で用いられる言語情報を作成し、前記制御手段が、第2の記憶部に記憶されているプログラム及び/又はデータを用いて、前記音声処理手段と、前記第1の記憶部のプログラム及び/又はデータを、連携させる制御を行う構成とされる。
【0014】
本発明のさらに他のアスペクト(側面)に係るシステムは、通信端末と、1つ又は複数のサーバを含み、前記サーバは、前記通信端末から送信される情報を受信し、前記サーバ側で生成したプログラム及び/又はデータを通信端末に送信する手段と、前記通信端末から送信されたデータと、前記サーバ側に格納されているデータとから音声処理用の辞書を作成する音声処理言語情報作成手段と、を含む。また、前記通信端末は、前記通信端末に予め記憶保持されるプログラム及び/又はデータを記憶する第1の記憶部と、音声認識と音声合成の少なくとも一方の音声処理を行う音声処理手段と、前記サーバからプログラム及び/又はデータを取得する手段と、前記サーバから取得したプログラム及び/又はデータを記憶する第2の記憶部と、前記第1の記憶部と前記第2の記憶部の双方に記憶されているプログラム及び/又はデータに従って、前記音声処理手段で用いられる言語情報を作成する音声処理言語情報作成手段と、前記第2の記憶部に記憶されているプログラム及び/又はデータを用いて、前記音声処理手段と、前記第1の記憶部に記憶されているプログラム及び/又はデータを連携させる制御手段と、前記音声処理言語情報作成手段で作成した音声言語情報と、前記サーバの前記音声処理言語情報作成手段で作成した音声言語情報とを合成する音声処理言語情報統合手段と、を含む。
【0015】
本発明の1つのアスペクトに係る方法は、
(A)通信端末が、通信端末外部より前記通信端末にダウンロードされたプログラム及び/又はデータと、前記通信端末に予め記憶されているプログラム及び/又はデータとに基づき、音声処理で用いられる言語情報を生成する工程と、
(B)前記通信端末が、前記音声言語情報を用いて、前記通信端末に予め記憶されているプログラム及び/又はデータと、音声処理とを連携動作させる処理を実行する工程と、を含む。
【0016】
本発明の他のアスペクトに係る方法は、
(A)通信端末が、通信端末外部よりプログラム及び/又はデータを取得する工程と、
(B)前記通信端末が、前記取得したプログラム及び/又はデータと、前記通信端末に予め記憶されているプログラム及び/又はデータとに基づいて、音声処理で用いられる音声言語情報を生成する工程と、
(C)前記通信端末が、前記音声言語情報を用いて、前記通信端末に予め記憶されているプログラムと、前記通信端末外部よりダウンロードしたプログラム及び/又はデータと、前記音声処理とを連携動作させる工程と、
を含む。
【0017】
本発明のさらに他のアスペクトに係る方法は、
(A)通信端末が、1つ又は複数のサーバよりダウンロードされたプログラム及び/又はデータと、前記通信端末に予め記憶されているプログラム及び/又はデータより、通信端末内及び/又は複数のサーバの少なくとも1つで生成された音声処理用の音声言語情報を統合する工程と、
(B)前記通信端末が、前記音声言語情報を用いて、前記通信端末に予め記憶されているプログラム及び/又はデータと、サーバよりダウンロードしたプログラム及び/又はデータと、前記音声処理とを連携動作させる工程と、
を含む。
【0018】
本発明の1つのアスペクトに係るコンピュータ・プログラムは、通信端末を構成するコンピュータに、
(A)前記通信端末に予め記憶されているプログラム及び/又はデータを記憶する処理と、
(B)前記通信端末の外部で生成されたプログラム及び/又はデータを受信する処理と、
(C)前記受信したプログラム及び/又はデータを記憶する処理と、
(D)音声認識と音声合成の少なくとも一方を実行する処理と、
(E)前記通信端末に予め記憶されているプログラム及び/又はデータに基づいて音声処理を行うための音声言語情報を生成する処理と、
(F)前記受信したプログラム及び/又はデータにより、前記通信端末に予め記憶されているプログラム及び/又はデータと、音声処理とを連携させる処理と、
を実行させるためのプログラムよりなる。
【0019】
本発明の他のアスペクトに係るコンピュータ・プログラムは、通信端末を構成するコンピュータに、
(A)通信端末外部よりプログラム及び/又はデータを取得する処理と、
(B)音声認識と音声合成の少なくとも一方を実行する処理と、
(C)前記ダウンロードされたプログラム及び/又はデータと、前記通信端末に予め記憶されているプログラム及び/又はデータと、に基づいて、音声処理で用いられる音声言語情報を生成する処理と、
(D)前記音声言語情報を用いて、前記通信端末に予め記憶されているプログラムと、前記通信端末外部よりダウンロードしたプログラム及び/又はデータと、前記音声処理とを連携動作させる処理と、を実行させるためのプログラムよりなる。
【0020】
本発明のさらに他のアスペクトに係るコンピュータ・プログラムは、通信端末を構成するコンピュータに、
(A)前記通信端末に予め記憶保持されるプログラム及び/又はデータを第1の記憶部に記憶する処理と、
(B)通信端末外部の1つ又は複数のサーバより、プログラム及び/又はデータを受信する処理と、
(C)前記受信したプログラム及び/又はデータを第2の記憶部に記憶する処理と、
(D)音声認識と音声合成の内の少なくとも一方を行う処理と、
(E)前記第2の記憶部に記憶されているプログラム及び/又はデータと、前記第1の記憶部に予め記憶されているプログラム及び/又はデータとに基づいて、音声処理を行うための音声言語情報を通信端末内で生成する処理と、
(F)前記通信端末内で又は前記サーバで生成された音声言語情報を統合するための処理と、
(G)前記第2の記憶部のプログラム及び/又はデータにより、前記第1の記憶部に予め記憶されているプログラム及び/又はデータと、音声処理とを連携させる処理と、を実行させるためのプログラムよりなる。
【発明の効果】
【0021】
本発明によれば、携帯端末等通信端末に内蔵されているプログラムが、音声処理に対応していない場合でも、サーバより、プログラムをダウンロードすることで、音声処理機能と連携させて動作させることができる。
【0022】
また、本発明によれば、連携方法が異なるプログラムを、ユーザの好み等によって自在に入れ替えて、実行させることができる。
【発明を実施するための最良の形態】
【0023】
次に、本発明を実施するための最良の形態について、図面を参照して詳細に説明する。
【0024】
図1を参照すると、本発明の第1の実施の形態は、通信端末100とサーバ200とを備えている。通信端末100は、第1プログラムおよびデータ格納手段101と、音声処理手段102と、音声処理言語情報作成手段103と、送受信手段104と、第2プログラムおよびデータ格納手段105と、制御手段106とを備えている。サーバ200は、送受信手段201と、音声処理言語情報作成手段202とを備えている。これらの手段はそれぞれ概略つぎのように動作する。
【0025】
第1プログラムおよびデータ格納手段101は、通信端末100に予め内蔵されているプログラムやプログラムが管理するデータを格納する。第1プログラムおよびデータ格納手段101に格納されるデータとしては、通信端末100の状態に応じて動的に変化するデータや、通信端末100の利用者の個人データがある。
【0026】
音声処理手段102は、音声認識と音声合成の少なくとも1つを行う。
【0027】
音声処理言語情報作成手段103は、第1プログラムおよびデータ格納手段101に記憶されている第1のプログラムおよびデータ基づいて、音声処理手段102用の辞書や文法や言語モデル等を作成する。
【0028】
送受信手段104は、通信端末100側の情報をサーバ200に送信し、また、プログラムおよびデータを、通信端末100外部から受信する。
【0029】
第2プログラムおよびデータ格納手段105は、送受信手段104により、通信端末100外部から受信したプログラムおよびデータを格納する。
【0030】
制御手段106は、送受信手段104により取得した第2のプログラムおよびデータから、プログラムおよびデータを呼び出して(サブルーチンコール等)、音声処理手段102と、第1のプログラムおよびデータを連携させる。
【0031】
サーバ200の送受信手段201は、通信端末100側からの情報を受信し、またサーバ200からプログラムやデータを通信端末100側に送信する。
【0032】
音声処理言語情報作成手段202は、通信端末100から送信されたデータを基に、サーバ200側に格納されているデータより、音声処理用の辞書を作成する。
【0033】
図2は、本発明の一実施形態の動作を説明するためのフローチャートである。図1及び図2を参照して、本実施の形態の全体の動作について詳細に説明する。
【0034】
通信端末100の音声処理手段102で用いる音声言語情報は、通信端末100側で生成される場合と、サーバ200側で生成される場合の2通りがある。
【0035】
通信端末100側で生成する場合、送受信手段104により、通信端末100外部からプログラムおよびデータを受信し(ステップSa1)、第2プログラムおよびデータ格納手段105に格納する(ステップSa2)。
【0036】
次に、制御手段106は、第2プログラムおよびデータ格納手段105に記憶されたプログラムおよびデータを呼び出し、起動する(ステップSa3)。
【0037】
起動されたプログラム中に記述されている、音声処理用の言語情報作成手順により、第1プログラムおよびデータ格納手段101のデータを用いて、言語情報を生成する(ステップSa4)。
【0038】
制御手段106では、前述の生成された音声処理用言語情報を読み出し、音声処理手段102を起動させる(ステップSa5)。
【0039】
ステップSa3で起動されたプログラムに従って、第1プログラムおよびデータ格納手段101のプログラムを呼び出し(ステップSa6)、音声処理手段102と連携動作させる(ステップSa7)。
【0040】
サーバ200側で生成する場合には、送受信手段104により、通信端末100外部からプログラムおよびデータを受信し(ステップSb1)、第2プログラムおよびデータ格納手段105に格納する(ステップSb2)。
【0041】
次に、制御手段106は、第2プログラムおよびデータ格納手段105から前述のプログラムおよびデータを起動する(ステップSb3)。
【0042】
起動されたプログラム中に記述された音声処理用の言語情報作成手順と、言語情報作成に必要なデータを、サーバ200に送信する(ステップSb4)。サーバ200側では、音声処理言語情報作成手段202が、通信端末100から送信された言語情報作成手順とデータと、サーバ200側に格納しているデータとを用いて音声言語情報を生成し(ステップSb5)、通信端末100に送信する(ステップSb6)。
【0043】
通信端末100では、これを受けて、生成された音声処理用言語情報を読み出し、音声処理手段102を起動させる(ステップSb7)。
【0044】
さらに、ステップSb3で起動されたプログラムに従って第1プログラムおよびデータ格納手段101のプログラムを呼び出し(ステップSb8)、音声処理手段102と連携動作させる(ステップSb9)。
【0045】
次に、本実施の形態の作用効果について説明する。
【0046】
本実施の形態では、通信端末100およびサーバ200で音声処理言語情報作成手段103、202を実行するように構成されているため、通信端末100に予め内蔵されているプログラムや、該プログラムが管理するデータが、音声認識や音声合成といった音声処理に対応していない場合であっても、通信端末100外から、音声処理と連携されるプログラムをダウンロードすることで、通信端末100で、音声処理機能を利用することができる。
【0047】
また、本実施の形態では、送受信手段104と、受信により取得したプログラムを格納する手段と、このプログラムを呼び出して実行するための制御を行う制御手段106と、を有しているため、連携方法が異なるプログラムを、ユーザの好みによって入れ替え可能である。
【0048】
次に、本発明を第2の実施形態について図面を参照して詳細に説明する。
【0049】
図20を参照すると、本発明の第2の実施の形態は、通信端末1000とサーバ200とを備えている。通信端末1000は、第1プログラムおよびデータ格納手段1101と、音声処理手段1102と、音声処理言語情報作成手段1103と、送受信手段1104と、第2プログラムおよびデータ格納手段1105と、制御手段1106とを備えている。サーバ200は、送受信手段201と、音声処理言語情報作成手段202を備えている。これらの手段はそれぞれ概略つぎのように動作する。
【0050】
第1プログラムおよびデータ格納手段1101は、通信端末1000に予め内蔵されているプログラムや、プログラムが管理するデータを格納する。第1プログラムおよびデータ格納手段1101に格納されるデータとしては、通信端末1000の状態に応じて、動的に変化するデータや、端末利用者の個人データ等がある。音声処理手段1102は、音声認識及び/又は音声合成を行う。
【0051】
音声処理言語情報作成手段1103は、第1のプログラムおよびデータと第2のプログラムおよびデータが記憶している内容に従って、音声処理手段1102用の辞書や文法や言語モデル等を作成する。
【0052】
送受信手段1104は、通信端末1000側の情報を送信し、プログラムおよびデータを端末外部から受信する。
【0053】
第2プログラムおよびデータ格納手段1105は、送受信手段1104により、通信端末1000外部から受信したプログラムおよびデータを格納する。
【0054】
制御手段1106は、送受信手段1104により取得した第2のプログラムおよびデータからプログラムおよびデータを呼び出して、音声処理手段1102および第1のプログラムおよびデータを連携させる。
【0055】
送受信手段201は、通信端末1000側からの情報を受信し、サーバ200で生成されたプログラムやデータを端末側に送信する。
【0056】
音声処理言語情報作成手段202は、通信端末1000から送信されたデータを基に、サーバ200側に格納されているデータより音声処理用の辞書を作成する。
【0057】
次に、図20及び図21のフローチャートを参照して、本実施の形態の全体の動作について詳細に説明する。
【0058】
まず、送受信手段1104により、通信端末1000外部から第2プログラムおよびデータ格納手段1105にプログラムおよびデータを受信し(ステップS2101)、第2プログラムおよびデータ格納手段1105に格納する(ステップS2102)。
【0059】
次に、制御手段1106は、第2プログラムおよびデータ格納手段1105より、前述のプログラムおよびデータを起動し(ステップS2103)、プログラム中に記述された音声処理用の言語情報作成手順をサブルーチンコール等で呼び出す(ステップS2104)。
【0060】
ステップS2104で、呼び出した作成手順において、作成の対象となるプログラムおよびデータを、第1プログラムおよびデータ格納手段1101と、第2プログラムおよびデータ格納手段1105の双方よりを呼び出す(ステップS2105)。
【0061】
ステップS2104で読み出した言語情報生成手順により、通信端末1000の音声処理言語情報作成手段1103で生成する場合(ステップS2106)、ステップS2105で呼び出したプログラムおよびデータを基に、音声処理言語情報作成手段1103において言語情報を生成する(ステップS2107)。
【0062】
ステップS2107において、通信端末1000の音声処理言語情報作成手段1103で作成しない場合、ステップS2108に進む。
【0063】
ステップS2104で読み出した言語情報生成手順により、サーバ200の音声処理言語情報作成手段202で生成する場合(ステップS2108)、ステップS2105において読み出したデータを送受信手段1104によりサーバ200に送信し送受信手段201では、このデータを受信する(ステップS2109)。前述のデータとサーバ内に格納しているデータより、音声処理言語情報作成手段202で音声処理用言語情報を生成する(ステップS2110)。
【0064】
サーバ200の送受信手段201により生成された音声処理用辞書を、通信端末1000に送信し、送受信手段1104は、これを受信する(ステップS2111)。
【0065】
ステップS2108において、サーバ200の音声処理言語情報作成手段202において音声処理用言語情報を作成しない場合、ステップS2112に進む。
【0066】
制御手段1106ではこれを受けて、前述の生成された音声処理用言語情報を読みこんで、音声処理手段1102を起動させる(ステップS2112)。
【0067】
さらに、ステップS2103で起動されたプログラムに従って、第1プログラムおよびデータ格納手段1102のプログラムをよびだし(ステップS2113)、音声処理手段1102と連携動作させる(ステップS2114)。
【0068】
次に、本実施の形態の作用効果について説明する。
【0069】
本実施形態では、音声処理言語情報作成手段1103において、第1プログラムおよびデータ格納手段1101と、第2プログラムおよびデータ格納手段1105の双方よりプログラムおよびデータを呼び出して、音声言語情報を作成するため、通信端末1000に予め内蔵されているプログラムと、受信したプログラムとを連携させて音声認識や音声合成などの音声処理を行うことが可能である。
【0070】
次に、本発明の第3の実施の形態について図面を参照して詳細に説明する。
【0071】
図23を参照すると、本発明の第3の実施の形態は、通信端末2000と、複数のサーバ200と、サーバn00を備えている。通信端末2000は、第1プログラムおよびデータ格納手段2101と、音声処理手段2102と、音声処理言語情報作成手段2103と、送受信手段2104と、第2プログラムおよびデータ格納手段2105と、制御手段2106と、音声処理言語情報統合手段2107を備えている。
【0072】
サーバ200は、送受信手段201と、音声処理言語情報作成手段202を備えている。サーバn00は、送受信手段n01と、音声処理言語情報作成手段n02から構成されている。これらの手段はそれぞれ概略つぎのように動作する。
【0073】
第1プログラムおよびデータ格納手段2101は、通信端末2000に予め内蔵されているプログラムやプログラムが管理するデータを格納する。第1プログラムおよびデータ格納手段2101に格納されるデータとしては、通信端末2000の状態に応じて動的に変化するデータや端末利用者の個人データがある。音声処理手段2102は、音声認識及び/又は音声合成を行う。
【0074】
音声処理言語情報作成手段2103は、第1のプログラムおよびデータと第2のプログラムおよびデータとが記憶している内容に従って、音声処理手段2102用の辞書や文法や言語モデル等を作成する。送受信手段2104は、通信端末2000側の情報を送信し、プログラムおよびデータを端末外部から受信する。第2プログラムおよびデータ格納手段2105は、送受信手段2104により端末外部から受信したプログラムおよびデータを格納する。
【0075】
制御手段2106は、送受信手段2104により取得した第2のプログラムおよびデータからプログラムおよびデータを呼び出して、音声処理手段2102、および第1のプログラムおよびデータを連携させる。
【0076】
音声処理言語情報統合手段2107は、通信端末2000の音声処理言語情報作成手段2103で生成された音声言語情報と、サーバ200の音声処理言語情報生成手段202およびサーバn00の音声処理言語情報生成手段n02で生成された音声言語情報とを合成して音声言語情報を生成する。
【0077】
サーバ200の送受信手段201は、通信端末2000側からの情報を受信し、サーバ200で生成されたプログラムやデータを通信端末2000側に送信する。音声処理言語情報作成手段202は、通信端末2000から送信されたデータを基に、サーバ200側に格納されているデータより、音声処理用の音声言語情報を作成する。
【0078】
また、サーバn00でも同様に、送受信手段n01は、通信端末2000側からの情報を受信し、サーバn00で生成されたプログラムやデータを通信端末2000側に送信する。音声処理言語情報作成手段n02は、通信端末2000から送信されたデータを基にサーバn00側に格納されているデータより、音声処理用の音声言語情報を作成する。
【0079】
次に、図23及び図24のフローチャートを参照して、本実施の形態の全体の動作について詳細に説明する。
【0080】
まず、送受信手段2104により、通信端末2000外部から第2プログラムおよびデータ格納手段2105に、プログラムおよびデータを受信し(ステップS2401)、第2プログラムおよびデータ格納手段2105に格納する(ステップS2402)。
【0081】
次に、制御手段2106は、第2プログラムおよびデータ格納手段2105より前述のプログラムおよびデータを起動し(ステップS2403)、プログラム中に記述された音声処理用の言語情報作成手順を呼びだす。ステップS2404で呼び出した音声情報作成手順において、作成の対象となるプログラムおよびデータを、第1プログラムおよびデータ格納手段2101と、第2プログラムおよびデータ格納手段2105の双方よりを呼びだす(ステップS2405)。
【0082】
ステップS2404で読み出した言語情報生成手順により、通信端末2000の音声処理言語情報作成手段2103で生成する場合(ステップS2406)、ステップS2405で呼び出したプログラムおよびデータを基に、音声処理言語情報作成手段2103において言語情報を生成する(ステップS2407)。
【0083】
ステップS2406において、通信端末2000の音声処理言語情報作成手段2103で作成しない場合、ステップS2408に進む。
【0084】
ステップS2404で読みだした言語情報生成手順により、サーバ200の音声処理言語情報作成手段202で生成する場合(ステップS2408)、ステップS2405において読み出したデータを送受信手段2104によりサーバ200に送信し、送受信手段201では、このデータを受信する(ステップS2409)。
【0085】
前述のデータとサーバ内に格納しているデータより音声処理言語情報作成手段202で音声処理用言語情報を生成する(ステップS2410)。
【0086】
サーバ200の送受信手段201により生成された音声処理用辞書を通信端末2000に送信し、送受信手段2104は、これを受信する(ステップS2411)。
【0087】
ステップS2408において、サーバ200の音声処理言語情報作成手段202において音声処理用言語情報を作成しない場合には、ステップS2412に進む。
【0088】
音声処理言語情報統合手段2107では、通信端末2000の音声処理言語情報作成手段2103およびサーバ200の音声言語作成手段202およびサーバn00の音声処理言語情報作成手段n02のそれぞれで生成した音声言語情報を、1つの音声言語情報に合成する(ステップS2412)。
【0089】
ステップS2412を受けて、制御手段2106では、前述の生成された音声処理用言語情報を読みこんで音声処理手段2102を起動させる(ステップS2413)。
【0090】
さらに、ステップS2403で起動されたプログラムに従って、第1プログラムおよびデータ格納手段2101のプログラムを呼び出し(ステップS2414)、音声処理手段2102と連携動作させる(ステップS2415)。
【0091】
次に、本実施の形態の作用効果について説明する。本実施形態では、音声処理言語情報統合手段2107を有し、通信端末2000側で生成した音声言語情報と、複数のサーバ200〜n00側で生成した音声言語情報とを合成する構成としており、複数のプログラムやデータを連携させて、音声処理を行う、ことが可能になる。
【実施例1】
【0092】
次に、本発明の第1の実施例を、図面を参照して説明する。本発明の第1の実施例の構成は、図1に示した構成とされる。図3乃至図8は、図1に示した本実施例の第1プログラムおよびデータ格納手段101に格納されるプログラムおよびデータの一例を説明するものである。
【0093】
図3は、第1プログラムおよびデータ格納手段101に格納されるプログラムと、プログラムが管理するデータとの対応を説明するための図である。図3では、プログラムとして、端末管理、アドレス帳、送信着信(発信受信)履歴、GPS(Global Positioning System)、赤外線の5つのプログラムが格納されている。また、それぞれに対応するデータとして、端末管理データ、アドレス帳データ、送信着信履歴データ、GPSデータ、赤外線でデータが格納されている。
【0094】
図4乃至図8は、図3に示した第1プログラムおよびデータ格納手段101に格納されるプログラムが管理するデータの一例を示す図であり、通信端末100のユーザ独自の情報や通信端末の動的に変化するデータを想定している。
【0095】
図4は、図3の端末管理プログラムが管理する端末管理データの一例である。図4に示すように、端末管理データは、項目と、その値(パラメータ)より構成される。
【0096】
項目としては、電源、電池の残量、電波状態、蓋の開閉があり、それぞれの値は、電源=ON、電池の残量=45%、電波状態=良好、蓋の開閉=閉となっている。
【0097】
図5は、図3のアドレス帳プログラムが管理するアドレス帳データの一例である。アドレス帳データは、データに番号付けをするためのID、名前、名前の読み、メールアドレス、電話番号から構成される。図5に示す例では、ID=001、名前=田中一郎、読み=いっちゃん、メールアドレス=ichiro@xxx.com、電話番号=090-2222-3333となっている。
【0098】
図6は、図3に示した発信着信(発信受信)履歴プログラムが管理する発信着信(送信受信)履歴データの一例である。発信着信履歴データは、データを番号付けするためのID、発信着信の別、発信または着信した日時、発信または着信した先の電話番号より構成される。
【0099】
図6に示す例では、データが3件あり、
ID=001のデータでは、発信着信の別=発信、発信日時=2003年12月18日1時2分34秒、発信先=090-2222-3333となっており、
ID=002のデータでは、発信着信の別=着信、着信日時=2003年12月18日1時4分34秒、着信先=090-2222-3333となっており、
ID=003のデータでは、発信着信の別=着信、着信日時=2003年12月18日2時4分34秒、着信先=090-2222-3333となっている。
【0100】
図7は、図3のGPSプログラムが管理するGPSデータの一例である。GPSデータでは、直前にGPSプログラムが動作したときに取得したデータを保持する。図7に示す例では、GPSデータは、項目名とその値とから構成される。項目としては、計測日時、緯度、経度、現在地の住所より構成され、計測日時=2003年12月18日1時0分34秒、緯度=N35°51.475、経度=E139°51.475、現在地の住所=東京都港区芝1-1-1となっている。
【0101】
図8は、図3の赤外線プログラムが管理する赤外線データの一例である。赤外線データでは、端末外の赤外線ポートとの通信履歴を保持する。図8に示す例では、赤外線データは、データを番号付けするためのIDと、通信日時と、通信先IDと、通信コマンドと、コマンドに付随したパラメータと、から構成されており、4件のデータがあり、
ID=001のデータでは、通信日時=2003年12月18日1時0分34秒10ms、通信先=IDxxxxxx、通信コマンド=接続要求となっており、
ID=002のデータでは、通信日時=2003年12月18日1時0分34秒30ms、通信先=IDxxxxxx、通信コマンド=接続要求応答となっており、
ID=003のデータでは、通信日時=2003年12月18日1時0分34秒50ms、通信先=IDxxxxxx、通信コマンド=データ読み出し要求、パラメータ=“データ名=ファイル1.txt ファイルタイプ=txt”となっており、
ID=004のデータでは、通信日時=2003年12月18日1時0分34秒0ms、通信先=Idxxxxxx、通信コマンド=データ読み出し応答、パラメータ=“データ名=ファイル1.txt ファイルタイプ=txt”となっている。
【0102】
図8に示す例では、
ID=001のデータの示す時刻に、ID=001のデータの示す通信先に、通信端末より接続要求が送信され、
ID=002のデータの示す時刻に通信先との接続が確立し、
ID=003のデータの示す時刻にテキスト形式のファイルであるファイル1.txtのファイルを読み出すように要求を送信し、
ID=004のデータの示す時刻に前記ファイル1.txtのファイルが通信端末に送信された、
ことを意味している。
【0103】
次に、図9乃至図11を用いて、本発明の一実施例の通信端末100の音声処理言語情報作成手段103の動作を説明する。
【0104】
音声処理言語情報作成手段103は、音声処理手段102で用いる音声言語情報を作成する。音声処理手段102は、音声認識と音声合成を行う。
【0105】
音声認識用の音声言語情報としては、単語列とその読みから構成される単語辞書、有限言語ネットワークによる文法、確率統計モデルに基づく言語モデルを用いる。
【0106】
また、音声合成用の音声言語情報としては、単語列とその読みから構成される辞書を用いる。
【0107】
音声認識用の単語辞書作成の一例としては、対象とするプログラムやデータの形式を用いて形態素解析を行い、特定の品詞の単語に読み付けを行い、単語辞書に登録する。
【0108】
この際、品詞ごとに読み付けルール定め、これに従って、読みを行う。
【0109】
また、格納されているデータの構造が明らかなものに関しては、構造解析を、事前に行い、この結果を用いて、データの種類を分類し、分類した結果毎に、読みづけを行う。
【0110】
前者の形態素解析が有効なデータとしては、Webブラウザが管理するWebページデータやメーラが管理するメールデータなどがある。
【0111】
また後者のデータの構造解析が有効な例としては、アドレス帳データや端末状態データがある。
【0112】
解析結果が人名のものは、同じデータ内に該当する読み情報がある場合、その情報を優先し、読みがない場合は仮名漢字変換機能により、読みを生成する。
【0113】
解析の結果が、電話番号およびメールアドレスでは、数字やアルファベットでの読みの他、「田中さんの電話」や「田中さんのメールアドレス」のように名前をふくめたものも含めて登録する。
【0114】
解析の結果が、「電池」や「電源」などの端末の機能や部品を示す名詞や、それらの状態を示す名詞や形容詞や動詞は、予め類義語、発音変形、省略形の読みを予めデータベースとしておき、データベースより該当するものを辞書に登録する。
【0115】
音声認識用の文法作成方法の一例としては、対象とするプログラム毎に、文法のテンプレートを予め用意しておく。この文法テンプレートは、文法の構造である単語列のネットワークや単語列の生成方法を定義するものである。
【0116】
音声処理言語情報作成手段103では、文法テンプレートしたがって、データを挿入し、文法を作成する。
【0117】
音声合成用の辞書生成方法の一例としては、音声認識用の単語辞書と同様に対象とするプログラムやデータの形式を用いて形態素解析を行い、品詞ごとに、読み付けルールを定め、このルールに従って、読みを登録する。
【0118】
また、格納されているデータの構造が明らかなものに関しては、構造解析を事前におこないこの結果を用いてデータの種類を分類し、分類した結果ごとに読みづけルールを用意しておき、これを用いて読み付けを行う。
【0119】
読み付けのルールの一例としては、以下のような方法がある。
【0120】
解析結果が人名のものは、読み付けルールとして、同じデータ内に、該当する読み情報がある場合、その情報を優先し、読みがない場合には、仮名漢字変換機能により、読みを生成する。
【0121】
解析の結果が、メールアドレス場合、読み付けのルールとして、形態素解析の結果を用いて、メールアドレスの前後の関係から、持ち主が判定できる場合、「田中さんのメールアドレス」のように、メールアドレスの持ち主の名前を含めた読み付けを行い、持ち主が判定できない場合、「このメールアドレス」のように読み付けを行う。
【0122】
辞書への登録を必要としない通常のアルファベットや、数字の読み付けを用いるか、前記読み付けルールを用いるかは、プログラム中に定義しておく。
【0123】
解析の結果が、電話番号の場合、読み付けルールとしては、形態素解析の結果を用いて、電話番号の前後の関係から持ち主が判定できる場合には、例えば「田中さんの電話番号」のように、持ち主の名前を含めた読み付けを行う。一方、持ち主が判定できない場合には、「この電話番号」のように読み付けを行う。また、局番から固定電話、携帯電話、IP電話、フリーダイアル等の電話の種類を判定し、たとえば、0120で始まるものの場合、「このフリーダイアル」のように読み付けを行う。
【0124】
このほかにも、音声合成が定義している数字や記号の読みを用いる方法や、局番間の区切り記号であるハイフンやマイナスや括弧を‘の’に置き換える方法などがある。たとえば、ハイフンやマイナスや括弧を‘の’に置き換える方法では、「044−999−1234」は、「ぜろよんよんのきゅーきゅーきゅーのいちにーさんしー」と読みづけがされる。いずれの読み付けルールを採用するかは、プログラム中に定義する。
【0125】
解析の結果が「電池」や「電源」などの端末の機能や部品をしめす名詞では、予め、その読みをデータベースに登録しておき、データベースより該当するものを辞書に登録する。
【0126】
図9は、音声認識用の単語辞書の生成を説明するための図である。図9には、一例として、図4に示した端末情報データに対して、辞書が生成される例が示されている。端末情報データは、端末の機能や部品をしめす名詞や、それらの状態を示す名詞であることから、予め登録されたデータベースより、該当するものを辞書に登録する。
【0127】
端末情報データの項目名である、「電源」および「電池の残量」を表記として、辞書が生成される例を示している。
【0128】
表記「電源」には、単語の読み仮名である「でんげん」と、電源の類義語である「ぱわー」の2つを音声認識用の読みとして登録する。
【0129】
また、表記「電池の残量」では、単語の読み仮名である「でんちのざんりょう」のほかに、「電池」の類義語である「ばってりー」および「ばってりー」の発音変形「ばってり」、「残量」の類義語である「のこり」とを合わせて、「でんちののこり」、「ばってりーのざんりょう」、「ばってりのざんりょう」、「ばってりーののこり」、「ばってりののこり」を登録する。
【0130】
また、「電池の残量」の省略形である「でんち」、「ざんりょう」と、これらの類義語や発音変形の「ばってりー」、「ばってり」、「のこり」もあわせて登録する。
【0131】
図10は、音声合成用の辞書の生成を説明するための図である。図10には、一例として、図5に示したアドレス帳データに対して、辞書が生成される例が示されており、「田中一郎」、「ichiro@xxx.com」、「090-2222-3333」の3種類の表記に対して、音声合成の読みを生成する例を示している。
【0132】
表記「田中一郎」に対しては、人名であることから、アドレス帳データに与えられている読み「いっちゃん」を登録する。
【0133】
また、表記「ichiro@xxx.com」に対しては、メールアドレスであるので、メールの持ち主の読みを含めた形式である「いっちゃんのめーるあどれす」を登録する。
【0134】
さらに、表記「090-2222-3333」に対しては、電話番号であるので、電話番号の持ち主の読みと局番の解析結果を含めた形式である「いっちゃんのけいたいでんわ」を登録する。
【0135】
図11は、音声認識用文法の生成を説明するための図である。図11には、一例として図5で示したアドレス帳データを用いてアドレス帳に対して操作を行うための文法が示されている。
【0136】
図11(a)では、文法生成のための文法テンプレートの一例を示している。文法テンプレートでは、文法の構造や登録する単語列の定義の方法を定義する。この例では、アドレス帳の[読み]、[助詞]、アドレス帳の[項目]、[助詞]、[操作]の各項目を順々に発声するような言い回しを定義している。また、このうち、[読み]と、[項目]に登録する単語列はアドレス帳から参照する。また、それ以外の[助詞]と、[操作]は、登録する単語列を予め定義しておく。
【0137】
図11(b)では、図11(a)の文法テンプレートに従って登録される単語列の例を示したものである。各単語列は、表記と読みで構成されている。アドレス帳から参照された[読み]と[項目名]、予め登録された[助詞]と[操作]の4項目の単語列を定義している。[読み]には、“いっちゃん”の1単語が、[項目名]には、“名前”、“読み”、“メールアドレス”、“電話番号”の4単語が、[助詞]には、“の”、“を”の2単語が、[操作]には、“消去する”、“消す”、“編集する”、“編集します”、“編集したい”の5単語が登録されている。また、各単語には読みと表記が与えられている。
【0138】
図11(c)では、図11(a)および図11(b)により、テンプレートに単語列を挿入した結果、認識可能となる発声の一例とテンプレートとの対応を示したものである。
【0139】
以上のように定義することにより、「いっちゃんの電話番号を編集したい」という発声を、認識するための文法が生成される。
【0140】
次に、図12乃至図14を用いて、図1に示した実施例のサーバ200の音声処理言語情報作成手段202の動作を説明する。
【0141】
音声処理言語情報作成手段103では、通信端末100側からデータの生成方法と、通信端末100で管理しているデータを、サーバ200に送信する。これらを用いて、サーバ200内に格納しているデータにより、音声言語情報を生成する。
【0142】
サーバ200の音声処理言語情報作成手段202で生成する音声言語情報は、通信端末100の音声合成情報作成手段103で生成されるものと同様に、音声認識用としては単語列とその読みから構成される単語辞書、有限言語ネットワークによる文法、確率統計モデルに基づく言語モデルを想定している。
【0143】
音声合成用の音声言語情報も、単語列と、その読みから構成される辞書を想定している。また、音声認識用の単語辞書および文法および言語モデルの作成方法は、サーバ200内に格納しているデータを用いる他は同様とする。音声合成用辞書に関しても同様とする。
【0144】
以下、図12乃至図14を参照して、音声言語情報の生成について説明する。
【0145】
図12と図13では、サーバ200での音声言語情報生成の一例として、サーバ200に格納されたデータを用いて、音声認識用の単語辞書を生成する例を示している。
【0146】
ここでは、サーバ200側から、通信端末100の電話番号を送信し、サーバ200で管理している利用履歴を基に、サービスを利用するための単語辞書を作成する方法を説明する。
【0147】
図12は、サーバ200で管理しているデータの一例である利用履歴データを示す図である。このデータは、データを番号付けするためのID、利用者の電話番号、サービス名、利用回数、最終利用日、利用金額合計、サービス主体者の利用希望の度合いを示すキャンペーンより構成されている。図12では、通信端末100よりサーバ200に送付された通信端末の電話番号が、090−XXXXYYYYの場合、該当するものが、ID=001〜003の3件があることを示している。
【0148】
また、それぞれの利用については、
ID=001では、AA美術館のチケット購入が5回利用があり、最終利用日時が2003年03月12日19時30分25秒で利用金額が5500円でサービス主体者の利用希望の度合いは低であり、
ID=002では、中華料理店Bが8回利用があり、最終利用日時が2003年03月12日22時30分25秒で利用金額が25800円でサービス主体者の利用希望の度合いは中であり、
ID=003では、エステサロンCは利用履歴がなくサービス主体者の利用希望の度合いは高である、
ことを示している。
【0149】
図13は、図12を用いて作成された音声認識用の単語辞書である。図13に示す例では、利用履歴から利用可能なサービスを列挙し、登録されたサービス名やサービスを利用するための単語を辞書に登録する。サービスを利用するための単語列は、予めサーバ200内に定義しておく。
【0150】
登録する単語列に登録可能な数や登録順などの制約がある場合には、利用回数、最終の利用日、金額合計やサービス主体者の利用希望の度合いにより制約を行う。
【0151】
例えば、図12のID=001に登録されているAA美術館チケット購入のサービスについての場合、利用するための言い回しとして、
AA美術館、美術館、チケット購入などを
音声認識用の単語辞書に登録する。
【0152】
サーバ200の音声処理言語情報作成手段202が生成する音声言語情報としては、複数のプログラムを連携動作させるための音声言語情報を作成することも想定している。
【0153】
図14を参照して、複数のプログラムを連携動作させるための音声言語情報の生成について説明する。図14に示す例では、複合施設の情報案内プログラムと、複合施設内の店舗のサービス予約プログラムと、を連携させて動作させるための音声認識用文法の生成について説明する。
【0154】
図14(a)および図14(b)は、すでに生成された音声認識用文法を示している。
【0155】
図14(a)は、複合施設の情報案内プログラムを音声で制御させるための文法である。この文法は、複合施設内の店舗のカテゴリーを特定するための[カテゴリー]と、[店舗名]と、案内の内容を指定するための[項目]と、[コマンド]の4つの単語列より構成される。
【0156】
単語列[カテゴリー]には“レストラン”、“エステティック”、“美術館”の3つの単語が、
[店舗施設名]には、“店A”、“美術館A”、“エステティックサロンA”の4つの単語が、
[項目]には、“場所”、“営業時間”、“定休日”、“予算”の4つの単語が、
[コマンド]には、“どこ”、“いくら”、“いつ”
の3つの単語が登録されている。
【0157】
なお、各単語列に登録された単語はそれぞれ表記と読みをもつ。
【0158】
この文法では、「エステティックのエステサロンAの定休日はいつ」が認識可能である。
【0159】
図14(b)は、複合施設内の店舗のサービス予約プログラムで、
サービスを特定するための[サービス名]と、
サービスを受けたい時間を指定するための[時間]と、
予約に関する操作を指定するための[予約コマンド]
より構成されている。
【0160】
単語列[サービス名]には“サービスAを”、“サービスBを”の2つの単語が、
[時間]には“10:00に”、“11:00に”の2つの単語が、
[予約コマンド]には“予約”、“取り消し”、“確認”の3つの単語が登録されている。なお、各単語列に登録された単語は、それぞれ表記と読みをもつ。
【0161】
この文法では、「サービスAを10:00に予約」が認識可能である。
【0162】
図14(c)は、図14(a)および図14(b)の文法を融合して、新たな文法を生成するための文法テンプレートである。
【0163】
このテンプレートでは、
[カテゴリー]と、[店舗施設名]と、[項目]と、[コマンド]を順々に指定する文法と、
[カテゴリー]と、[店舗施設名]と、[サービス名]と、[時間]と、[予約コマンド]と、を順々に指定する文法の2つを定義している。
【0164】
[カテゴリー]と、[店舗施設名]と、[項目]と、[コマンド]の項目に定義する単語列は、図14(a)の文法より挿入する。
【0165】
また、[サービス名]と、[時間]と、[予約コマンド]の各項目に定義する単語列は、図14(b)より挿入する。
【0166】
図14(d)は、図14(c)の文法テンプレートを用いて作成された文法を示す図である。これにより、
「エステティックのエステティックサロンAの定休日はいつ」と、
「エスティックのエステティックサロンAのサービスAを10:00に予約」
の双方の文法が認識可能となる。
【0167】
次に、図15乃至図19を参照して、図1の第2プログラムおよびデータ格納手段105に格納されるプログラムについて説明する。
【0168】
第2プログラムおよびデータ格納手段105に格納されるプログラムでは、第1プログラムおよびデータ格納手段101に格納されたプログラムおよびデータや、音声処理手段102や、サーバ200との連携動作の方法を定義している。
【0169】
この場合、第1プログラムおよびデータ格納手段101に格納されるプログラム(通信端末100に予め格納されるプログラム)としては、発信や着信を管理する発信着信プログラム、現在地を割り出すためのGPSプログラムや、赤外線通信を行うための赤外線通信プログラムなどがある。
【0170】
以下では、図15乃至図19を参照して、具体的なプログラムについて説明する。
【0171】
図15、図16を参照して、第2プログラムおよびデータ格納手段105に格納されるプログラムの一例として、第1プログラムおよびデータ格納手段101に格納された発信着信プログラムと、音声処理手段102とを連携して動作させるプログラムの動作を説明する。具体的には前述のプログラムでは、電話を着信すると、発信着信履歴や、端末状態に応じたメッセージを合成音で出力する。
【0172】
図15は、第2プログラムおよびデータ格納手段105に格納されるプログラムの処理手順を説明するためのフローチャートである。図15に示すように、制御手段106は、電話を着信すると、まずアドレス帳より着信した電話番号に該当するデータを検索する(ステップS1301)。着信番号が登録されている場合(ステップS1302の「ある」分岐)、名前を一時的保存する(ステップS1303)。次に、発信着信履歴を検索し、該当する電話番号がある場合(ステップS1304の「ある」分岐)、発信回数と受信回数を一時的に保存する(ステップS1305)。次に、端末状態を検索し、バッテリー状態を一時的に保存する(ステップS1306)。
【0173】
さらに、ステップS1303、ステップS1305、およびステップS1306での保存状態を受けて、出力する文章を作成し(ステップS1307)、音声合成で出力する(ステップS1308)。
【0174】
図16は、ステップS1307における発声文を作成するためのルールの一例を説明するための図である。まず、ステップS1302において、アドレス帳に該当するデータがない場合、「でんわだよ」とする。アドレス帳に該当するデータがある場合、アドレス帳に登録されている読みを用いて「田中一郎さんから電話だよ」のように作成する。
【0175】
次に、ステップS1304において、発信回数および着信回数がともに0〜4回の場合、該当する文章は作成しない。
【0176】
発信回数が5回以上で、着信回数が0〜4回のときは、「お待ちどう様、やっと、かかってきてよかったね」とする。さらに、着信回数が5回以上のときは、「今日は、よくかかってくるね」とする。
【0177】
さらに、ステップS1306において、電池の残量が、40%以上の場合は、該当する文章はない。40%未満の場合は、「どうでもいいけど、電源につないでくれよー。電池の残量がきれるよ。」とする。
【0178】
例えば、ステップS1302において該当するデータがあり、着信回数が5回以上で、電池の残量が40%未満の場合、「田中さんから電話だよ。今日は、よくかかってくるね。どうでもいいけど、電源につないでくれよー。電池の残量がきれるよ。」となり、ステップS1302において該当するデータがなく、着信回数および発信回数がなく、電池の残量が40%以上の場合には、「でんわだよ」となる。
【0179】
次に、図17には、第2プログラムおよびデータ格納手段105に格納されれたプログラムの一例が示されている。図17を参照して、第1プログラムおよびデータ格納手段101に格納されたGPSプログラムと音声処理とを連携動作させるプログラムの動作について説明する。図17は、GPSプログラムとサーバと音声処理とを連携して動作させる例を示す図であり、具体的には通信端末の現在の位置から複合施設を割り出し複合施設サービスを音声検索するためのプログラムのフローチャートである。
【0180】
まず、通信端末100内の第1プログラムおよびデータ格納手段101に格納されているGSPプログラムを起動し(ステップS1501)、現在地を計測する(ステップS1502)。送受信手段104より現在地のデータをサーバに送信し、サーバ200の送受信手段201ではこれを受信する(ステップS1503)。
【0181】
サーバ200の音声処理言語情報作成手段202では、ステップS1503で受信した現在地データとサーバ内で管理している複合施設のサービスリストとにより辞書を作成する(ステップS1504)。
【0182】
辞書を、サーバ200の送受信手段201により通信端末100に送信し、通信端末100の送受信手段104で、辞書を受信する(ステップS1505)。
【0183】
次に、ステップS1505において受信した音声処理辞書を用いて、音声処理手段102の音声認識を起動する(ステップS1506)。
【0184】
さらに、通信端末100内の第1プログラムおよびデータ格納手段101に格納されているブラウザを起動し(ステップS1507)、ステップS1502において取得した現在地の住所から複合施設サービスページを表示する(ステップS1508)。
【0185】
ブラウザの表示中にユーザの発声があった場合(ステップS1509)、音声処理手段102で音声認識され(ステップS1510)、ページ中のリンクへのジャンプや文字入力などのコマンド処理が行われる(ステップS1511)。コマンドが終了コマンドであった場合、終了する。
【0186】
次に、図18および図19を参照して、図1の第2プログラムおよびデータ格納手段105に格納されるプログラムの一例として、第1プログラムおよびデータ格納手段101に格納された赤外線プログラムと、音声処理と、サーバ200とを連携動作させるプログラムの動作について説明する。
【0187】
図18および図19は、赤外線プログラムと、音声処理手段102とを連動させて使用するプログラムの一例を示す図であり、具体的には映画館やショッピングモール等の複合型施設でのサービスを音声認識や合成により受けるためのプログラムの一例である。
【0188】
このプログラムでは、複合施設の壁や柱や家具などの什器に、赤外線ポートを埋め込んだり、赤外線ポート専用の端末などのインフラを設けておくことが前提とされている。
【0189】
図18は、サービスの形態を説明するための図であり、複合施設内の赤外線ポート毎のサービス一覧を表している。この例では、各赤外線固有のポートIDと、各ポートの店舗名や設置フロアなど固定の位置情報と、什器や端末を特定するための情報と、ポートより受けられるサービスにより表している。
【0190】
例えば、ポートID=001の赤外線ポートは、美術館1階のA2柱に設置の展示Aに設置されている。このポートからは、展示品情報提供サービスの呼び出しが可動である。具体的には、展示Aに関連した情報を音声合成により読み上げを行う。
【0191】
また、ポートID=100の赤外線ポートは、西館6F中華料理店BにあるT100テーブルに設置されている。このポートからは、メニュー説明注文のサービスが可動である。具体的には、メニューの紹介を音声合成により読み上げたり、音声認識により注文を行う。
【0192】
図19は、赤外線プログラムと、音声処理とを連動させるプログラムの動作手順を示す図である。この例では、動作に必要なプログラムや音声処理に必要な辞書は、予め生成し、第1プログラムおよびデータ格納手段101に格納しておく。
【0193】
まず、第1プログラムおよびデータ格納手段101に格納されている赤外線プログラムを起動し(ステップS1701)、現在地の赤外線ポートIDを取得する(ステップS1702)。取得したポートIDに従ったサービスプログラムに切り替える(ステップS1703)。
【0194】
サービスプログラムでは、音声認識または音声合成が設定されているので、音声処理機能を起動する(ステップS1704)。
【0195】
起動されたプログラムに対して、ボタン入力や発声などのユーザ入力ある場合(ステップS1705)は、音声処理を実行する(ステップS1706)。具体的に、この処理では、音声合成による出力や、音声認識の結果をコマンドに変換して実行する。さらに、音声処理の結果が終了の場合には(ステップS1707)、終了する。
【0196】
次に、本発明の第2の実施例を図面を参照して説明する。図20は、この実施例の構成を示す図である。本実施例では、音声処理言語情報作成手段1103が、第1プログラムおよびデータ格納手段1101と第2プログラムおよびデータ格納手段1105の双方を参照して、音声言語情報を生成する点が、前記第1の実施例とは相違している。
【0197】
図22は、音声処理言語情報作成手段1103の動作を説明するための図である。
【0198】
図22(a)は、音声処理言語情報作成手段1103が第1プログラムおよびデータ格納手段1103より読み込んだプログラムおよびデータを説明するための図であり、この例では、メーラとメーラの管理するデータであるアドレス帳データとメールデータとを用いるものとする。
【0199】
図22(b)は、音声処理言語情報作成手段1103が、第2プログラムおよびデータ格納手段1105より読み込んだプログラムおよびデータを説明するための図である。この例では、商品検索プログラムと商品データを用いる。
【0200】
図22(c)は、前記商品データの一例を説明するための図であり、商品IDと商品名と商品データファイルとにより構成されている。
【0201】
図22(d)は、音声処理言語情報作成手段1103で生成する文法のテンプレートである。このテンプレートを用いると、読みと助詞と商品名とメールコマンドより構成される文法が生成される。また、メールコマンドは、メールとコマンド(メール)より構成される。読みはアドレス帳より参照する。また、商品名は商品データより参照する。
【0202】
それぞれのプログラムが管理するデータより参照できない、助詞、メール、コマンド(メール)に登録する単語列は予め与えておく。
【0203】
図22(e)は、文法テンプレートに、データを参照して文法を生成することを説明するための図で、参照後、「いっちゃんに商品001をメールで送る」という発声を音声認識するための文法が生成されたことを意味している。
【0204】
以上のように、音声処理言語情報作成手段1103で、第1プログラムおよびデータ格納手段1101より読み込んだプログラムおよびデータと、第2プログラムおよびデータ格納手段1101より読み込んだプログラムおよびデータとを連携させて音声言語情報を生成することにより、端末に固有のプログラムや機種やユーザに固有の情報や端末の状態によってダイナミックに変化する情報と機種に依存することなく作られた汎用的なプログラムやそのデータとを連携させ、音声認識や音声合成といった音声処理で制御することが可能になる。
【0205】
次に、本発明の第3の実施例を図面を参照して説明する。図23は、本発明の第3の実施例の構成を示す図である。
【0206】
本実施例では、複数のサーバ200〜n00より構成されている点と、通信端末2000や複数のサーバ200〜n00で生成される音声言語情報を統合するための通信端末2000が音声処理言語情報統合手段2107を備えている点が前記第1の実施例と相違している。。
【0207】
図24は、音声処理言語情報統合手段2107の動作を説明するための図である。音声処理言語情報統合手段2107は、サーバ200とサーバn00と通信端末2000のそれぞれで生成された音声言語情報を読み込んで、音声言語情報を生成する。
【0208】
図25(a)は、サーバ200で生成された音声言語情報の一例を示す図であり、映画に関する情報検索を行うための音声認識用文法の構成図と構成図に対応する文法の一例を示している。
【0209】
この文法は、映画名に関する項目である[映画]と、映画に関する項目である[項目(200)]と、問い合わせのための項目である[コマンド(200)]より構成されており、それぞれの項目に登録する単語列が定義されている。このように定義することにより、「映画Aの開始時間を教えて」がこの文法で認識可能となる。
【0210】
図25(b)は、サーバn00で生成された音声言語情報の一例で、店舗および施設に関する情報検索を行うための音声認識用文法の構成と対応する文法の一例を示している。
【0211】
この文法は、店舗や施設を特定するための項目である[店舗および施設名]と、店舗および施設に関する項目である[項目(n00)]と、問い合わせのための項目である[コマンド(n00)]より構成されており、[店舗および施設名]の[カテゴリ]と[名前]のそれぞれの項目に登録する単語列が定義されている。このように定義することにより、「レストランの店Aの予算はいくら」がこの文法で認識可能となる。
【0212】
図25(c)は、通信端末2000で生成された音声言語情報の一例で、メール操作を行うための音声認識用文法の構成と対応する文法の一例を示している。
【0213】
この文法は、メールのあて先を指定するための項目である[読み]と、メールに関する項目である[メール]と、問い合わせのための項目である[コマンド(メール)]より構成されており、それぞれの項目に登録する単語列が定義されている。このように定義することにより、「いっちゃんにメールを送る」がこの文法で認識可能となる。
【0214】
図25(d)は、音声処理言語情報統合手段2107で音声言語情報を合成するための一例であり、図25(a)から図25(c)での音声言語情報を合成するための文法テンプレートの構成を示している。この文法テンプレートでは、映画や施設の情報をメールで送信するための文法を想定している。文法は、メールのあて先を指定するための[読み]と、[助詞]と、映画や施設の名前や項目を指定するための[映画および施設情報]と、メールを送信するための[メールコマンド]より構成される。項目[読み]は、通信端末2000で生成された文法より参照する。また、項目[映画および施設情報]は、[映画情報]と、[助詞]と、[施設情報]と[助詞]より構成される。
【0215】
さらに、[映画情報]は、[映画]と、[項目(200)]より構成され、[映画]と、[項目(200)]は、サーバ200で生成された文法より参照する。
【0216】
[施設情報]は[店舗および施設名]と[項目(n00)]より構成され、[店舗および施設名]と[項目(n00)]は、サーバn00で生成された文法より参照する。
【0217】
図25(e)は、文法テンプレートに、データを参照して文法を生成することを説明するための図である。データを参照することで、「いっちゃんに映画Aの開始時間とレストランの店Aの予算をメールで送る」という発声を行う、音声認識のための文法が生成されたことを意味している。
【0218】
以上のように、音声処理言語情報作成手段で複数のサーバで生成された音声言語情報と通信端末内で生成された音声言語情報を合成して音声言語情報を生成することにより、端末に固有のプログラムや機種やユーザに固有の情報や端末の状態によってダイナミックに変化する情報と機種に依存することなく作られた汎用的なプログラムやそのデータとを連携させ、音声認識や音声合成といった音声処理で制御することが可能になる。
【0219】
以上本発明を上記実施例に即して説明したが、本発明は上記実施例の構成にのみ限定されるものでなく、本発明の範囲内で当業者であればなし得るであろう各種変形、修正を含むことは勿論である。
【産業上の利用可能性】
【0220】
本発明によれば、携帯電話や携帯端末で音声認識や音声合成などの音声処理と端末に内蔵されたプログラムやそのプログラムが管理するデータとを連携されるといった用途に適用できる。特に、端末が管理するシステムの状態によって動的に変化するデータや個人情報を音声処理とを連携させる用途に適用できる。
【0221】
また、音声処理と端末に内蔵されたプログラムやそのプログラムが管理するデータとサーバとを連携させる用途にも適用可能である。具体的には、携帯電話を用いて複合施設の情報検索案内サービス用途に適用可能である。例えば、上記実施例では、携帯型通信端末を例に説明したが、音声処理機能を具備した任意の電子装置等に対して適用できることは勿論である。
【図面の簡単な説明】
【0222】
【図1】本発明の第1の実施の形態の構成を示すブロック図である。
【図2】本発明の第1の実施の形態の動作を示す流れ図である。
【図3】本発明の第1の実施の形態の通信端末に記憶されているプログラムおよびそのデータの具体例を示す図である。
【図4】本発明の第1の実施の形態の通信端末に予め格納されているプログラムおよびそのデータの具体例を示す図である。
【図5】本発明の第1の実施の形態の通信端末に予め格納されているプログラムおよびそのデータの具体例を示す図である。
【図6】本発明の第1の実施の形態の通信端末に予め格納されているプログラムおよびそのデータの具体例を示す図である。
【図7】本発明の第1の実施の形態の通信端末に予め格納されているプログラムおよびそのデータの具体例を示す図である。
【図8】本発明の第1の実施の形態の通信端末に予め格納されているプログラムおよびそのデータの具体例を示す図である。
【図9】本発明の第1の実施の形態の通信端末での音声処理用の音声言語情報作成の具体例を示す図である。
【図10】本発明の第1の実施の形態の通信端末での音声処理用の音声言語情報作成の具体例を示す図である。
【図11】本発明の第1の実施の形態の通信端末での音声処理用の音声言語情報作成の具体例を示す図である。
【図12】本発明の第1の実施の形態のサーバに格納されているデータの具体例を示す図である。
【図13】本発明の第1の実施の形態のサーバでの音声処理用の音声言語情報作成の具体例を示す図である。
【図14】本発明の第1の実施の形態のサーバでの音声処理用の音声言語情報作成の具体例を示す図である。
【図15】本発明の第1の実施の形態の端末外部よりダウンロードされたプログラムの動作の一例を示すための図である。
【図16】本発明の第1の実施の形態の端末外部よりダウンロードされたプログラムの動作の一例を示すための図である。
【図17】本発明の第1の実施の形態の端末外部よりダウンロードされたプログラムの動作の一例を示すための図である。
【図18】本発明の第1の実施の形態の端末外部よりダウンロードされたプログラムの動作の一例を示すための図である。
【図19】本発明の第1の実施の形態の端末外部よりダウンロードされたプログラムの動作の一例を示すための図である。
【図20】本発明の第2の実施の形態の構成を示す図である。
【図21】本発明の第2の実施の形態の動作を示す流れ図である。
【図22】本発明の第2の実施の形態の通信端末での音声処理用の音声言語情報作成の具体例を示す図である。
【図23】本発明の第3の実施の形態の構成を示す図である。
【図24】本発明の第3の実施の形態の動作を示す流れ図である。
【図25】本発明の第3の実施の形態の通信端末での音声処理言語情報統合の具体例を示す図である。
【符号の説明】
【0223】
100、1000、2000 通信端末
101、1101、2101 第1プログラムおよびデータ格納手段
102、1102、2102 音声処理手段
103、1103、2103 音声処理言語情報作成手段
104、1104、2104 送受信手段
105、1105、2105 第2プログラムおよびデータ格納手段
106、1106、2106 制御手段
2107 音声処理言語情報統合手段
200、n00 サーバ
201、n01 送受信手段
202、n02 音声処理言語情報作成手段

【特許請求の範囲】
【請求項1】
音声認識及び/又は音声合成の処理を行う音声処理部と、
通信端末上で予め定められた所定の機能を実現するためのプログラム及び/又はデータを少なくとも記憶する第1の記憶部と、
前記通信端末外部から前記通信端末に入力され、前記第1の記憶部に記憶されているプログラム及び/又はデータと、前記音声処理部による音声処理との連携の仕方を規定するプログラム及び/又はデータを少なくとも記憶する第2の記憶部と、
前記通信端末外部から入力された前記プログラム及び/又はデータと、前記第1の記憶部に記憶されている前記プログラム及び/又はデータとを用いて、前記音声処理部による音声処理と、前記第1の記憶部に記憶されている前記プログラム及び/又はデータによる前記機能と、を連携動作させる制御を行う制御部と、
を備えている、ことを特徴とする通信端末。
【請求項2】
前記制御部は、前記第2の記憶部に記憶されているプログラムを起動し、起動された前記プログラムが、前記第1の記憶部に記憶されているプログラムを呼び出すか、データを用いて、前記音声処理部による音声処理と、前記第1の記憶部に記憶されているプログラム及び/又はデータとを連携動作させる、ことを特徴とする請求項1に記載の通信端末。
【請求項3】
音声認識及び/又は音声合成の処理を行う音声処理部と、
通信端末が保持する情報を少なくとも記憶する第1の記憶部と、
前記通信端末の外部から前記通信端末に入力され、音声処理用の言語情報を作成する手順を規定したプログラムを少なくとも記憶する第2の記憶部と、
前記第2の記憶部に記憶されている、前記音声処理用の言語情報を作成する手順を規定したプログラムの起動を制御する制御部と、
を備え、
前記音声処理用の言語情報を作成する手順を規定したプログラムは、起動されると、少なくとも、前記第1の記憶部に記憶された情報を用いて、前記音声処理部での音声処理に用いられる言語情報を作成し、
前記音声処理部は、前記作成された言語情報を用いて前記音声処理を行う、ことを特徴とする通信端末。
【請求項4】
前記第2の記憶部は、前記通信端末の外部から前記通信端末に入力され、前記第1の記憶部に記憶されているプログラム及び/又はデータと、前記音声処理部による音声処理との連携の仕方を規定するプログラムを記憶し、
前記第1の記憶部が、前記通信端末上で実行され、予め定められた所定の機能を実現するプログラム又は前記プログラムとデータを記憶し、
前記制御部は、前記第2の記憶部に記憶されているプログラムを起動し、前記音声処理部による音声処理と、前記第1の記憶部に記憶されているプログラム及び/又はデータとを連携動作させる、ことを特徴とする請求項3に記載の通信端末。
【請求項5】
前記通信端末外部から前記通信端末に入力され、前記第2の記憶部に記憶されるプログラム及び/又はデータは、前記通信端末が通信接続するサーバから転送される、ことを特徴とする請求項1乃至4のいずれか一に記載の通信端末。
【請求項6】
前記通信端末は、前記サーバに対して、音声処理用の言語情報の作成に必要な情報を送信し、
前記通信端末は、前記音声処理用の言語情報を受信した前記サーバ側で作成された前記音声処理用の言語情報を受け取り、前記音声処理部で音声処理を行う、ことを特徴とする請求項5に記載の通信端末。
【請求項7】
前記第1の記憶部には、前記音声処理部で用いられる、辞書、文法、言語モデルのうちの少なくとも一つを含む音声処理用の言語情報を生成するプログラム及び/又はデータが記憶されており、
前記通信端末は、少なくとも前記第1の記憶部に記憶されているプログラム及び/又はデータを用いて、前記音声処理用の言語情報を作成する音声処理言語情報作成部を備えている、ことを特徴とする請求項1乃至4のいずれか一に記載の通信端末。
【請求項8】
前記第2の記憶部には、前記通信端末外部から入力され、前記音声処理部で用いられる、辞書、文法、言語モデルのうちの少なくとも一つを含む言語情報を生成するプログラム及び/又はデータが記憶され、
前記音声処理言語情報作成部は、前記第1の記憶部と前記第2の記憶部に記憶されているプログラム及び/又はデータを用いて音声処理用の言語情報を作成する、ことを特徴とする請求項7に記載の通信端末。
【請求項9】
前記通信端末が、前記通信端末の前記音声処理言語情報作成部で作成された音声処理用の言語情報と、前記通信端末外部から入力された1つ又は複数の音声処理用の言語情報とを合成した言語情報を作成する音声処理用の言語情報統合部をさらに備えている、ことを特徴とする請求項7に記載の通信端末。
【請求項10】
前記通信端末外部から前記通信端末に入力される音声処理用の言語情報は、前記通信端末が通信接続するサーバで作成され前記サーバより前記通信端末に転送されたものである、ことを特徴とする請求項9に記載の通信端末。
【請求項11】
請求項1乃至10のいずれか一に記載の通信端末と通信接続するサーバ装置。
【請求項12】
通信端末上で予め定められた所定の機能を実現するプログラム及び/又はデータを少なくとも記憶する第1の記憶部を有し、音声認識及び/又は音声合成の音声処理を行う通信端末が、
前記通信端末外部から、前記第1の記憶部に記憶されているプログラム及び/又はデータと、前記音声処理との連携の仕方を規定するプログラムを少なくとも入力し、入力した前記プログラムを第2の記憶部に記憶する工程と、
前記通信端末外部から入力された前記プログラム及び/又はデータと、前記第1の記憶部に記憶されている前記プログラム及び/又はデータとを用いて、前記音声処理部による音声処理と、前記第1の記憶部に記憶されている前記プログラム及び/又はデータによる前記機能と、を連携動作させる制御を行う工程と、
を含む、ことを特徴とする音声処理方法。
【請求項13】
前記第2の記憶部に記憶されているプログラムを起動し、起動された前記プログラムが、前記第1の記憶部に記憶されているプログラムを呼び出すか、データを用いて、前記音声処理部による音声処理と、前記第1の記憶部に記憶されているプログラム及び/又はデータとを連携動作させる工程を含む、ことを特徴とする請求項12に記載の音声処理方法。
【請求項14】
通信端末が保持する情報を少なくとも記憶する第1の記憶部を有し、音声認識及び/又は音声合成の音声処理を行う通信端末が、
前記通信端末の外部から、音声処理用の言語情報を作成する手順を規定したプログラムを少なくとも入力し、入力した前記プログラムを第2の記憶部に記憶する工程と、
前記第2の記憶部に記憶されている、音声処理用の言語情報を作成する手順を規定したプログラムを起動する工程と、
前記第2の記憶部に記憶されている前記音声処理用の言語情報を作成する手順を規定したプログラムが、少なくとも、前記第1の記憶部に記憶された情報を用いて、前記音声処理部での音声処理に用いられる言語情報を作成する工程と、
前記作成された言語情報を用いて前記音声処理を行う工程と、
を含む、ことを特徴とする音声処理方法。
【請求項15】
前記第2の記憶部には、前記通信端末の外部から前記通信端末に入力され、前記第1の記憶部に記憶されているプログラム及び/又はデータと、前記音声処理との連携の仕方を規定するプログラムが記憶され、
前記第1の記憶部には、前記通信端末上で実行され所定の機能を実現するプログラム又は前記プログラムとデータが記憶され、
前記第2の記憶部に記憶されているプログラムを起動し、前記音声処理と、前記第1の記憶部に記憶されているプログラム及び/又はデータとを連携動作させる工程を含む、ことを特徴とする請求項14に記載の音声処理方法。
【請求項16】
前記通信端末外部から前記通信端末に入力され、前記第2の記憶部に記憶されるプログラム及び/又はデータは、前記通信端末が通信接続するサーバから転送される、ことを特徴とする請求項12乃至15のいずれか一に記載の音声処理方法。
【請求項17】
前記通信端末は、前記サーバに対して、音声処理用の言語情報の作成に必要な情報を送信する工程と、
前記サーバが、前記情報を受け取り前記音声処理用の言語情報を作成する工程と、
前記通信端末は、前記サーバ側で作成された前記音声処理用の言語情報を受け取り、前記音声処理部で音声処理を行う工程と、
を含む、ことを特徴とする請求項16に記載の音声処理方法。
【請求項18】
前記第1の記憶部には、前記音声処理部で用いられる、辞書、文法、言語モデルのうちの少なくとも一つを含む音声処理用の言語情報を生成するプログラム及び/又はデータが記憶されており、
少なくとも前記第1の記憶部に記憶されているプログラム及び/又はデータを用いて前記言語情報を作成する工程を含む、ことを特徴とする請求項12乃至15のいずれか一に記載の音声処理方法。
【請求項19】
前記第2の記憶部には、前記通信端末外部から入力され、前記音声処理部で用いられる、辞書、文法、言語モデルのうちの少なくとも一つを含む音声処理用の言語情報を生成するプログラム及び/又はデータが記憶され、
前記第1の記憶部と前記第2の記憶部に記憶されているプログラム及び/又はデータを用いて前記言語情報を作成する工程を含む、ことを特徴とする請求項12乃至15のいずれか一に記載の音声処理方法。
【請求項20】
前記通信端末の音声処理言語情報作成部で作成された音声処理用の言語情報と、前記通信端末外部から入力された1つ又は複数の音声処理用の言語情報とを合成した言語情報を作成する工程をさらに含む、ことを特徴とする請求項19に記載の音声処理方法。
【請求項21】
前記通信端末外部から前記通信端末に入力される音声処理用の言語情報は、前記通信端末が通信接続するサーバで作成され、前記サーバより前記通信端末に転送されたものである、ことを特徴とする請求項20に記載の音声処理方法。
【請求項22】
通信端末と、前記通信端末と通信接続するサーバとを備え、
前記通信端末は、認識及び/又は合成の音声処理を行う音声処理手段と、
前記通信端末に予め記憶されているプログラム及び/又はデータに基づき前記音声処理手段で用いられる言語情報を作成する手段と、
前記サーバからダウンロードされたプログラム及び/又はデータにより、前記通信端末に予め記憶されているプログラム及び/又はデータと、前記言語情報を用いた前記音声処理とを連携動作させる手段と、
を備えている、ことを特徴とする通信システム。
【請求項23】
通信端末と、前記通信端末と通信接続するサーバと、
を備え、
前記通信端末が、
前記通信端末が予め記憶保持するプログラム及び/又はデータを記憶する第1の記憶部と、
音声認識と音声合成の少なくとも一方の音声処理を行う音声処理部と、
前記第1の記憶部に記憶されているプログラム及び/又はデータに従って、前記音声処理部で用いられる言語情報を作成する音声処理言語情報作成手段と、
前記サーバからプログラム及び/又はデータを取得する手段と、
前記サーバから取得した前記プログラム及び/又はデータを記憶する第2の記憶部と、
前記第2の記憶部に記憶されたプログラム及び/又はデータに基づいて、前記音声処理部と、前記第1の記憶部のプログラム及び/又はデータを連携制御する制御手段と、
を含み、
前記サーバが、
前記通信端末から送信される情報を受信し、前記サーバで生成されたプログラム及び/又はデータを前記通信端末に送信する手段と、
前記通信端末から送信されたデータを基に前記サーバ側に格納されているデータより、音声処理部で用いられる言語情報を作成する音声処理言語情報作成手段と、
を含む、ことを特徴とする通信システム。
【請求項24】
通信端末で予め記憶保持するプログラム及び/又はデータを記憶する第1の記憶部と、
音声認識と音声合成の少なくとも一方の音声処理を行う音声処理部と、
前記第1の記憶部に記憶されているプログラム及び/又はデータに従って前記音声処理部で用いられる言語情報を作成する音声処理言語情報作成手段と、
通信端末外部からプログラム及び/又はデータを受信する手段と、
前記通信端末外部から受信したプログラム及び/又はデータを記憶する第2の記憶部と
前記第2の記憶部に記憶されているプログラム及び/又はデータを用いて、前記音声処理部と、前記第1の記憶部のプログラム及び/又はデータとを連携させる制御手段と、
を含む、ことを特徴とする通信端末。
【請求項25】
請求項24に記載の通信端末に通信接続されるサーバが、
前記通信端末から送信された情報を受信し、サーバで生成したプログラム及び/又はデータを前記通信端末に送信する手段と、
前記通信端末から送信されたデータを基に、前記サーバ側に格納されているデータより、音声処理部で用いられる言語情報を作成する音声処理言語情報作成手段と、
を含む、ことを特徴とするサーバ。
【請求項26】
請求項24に記載の通信端末において、
前記第1の記憶部には、少なくとも前記通信端末の状態が記憶されており、
前記音声処理言語情報作成手段は、前記通信端末の状態に応じて可変するデータを基に、前記言語情報を作成する、ことを特徴とする通信端末。
【請求項27】
請求項25に記載のサーバにおいて、
前記音声処理言語情報作成手段が、前記通信端末の前記第1の記憶部に記憶されている前記通信端末の状態に応じて可変するデータを、前記通信端末より受信し、受信したデータと、前記サーバ側で記憶管理しているデータとを基に、言語情報を作成し、作成した言語情報を、前記通信端末に送信する、ことを特徴とするサーバ。
【請求項28】
通信端末が、通信端末の外部より前記通信端末に送信されたプログラム及び/又はデータと、前記通信端末に予め記憶されているプログラム及び/又はデータとに基づき、音声処理で用いられる言語情報を生成する工程と、
前記通信端末が、前記音声処理用の言語情報を用いて、前記通信端末に予め記憶されているプログラム及び/又はデータと、音声処理とを連携動作させる処理を実行する工程と、
を含む、ことを特徴とする音声処理方法。
【請求項29】
通信端末を構成するコンピュータに、
前記通信端末に予め記憶されているプログラム及び/又はデータを記憶する処理と、
前記通信端末の外部で生成されたプログラム及び/又はデータを受信する処理と、
前記受信したプログラム及び/又はデータを記憶する処理と、
音声認識と音声合成の少なくとも一方を実行する処理と、
前記通信端末に予め記憶されているプログラム及び/又はデータに基づいて音声処理を行うための音声処理用の言語情報を生成する処理と、
前記受信したプログラム及び/又はデータにより、前記通信端末に予め記憶されているプログラム及び/又はデータと、音声処理とを連携させる処理と、
を実行させるためのプログラム。
【請求項30】
通信端末と、サーバとを有し、
前記通信端末が、
前記通信端末に予め記憶保持されるプログラム及び/又はデータを記憶する第1の記憶部と、
音声認識と音声合成の少なくとも一方の音声処理を行う音声処理部と、
前記サーバからプログラム及び/又はデータを取得する手段と、
前記サーバから取得したプログラム及び/又はデータを記憶する第2の記憶部と、
前記第1の記憶部と前記第2の記憶部に記憶されているプログラム及び/又はデータに従って、前記音声処理部で用いられる言語情報を作成する音声処理言語情報作成手段と、
前記第2の記憶部に記憶されているプログラム及び/又はデータを用いて、前記音声処理部と、前記第1の記憶部のプログラム及び/又はデータを、連携させる制御手段と、
を含み、
前記サーバが
前記通信端末側からの情報を受信し、前記サーバが生成したプログラム及び/又はデータを通信端末側に送信する手段と、
前記通信端末から送信されたデータを基に、サーバ側に格納されているデータより音声処理用の辞書を作成する音声処理言語情報作成手段と、
を含む、ことを特徴とする通信システム。
【請求項31】
前記通信端末に予め記憶保持されるプログラム及び/又はデータを記憶する第1の記憶部と、
音声認識と音声合成の少なくとも一方の音声処理を行う音声処理部と、
通信端末外部からプログラム及び/又はデータを取得する手段と、
前記通信端末外部から取得したプログラム及び/又はデータを記憶する第2の記憶部と、
前記第1の記憶部と前記第2の記憶部に記憶されているプログラム及び/又はデータに従って、前記音声処理部で用いられる言語情報を作成する音声処理言語情報作成手段と、
前記第2の記憶部に記憶されているプログラム及び/又はデータを用いて、前記音声処理部と、前記第1の記憶部に記憶されているプログラム及び/又はデータと、を連携させる制御手段と、
を含む、ことを特徴とする通信端末。
【請求項32】
請求項29に記載の通信端末から送信された情報を受信し、サーバ側で生成したプログラム及び/又はデータを、前記通信端末に送信する手段と、
前記通信端末から送信されたデータと、前記サーバ側に格納されているデータとから、前記音声処理部で用いられる辞書を作成する音声処理言語情報作成手段と、
を含む、ことを特徴とするサーバ。
【請求項33】
前記通信端末が、通信端末外部よりダウンロードされたプログラム及び/又はデータを取得する工程と、
前記通信端末が、前記ダウンロードされたプログラム及び/又はデータと、前記通信端末に予め記憶されているプログラム及び/又はデータとに基づいて、音声処理で用いられる音声処理用の言語情報を生成する工程と、
前記通信端末が、前記音声処理用の言語情報を用いて、前記通信端末に予め記憶されているプログラムと、前記通信端末外部よりダウンロードしたプログラム及び/又はデータと、前記音声処理とを連携動作させる工程と、
を含む、ことを特徴とする音声処理方法。
【請求項34】
通信端末を構成するコンピュータに、
通信端末外部よりプログラム及び/又はデータを取得する処理と、
前記取得したプログラム及び/又はデータと、前記通信端末に予め記憶されているプログラム及び/又はデータと、に基づいて、音声処理で用いられる音声処理用の言語情報を生成する処理と、
音声認識と音声合成の少なくとも一方を実行する処理と、
前記音声処理用の言語情報を用いて、前記通信端末に予め記憶されているプログラムと、前記通信端末外部よりダウンロードしたプログラム及び/又はデータと、前記音声処理とを連携動作させる処理と、
を実行させるためのプログラム。
【請求項35】
通信端末と、1つ又は複数のサーバを含み、
前記サーバは、前記通信端末から送信される情報を受信し、前記サーバ側で生成したプログラム及び/又はデータを通信端末に送信する手段と、
前記通信端末から送信されたデータと、前記サーバ側に格納されているデータとから音声処理用の辞書を作成する音声処理言語情報作成手段と、
を含み、
前記通信端末は、
前記通信端末に予め記憶保持されるプログラム及び/又はデータを記憶する第1の記憶部と、
音声認識と音声合成の少なくとも一方の音声処理を行う音声処理部と、
前記サーバからプログラム及び/又はデータを取得する手段と、
前記サーバから取得したプログラム及び/又はデータを記憶する第2の記憶部と、
前記第1の記憶部と前記第2の記憶部の双方に記憶されているプログラム及び/又はデータに従って、前記音声処理部で用いられる言語情報を作成する音声処理言語情報作成手段と、
前記第2の記憶部に記憶されているプログラム及び/又はデータを用いて、前記音声処理部と、前記第1の記憶部に記憶されているプログラム及び/又はデータを連携させる制御手段と、
前記音声処理言語情報作成手段で作成した音声処理用の言語情報と、前記サーバの前記音声処理言語情報作成手段で作成した音声処理用の言語情報とを合成する音声処理用の言語情報統合手段と、
を含む、ことを特徴とする通信システム。
【請求項36】
サーバ側で生成したプログラム及び/又はデータを通信端末に送信する送受信手段と、前記通信端末から送信されたデータとサーバ側に格納されているデータとから音声処理用の辞書を作成する音声処理言語情報作成手段と、を含むサーバと通信接続される通信端末が、
前記通信端末に予め記憶保持されるプログラム及び/又はデータを記憶する第1の記憶部と、
音声認識と音声合成の少なくとも一方の処理を行う音声処理部と、
前記サーバからプログラム及び/又はデータを取得する手段と、
前記サーバから取得したプログラム及び/又はデータを記憶する第2の記憶部と、
前記第1の記憶部と前記第2の記憶部の双方が記憶されているプログラム及び/又はデータに従って音声処理部で用いられる言語情報を作成する音声処理言語情報作成手段と、
前記取得したプログラム及び/又はデータを用いて、前記音声処理部と前記第1の記憶部のプログラム及び/又はデータを連携させる制御手段と、
前記音声処理言語情報作成手段で作成した音声処理用の言語情報と、前記サーバの音声処理言語情報作成手段で作成した音声処理用の言語情報とを合成する音声処理用の言語情報統合手段と、
を含む、ことを特徴とする通信端末。
【請求項37】
通信端末が、1つ又は複数のサーバよりダウンロードされたプログラム及び/又はデータと、前記通信端末に予め記憶されているプログラム及び/又はデータより、通信端末内及び/又は複数のサーバの少なくとも1つで生成された音声処理用の言語情報を統合する工程と、
前記通信端末が、前記音声処理用の言語情報を用いて、前記通信端末に予め記憶されているプログラム及び/又はデータと、サーバよりダウンロードしたプログラム及び/又はデータと、前記音声処理とを連携動作させる工程と、
を含む、ことを特徴とする音声処理方法。
【請求項38】
通信端末を構成するコンピュータに、
前記通信端末に予め記憶保持されるプログラム及び/又はデータを第1の記憶部に記憶する処理と、
通信端末外部の1つ又は複数のサーバより、プログラム及び/又はデータを受信する処理と、
前記受信したプログラム及び/又はデータを第2の記憶部に記憶する処理と、
音声認識と音声合成の少なくとも1方を行う処理と、
前記第2の記憶部に記憶されているプログラム及び/又はデータと、前記第1の記憶部に予め記憶されているプログラム及び/又はデータとに基づいて、音声処理を行うための音声処理用の言語情報を通信端末内で生成する処理と、
前記通信端末内で又は前記サーバで生成された音声処理用の言語情報を統合するための処理と、
前記第2の記憶部のプログラム及び/又はデータにより、前記第1の記憶部に予め記憶されているプログラム及び/又はデータと、音声処理とを連携させる処理と、
を実行させるためのプログラム。
【請求項39】
予め定められた所定の処理を行う第1の処理部と、
通信端末上で実行され、予め定められた機能を実現するためのプログラム及び/又はデータを少なくとも記憶する第1の記憶部と、
前記通信端末外部から前記通信端末に入力され、前記第1の記憶部に記憶されている前記プログラム及び/又はデータと、前記第1の処理部による前記処理との連携の仕方を規定するプログラム及び/又はデータを少なくとも記憶する第2の記憶部と、
前記第2の記憶部に記憶されているプログラム及び/又はデータを用い、さらに、前記第1の記憶部に記憶されている前記プログラム及び/又はデータを用いて、前記第1の記憶部に記憶されている前記プログラム及び/又はデータによる前記機能と、前記第1の処理部による前記処理とを、互いに連携動作させる制御を行う制御部と、
を備えている、ことを特徴とする通信端末。
【請求項40】
前記第1の処理部が、音声認識及び/又は音声合成処理を行う、ことを特徴とする請求項39に記載の通信端末。
【請求項41】
請求項39又は40に記載の通信端末と通信接続し、前記通信端末の前記第2の記憶部に記憶される前記プログラム及び/又はデータを前記通信端末に対して転送するサーバ装置。
【請求項42】
予め定められた所定の処理を行う第1の処理部と、
電子装置上で予め定められた機能を実現するためのプログラム及び/又はデータを少なくとも記憶する第1の記憶部と、
前記電子装置外部から、前記電子装置に入力され、前記第1の記憶部に記憶されている前記プログラム及び/又はデータと、前記第1の処理部による前記処理との連携の仕方を規定するプログラム及び/又はデータを少なくとも記憶する第2の記憶部と、
前記第2の記憶部に記憶されているプログラム及び/又はデータを用い、さらに、前記第1の記憶部に記憶されている前記プログラム及び/又はデータを用いて、前記第1の記憶部に記憶されている前記プログラム及び/又はデータによる前記機能と、前記第1の処理部による前記処理とを、互いに連携動作させる制御を行う制御部と、
を備えている、ことを特徴とする電子装置。
【請求項43】
前記第1の処理部が、音声認識及び/又は音声合成処理を行う、ことを特徴とする請求項42に記載の電子装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate

【図25】
image rotate


【公開番号】特開2007−256297(P2007−256297A)
【公開日】平成19年10月4日(2007.10.4)
【国際特許分類】
【出願番号】特願2004−79081(P2004−79081)
【出願日】平成16年3月18日(2004.3.18)
【出願人】(000004237)日本電気株式会社 (19,353)
【Fターム(参考)】