説明

音声によってテキストを入力する音声認識処理方法及びシステム

【課題】リアルタイムに音声データが認識され、且つ、ネットワークの負荷をできる限り小さくすることができる音声認識方法及びシステムを提供する。
【解決手段】端末が、呼接続要求を、セッション制御サーバを介して音声認識サーバへ送信し、音声認識サーバとの間で、音声データ用のRTPのセッションと、テキストデータ用のTCPのセッションとを確立する。次に、端末が、所定単位の音声データを、RTPのセッションを介して音声認識サーバへ送信する。これに対し、音声認識サーバが、音声認識処理手段を用いて変換した1次候補テキストデータを、TCPのセッションを介して端末へ送信する。利用者による音声入力が終了するまで、これらステップを連続的に繰り返し、利用者によって音声入力が終了した際に、音声認識サーバが、既に送信した1次候補以外のテキストデータが存在する場合、そのテキストデータを、端末へ送信する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声によってテキストを入力する音声認識処理方法及びシステムに関する。
【背景技術】
【0002】
パーソナルコンピュータのように比較的処理能力が高い端末を用いて、利用者が発声した音声を、テキストデータに変換するソフトウェアがある。端末は、マイクによって利用者が発声した音声を取得する。その音声は、音声データに符号化される。そして、その音声データは、音声認識処理によってテキストデータに変換される。
【0003】
また、携帯端末のように比較的処理能力が低い端末の場合、数千語彙程度のキーワードを音声認識することはできる。しかしながら、処理能力の観点から、ディクテーションのように数万語以上の大語彙に対応する文章を、音声認識することはできない。
【0004】
そのために、携帯端末が、ネットワークを介して音声認識サーバに接続することによって、音声認識処理を実行する技術がある。この技術によれば、携帯端末は、符号化された音声データを、HTTP(HyperText Transfer Protocol)によって音声認識サーバへ一括して送信する。音声認識サーバは、音声認識処理によって音声データをテキストデータへ変換する。変換されたテキストデータは、携帯端末へ返信される。これにより、音声認識処理の中で負荷が大きい処理を、サーバで実行することができる。即ち、処理能力の低い携帯端末であっても、大語彙の高精度な音声認識を実行することができる。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2005−283972号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
従来技術によれば、携帯端末は、音声認識サーバへ、HTTPリクエストを用いて音声データを一括して送信する。これに対し、音声認識サーバも、音声データを一括してテキストデータに変換する。そして、全てのテキストデータを、HTTPレスポンスによって一括して返信する。HTTPのリクエスト及びレスポンスのシーケンスを用いることによって、複数の携帯端末から1つの音声認識サーバへのアクセスも可能とする。
【0007】
しかしながら、利用者は、マイクへ発声しながら、ディスプレイでテキストデータを視認することができない。特に、入力される文章が長くなるほど、テキストデータの表示までに遅延が発生し、利便性に欠ける。また、HTTPの場合、下位プロトコルにTCP(Transmission Control Protocol)を用いるために、エラーフリーである反面、オーバヘッドが大きく且つネットワークへの負荷が大きい。
【0008】
そこで、本発明は、リアルタイムに音声データが認識され、且つ、ネットワークの負荷をできる限り小さくすることができる音声認識方法及びシステムを提供することを目的とする。
【課題を解決するための手段】
【0009】
本発明によれば、
セッション制御サーバと、
セッション制御サーバに対する呼接続手段と、テキスト処理アプリケーションと、利用者から音声データを入力する音声入力インタフェース手段とを起動する端末と、
セッション制御サーバに対する呼接続手段と、音声データをテキストデータに変換する音声認識処理手段とを有する音声認識サーバと
を有するシステムにおける音声認識処理方法であって、
端末が、テキスト処理アプリケーションに対する音声入力インタフェース手段を起動した際に、呼接続要求を、セッション制御サーバを介して音声認識サーバへ送信し、音声認識サーバとの間で、音声データ用の第1のセッションと、テキストデータ用の第2のセッションとを確立する第1のステップと、
端末が、利用者によって発声された所定単位の音声データを、第1のセッションを介して音声認識サーバへ送信する第2のステップと、
音声認識サーバが、音声認識処理手段を用いて変換した1次候補テキストデータを、第2のセッションを介して端末へ送信する第3のステップと、
端末及び音声認識サーバが、利用者による音声入力が終了するまで、第2のステップ及び第3のステップを連続的に繰り返す第4のステップと、
利用者によって音声入力が終了した際に、音声認識サーバが、既に送信した1次候補以外のテキストデータが存在する場合、該テキストデータを、端末へ送信する第5のステップと
を有することを特徴とする。
【0010】
本発明の音声認識処理方法における他の実施形態によれば、第1のステップについて、音声データ用の第1のセッションは、RTP(Realtime Transport Protocol)によって確立されており、テキストデータ用の第2のセッションは、TCP(Transmission Control Protocol)によって確立されていることも好ましい。
【0011】
本発明の音声認識処理方法における他の実施形態によれば、第1のステップについて、
端末のテキスト処理アプリケーションは、音声入力インタフェース手段へ音声認識パラメータを引き渡し、音声入力インタフェース手段は、音声認識パラメータを、呼接続手段へ引き渡し、呼接続手段は、音声認識パラメータを含む呼接続要求を、セッション制御サーバを介して音声認識サーバへ送信し、
音声認識サーバは、音声認識パラメータに基づいて音声認識処理が可能である場合にのみ、呼接続受付応答を返信することも好ましい。
【0012】
本発明の音声認識処理方法における他の実施形態によれば、第1のステップについて、音声認識パラメータは、復号処理のためのコーデック情報と、辞書切替のための音声認識種別とを含むことも好ましい。
【0013】
本発明によれば、端末と音声認識サーバとが、セッション制御サーバによって呼接続されるシステムにおいて、
端末は、
テキスト処理アプリケーションと、
利用者から音声データを入力する音声入力インタフェース手段と、
テキスト処理アプリケーションに対する音声入力インタフェース手段を起動した際に、呼接続要求を、セッション制御サーバを介して音声認識サーバへ送信し、音声認識サーバとの間で、音声データ用の第1のセッションと、テキストデータ用の第2のセッションとを確立する呼接続手段と、
音声入力インタフェース手段によって取得された所定単位の音声データを、第1のセッションを介して音声認識サーバへ送信する音声データ送信手段と
を有し、
音声認識サーバは、
セッション制御サーバに対する呼接続手段と、
音声データをテキストデータに変換する音声認識処理手段と、
1次候補テキストデータを第2のセッションを介して端末へ送信するテキストデータ送信手段と、
利用者による音声入力が終了するまで、音声認識処理手段及びテキストデータ送信手段を連続的に繰り返す音声認識制御手段と、
利用者によって音声入力が終了した際に、音声認識サーバが、既に送信した1次候補以外の候補テキストデータが存在する場合、該テキストデータを、端末へ送信する他候補蓄積手段と
を有することを特徴とする。
【0014】
本発明のシステムにおける他の実施形態によれば、音声データ用の第1のセッションは、RTPによって確立されており、テキストデータ用の第2のセッションは、TCPによって確立されていることも好ましい。
【0015】
本発明のシステムにおける他の実施形態によれば、
端末について、
テキスト処理アプリケーションは、音声入力インタフェース手段へ音声認識パラメータを引き渡し、
音声入力インタフェース手段は、音声認識パラメータを、呼接続手段へ引き渡し、
呼接続手段は、音声認識パラメータを含む呼接続要求を、セッション制御サーバを介して音声認識サーバへ送信し、
音声認識サーバについて、
音声認識パラメータに基づいて音声認識処理が可能である場合にのみ、呼接続受付応答を返信する
ことも好ましい。
【0016】
本発明のシステムにおける他の実施形態によれば、音声認識パラメータは、復号処理のためのコーデック情報と、辞書切替のための音声認識種別とを含むことも好ましい。
【発明の効果】
【0017】
本発明の音声認識方法及びシステムによれば、携帯端末は、所定単位の音声データをRTPのデータストリームで送信すると共に、音声認識によって変換されたテキストデータをTCPのデータストリームで受信する。これにより、音声データとテキストデータとを一括して送受信するHTTPの場合に比べて、ネットワークの負荷をできる限り小さくすることができる。
【0018】
また、携帯端末は、音声入力中には、音声データを逐次的に変換した第1候補テキストデータをディスプレイに表示すると共に、音声入力終了後に、他候補テキストデータをディスプレイに表示する。これにより、利用者から見て、音声入力中に、リアルタイムに音声データが認識されると共に、音声入力終了後に、最適なテキストデータを選択することができる。
【図面の簡単な説明】
【0019】
【図1】本発明における第1のシステム構成図である。
【図2】本発明における端末及び音声認識サーバの機能構成図である。
【図3】本発明におけるフローチャートである。
【図4】本発明における端末の第1の表示画面例である。
【図5】本発明における端末の第2の表示画面例である。
【図6】INVITEリクエストのSDPの記述例である。
【図7】INVITEレスポンスのSDPの記述例である。
【図8】本発明における第2のシステム構成図である。
【図9】本発明における第3のシステム構成図である。
【発明を実施するための形態】
【0020】
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
【0021】
図1は、本発明における第1のシステム構成図である。
【0022】
図1によれば、端末1は、セッション制御サーバ3を介して、音声認識サーバ2と呼接続する。端末1は、例えば携帯電話機のような比較的処理能力が低い携帯端末である。セッション制御サーバ3は、呼制御プロトコルとしてのSIP(Session Initiation Protocol)サーバであって、例えばIMS/MMD(IP Multimedia Subsystem / Multimedia Domain)網のコントロールネットワークに接続される。携帯端末1は、例えば携帯電話網のようなアクセスネットワークを介して、IMS/MMD網に接続する。
【0023】
図1によれば、携帯端末1は、テキスト処理アプリケーションとして、例えばメールソフトウェアを起動する。ここで、利用者は、携帯端末1のマイクに向かって発声することによって、メールソフトウェアのエディタにテキストを入力することができる。
【0024】
音声認識サーバ2は、SIPサーバ3を介して、携帯端末1から呼接続される。音声認識サーバ2は、携帯端末1から受信した音声データを、音声認識処理によってテキストデータに変換する。変換されたテキストデータは、携帯端末1へ返信させる。
【0025】
携帯端末1と音声認識サーバ2との間では、音声データ用のRTPのセッションと、認識候補となるテキストデータ用のTCPのセッションとが確立される。RTPは、音声又は動画等のデータをストリーミングで伝送するためのプロトコルである。TCPは、ファイル等のデータをエラーフリーで伝送するためのプロトコルである。
【0026】
RTPは、下位プロトコルにUDP(User Datagram Protocol)が用いられる。そのために、RTPパケットに、FEC(Forward Error Correction:前方誤り訂正)やMFT(Missing Feature Theory:ミッシングフィーチャー理論)の誤り訂正符号を付加することも好ましい。これによって、パケットロスによる認識性能への影響が軽減される。
【0027】
図2は、本発明における端末及び音声認識サーバの機能構成図である。
【0028】
携帯端末1は、ハードウェアとして、通信インタフェース部101と、利用者によって発声された音声を取得するマイク102と、テキストデータを表示するディスプレイ103と、操作及びテキストを選択するキー操作部104とを有する。
【0029】
また、携帯端末1は、ソフトウェアとして、呼接続部111と、トランスポートインタフェース部112と、テキスト処理アプリケーション113と、音声入力インタフェース部114と、音声データ送信部121と、テキストデータ受信部122と、他候補選択部123とを有する。これら機能構成部は、携帯端末に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。
【0030】
テキスト処理アプリケーション113は、テキストエディタ機能を有し、例えばメールアプリケーションであってもよい。テキスト処理アプリケーション113は、音声認識パラメータを引数として音声入力インタフェース部114を起動する。音声認識パラメータは、少なくとも、復号処理のためのコーデック情報と、辞書切替のための音声認識種別とである。音声入力終了後、テキスト処理アプリケーション113は、音声入力インタフェース部114から、テキストデータを取得する。
【0031】
音声入力インタフェース部114は、ユーザインタフェースとして機能する。音声入力インタフェース部114は、利用者が発声した音声をマイク102から取得し、AMR(Adaptive Multi-Rate)やEVRC(Enhanced Variable Rate Codec)等によって音声データに符号化する。又は、信号処理によって特徴抽出した音声データに変換するものであってもよい。音声入力インタフェース部114は、音声入力が終了した際に、呼接続部111へ、音声入力終了を通知する。
【0032】
尚、音声入力インタフェース部114は、テキスト処理アプリケーション113と重畳的に機能する。即ち、音声入力インタフェース部114は、種々のアプリケーションから共通に利用可能なミドルウェアとして実装される。そのため、テキスト処理アプリケーション113を設計する際に、音声認識処理を考慮する必要がない。また、
【0033】
呼接続部111は、SIPサーバ3に対してクライアントとして機能する。呼接続部111は、音声入力インタフェース部114が起動された際に、音声認識パラメータを含むINVITEメッセージ(呼接続要求)を、SIPサーバ3を介して音声認識サーバ2へ送信する。また、呼接続部111は、音声入力インタフェース部114の指示に応じて、音声入力開始又は終了の制御情報を含むINFOメッセージを、SIPサーバ3を介して音声認識サーバ2へ送信する。
【0034】
トランスポートインタフェース部112は、音声認識サーバ2との間で、音声データ用のRTPのデータストリームと、テキストデータ用のTCPのデータストリームとを確立する。
【0035】
音声データ送信部121は、音声入力インタフェース部114によって取得された所定単位の音声データを、RTPのデータストリームを介して音声認識サーバ2へ送信する。
【0036】
テキストデータ受信部122は、音声認識サーバ2から、音声認識によって得られたテキストデータを受信する。音声入力中には、逐次的に1次候補テキストデータを受信する。また、音声入力終了後には、1次候補テキストデータと、1つ以上の他候補テキストデータとの組み合わせを受信する。受信されたテキストデータは、テキスト処理アプリケーション113へ出力される。
【0037】
他候補選択部123は、利用者によって他候補テキストデータを選択させる。音声入力終了後、テキスト処理アプリケーションは、既にディスプレイに表示しているテキストデータの中から、他候補テキストデータに対応する1次候補テキストデータを検索する。一致した1次候補テキストデータについて、他候補テキストデータをディスプレイに表示し、利用者に選択させる。
【0038】
音声認識サーバ2は、通信インタフェース部201と、呼接続部211と、トランスポートインタフェース部212と、音声認識処理部221と、テキストデータ送信部222と、他候補蓄積部223と、音声認識制御部224とを有する。これら機能構成部は、サーバに搭載されたコンピュータを機能させるプログラムを実行させることによって実現される。
【0039】
呼接続部211は、SIPサーバ3に対してクライアントとして機能する。呼接続部211は、受信したINVITEメッセージから、音声認識パラメータを取得する。その音声認識パラメータは、音声認識処理部221へ出力される。
【0040】
トランスポートインタフェース部212は、携帯端末1との間で、音声データ用のRTPのデータストリームと、テキストデータ用のTCPのデータストリームとを確立する。
【0041】
音声認識処理部221は、RTPのデータストリームを介して音声データを受信し、音声認識によってその音声データをテキストデータに変換する。ここで、音声認識処理部221は、発声途中の暫定的な1次候補テキストデータをテキストデータ送信部222へ出力し、他の候補テキストデータを他候補蓄積部223へ出力する。
【0042】
音声認識処理部221は、辞書及び言語モデルを参照し、音声データをテキストデータに変換する。音声認識処理部221には、例えば、文章の「てにをは」を含めて認識するNグラムモデルがある。Nグラムモデルは、サンプルデータから統計的に確率を計算する言語モデルである。N=3(トライグラム)として、与えられた単語列w・・・wの出現確率P(w・・・w)の推定をする場合に、P(w・・・w)=ΠP(wi|wi-2、wi-1)×P(w)のように近似する。右辺のP(wi|wi-2、wi-1)は、単語wi-2、wi-1と来たときに、次にwiが来る条件付確率を表す。P(wi|wi-2、wi-1)の全ての積を計算し、P(w・・・w)が最も大きな値を取る単語列の組み合わせを認識結果として決定する。
【0043】
Nグラムモデルでは、発話中のある部分の音声認識に、前後の単語との相関を用いる。このため、ある部分の音声認識結果を得るために、その後の部分の発話が必要となる。当該部分の発話よりも数単語先までの発話を得てから音声認識結果が確定する。つまり、音声認識結果が確定するのは、当該部分の発話がなされてから数単語分遅れることになる。
【0044】
そこで、音声認識処理部221は、Nグラムモデルにおける1次候補テキストデータを、テキストデータ送信部222へ出力する。また、音声認識処理部221は、1次候補テキストデータと、その1次候補テキストデータから数単語先で確定した他候補テキストデータとの組み合わせを、他候補蓄積部223へ出力する。
【0045】
テキストデータ送信部222は、発声途中の暫定的な1次候補テキストデータを、TCPのデータストリームを介して、携帯端末1へ送信する。
【0046】
音声認識制御部224は、利用者による音声入力が終了するまで、音声認識処理部221及びテキストデータ送信部222を繰り返し機能させる。
【0047】
他候補蓄積部223は、利用者による音声入力が終了した際に、1次候補テキストデータと、1つ以上の他候補テキストデータとの組み合わせを、携帯端末1へ送信する。
【0048】
図3は、本発明におけるフローチャートである。図3のシーケンスに対応して、図4は、本発明における端末の第1の表示画面例である。また、図5は、本発明における端末の第2の表示画面例である。
【0049】
(S301)音声認識サーバ2は、REGISTERメソッドを用いて、当該サーバの位置情報(AOR(Address-Of-Record)、コンタクトアドレス)を、SIPサーバ3へ登録する。
【0050】
(S302)図4(a)によれば、テキスト処理アプリケーションは、メールソフトウェアであって、利用者がメールの「本文」にテキストを入力しようとしている。
【0051】
(S303)図4(b)によれば、携帯端末1について、メールソフトウェアのエディタが起動している。そして、利用者は、項目「認識開始」を選択する。
【0052】
(S304)図4(c)によれば、携帯端末1は、利用者へ、マイクに向かって発声するべく指示する。このとき、テキスト処理アプリケーションは、音声入力インタフェース部へ、音声認識パラメータを引き渡す。これにより、音声入力インタフェース部が起動する。
【0053】
(S305)携帯端末1は、REGISTERメソッドを用いて、当該端末の位置情報(AOR、コンタクトアドレス)を、SIPサーバ3へ登録する。AORは、SIPにおける端末のロケーションを表す論理的なアドレスである。ここで、AORは、音声認識サーバのアドレスを表す。コンタクトアドレスは、携帯端末の実アドレスであり、AORと紐付けされる。これにより、AORからコンタクトアドレスを検索することができる。尚、AORとコンタクトアドレスとは、必ずしも1対1とは限らない。1つのAORに対して複数のコンタクトアドレスを割り当てることにより、複数の音声認識サーバに対して同時に発信することもできる。
【0054】
(S311)携帯端末1は、呼接続要求(INVITE)を、SIPサーバ3を介して音声認識サーバ2へ送信する。ここで、INVITEリクエストのSDP(Specification Description Protocol)には、携帯端末1と音声認識サーバ2との間で、音声データ用のRTPのデータストリームと、テキストデータ用のTCPのデータストリームとを確立するべく記述される。
【0055】
図6は、INVITEリクエストのSDPの記述例である。
【0056】
"m"は、データストリーム種別を表し、"a"は、そのデータストリームに対するパラメータを表す。本発明のSDPには、音声データストリーム(m=audio)と、テキストデータストリーム(m=message)とが記述される。また、ペイロードタイプとコーデック/フォーマットとがマッピングされる。更に、音声認識パラメータが設定される。音声認識パラメータとしては、例えば、音声認識種別、パケットサイズ、転送間隔、及びテキストデータの出力候補数が設定されている。
【0057】
図6によれば、種々のパラメータも設定されている。例えば"gps"によれば、携帯端末の位置情報に基づいて音声認識の辞書を切り替えることもできる。また、例えば"user"によれば、個人識別情報又は個人履歴情報に基づいて音声認識の辞書を切り替えることもできる。
【0058】
音声認識サーバ2は、INVITEリクエストを受信した際に、音声認識パラメータを判定する。音声認識サーバ2は、その音声認識パラメータを許容できる場合、INVITEレスポンスを返信する。
【0059】
図7は、INVITEレスポンスのSDPの記述例である。
【0060】
INVITEレスポンスには、データストリーム毎に、音声認識サーバ側のポート番号が記述される。
【0061】
(S312)携帯端末1と音声認識サーバ2との間で、音声データ用のRTPのデータストリームと、テキストデータ用のTCPのデータストリームとが確立される。
【0062】
音声入力開始時に、音声認識サーバ2とのセッションが既に確立されている場合、REGISTERメソッド(S305)及びINVITEメソッド(S311)は省略する。
【0063】
(S321)携帯端末1は、音声入力開始の制御情報を含むINFOメッセージを、SIPサーバ3を介して音声認識サーバ2へ送信する。INFOメソッドは、音声認識パラメータの設定変更、及び音声認識処理の制御情報(開始・終了・中止、エラー等)の通知に用いられる。
【0064】
(S322)携帯端末1は、利用者によって発声された所定単位の音声データを、RTPのデータストリームを介して音声認識サーバ2へ送信する。これに対し、音声認識サーバ2は、音声認識処理によってテキストデータに変換し、発声途中の暫定的な1次候補テキストデータを、TCPのデータストリームを介して携帯端末1へ返信する。ここで、逐次的に返信されるテキストデータは、音声認識処理による1次候補のものである。携帯端末1は、TCPのデータストリームを介してテキストデータを受信すると同時に、利用者に視認させるべくディスプレイに表示する。
【0065】
音声データにおける所定単位は、パラメータで指定した転送サイズであって、ネットワーク状態に応じたバッファリングサイズ等によって可変に制御されるものであってもよい。
【0066】
図4(d)によれば、利用者の発声から認識された「おはようございます」が表示されている。
図4(e)によれば、利用者の発声から認識された「今日の」が表示されている。
図4(f)によれば、利用者の発声から認識された「回避は」が表示されている。実は、利用者は、「会議は」の意味で発声しているにも関わらず、音声認識処理によって1次候補として「回避は」と認識された。
図5(a)によれば、利用者の発声から認識された「午後3次より」が表示されている。実は、利用者は、「午後3時より」の意味で発声しているにも関わらず、音声認識処理によって1次候補として「午後3次より」と認識された。
図5(b)によれば、利用者の発声から認識された「いつもの場所ではじめます」が表示されている。
【0067】
(S323)携帯端末1は、利用者による音声入力が終了すると、音声入力終了の制御情報を含むINFOメッセージを、SIPサーバ3を介して音声認識サーバ2へ送信する。
【0068】
音声入力終了のINFOメッセージを受信した音声認識サーバ2は、既に送信した1次候補以外の他候補テキストデータが存在する場合、他候補テキストデータを、携帯端末1へ送信する。
【0069】
図5(c)によれば、携帯端末1は、1次候補テキストデータ「回避は」に対して、他候補テキストデータ「会費は」「会議は」を受信する。このとき、既にディスプレイに表示された1次候補テキストデータ「回避は」を検索し、その位置にアンカーを表示する。そして、「回避は」「会費は」「会議は」の中で、いずれが正しいテキストデータであるかを、利用者に選択させる。ここでは、「会議は」が選択されている。
【0070】
図5(d)によれば、携帯端末1は、1次候補テキストデータ「3次」に対して、他候補テキストデータ「賛辞」「3次」を受信する。このとき、既にディスプレイに表示された1次候補テキストデータ「3次」を検索し、その位置にアンカーを表示する。そして、「3次」「賛辞」「3時」の中で、いずれが正しいテキストデータであるかを、利用者に選択させる。ここでは、「3時」が選択されている。
【0071】
(S324)携帯端末1は、利用者によるテキストデータの選択が終了すると、テキスト処理アプリケーションへテキストデータを引き渡す。これによって、テキスト処理アプリケーションに対するテキストデータの入力が終了する。
【0072】
(S325)携帯端末1は、BYEメソッドで音声認識サーバ2と接続を切断し、セッションを終了する。
【0073】
(S326)最後に、携帯端末1は、REGISTERメソッドを用いて、当該携帯端末の位置登録を削除する。
【0074】
図8は、本発明における第2のシステム構成図である。
【0075】
図8のシステムは、IP電話又は電話会議システムへの適用例である。例えば、利用者自身又は相手方の発声を音声認識し、テキストデータを得る。そのテキストデータは、メモや議事録として保存され、又は、メールで第三者に転送されることもできる。
【0076】
図9は、本発明における第3のシステム構成図である。
【0077】
図9のシステムは、テレビ字幕システムへの適用例である。例えば、IPテレビ受信端末によって、放送番組又はビデオストリーミング番組を視聴する場合、放送内容の音声を認識し、テキストデータとして携帯端末で字幕表示する。
【0078】
以上、詳細に説明したように、本発明の音声認識方法及びシステムによれば、携帯端末は、所定単位の音声データをRTPのデータストリームで送信すると共に、音声認識によって変換されたテキストデータをTCPのデータストリームで受信する。これにより、音声データとテキストデータとを一括して送受信するHTTPの場合に比べて、ネットワークの負荷をできる限り小さくすることができる。
【0079】
また、携帯端末は、音声入力中には、音声データを逐次的に変換した第1候補テキストデータをディスプレイに表示すると共に、音声入力終了後に、他候補テキストデータをディスプレイに表示する。これにより、利用者から見て、音声入力中に、リアルタイムに音声データが認識されると共に、音声入力終了後に、最適なテキストデータを選択することができる。
【0080】
前述した本発明の種々の実施形態において、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
【符号の説明】
【0081】
1 携帯端末、端末、携帯電話機
101 通信インタフェース部
102 マイク
103 ディスプレイ
104 キー操作部
111 呼接続部
112 トランスポートインタフェース部
113 テキスト処理アプリケーション
114 音声入力インタフェース部
121 音声データ送信部
122 テキストデータ受信部
123 他候補選択部
2 音声認識サーバ
201 通信インタフェース部
211 呼接続部
212 トランスポートインタフェース部
221 音声認識処理部
222 テキストデータ送信部
223 他候補蓄積部
224 音声認識制御部
3 SIPサーバ、セッション制御サーバ

【特許請求の範囲】
【請求項1】
セッション制御サーバと、
前記セッション制御サーバに対する呼接続手段と、テキスト処理アプリケーションと、利用者から音声データを入力する音声入力インタフェース手段とを起動する端末と、
前記セッション制御サーバに対する呼接続手段と、前記音声データをテキストデータに変換する音声認識処理手段とを有する音声認識サーバと
を有するシステムにおける音声認識処理方法であって、
前記端末が、前記テキスト処理アプリケーションに対する前記音声入力インタフェース手段を起動した際に、呼接続要求を、前記セッション制御サーバを介して前記音声認識サーバへ送信し、前記音声認識サーバとの間で、音声データ用の第1のセッションと、テキストデータ用の第2のセッションとを確立する第1のステップと、
前記端末が、利用者によって発声された所定単位の音声データを、第1のセッションを介して前記音声認識サーバへ送信する第2のステップと、
前記音声認識サーバが、前記音声認識処理手段を用いて変換した1次候補テキストデータを、第2のセッションを介して前記端末へ送信する第3のステップと、
前記端末及び前記音声認識サーバが、前記利用者による音声入力が終了するまで、第2のステップ及び第3のステップを連続的に繰り返す第4のステップと、
前記利用者によって音声入力が終了した際に、前記音声認識サーバが、既に送信した1次候補以外のテキストデータが存在する場合、該テキストデータを、前記端末へ送信する第5のステップと
を有することを特徴とする音声認識処理方法。
【請求項2】
第1のステップについて、音声データ用の第1のセッションは、RTP(Realtime Transport Protocol)によって確立されており、テキストデータ用の第2のセッションは、TCP(Transmission Control Protocol)によって確立されていることを特徴とする請求項1に記載の音声認識処理方法。
【請求項3】
第1のステップについて、
前記端末の前記テキスト処理アプリケーションは、前記音声入力インタフェース手段へ音声認識パラメータを引き渡し、前記音声入力インタフェース手段は、前記音声認識パラメータを、前記呼接続手段へ引き渡し、前記呼接続手段は、前記音声認識パラメータを含む前記呼接続要求を、前記セッション制御サーバを介して前記音声認識サーバへ送信し、
前記音声認識サーバは、前記音声認識パラメータに基づいて音声認識処理が可能である場合にのみ、呼接続受付応答を返信する
ことを特徴とする請求項1又は2に記載の音声認識処理方法。
【請求項4】
第1のステップについて、前記音声認識パラメータは、復号処理のためのコーデック情報と、辞書切替のための音声認識種別とを含むことを特徴とする請求項3に記載の音声認識処理方法。
【請求項5】
端末と音声認識サーバとが、セッション制御サーバによって呼接続されるシステムにおいて、
前記端末は、
テキスト処理アプリケーションと、
利用者から音声データを入力する音声入力インタフェース手段と、
前記テキスト処理アプリケーションに対する前記音声入力インタフェース手段を起動した際に、呼接続要求を、前記セッション制御サーバを介して前記音声認識サーバへ送信し、前記音声認識サーバとの間で、音声データ用の第1のセッションと、テキストデータ用の第2のセッションとを確立する呼接続手段と、
前記音声入力インタフェース手段によって取得された所定単位の音声データを、第1のセッションを介して前記音声認識サーバへ送信する音声データ送信手段と
を有し、
前記音声認識サーバは、
前記セッション制御サーバに対する呼接続手段と、
前記音声データをテキストデータに変換する音声認識処理手段と、
1次候補テキストデータを第2のセッションを介して前記端末へ送信するテキストデータ送信手段と、
前記利用者による音声入力が終了するまで、前記音声認識処理手段及び前記テキストデータ送信手段を連続的に繰り返す音声認識制御手段と、
前記利用者によって音声入力が終了した際に、前記音声認識サーバが、既に送信した1次候補以外の候補テキストデータが存在する場合、該テキストデータを、前記端末へ送信する他候補蓄積手段と
を有することを特徴とするシステム。
【請求項6】
音声データ用の第1のセッションは、RTPによって確立されており、テキストデータ用の第2のセッションは、TCPによって確立されていることを特徴とする請求項5に記載のシステム。
【請求項7】
前記端末について、
前記テキスト処理アプリケーションは、前記音声入力インタフェース手段へ音声認識パラメータを引き渡し、
前記音声入力インタフェース手段は、前記音声認識パラメータを、前記呼接続手段へ引き渡し、
前記呼接続手段は、前記音声認識パラメータを含む前記呼接続要求を、前記セッション制御サーバを介して前記音声認識サーバへ送信し、
前記音声認識サーバについて、
前記音声認識パラメータに基づいて音声認識処理が可能である場合にのみ、呼接続受付応答を返信する
ことを特徴とする請求項5又は6に記載のシステム。
【請求項8】
前記音声認識パラメータは、復号処理のためのコーデック情報と、辞書切替のための音声認識種別とを含むことを特徴とする請求項7に記載のシステム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2010−217628(P2010−217628A)
【公開日】平成22年9月30日(2010.9.30)
【国際特許分類】
【出願番号】特願2009−65542(P2009−65542)
【出願日】平成21年3月18日(2009.3.18)
【出願人】(000208891)KDDI株式会社 (2,700)
【Fターム(参考)】