端末装置、言語モデル作成装置、および分散型音声認識システム

【課題】文脈に依存して異なる表記についての音声認識の精度を容易に向上させることができる端末装置、言語モデル作成装置、および分散型音声認識システムを提供すること。
【解決手段】携帯電話機２００は、音声データを、言語モデルを用いて音声認識処理を行う音声認識装置に送信する音声データ送信部２０８と、通常の送信メールのメール本文を、言語モデル作成用メールとして、言語モデルを作成する言語モデル作成装置に送信するメール処理部２０５とを有する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、メール送信を行うとともに言語モデルを用いて音声認識を行う音声認識装置に音声データを送信する端末装置と、言語モデルを作成する言語モデル作成装置と、これらの装置を用いた分散型音声認識システムとに関する。
【背景技術】
【０００２】
近年、携帯電話機などの各種端末装置において、キースイッチを用いた文字入力ではなく、マイクロフォンを用いた音声入力によって文字列を作成することが行われている（例えば特許文献１および特許文献２参照）。
【０００３】
特許文献１および特許文献２記載の技術では、ネットワーク上に、音声認識により音声データを文章化する音声認識装置を配置する。端末装置は、音声データを音声認識装置に送信する。音声認識装置は、音響モデル、辞書、および言語モデルを含む音声認識データベースを参照して音声データから文字列を作成し、端末装置に返信する。これにより、端末装置では、メール本文などの文字列を簡単に作成することが可能となる。
【０００４】
また、特許文献１および特許文献２には、音声認識データベースを更新する技術が記載されている。
【０００５】
特許文献１および特許文献２記載の技術では、音声認識装置は、音声認識データベースの辞書を参照して、端末装置から受信した音声データを文字列に変換し、端末装置に返信する。端末装置は、音声認識装置により作成された文字列に対するユーザ修正を受け付け、修正された文字列を音声認識装置に送信する。音声認識装置は、受信した文字列をメール本文とするメールを作成して送信するとともに、修正部分に基づいて音声認識データベースの辞書を修正する。これにより、読み仮名に対する単語表記の認識精度を向上させることができる。
【０００６】
更に、特許文献１および特許文献２には、ユーザ別に辞書を作成する技術が記載されている。
【０００７】
特許文献１および特許文献２記載の技術では、端末装置は、音声データおよび文字列を、発信者番号と対応付けて音声認識装置に送信する。音声認識装置は、発信者電話番号に対応付けた複数の辞書を作成する。そして、音声認識装置は、音声データの送信元の発信者電話番号に対応する辞書を用いて音声認識を行うとともに、文字列の送信元の発信者電話番号に対応する辞書を修正する。これにより、ユーザ属性ごとに異なる単語表記の傾向を反映したユーザ別の辞書を作成することができ、音声認識の精度を向上させることができる。
【特許文献１】特開２００２−２１５６１５号公報
【特許文献２】特開２００１−３０９０４９号公報
【発明の開示】
【発明が解決しようとする課題】
【０００８】
ところで、音声認識データベースに含まれる言語モデルは、通常、学習対象として用意された文字列に対して、所定の統計情報処理を行うことにより作成される。言語モデルは、辞書に記述された各単語について、出現確率や接続確率をデータ化したものである。
【０００９】
文脈の特徴はユーザごとに異なるため、各単語の出現確率や接続確率もユーザごとに異なる。したがって、音声認識の精度の向上を図るには、このような違いを考慮して音声認識を行うことが望ましい。
【００１０】
ところが、特許文献１および特許文献２記載の技術では、文字列に対する修正部分から辞書を修正するのみであるため、ユーザごとの文脈の違いを考慮して言語モデルを作成することはできない。すなわち、特許文献１および特許文献２記載の技術では、文脈に依存して異なる表記についての音声認識の精度を向上させることは困難である。
【００１１】
そこで、特許文献１および特許文献２の音声認識装置で、端末装置から送られてきた文字列を利用して、ユーザ別の言語モデルを作成することが考えられる。これにより、言語モデルを作成するのに十分な量の文字列を、各ユーザから容易に取得することが可能となる。
【００１２】
しかしながら、特許文献１および特許文献２記載の技術を用いた場合、メールサーバに音声認識装置を設けるなど、送信メールの経路上に音声認識装置が位置するようなシステム構成としなければならず、既存のシステムへの適用が困難である。すなわち、システム構築にコストや手間が掛かることから、文脈に依存して異なる表記についての音声認識の精度を向上させることは難しい。
【００１３】
本発明は、かかる点に鑑みてなされたものであり、文脈に依存して異なる表記についての音声認識の精度を容易に向上させることができる端末装置、言語モデル作成装置、および分散型音声認識システムを提供することを目的とする。
【課題を解決するための手段】
【００１４】
本発明の端末装置は、音声データを、言語モデルを用いて音声認識処理を行う音声認識装置に送信する音声データ送信手段と、通常の送信メールのメール本文を、言語モデル作成用メールとして、前記言語モデルを作成する言語モデル作成装置に送信するメール送信手段とを有する構成を採る。
【００１５】
本発明の言語モデル作成装置は、端末装置から受信した言語モデル作成用メールを用いて、音声認識処理に用いる言語モデルを作成する言語モデル作成装置であって、ＩＤ情報とメール本文とを含む前記言語モデル作成用メールを受信するメール受信手段と、受信した前記言語モデル作成用メールから、メール本文とＩＤ情報とを抽出するメール処理手段と、抽出した前記メール本文を学習し、前記ＩＤ情報毎に前記言語モデルを作成する言語モデル作成手段とを有する構成を採る。
【００１６】
本発明の分散型音声認識システムは、言語モデルを用いて音声データに対する音声認識処理を行う音声認識装置と、前記音声認識装置に音声データを送信する端末装置と、文字列の学習により前記言語モデルを作成する言語モデル作成装置と、を具備する分散型音声認識システムであって、前記端末装置は、通常の送信メールの宛先を編集して言語モデル作成用メールを生成し、前記言語モデル作成装置に送信し、前記言語モデル作成装置は、受信した前記言語モデル作成用メールのメール本文を学習して前記言語モデルを作成し、前記音声認識装置は、前記端末装置から受信した前記音声データに対し、前記言語モデルを用いて音声認識処理を行う構成を採る。
【発明の効果】
【００１７】
本発明によれば、メールにより送信メールのメール本文を収集するので、既存のシステムに変更を加えることなく、ユーザ別の言語モデルを作成するのに十分な量の文字列を各ユーザから収集することができる。これにより、文脈に依存して異なる表記についての音声認識の精度を容易に向上させることができる。
【発明を実施するための最良の形態】
【００１８】
以下、本発明の各実施の形態について、図面を参照して詳細に説明する。
【００１９】
（実施の形態１）
図１は、本発明の実施の形態１に係る分散型音声認識システムとしての音声認識システムの構成の一例を示すシステム構成図である。本実施の形態は、本発明を、音声認識を用いて携帯電話機でメール本文を作成するシステムに適用した例である。
【００２０】
図１において、音声認識システム１００は、携帯電話機２００−１〜２００−Ｍ、メールサーバ３００、および音声認識サーバ４００を有する。これらの装置は、無線または有線により通信網５００に接続されている。携帯電話機２００−１〜２００−Ｍは、同一の構成を有し、本発明の端末装置を含むものである。また、音声認識サーバ４００は、本発明の言語モデル作成装置と、音声認識データベースとを含むものである。
【００２１】
携帯電話機２００は、携帯電話機能およびメール送受信機能を有し、更に、音声認識サーバ４００を利用して音声入力によりメール本文の作成を行う音声入力機能を有している。具体的には、携帯電話機２００は、入力音声の特徴を示す音声データを、自装置のＩＤ（identifier）情報と対応付けて音声認識サーバ４００に送信する。そして、携帯電話機２００は、音声認識サーバ４００による音声認識の結果である文字列のデータ（以下「テキストデータ」という）を受信する。携帯電話機２００は、このようにして音声入力機能により作成したメール本文を、メールサーバ３００を介して、任意の宛先にメールで送信する。
【００２２】
また、携帯電話機２００は、メールを送信するごとに、その送信メールのメール本文の文字列を、自装置のＩＤ情報と対応付けて、メールにより音声認識サーバ４００に送信する。このメール本文は、音声認識サーバ４００において、携帯電話機２００のユーザ別の言語モデル（以下「ユーザ別言語モデル」という）を作成するのに用いられる。
【００２３】
メールサーバ３００は、携帯電話機２００のメールの送受信を管理する。
【００２４】
音声認識サーバ４００は、音声認識データベースを有し、この音声認識データベースに基づいて、所定の音声認識処理を行う。音声認識サーバ４００は、音声データを、携帯電話機２００のＩＤ情報と対応付けて受信し、対応するユーザ別言語モデルが存在する場合には、そのユーザ別言語モデルを用いて音声認識処理を行う。そして、音声認識サーバ４００は、音声認識の結果として作成したテキストデータを、音声データの送信元に返信する。
【００２５】
また、音声認識サーバ４００は、携帯電話機２００から、メールにより、携帯電話機２００のＩＤ情報と対応付けて送られてきた文字列を受信する。そして、音声認識サーバ４００は、受信した文字列を学習し、携帯電話機２００のＩＤ情報に対応付けたユーザ別言語モデルを作成する。
【００２６】
通信網５００は、例えば、インターネットである。携帯電話機２００、メールサーバ３００、および音声認識サーバ４００は、ＴＣＰ／ＩＰ（transmission control protocol）などの通信プロトコルを用いて、通信網５００を介して互いに通信を行う。また、携帯電話機２００、メールサーバ３００、および音声認識サーバ４００は、ＳＭＴＰ（simple mail transfer protocol）やＰＯＰ３（post office protocol version 3）を用いて、メールの送受信を行う。
【００２７】
このような音声認識システム１００によれば、携帯電話機２００からメールが送信されるごとに、送信メールのメール本文と同一内容の文字列が、メールにより音声認識サーバ４００に送信される。この結果、携帯電話機２００のユーザにより作成されたメール本文と同一の文字列が、音声認識サーバ４００に自動的に送信される。すなわち、ユーザに特別な意識や操作をさせることなく、また、煩雑な処理を伴うことなく、ユーザ別言語モデルの作成に十分な量のテキストデータを、音声認識サーバ４００に収集することができる。また、ユーザが音声認識の機能を使用してメール本文を作成するに従って、次第にユーザ固有のメール本文の特徴を文脈情報と共に学習し、音声認識精度を向上させることができる。
【００２８】
次に、携帯電話機２００の構成について説明する。
【００２９】
図２は、携帯電話機２００の構成を示すブロック図である。
【００３０】
図２に示すように、携帯電話機２００は、ＩＤ記憶部２０１、無線部２０２、アンテナ部２０３、操作部２０４、メール処理部２０５、マイクロフォン２０６、特徴量抽出部２０７、音声データ送信部２０８、テキストデータ受信部２０９、ディスプレイ２１０、スピーカ２１１、および制御部２１２を有する。メール処理部２０５は、ＢＣＣ（blind carbon copy）生成部２１３を有する。
【００３１】
ＩＤ記憶部２０１は、携帯電話機２００に固有のＩＤ情報を記憶する。ＩＤ記憶部２０１は、例えば、多くの携帯電話機２００に搭載されているＳＩＭ（subscriber identity module）である。この場合のＩＤ情報は、例えば、加入者識別番号（ＩＭＳＩ：international mobile subscriber identity）や、ＳＩＭに割り当てられた識別番号（ＳＩＭＮＯ）である。
【００３２】
無線部２０２は、アンテナ部２０３を介して、通信網５００に配置された無線基地局（図示せず）と無線通信を行い、通信網５００に接続する。
【００３３】
操作部２０４は、キースイッチ（図示せず）を備え、文字入力操作や、音声認識によるメール作成の開始の指示操作を含む各種のユーザ操作を受け付ける。
【００３４】
メール処理部２０５は、ユーザの文字入力操作、および音声認識サーバ４００から受信されたテキストデータに基づいて、メール本文を作成する。そして、メール処理部２０５は、作成したメール本文を、任意のメールアドレスを宛先に指定して、無線部２０２を介してメールサーバ３００に送信する。
【００３５】
ＢＣＣ生成部２１３は、メールが送信されるごとに、その送信メールのメール本文と同一の文字列を、ＩＤ記憶部２０１に記憶されたＩＤ情報と対応付けて、メールにより音声認識サーバ４００に送信する。具体的には、ＢＣＣ生成部２１３は、ＢＣＣの機能を用いて、送信メールのメール本文の宛先に音声認識サーバ４００を追加し、送信メールのコピーメールを、音声認識サーバ４００に送信する。
【００３６】
マイクロフォン２０６は、ユーザの発話音声を含む音声を入力し、音声信号に変換する。
【００３７】
特徴量抽出部２０７は、マイクロフォン２０６から出力される音声信号を分析し、音声認識サーバ４００での音声認識で用いられる特徴量を抽出する。具体的には、特徴量抽出部２０７は、音声信号に対してフレーム処理を行い、フレームごとにフーリエ解析を含む所定の処理を行って、ケプストラムパラメータなどの音声特徴量（以下単に「特徴量」という）を抽出する。そして、特徴量抽出部２０７は、解析結果からユーザの音声が含まれている音声区間を検出し、音声区間の特徴量のみによる時系列データを生成する。
【００３８】
音声データ送信部２０８は、音声認識によるメール本文の作成が開始されると、無線部２０２を介して、音声認識サーバ４００との間で音声データおよびテキストデータを送受信するためのセッションを確立し、ＩＤ記憶部２０１に記憶されたＩＤ情報を音声認識サーバ４００に送信する。そして、音声データ送信部２０８は、特徴量抽出部２０７から出力される音声データをパケット化し、音声認識サーバ４００に送信する。
【００３９】
テキストデータ受信部２０９は、音声データに対する音声認識結果として音声認識サーバ４００から返信されるテキストデータを、無線部２０２を介して受信する。
【００４０】
ディスプレイ２１０は、ユーザによる文字入力操作、および音声認識サーバ４００から受信したテキストデータに基づいて、テキスト文書をメール本文の候補として表示する。また、ディスプレイ２１０は、携帯電話機２００の操作に関する各種情報を表示する。
【００４１】
スピーカ２１１は、例えば、携帯電話機能において相手先から送られてくる音声データを音声出力する。
【００４２】
制御部２１２は、ＣＰＵ（central processing unit）、制御プログラムを格納したＲＯＭ（read only memory）などの記憶媒体、ＲＡＭ（random access memory）などの作業用メモリなどを含んで構成され、携帯電話機２００の各部を制御する。また、携帯電話機２００の各部は、例えば、ＡＳＩＣ（application specific integrated circuit）や、通信回路を含んで構成される。
【００４３】
次に、音声認識サーバ４００の構成について説明する。
【００４４】
図３は、音声認識サーバ４００の構成を示すブロック図である。
【００４５】
図３に示すように、音声認識サーバ４００は、ネットワークインタフェース（Ｉ／Ｆ：interface）部４１０、ユーザ別言語モデル作成部４２０、音声認識データベース（ＤＢ：database）４３０、および音声認識部４４０を有する。
【００４６】
ネットワークインタフェース部４１０は、通信網５００に有線接続する。
【００４７】
ユーザ別言語モデル作成部４２０は、携帯電話機２００からメールサーバ３００経由で送られてきた、携帯電話機２００のＩＤ情報と対応付けられた文字列を、ネットワークインタフェース部４１０を介して受信する。そして、ユーザ別言語モデル作成部４２０は、受信した文字列を解析し、ＩＤ情報に対応付けてユーザ別言語モデルを作成して、音声認識データベース４３０を更新する。このユーザ別言語モデル作成部４２０は、メール受信部４２１、データベース（ＤＢ）切換部４２２、および言語モデル作成部４２３を有する。メール受信部４２１は、文書抽出部４２４およびＩＤ抽出部４２５を有する。
【００４８】
メール受信部４２１は、自装置宛のメールを受信する。具体的には、メール受信部４２１は、メールサーバ３００から、音声認識サーバ４００のドメイン名を宛先とするメールを取得する。
【００４９】
文書抽出部４２４は、受信メールのメール本文を学習対象の文字列として抽出し、言語モデル作成部４２３に出力する。
【００５０】
言語モデル作成部４２３は、メール受信部４２１で抽出されたメール本文に対して所定の統計情報処理を行い、ユーザ別言語モデルを作成する。具体的には、既に存在するユーザ別言語モデルが処理の対象である場合には、新たに受信したメール本文の統計情報処理結果に応じて言語モデルを作成し、ユーザ別言語モデル４３４を修正する。また、新たなユーザ別言語モデルを作成する場合には、作成した言語モデルを、基となる受信メールから抽出されたＩＤ情報に対応付けて、ユーザ別言語モデル４３４に登録する。
【００５１】
一方、ＩＤ抽出部４２５は、受信メールに対応付けられた、送信元の携帯電話機２００のＩＤ情報を抽出し、データベース切換部４２２に出力する。具体的には、ＩＤ抽出部４２５は、受信メールの宛先アドレスのアカウント名から、送信元のＩＤ情報を抽出する。携帯電話機２００が音声認識サーバ４００にメールを送信する際の宛先アドレスの構成については後述する。
【００５２】
データベース切換部４２２は、言語モデル作成部４２３による登録処理および更新処理の対象となるユーザ別言語モデルを切り換える。具体的には、データベース切換部４２２は、音声認識データベース４３０から、ＩＤ抽出部４２５が受信メールから抽出したＩＤ情報に対応するユーザ別言語モデルを、言語モデル作成部４２３の処理対象として選択する。
【００５３】
ここで、言語モデルについて説明する。言語モデルは、学習対象の文字列における文脈のパターンを、関連語彙数によりモデル化したものであり、トライグラムモデル、バイグラムモデル、およびユニグラムなどのＮグラムモデルを含む。
【００５４】
Ｎグラムは、連続するＮ個の単語の組み合わせである。Ｎグラムモデルは、学習対象の文字列からＮグラムを抽出し、抽出されたＮグラムのそれぞれについて出現確率を算出したものである。実際には、Ｎグラムモデルの作成では、機能語や固有名詞の無視など、学習対象として扱う語彙の制限や、出現頻度の少ないＮグラムのカットオフが行われる。これにより、計算量を削減することができる。また、出現していないＮグラムを考慮した確率の平滑化などが行われる。これにより、学習の初期段階において、統計量の不足により音声認識精度が低下するのを防ぐことができる。
【００５５】
すなわち、ユーザ別言語モデルは、ユーザ別にそのユーザが作成した文字列のみに基づいて作成されるため、ユーザの文脈のパターンをより反映させた内容となる。例えば、ある携帯電話機２００から「尾田さんに連絡」という文字列を含むメールが何度か送信された場合、対応するユーザ別言語モデル４３４では、「小田さんに連絡」や「織田さんに連絡」の出現確率よりも、「尾田さんに連絡」という文字列の出現確率が高くなる。
【００５６】
音声認識データベース４３０は、音声認識部４４０が所定の音声認識処理で用いる各種データを格納する。音声認識データベース４３０は、音響モデル４３１、辞書４３２、共通言語モデル４３３、およびユーザ別言語モデル４３４を格納する。ここでは、言語モデル作成部４２３によって、携帯電話機２００−１〜２００−Ｍに対応するＭ個のユーザ別言語モデル４３４−１〜４３４−Ｍが既に作成された状態を示している。
【００５７】
音響モデル４３１は、携帯電話機２００で入力音声から得られる特徴量と発音記号との確率的な対応付けをデータ化したものである。音響モデル４３１は、例えば、新聞記事の文字列とその新聞記事を読み上げたときの音声とをデータ化して蓄積した、読み上げ音声データベースに基づいて作成される。
【００５８】
辞書４３２は、音声認識の対象となる単語の発音記号をデータ化したものである。辞書４３２は、例えば、上記した読み上げ音声データベースに基づいて作成される。
【００５９】
共通言語モデル４３３は、辞書４３２に記述された単語のそれぞれについて、一般的な出現確率や接続確率をデータ化したものである。共通言語モデル４３３は、例えば、上記した読み上げ音声データベースのうち、テキストデータから作成される。ここでは、上記音響モデル４３１、辞書４３２、および共通言語モデル４３３は、全てのユーザに対して共通して使用されるものとして説明するが、勿論、これらの一部または全てをユーザ別に設けた構成としてもよい。
【００６０】
ユーザ別言語モデル４３４は、ユーザ別言語モデル作成部４２０によって、携帯電話機２００からの受信メール、つまり携帯電話機２００の送信メールに含まれるメール本文の文字列に基づいて作成される言語モデルである。ユーザ別言語モデル４３４は、上記したように携帯電話機２００のユーザごとに作成され、それぞれ携帯電話機２００のＩＤ情報に対応付けられている。
【００６１】
音声認識部４４０は、携帯電話機２００から受信した音声データに対し、音響モデル４３１、辞書４３２、および共通言語モデル４３３を用いて、所定の音声認識処理を行う。そして、音声認識部４４０は、音声認識結果として作成したテキストデータを、音声データの送信元に返信する。また、音声認識部４４０は、音声データを携帯電話機２００のＩＤ情報と対応付けて受信し、対応するユーザ別言語モデル４３４が存在する場合には、そのユーザ別言語モデル４３４も併せて用いる。この音声認識部４４０は、音声データ受信部４４１、データベース切換部４４２、文章作成部４４３、およびテキストデータ送信部４４４を有する。音声データ受信部４４１は、ＩＤ受信部４４５を有する。
【００６２】
音声データ受信部４４１は、携帯電話機２００からの要求に応じて携帯電話機２００とのセッションを確立し、携帯電話機２００から送られてくる音声データを受信する。
【００６３】
ＩＤ受信部４４５は、セッション確立の際に携帯電話機２００から送られてくるＩＤ情報を受信する。
【００６４】
データベース切換部４４２は、文章作成部４４３による処理の対象となるユーザ別言語モデル４３４を切り換える。具体的には、データベース切換部４４２は、音声認識データベース４３０から、ＩＤ受信部４４５が受信したＩＤ情報に対応するユーザ別言語モデル４３４を、文章作成部４４３の処理対象として選択する。
【００６５】
文章作成部４４３は、音声データに対し、音響モデル４３１、辞書４３２、および共通言語モデル４３３を用いて所定の音声認識処理を行い、テキストデータを生成する。具体的には、文章作成部４４３は、音響モデル４３１から各発音記号の尤度を、辞書４３２から各発音記号の組み合わせに対応する単語を、共通言語モデル４３３およびユーザ別言語モデル４３４からＮグラムによる文脈上の各単語の出現確率をそれぞれ求める。そして、文章作成部４４３は、例えば、発音記号の尤度と単語の出現確率との積が最大となる単語列を探索する処理を音声データに対して行い、探索された単語列から、テキストデータを作成する。
【００６６】
また、文章作成部４４３は、受信したＩＤ情報に対応するユーザ別言語モデル４３４が存在する場合には、そのユーザ別言語モデル４３４も併せて参照する。具体的には、文章作成部４４３は、共通言語モデル４３３とユーザ別言語モデル４３４とに重み付けを行い、両方の出現確率のそれぞれに重みを乗じた値の加算値を、各Ｎグラムの出現確率として採用する。なお、文章作成部４４３は、ユーザ別言語モデル４３４の作成過程における統計量の不足を考慮して、ユーザ別言語モデル４３４が作成されてからの経過時間やユーザ別言語モデル４３４に対する更新回数等に応じて、上記重み付けを変化させるようにしてもよい。
【００６７】
このようにユーザ別言語モデル４３４を用いることにより、ユーザの文脈のパターンをより反映させて、音声認識を行うことができ、音声認識の精度を向上させることができる。例えば、上記の「尾田さんに連絡」の例でいうと、「オダサンニレンラク」という音声データに対して、「小田さんに連絡」や「織田さんに連絡」ではなく、「尾田さんに連絡」というテキストデータを生成することになる。ユーザに尾田さんという友人がおり、なんらかの連絡先としてメールで他者に伝達される回数が多い場合、「オダサンニレンラク」という音声が、「尾田さんに連絡」を意味する可能性が高い。すなわち、ユーザの所望の文字列をより高い確率で選択することができ、このことは、音声認識精度が向上したことを示す。
【００６８】
テキストデータ送信部４４４は、文章作成部４４３から出力されるテキストデータをパケット化し、ネットワークインタフェース部４１０を介して、携帯電話機２００に送信する。
【００６９】
音声認識サーバ４００は、図示しないが、ＣＰＵ、制御プログラムを格納したＨＤＤ（hard disc drive）およびＲＯＭなどの記憶媒体、ＲＡＭなどの作業用メモリなどを有する。ＣＰＵによる制御プログラムの実行により、上記した各部の機能は実現される。
【００７０】
以下、上記構成を有する携帯電話機２００および音声認識サーバ４００の動作について説明する。
【００７１】
まず、携帯電話機２００の動作について、フローチャートを用いて説明する。ここでは、メール作成に関する動作のみについて説明を行う。
【００７２】
図４は、携帯電話機２００のメール作成に関する動作の流れを示すフローチャートである。
【００７３】
ステップＳ１１００で、制御部２１２は、操作部２０４の操作などにより音声認識によるメール作成の開始が指示されたか否かを判断する。音声認識によるメール作成の開始が指示されていない場合には（Ｓ１１００：ＮＯ）、処理はステップＳ１２００に進み、音声認識によるメール作成の開始が指示された場合には（Ｓ１１００：ＹＥＳ）、処理はステップＳ１３００に進む。
【００７４】
ステップＳ１２００で、制御部２１２は、通常の操作部２０４の文字入力操作によるメール作成の開始が指示されたか否かを判断する。通常のメール作成の開始が指示されていない場合には（Ｓ１２００：ＮＯ）、処理は後述のステップＳ２３００に進み、通常のメール作成の開始が指示された場合には（Ｓ１２００：ＹＥＳ）、処理はステップＳ１４００に進む。
【００７５】
ステップＳ１３００で、音声データ送信部２０８は、ＴＣＰ／ＩＰプロトコルにより音声認識サーバ４００との通信を開始して音声認識処理のためのセッションを確立し、ＩＤ記憶部２０１からＩＤ情報を読み出して音声認識サーバ４００に送信する。
【００７６】
ステップＳ１５００で、制御部２１２は、マイクロフォン２０６による音声入力を開始し、マイクロフォン２０６から出力される音声信号を特徴量抽出部２０７に入力させる。
【００７７】
ステップＳ１６００で、特徴量抽出部２０７は、音声信号を分析して特徴量を抽出し、特徴量の時系列データである音声データを出力する。
【００７８】
ステップＳ１７００で、音声データ送信部２０８は、特徴量抽出部２０７から出力される音声データをパケット化し、音声認識サーバ４００に送信する。例えば、音声データ送信部２０８は、音声データを蓄積しておき、操作部２０４にて音声入力の終了操作が行われたときに音声データを一括して音声認識サーバ４００に送信する。
【００７９】
ステップＳ１８００で、テキストデータ受信部２０９は、音声認識サーバ４００から音声認識結果の受信を待機する。音声認識結果が受信されない場合は（Ｓ１８００：ＮＯ）、処理はステップＳ１９００に進む。
【００８０】
ステップＳ１９００で、テキストデータ受信部２０９は、音声データ送信部２０８から音声データが送信されてから所定の時間が経過してタイムアウトになったか否かを判断する。タイムアウトになっていない場合には（Ｓ１９００：ＮＯ）、処理はステップＳ１８００に戻り、音声認識結果を受信しないままタイムアウトになった場合には（Ｓ１９００：ＹＥＳ）、処理は後述のステップＳ２３００に進む。このとき、携帯電話機２００は、音声認識によるメール作成ができない旨を、ディスプレイ２１０を用いてユーザに通知するようにしてもよい。
【００８１】
タイムアウトになる前にテキストデータ受信部２０９が音声認識結果を受信した場合には（Ｓ１８００：ＹＥＳ）、処理はステップＳ２０００に進む。
【００８２】
一方、ステップＳ１４００では、通常のメール作成の開始が指示されたことから、制御部２１２は、操作部２０４を用いた文字入力操作による通常のテキストデータ作成を開始し、処理はステップＳ２０００に進む。
【００８３】
ステップＳ２０００で、制御部２１２は、音声認識結果のテキストデータまたはキー入力されたテキストデータを、ディスプレイ２１０に文字列表示させる。このとき、制御部２１２は、必要に応じて操作部２０４の操作による文字列の編集を受け付ける。メール本文として文字列が確定し、送信先のメールアドレスが指定されて、メール送信が指示されると、ステップＳ２１００に進む。
【００８４】
ステップＳ２１００で、メール処理部２０５は、言語モデル作成用メールの送信準備をする。言語モデル作成用メールは、ユーザ別言語モデル４３４の作成の材料として、送信メールのメール本文に含まれる文字列を音声認識サーバ４００に送るためのメールである。言語モデル作成用メールは、送信メールと同一の文字列を含み、宛て先を音声認識サーバ４００とし、送信者を一意に特定するＩＤ情報を含む。
【００８５】
図５は、通常の送信メールの構成と、この通常の送信メールに対応して生成される言語モデル作成用メールの構成とを示す図である。
【００８６】
図５に示すように、通常の送信メール６１０では、宛先として、ＴＯにユーザが指定したメールアドレスが、メール本文として、確定されたテキストがそれぞれ記述される。ここでは、付加的な宛先として、ＣＣ（copy carbon）およびＢＣＣには何も記述されていない場合を図示している。一方、言語モデル作成用メールを含むメール６２０では、ＢＣＣ生成部２１３により、付加的なアドレスとして、ＢＣＣに、言語モデル作成用メールの宛先アドレス（以下「言語モデル作成用アドレス」という）が記述される。
【００８７】
言語モデル作成用アドレスは、メールアドレスのドメイン部分とアカウント部分に、音声認識サーバ４００のドメイン名と、携帯電話機２００のＩＤ情報とをそれぞれ記述したものである。ここでは、ＩＤ記憶部２０１に記憶されたＩＤ情報が「０１」であり、音声認識サーバ４００のドメイン名が「ＳＲｓｅｒｖｅｒ．ｎｅ．ｊｐ」の場合を示している。すなわち、言語モデル作成用アドレスは、送信メールのメール本文を、音声認識サーバ４００に、ＩＤ情報に対応付けて送信することを可能にするものである。しかも、ＢＣＣに言語モデル作成用アドレスを指定するので、送信メールの本来の宛先である「ＡＡＡ＠ｂｂｂ．ｎｅ．ｊｐ」の端末には、言語モデル作成用メールの送信を意識させることが無い。
【００８８】
図４のステップＳ２２００で、メール処理部２０５は、通常メールおよび言語モデル作成用メールを、本来の宛先および音声認識サーバ４００に、メールサーバ３００を介してそれぞれ送信する。
【００８９】
そして、ステップＳ２３００で、携帯電話機２００は、ユーザ操作等によりメール作成に関する処理の終了を指示されたか否かを判断する。携帯電話機２００は、処理の終了を指示されていない場合には（Ｓ２３００：ＮＯ）、ステップＳ１１００に戻り、指示された場合には（Ｓ２３００：ＹＥＳ）、一連の処理を終了する。
【００９０】
このように、携帯電話機２００は、音声認識実行時には、音声データをＩＤ情報と対応付けて音声認識サーバ４００に対して送信するとともに、メール送信時には、送信メールに含まれるメール本文をＩＤ情報と対応付けて音声認識サーバ４００に対して送信する。これにより、ユーザが作成した文字列を極めて容易に言語モデルの作成に利用することができ、作成された言語モデルを音声認識処理に活用することができる。
【００９１】
また、文字列の送信を、コピーメール送信により行い、ＩＤ情報の文字列への対応付けを、宛先アドレスのアカウント部分にＩＤ情報を記述することによって行う。これにより、既存の設備やアプリケーションソフトウェアの機能を最大限に活用することができ、システム構築のコストを低減することができる。
【００９２】
また、ＳＩＭの識別情報は、読み出しが容易である一方で、通常はユーザによる変更が不可能となっている。また、ＳＩＭは、加入者識別情報など、ユーザに固有の情報を格納した記憶媒体として使用端末に差し替えて使用される。すなわち、ユーザは、機種変更を行っても、同一のＳＩＭを継続して使用する場合が多い。したがって、ＩＤ情報としてＳＩＭの識別情報を採用すれば、より容易かつ確実なユーザ識別が可能となり、音声認識の精度についての信頼性が向上する。
【００９３】
次に、音声認識サーバ４００の動作について、フローチャートを用いて説明する。
【００９４】
図６は、音声認識サーバ４００の動作の流れを示すフローチャートである。
【００９５】
ステップＳ３１００で、音声データ受信部４４１は、携帯電話機２００からの要求を受けて携帯電話機２００とのセッションが確立したか否かを判別する。セッションが確立していない場合には（Ｓ３１００：ＮＯ）、処理はステップＳ３２００に進む。セッションが確立した場合には（Ｓ３１００：ＹＥＳ）、処理はステップＳ３３００に進む。ここで、ＩＤ受信部４４５がＩＤ情報を受信した場合には、受信されたＩＤ情報がデータベース切換部４４２に出力される。
【００９６】
ステップＳ３２００で、メール受信部４２１は、メールサーバ３００に対してメール取得要求を行って自装置宛のメールを受信し、携帯電話機２００から言語モデル作成用メールを受信したか否かを判断する。言語モデル作成用メールを受信した場合には（Ｓ３２００：ＹＥＳ）、処理はステップＳ３４００に進む。受信していない場合には（Ｓ３２００：ＮＯ）、処理は後述のステップＳ４１００に進む。なお、音声認識処理に比べて、ユーザ別言語モデル作成処理は求められる即時性が低いため、ステップＳ３２００の処理は、予め定められた時間おきに実行するようにしてもよい。
【００９７】
ステップＳ３３００以降では、音声認識処理が実行される。まず、音声認識部４４０は、ＩＤ受信部４４５が取得したＩＤ情報に従って、文章作成部４４３が参照すべき言語モデルを決定する。すなわち、ＩＤ情報をインデクスとして、いずれかのユーザ別言語モデル４３４が選択される。なお、データベース切換部４４２で行われる処理は、文章作成部４４３が音声認識データベース４３０を参照する際に行う処理の一部としてもよい。
【００９８】
ステップＳ３５００で、音声データ受信部４４１は、携帯電話機２００から音声データを受信したか否かを判断する。音声データを受信していない場合には（Ｓ３５００：ＮＯ）、処理はステップＳ３６００に進み、音声データを受信した場合には（Ｓ３５００：ＹＥＳ）、処理はステップＳ３７００に進み、受信した音声データの文章作成部４４３への入力が開始される。
【００９９】
ステップＳ３６００で、音声データ受信部４４１は、携帯電話機２００とのセッションが開始されてから音声データを受信しないまま所定の時間が経過してタイムアウトになったか否かを判断する。タイムアウトになっていない場合には（Ｓ３６００：ＮＯ）、処理はステップＳ３５００に戻り、音声データを受信しないままタイムアウトになった場合には（Ｓ３６００：ＹＥＳ）、処理は後述のステップＳ４１００に進む。
【０１００】
ステップＳ３７００で、文章作成部４４３は、音声認識データベース４３０を参照して所定の音声認識処理を行い、テキストデータを作成する。そして、文章作成部４４３は、作成したテキストデータを、テキストデータ送信部４４４に出力する。このとき、データベース切換部４４２によりいずれかのユーザ別言語モデル４３４の使用が決定されている場合には、文章作成部４４３は、該当するユーザ別言語モデル４３４も用いる。
【０１０１】
ステップＳ３８００で、テキストデータ送信部４４４は、入力されたテキストデータを、音声認識結果として、音声データの送信元の携帯電話機２００に送信する。そして、処理は、後述のステップＳ４１００に進む。
【０１０２】
一方、ステップＳ３４００以降では、言語モデル作成処理が実行される。メール受信部４２１は、受信した言語モデル作成用メールから、メール本文のテキストデータおよびＩＤ情報を抽出し、言語モデル作成部４２３およびデータベース切換部４２２にそれぞれ出力する。
【０１０３】
ステップＳ３９００で、データベース切換部４２２は、入力されたＩＤ情報をインデクスとして、言語モデル作成部４２３が作成の対象とすべきユーザ別言語モデル４３４を決定する。なお、データベース切換部４２２で行われる処理は、言語モデル作成部４２３がユーザ別言語モデル４３４を作成する際に行う処理の一部としてもよい。
【０１０４】
ステップＳ４０００で、言語モデル作成部４２３は、入力されたテキストデータに対して所定の統計情報処理を行い、ステップＳ３９００で決定されたユーザ別言語モデル４３４を、統計情報処理結果に基づいて更新または作成する。
【０１０５】
そして、ステップＳ４１００で、音声認識サーバ４００は、ユーザ操作等により音声認識に関する処理の終了を指示されたか否かを判断する。音声認識サーバ４００は、処理の終了を指示されていない場合には（Ｓ４１００：ＮＯ）、ステップＳ３１００へ戻り、指示された場合には（Ｓ４１００：ＹＥＳ）、一連の処理を終了する。
【０１０６】
このように、音声認識サーバ４００は、携帯電話機２００から受信した言語モデル作成用メールに含まれるメール本文に基づいて、その送信元のＩＤ情報に対応付けたユーザ別言語モデル４３４を作成する。また、音声認識サーバ４００は、携帯電話機２００から受信した音声データに対して、その送信元のＩＤ情報をインデクスとしてユーザ別言語モデル４３４を参照して音声認識を行う。これにより、ユーザが作成した文字列を、既存の設備やアプリケーションソフトウェアの機能を最大限に活用して、そのユーザ用の音声モデルを作成する材料として収集することができる。これにより、システム構築のコストを抑えた状態で、ユーザ別の言語モデルを作成することができる。
【０１０７】
以下、音声認識システム１００における各装置の処理および通信の流れについて、一例を挙げて説明する。
【０１０８】
図７は、音声認識システム１００における各装置の処理および通信の流れの一例を示すシーケンス図である。ここでは、説明の簡便化のため、音声認識部４４０、ユーザ別言語モデル作成部４２０、および音声認識データベース４３０を分離して取り扱うものとする。
【０１０９】
携帯電話機２００は、メール本文を作成するごとに（Ｓ５１００）、通常メールおよびＩＤ情報が付された言語モデル作成用メールをメールサーバ３００に送信し（Ｓ５２００）、メールサーバ３００は、これらのメールを保管する（Ｓ５３００）。この状態で、音声認識サーバ４００のユーザ別言語モデル作成部４２０が、メールサーバ３００にメール取得要求を行うと（Ｓ５４００）、メールサーバ３００は、宛先アドレスに音声認識サーバ４００のドメインが記述された言語モデル作成用メールを、ユーザ別言語モデル作成部４２０に返信する（Ｓ５５００）。
【０１１０】
ユーザ別言語モデル作成部４２０は、受信した言語モデル作成用メールに付されたＩＤ情報に基づいてユーザ別言語モデル４３４を切り換え、メール本文の文字列に対して所定の統計情報処理を行い（Ｓ５６００）、音声認識データベース４３０を更新する（Ｓ５７００）。この結果、携帯電話機２００のＩＤ情報に対応付けられたユーザ別言語モデル４３４は、携帯電話機２００で作成されたメール本文の文脈を反映させる形で更新される（Ｓ５８００）。
【０１１１】
その後、携帯電話機２００が音声認識サーバ４００の音声認識部４４０とのセッションを確立し（Ｓ５９００）、自装置のＩＤ情報を音声認識部４４０に送信すると（Ｓ６０００）、携帯電話機２００は、音声入力および音声データからの特徴量抽出を開始し（Ｓ６１００）、音声認識部４４０は、受信したＩＤ情報に基づいてユーザ別言語モデル４３４を切り換える（Ｓ６２００）。そして、音声認識部４４０は、携帯電話機２００から音声データを受信し（Ｓ６３００）、更新された音声認識データベース４３０を参照して（Ｓ６４００）、所定の音声認識処理によりテキストデータを生成する（Ｓ６５００）。そして、音声認識部４４０は、生成したテキストデータを、携帯電話機２００に返信する（Ｓ６６００）。
【０１１２】
携帯電話機２００は、音声認識結果の文字列を、メール本文の候補として表示するとともに、表示した文字列に対する編集を受け付け（Ｓ６７００）、通常メールおよび言語モデル作成用メールでメールサーバ３００に送信する（Ｓ６８００）。これらステップＳ６７００、Ｓ６８００の処理は、上記したステップＳ５１００、Ｓ５２００の処理に対応している。
【０１１３】
このように、音声認識システム１００では、携帯電話機２００から送信されるメールのメール本文がＩＤ情報と対応付けてユーザ別言語モデル作成部４２０にも送信され、ユーザ別言語モデルの作成に使用される。
【０１１４】
以上説明したように、本実施の形態によれば、携帯電話機２００は、送信メールに含まれる文字列を、自装置のＩＤ情報に対応付けて、音声認識サーバ４００のユーザ別言語モデル作成部４２０にメールで送信する。また、携帯電話機２００は、音声データを、自装置のＩＤ情報に対応付けて、音声認識サーバの音声認識部４４０に送信する。ユーザ別言語モデル作成部４２０は、受信した文字列を学習して、送信元のＩＤ情報に対応付けたユーザ別言語モデル４３４を作成する。音声認識部４４０は、受信した音声データに対して、その送信元のＩＤ情報に対応付けられたユーザ別言語モデル４３４を用いて音声認識を行う。メールにより送信メールのメール本文を収集するので、既存のシステムに変更を加えることなく、ユーザが作成した文字列を極めて容易に言語モデルの作成に利用することができ、作成された言語モデルを音声認識処理に活用することができる。すなわち、文脈に依存して異なる表記についての音声認識の精度を、容易に向上させることができる。
【０１１５】
なお、ユーザ別言語モデルおよび音声認識処理の種類は、上記内容に限定されるものではなく、文字列からその文脈に応じた内容で作成される各種言語モデルおよびこれを用いた各種音声認識処理を適用できることは勿論である。
【０１１６】
また、ＩＤ情報の文字列および音声データへの対応付けは、直接にＩＤ情報を用いるのではなく、予めＩＤ情報に対応付けられた、メールアドレスなどの他の識別情報を用いることによって行うようにしてもよい。
【０１１７】
また、携帯電話機２００は、メール本文の文字列の音声認識サーバ４００への送信を、通常のメールを送信するごとにではなく、定期的にまたはユーザに指定されたタイミングで、一括して行うようにしてもよい。この場合には、携帯電話機２００は、例えば、送信メールを蓄積しておき、ユーザから選択を受け付け、選択されたメールの送信先を編集して、言語モデル作成用メールを作成してもよい。具体的には、例えば、ＴＯまたはＣＣの宛て先に言語モデル作成用アドレスを記述し、選択された送信メールのメール本文を格納した言語モデル作成用メールを作成する。これにより、ユーザが意図的に文脈を変えた送信メールを学習対象から除外することができ、音声認識の精度の更なる向上を図ることができる。
【０１１８】
また、携帯電話機２００は、送信メールを蓄積しない場合でも、本来の送信メールとは別個に、メール本文をコピーし言語モデル作成用アドレスをＴＯまたはＣＣの宛先としたメールを送信するようにしてもよい。
【０１１９】
更に、携帯電話機２００は、言語モデル作成用アドレスをＴＯの宛先として記述する場合には、送信メールの本来の宛先をメールに含めないようにしてもよい。これにより、送信メールの本来の宛先が音声認識サーバ４００側に漏洩するのを防ぐことができ、携帯電話機２００のユーザおよびメール送信相手のプライバシー保護を図ることができる。
【０１２０】
（実施の形態２）
次いで、本発明の実施の形態２に係る、分散型音声認識システムに用いる端末装置について説明する。実施の形態１との相違点は、言語モデル作成用メールの作成対象に、受信メールを追加して、音声認識の精度の更なる向上を図るようにしたことにある。
【０１２１】
家族や親しい友人などとの間で、同じ話題について会話感覚でメールのやり取りが行われる場合、相手からの受信頻度や返信の確率は高くなる。また、このようなメール通信では、メール本文の文脈もお互いに類似していることが多い。ユーザが作成する文字列と文脈が類似している文字列をより多く収集できれば、より短時間で音声認識の精度を向上させることができる。そこで、受信頻度の高い他のユーザからの受信メールを、言語モデル作成用メールとして追加する場合について説明する。
【０１２２】
実施の形態２に係る携帯電話機２００は、例えば実施の形態１の図２に示す携帯電話機２００と同様の構成を有する。ただし、メール処理部２０５は、実施の形態１で説明した処理に加えて、以下に説明する受信メール転送処理を実行する。
【０１２３】
受信メール転送処理において、メール処理部２０５は、他の装置からメールを受信するごとに、その受信メールの送信元アドレスを記録する。また、メール処理部２０５は、他の装置からメールを受信するごとに、過去の記録データから、閾値との比較などにより、その受信メールの相手先からのメール受信頻度が高いか否かを判断する。そして、メール受信頻度が高い場合には、メール処理部２０５は、その送信元からの受信メールのメール本文の文字列を記述した言語モデル作成用メールを作成するとともに、その宛先として、実施の形態１と同様の言語モデル作成用アドレスを指定する。これにより、受信メールのコピーメールが、音声認識サーバ４００に転送される。
【０１２４】
このように、本実施の形態によれば、送信メールのみならず、文脈の類似した受信メールのメール本文も、ＩＤ情報に対応付けて音声認識サーバ４００に送信される。これにより、音声認識サーバ４００のユーザ別言語モデル作成部４２０は、送信メールのみを用いる場合に比べて、同じ話題および同じ文章表現という観点における十分な統計量を、より短時間で収集することができる。すなわち、より短時間で、音声認識の精度を向上させることができる。
【０１２５】
なお、受信メールについても、受信メール単位で選択して、音声認識サーバ４００に一括して送信するようにしてもよい。これにより、相手が意図的に文脈を変えている受信メールや、受信頻度は高いものの文脈が例外的に異なるような受信メールを、学習対象から除外することができ、音声認識の精度の更なる向上を図ることができる。
【０１２６】
また、いたずらメールなどを考慮して、送信頻度も高い相手先であることを、メール本文の送信の条件としてもよい。
【０１２７】
また、自己のメールのメール本文を学習対象として音声認識サーバ４００に送信することについて、許可を得た相手からの受信メールに限定して、メール本文の送信を行うようにしてもよい。
【０１２８】
（実施の形態３）
次いで、本発明の実施の形態３に係る、分散型音声認識システムに用いる端末装置について説明する。実施の形態１との相違点は、送信メールの相手先をグループ化し、グループごとにユーザ別言語モデルを作成するようにしたことにある。
【０１２９】
例えば、家族に対するメール、友人に対するメール、仕事関係の人に対するメールとでは、使用される単語や文体表現が異なるのが通常である。すなわち、一人のユーザが送信するメールでも、メールの送信相手によって、メール本文の文脈は異なる。したがって、送信メールの文脈が類似する相手先をグループ化し、グループごとにユーザ別言語モデル４３４を作成することで、音声認識精度を更に向上させることが可能となる。そこで、送信メールの文脈が類似する相手先のグループごとに、ユーザ別言語モデル４３４を作成する場合について説明する。
【０１３０】
実施の形態３に係る携帯電話機２００は、例えば実施の形態１の図２に示す携帯電話機２００と同様の構成を有する。ただし、メール処理部２０５は、実施の形態１で説明した処理に加えて、以下に説明する相手先グルーピング処理を実行する。また、メール処理部２０５および音声データ送信部２０８は、携帯電話機２００のＩＤ情報に加えて、相手先グルーピング処理においてグループごとに設定されたグループＩＤを、音声認識サーバ４００に送信する。
【０１３１】
携帯電話機２００は、電話番号やメールアドレスを相手先ごとに登録した電話帳を有している。電話帳に登録された相手先は、検索および管理の便宜のために、「家族」、「友人」、「会社関係」など、予め用意されたグループに振り分けられている。
【０１３２】
相手先グルーピング処理において、メール処理部２０５は、電話帳のグループを、送信メールの文脈が類似する相手先のグループとして扱い、電話帳のグループのそれぞれに、グループＩＤを設定する。なお、このグループＩＤは、各グループに予め割り当てられている識別情報を用いてもよい。
【０１３３】
メール処理部２０５は、言語モデル作成用メールを送信する際に、通常メールの送信先が属するグループに設定されたグループＩＤを、自装置のＩＤ情報と共に言語モデル作成用メールに付加する。例えば、メール処理部２０５は、実施の形態１で説明した言語モデル作成用アドレスのアカウント部分に、グループＩＤを追加して記述する。
【０１３４】
また、音声データ送信部２０８は、音声認識サーバ４００とのセッション確立の際に、通常メールの送信先が属するグループに設定されたグループＩＤを、自装置のＩＤ情報と共に音声認識サーバ４００に送信する。例えば、音声データ送信部２０８は、自装置のＩＤ情報にグループＩＤを追加した情報を、音声認識サーバ４００に送信する。
【０１３５】
この場合、音声認識サーバ４００のユーザ別言語モデル作成部４２０は、ＩＤ情報とグループＩＤとの組み合わせにより構成される情報に対応付けて、ユーザ別言語モデル４３４を作成する。また、音声認識サーバ４００の音声認識部４４０は、ＩＤ情報とグループＩＤとの組み合わせにより構成される情報をインデクスとして、ユーザ別言語モデル４３４を参照する。
【０１３６】
このように、本実施の形態によれば、複数のＩＤ情報を、送信メールの送信先に応じて切り換えて、送信メールに含まれる文字列に対応付ける。これにより、ユーザごとかつメール送信先ごとに異なる文脈を考慮して音声認識を行うことができ、個々のメール作成における音声認識精度を向上させることができる。
【０１３７】
（実施の形態４）
次いで、本発明の実施の形態４に係る、分散型音声認識システムに用いる言語モデル作成装置について説明する。実施の形態１との相違点は、受信した言語モデル作成用メールに、読みが不明な単語（以下「未知語」という）が含まれているときに、その未知語の読みを解決するようにしたことである。
【０１３８】
ここで、未知語を含め、単語とは、文字、文字列、記号、記号列、画像、アニメーション等、メール本文として挿入可能な情報であって、読みを設定することにより音声入力可能とすべきものの全てを含む概念とする。
【０１３９】
図８は、本発明の実施の形態４に係る音声認識サーバの構成を示すブロック図であり、実施の形態１の図３に対応するものである。図３と同一部分には同一符号を付し、これについての説明を省略する。
【０１４０】
図８に示すように、音声認識サーバ４００ａは、未知語処理部４５０ａを有する。
【０１４１】
未知語処理部４５０ａは、言語モデル作成用メールに含まれる未知語の読みを解決する。未知語処理部４５０ａは、未知語検出部４５１ａ、問合メール送受信部４５２ａ、および辞書登録部４５３ａを有する。
【０１４２】
未知語検出部４５１ａは、文書抽出部４２４から、言語モデル作成用メールのメール本文を入力し、メール本文の未知語を検出する。具体的には、未知語検出部４５１ａは、入力したメール本文に含まれる個々の単語を、音声認識データベース４３０の辞書４３２で検索する。そして、未知語検出部４５１ａは、辞書４３２に存在しない単語を、未知語として検出する。
【０１４３】
問合メール送受信部４５２ａは、未知語検出部４５１ａで検出された未知語を、その未知語の送信元のユーザにメールで問合せ、問合せ結果を、辞書４３２に登録する。具体的には、問合メール送受信部４５２ａは、未知語を示してその未知語の読みを問い合わせる内容のメール（以下「問合メール」という）を作成し、未知語が含まれていた言語モデル作成用メールの送信元に送信する。そして、問合メール送受信部４５２ａは、問合メールに対する応答として、未知語の読みを記述したメール（以下「応答メール」という）を受信すると、応答メールから、未知語の読みを抽出する。
【０１４４】
辞書登録部４５３ａは、問合メール送受信部４５２ａで抽出された未知語の読みを、未知語と対応付けて辞書４３２に登録する。
【０１４５】
このような音声認識サーバ４００ａによれば、受信した言語モデル作成用メールに未知語が含まれているときに、その未知語の読みを解決することができる。したがって、該当する読みの音声データを受信したときに、適切な単語を音声認識結果として得ることができる。
【０１４６】
以下、音声認識サーバ４００ａの動作について説明する。
【０１４７】
図９は、音声認識サーバ４００ａの動作の流れを示すフローチャートであり、実施の形態１の図６に対応するものである。図６と同一部分には同一ステップ番号を付し、これについての説明を省略する。
【０１４８】
文書抽出部４２４で言語モデル作成用メールからメール本文のテキストデータが抽出されると（Ｓ３４００）、処理はステップＳ３８１０ａに進む。このとき、文書抽出部４２４は、未知語処理部４５０ａの未知語検出部４５１ａに対して、抽出したテキストデータと、送信元のメールアドレスとを出力する。
【０１４９】
ステップＳ３８１０ａで、未知語検出部４５１ａは、辞書４３２を参照して、文書抽出部４２４から入力されたテキストデータに未知語が存在するか否かを判断する。未知語が存在しない場合には（Ｓ３８１０ａ：ＮＯ）、処理はステップＳ３９００に進む。未知語が存在する場合には（Ｓ３８１０ａ：ＹＥＳ）、処理はステップＳ３８２０ａに進む。このとき、未知語検出部４５１ａは、未知語と、未知語の送信元のメールアドレスとを、問合メール送受信部４５２ａに出力する。
【０１５０】
ステップＳ３８２０ａで、問合メール送受信部４５２ａは、問合メールを、未知語検出部４５１ａから入力されたメールアドレスを宛先として送信する。このとき、問合メール送受信部４５２ａは、送信元アドレスとして、言語モデル作成用アドレスとは異なる、未知語解決用のアドレス（以下「未知語解決用アドレス」という）を設定することが望ましい。これにより、言語モデル作成用メールと応答メールとを区別して取り扱うことが容易となる。そして、処理はステップＳ３９００に進み、言語モデル作成用メールに基づいてユーザ言語モデルの更新等が行われる。
【０１５１】
一方、メール受信部４２１が言語モデル作成用メールを受信していない場合には（Ｓ３２００：ＮＯ）、処理はステップＳ３２１０ａに進む。
【０１５２】
ステップＳ３２１０ａで、問合メール送受信部４５２ａは、過去の問合メールに対する応答メールを受信したか否かを判断する。問合メール送受信部４５２ａが応答メールを受信していない場合には（Ｓ３２１０ａ：ＮＯ）、処理はステップＳ４１００に進む。問合メール送受信部４５２ａが応答メールを受信した場合には（Ｓ３２１０ａ：ＹＥＳ）、処理はステップＳ３２２０ａに進む。このとき、問合メール送受信部４５２ａは、受信した応答メールに記述された未知語および未知語の読みを抽出して、辞書登録部４５３ａに出力する。
【０１５３】
ステップＳ３２２０ａで、辞書登録部４５３ａは、問合メール送受信部４５２ａから入力された読みを、同じく問合メール送受信部４５２ａから入力された未知語に対応付けて、辞書４３２に登録する。
【０１５４】
このような動作により、音声認識サーバ４００ａは、未知語の読みを解決することができる。
【０１５５】
図１０は、問合せメールと、この問合メールに対応して生成される応答メールの記述内容の一例を示す図である。ここでは、「ＡＭＩ」という単語が未知語として検出され、ユーザが「ＡＭＩ」に対して「あみ」という読みを希望する場合を例示する。
【０１５６】
図１０に示すように、問合メール６３０ａには、例えば、送信元アドレスとして、言語モデル作成用アドレスとは異なる未知語解決用アドレス「０２＠ＳＲｓｅｒｖｅｒ．ｎｅ．ｊｐ」が記述される。また、問合メール６３０ａには、例えば、件名（ＳＵＢＪＥＣＴ）として、「ＡＭＩの読みを本文に入力し、返信して下さい」という指示が記述される。携帯電話機２００は、受信した問合メール６３０ａの記述内容を表示する。
【０１５７】
そして、ユーザが、問合メール６３０ａの指示に従うと、応答メール６４０ａには、メール本文として、「あみ」が記述される。
【０１５８】
問合メール送受信部４５２ａは、応答メール６４０ａを受信すると、件名に記述された未知語、つまり、「の読みを」の直前であって「Ｒｅ：」を取り除いた部分を未知語として抽出し、メール本文に記述されたテキストを未知語の読みとして検出する。この結果、音声認識サーバ４００ａの辞書４３２には、「ＡＭＩ」という単語に対応付けて、「あみ」という読みが登録される。この結果、「ＡＭＩ」も言語モデル作成に利用可能となるとともに、ユーザが「あみ」と発声したときに、「ＡＭＩ」という音声認識結果が得られるようになる。
【０１５９】
なお、未知語が長く、件名として記入することができない場合を考慮して、問合せメールを、例えば、「本文に、『ＡＭＩ』に続けて『ＡＭＩ』の読みを入力した文書を、返信して下さい」という指示をメール本文に記述したものとしてもよい。この場合には、応答メールには、メール本文として、「ＡＭＩあみ」と記述されることになる。未知語と読みの分離は、例えば、メール本文の前方から未知語を検索すれば可能である。また、未知語と読みとの間に、「：」等の予め定められた文字や記号を挿入するようにすれば、未知語と読みとの分離が容易となる。
【０１６０】
また、問合メールの送信先と問い合わせの対象となった未知語とを対応付けておき、応答メールがどの未知語に対する応答であるかを、この対応付けに基づいて判断するようにしてもよい。これにより、応答メールに未知語が正しく記述されていない場合でも、未知語および読みの抽出を行うことができる。
【０１６１】
このように、本実施の形態によれば、学習対象に読みが不明な未知語が存在する場合に、その未知語の読みを解決して辞書に登録する。これにより、絵文字、顔文字、アニメーション等、メールで多用される一方で一般的な読みが定着していないような単語であっても、音声入力が可能となる。すなわち、一般的な読みが定着していないような単語をユーザが発話する場合に、音声認識率を向上させることができる。また、メールでの逐次の問い合わせにより未知語解決を行うので、未知語が検出されてから早期にその読みを解決することができ、迅速な音声認識の精度向上が可能となる。
【０１６２】
なお、表記と読みが対にして登録されたバックグラウンド辞書を音声認識用の辞書４３２とは別に用意しておき、単語が、音声認識用の辞書４３２に未登録であって、バックグラウンド辞書にも未登録の場合にのみ、問合せを行うようにしてもよい。バックグラウンド辞書は、音声認識サーバ４００ａに格納してもよいし、音声認識サーバ４００ａからアクセス可能な他のサーバに格納してもよい。
【０１６３】
また、未知語処理部４５０ａの一部または全てを、ネットワーク上の他の装置に配置するようにしてもよい。
【０１６４】
（実施の形態５）
次いで、本発明の実施の形態５に係る、分散型音声認識システムに用いる言語モデル作成装置について説明する。本実施の形態においても、実施の形態４と同様に未知語の解決を行うが、実施の形態４との相違点は、ウェブ上に用意したＧＵＩ（graphical user interface）によって、未知語の読みを解決するようにしたことにある。
【０１６５】
図１１は、本発明の実施の形態５に係る音声認識サーバの構成を示すブロック図であり、実施の形態４の図８に対応するものである。図８と同一部分には同一符号を付し、これについての説明を省略する。
【０１６６】
図１１に示すように、音声認識サーバ４００ｂは、未知語処理部４５０ｂを有する。
【０１６７】
未知語処理部４５０ｂは、言語モデル作成用メールに含まれる未知語の読みを解決する。未知語処理部４５０ｂは、実施の形態４の未知語処理部４５０ａの問合メール送受信部４５２ａに代えて、未知語蓄積部４５４ｂおよびＧＵＩ処理部４５５ｂを有する。
【０１６８】
未知語蓄積部４５４ｂは、未知語検出部４５１ａで検出された未知語を、その未知語の読みが解決されるまで、その未知語の送信元のＩＤ情報と対応付けて蓄積する。
【０１６９】
ＧＵＩ処理部４５５ｂは、ユーザがウェブ上で自由にアクセスして未知語の読みを登録するためのグラフィカルユーザインタフェース（以下「未知語登録サイト」という）を構築する。この未知語登録サイトは、例えば、ＣＧＩ（common gateway interface）を用いて構築され、ＨＴＴＰ（hypertext transfer protocol）により通信網５００を介して携帯電話機２００からアクセス可能となっている。ＧＵＩ処理部４５５ｂは、未知語登録サイトにおいて、未知語蓄積部４５４ｂに蓄積された未知語のうち、アクセス元のユーザが作成した言語モデル作成用メールから抽出された未知語を表示し、表示した未知語に対する読みの入力を受け付ける。
【０１７０】
辞書登録部４５３ａは、上述の未知語登録サイトで入力された未知語の読みを、未知語と対応付けて辞書４３２に登録する。
【０１７１】
このような音声認識サーバ４００ｂによれば、受信した言語モデル作成用メールに未知語が含まれているときに、その未知語の読みを解決することができる。また、ユーザが望むタイミングで、未知語の読みの登録を行うことができる。
【０１７２】
以下、音声認識サーバ４００ｂの動作について説明する。
【０１７３】
まず、未知語登録サイトの動作について説明し、その後、音声認識サーバ４００ｂの全体動作について説明する。
【０１７４】
未知語登録サイトは、まず、ユーザのログイン処理として、アクセス元のＩＤ情報の取得を行う。この取得は、ウェブ画面上でユーザに入力を促すことにより行ってもよいし、携帯電話機２００から製造番号等の情報を取得することにより行ってもよい。そして、未知語登録サイトは、取得したＩＤ情報に対応付けられた全ての未知語を、未知語蓄積部４５４ｂから抽出し、抽出した未知語を、個別に選択可能な状態で、ウェブ画面上に一覧表示する。そして、未知登録サイトは、いずれかの未知語が選択されると、未知語の読みを入力するための読み入力画面に遷移する。未知語登録サイトは、読み入力画面で読みが入力され、決定ボタンのクリック等の決定操作が行われると、未知語と入力された読みとを対にして一時的に記憶し、未知語の一覧表示画面に戻る。そして、登録ボタンのクリック等の登録操作、または、ユーザのログアウト処理が行われると、未知語登録サイトは、入力された未知語の読みを、登録対象として取得する。
【０１７５】
なお、未知語登録サイトは、携帯電話機２００ではなく、パーソナルコンピュータ等の端末からアクセス可能としてもよい。携帯電話機２００からのアクセスを想定した場合、未知語登録サイトは、小さい表示画面での視認性や限られたキースイッチによる操作性を考慮して、上述のように一覧表示画面と読み入力画面とを切り替えることが望ましい。しかし、パーソナルコンピュータ等の端末からのアクセスを想定した場合には、未知語登録サイトは、１つの画面上で未知語を一覧表示と読み入力とを行えるようにしてもよい。
【０１７６】
図１２は、音声認識サーバ４００ｂの動作の流れを示すフローチャートであり、実施の形態４の図９に対応するものである。図９と同一部分には同一ステップ番号を付し、これについての説明を省略する。
【０１７７】
文書抽出部４２４で抽出されたメール本文のテキストデータに未知語が存在する場合には（Ｓ３８１０ａ：ＹＥＳ）、処理はステップＳ３８３０ｂに進む。このとき、未知語検出部４５１ａは、その未知語と未知語の送信元のＩＤ情報とを、未知語蓄積部４５４ｂに出力する。
【０１７８】
ステップＳ３８３０ｂで、未知語蓄積部４５４ｂは、未知語検出部４５１ａから入力された未知語とＩＤ情報とを、対応付けて格納する。そして、処理はステップＳ３９００に進む。
【０１７９】
一方、メール受信部４２１が言語モデル作成用メールを受信していない場合には（Ｓ３２００：ＮＯ）、処理はステップＳ３２３０ｂに進む。
【０１８０】
ステップＳ３２３０ｂで、ＧＵＩ処理部４５５ｂは、未知語登録サイトにおいて、ユーザによる未知語の読みの登録操作が行われたか否かを判断する。未知語の読みの登録操作が行われていない場合には（Ｓ３２３０ｂ：ＮＯ）、処理はステップＳ４１００に進む。
【０１８１】
一方、未知語の読みの登録操作が行われた場合には（Ｓ３２３０ｂ：ＹＥＳ）、処理は、ステップＳ３２４０ｂに進む。この際、ＧＵＩ処理部４５５ｂは、未知語登録サイトにおいて登録操作が行われた未知語と未知語の読みとを抽出して辞書登録部４５３ａに出力し、ステップＳ３２２０ａに進む。この未知語および読みは、対応付けて辞書４３２に登録されることになる。また、ＧＵＩ処理部４５５ｂは、辞書登録部４５３ａに出力した未知語を、未知語蓄積部４５４ｂから削除する。これにより、既に読みが登録された単語を未知語登録サイトで問い合わせるのを防ぐことができる。
【０１８２】
このような動作により、音声認識サーバ４００ｂは、未知語の読みを解決することができる。
【０１８３】
このように、本実施の形態によれば、学習対象に読みが不明な未知語が存在する場合に、その未知語の読みを解決して辞書に登録することができ、音声認識率を向上させることができる。また、ユーザは、自己に都合の良いタイミングで、自己のメールで記述した複数の未知語の読みの入力操作を、一挙に行うことができる。これにより、ユーザの未知語入力の手間を軽減することができる。
【０１８４】
なお、未知語処理部４５０ｂの一部または全てを、ネットワーク上の他の装置に配置するようにしてもよい。特に、未知語蓄積部４５４ｂとＧＵＩ処理部４５５ｂとを他の装置にまとめて配置すれば、未知語登録サイトの機能をまとめて分離することができ、音声認識サーバ４００ｂの負担を軽減することができるとともに、未知語登録サイトの処理を高速化することが可能となる。
【０１８５】
また、未知語登録サイトと同様の動作を行う画面を表示するユーザインタフェース（ＩＵ：user interface）を、携帯電話機のメールアプリケーションソフトウェア内に用意するようにしてもよい。この場合には、音声認識サーバは、例えば、検出した未知語を、逐次または定期的に、未知語の送信元の携帯電話機に送信し、携帯電話機は、受信した未知語を蓄積しておく。そして、アプリケーションソフトウェアは、未知語登録サイトと同様に未知語の表示と読みの入力受け付けを行い、入力された読みを、未知語と対応付けて音声認識サーバに送信し、音声認識サーバの辞書に登録させる。これにより、未知語解決の処理負担を分散することができる。
【０１８６】
また、携帯電話機は、音声認識サーバから未知語の読みの登録を促される前に、ユーザにより入力された単語の読みを、音声認識サーバに送信するようにしてもよい。このような読みの入力は、例えば、携帯電話機に格納された、文字変換用のユーザ辞書、かな漢字変換システムの学習情報、および電話帳に対して行われる。したがって、携帯電話機は、例えば、これらのデータが更新されるごとに、その更新後の全データ、または更新されたデータ部分のみを、音声認識サーバに送信する。データを受信した音声認識サーバは、受信データから未知語を検出し、更に未知語の読みを受信データから取得し、これらの未知語と未知語の読みとを対応付けて辞書に登録する。これにより、音声認識サーバで検出される前に、未知語の読みを解決することが可能となる。
【０１８７】
また、以上説明した各実施の形態では、本発明を、音声認識を用いて携帯電話機でメール本文を作成するシステムに適用した例について説明したが、これに限定されるものではない。例えば、言語モデルを用いて音声認識を行う音声認識装置と、この音声認識装置を利用してメール本文の作成を行う、パーソナルコンピュータおよびＰＤＡ（personal digital assistant）などの各種端末装置とを含むシステムに適用できることは勿論である。
【０１８８】
また、ユーザ別言語モデル作成部、音声認識データベース、および音声認識部を同一のサーバ内に配置した例について説明したが、これらをネットワーク上の別個の装置に配置するようにしてもよい。
【産業上の利用可能性】
【０１８９】
本発明に係る端末装置、言語モデル作成装置、および分散型音声認識システムは、文脈に依存して異なる表記についての音声認識の精度を容易に向上させることができる端末装置、言語モデル作成装置、および分散型音声認識システムとして有用である。
【図面の簡単な説明】
【０１９０】
【図１】本発明の実施の形態１に係る分散型音声認識システムとしての音声認識システムの構成の一例を示すシステム構成図
【図２】実施の形態１に係る端末装置を含む携帯電話機の構成を示すブロック図
【図３】実施の形態１に係る言語モデル作成装置を含む音声認識サーバの構成を示すブロック図
【図４】実施の形態１における携帯電話機の動作の流れを示すフローチャート
【図５】実施の形態１における言語モデル作成用メールの構成を示す図
【図６】実施の形態１における音声認識サーバの動作の流れを示すフローチャート
【図７】実施の形態１における音声認識システムのシーケンス図
【図８】本発明の実施の形態４に係る音声認識サーバの構成を示すブロック図
【図９】本発明の実施の形態４における音声認識サーバの動作の流れを示すフローチャート
【図１０】本発明の実施の形態４における問合せメールおよび応答メールの記述内容の一例を示す図
【図１１】本発明の実施の形態５に係る音声認識サーバの構成を示すブロック図
【図１２】本発明の実施の形態５における音声認識サーバの動作の流れを示すフローチャート
【符号の説明】
【０１９１】
１００音声認識システム
２００携帯電話機
２０１ＩＤ記憶部
２０２無線部
２０３アンテナ部
２０４操作部
２０５メール処理部
２０６マイクロフォン
２０７特徴量抽出部
２０８音声データ送信部
２０９テキストデータ受信部
２１０ディスプレイ
２１２制御部
２１３ＢＣＣ生成部
３００メールサーバ
４００、４００ａ、４００ｂ音声認識サーバ
４１０ネットワークインタフェース部
４２０ユーザ別言語モデル作成部
４２１メール受信部
４２２データベース切換部
４２３言語モデル作成部
４２４文書抽出部
４２５ＩＤ抽出部
４３０音声認識データベース
４３１音響モデル
４３２辞書
４３３共通言語モデル
４３４ユーザ別言語モデル
４４０音声認識部
４４１音声データ受信部
４４２データベース切換部
４４３文章作成部
４４４テキストデータ送信部
４４５ＩＤ受信部
４５０ａ、４５０ｂ未知語処理部
４５１ａ未知語検出部
４５２ａ問合メール送受信部
４５３ａ辞書登録部
４５４ｂ未知語蓄積部
４５５ｂＧＵＩ処理部

【特許請求の範囲】
【請求項１】
音声データを、言語モデルを用いて音声認識処理を行う音声認識装置に送信する音声データ送信手段と、
通常の送信メールのメール本文を、言語モデル作成用メールとして、前記言語モデルを作成する言語モデル作成装置に送信するメール送信手段と、
を有する端末装置。
【請求項２】
前記メール送信手段は、
前記通常の送信メールの宛先を編集して前記言語モデル作成用メールを生成する、
請求項１記載の端末装置。
【請求項３】
前記メール送信手段は、
前記音声認識装置の利用時に使用されるＩＤ情報と同一又は対応するＩＤ情報を、メールの一部に記述して、前記言語モデル作成用メールを生成する、
請求項２記載の端末装置。
【請求項４】
前記メール送信手段は、
前記言語モデル作成装置を宛先としないメールが送信される都度、その送信メールの宛先に前記言語モデル作成装置を追加する、
請求項２記載の端末装置。
【請求項５】
前記メール送信手段は、
前記言語モデル作成用メールとして送信するメールを、送信メール単位で選択し複数通一括して送信可能に構成された、
請求項１記載の端末装置。
【請求項６】
前記メール送信手段は、
ドメイン部分に前記音声認識装置のドメイン名を記述し、アカウント部分に前記音声認識装置の利用時に使用されるＩＤ情報を記述した言語モデル作成用アドレスを用いて、前記言語モデル作成用メールを生成する、
請求項１記載の端末装置。
【請求項７】
前記メール送信手段は、
更に、受信メールのメール本文を、前記言語モデル作成用メールとして、前記言語モデル作成装置に送信する、
請求項１記載の端末装置。
【請求項８】
前記メール送信手段は、
複数のＩＤ情報を、前記送信メールの宛先に応じて切り替えて、前記文字列に対応付ける、
請求項４記載の端末装置。
【請求項９】
単語の読みの入力を受け付ける読み入力手段と、
入力した前記読みを、前記言語モデル作成用の前記単語の読みとして、前記言語モデル作成装置に送信する読み送信手段と、を更に有する、
請求項１記載の端末装置。
【請求項１０】
前記言語モデル作成装置において読みが不明な単語である未知語を取得する未知語取得手段、を更に有し、
前記読み入力手段は、取得した前記未知語を表示して前記読みの入力を受け付ける、
請求項９記載の端末装置。
【請求項１１】
端末装置から受信した言語モデル作成用メールを用いて、音声認識処理に用いる言語モデルを作成する言語モデル作成装置であって、
ＩＤ情報とメール本文とを含む前記言語モデル作成用メールを受信するメール受信手段と、
受信した前記言語モデル作成用メールから、メール本文とＩＤ情報とを抽出するメール処理手段と、
抽出した前記メール本文を学習し、前記ＩＤ情報毎に前記言語モデルを作成する言語モデル作成手段と、
を有する言語モデル作成装置。
【請求項１２】
前記端末装置から、単語の読みを取得する読み取得手段と、
取得した前記読みを、前記言語モデル作成用の辞書に、前記単語に対応付けて登録する辞書登録手段と、を更に有する、
請求項１１記載の言語モデル作成装置。
【請求項１３】
抽出したメール本文から、読みが不明な単語である未知語を検出する未知語検出手段、を更に有し、
前記読み取得手段は、
前記未知語の読みを前記端末装置から受け付ける、
請求項１２記載の言語モデル作成装置。
【請求項１４】
言語モデルを用いて音声データに対する音声認識処理を行う音声認識装置と、前記音声認識装置に音声データを送信する端末装置と、文字列の学習により前記言語モデルを作成する言語モデル作成装置と、を具備する分散型音声認識システムであって、
前記端末装置は、
通常の送信メールの宛先を編集して言語モデル作成用メールを生成し、前記言語モデル作成装置に送信し、
前記言語モデル作成装置は、
受信した前記言語モデル作成用メールのメール本文を学習して前記言語モデルを作成し、
前記音声認識装置は、
前記端末装置から受信した前記音声データに対し、前記言語モデルを用いて音声認識処理を行う、
分散型音声認識システム。

【図１】