説明

端末装置、言語モデル作成装置、および分散型音声認識システム

【課題】文脈に依存して異なる表記についての音声認識の精度を容易に向上させることができる端末装置、言語モデル作成装置、および分散型音声認識システムを提供すること。
【解決手段】携帯電話機200は、音声データを、言語モデルを用いて音声認識処理を行う音声認識装置に送信する音声データ送信部208と、通常の送信メールのメール本文を、言語モデル作成用メールとして、言語モデルを作成する言語モデル作成装置に送信するメール処理部205とを有する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、メール送信を行うとともに言語モデルを用いて音声認識を行う音声認識装置に音声データを送信する端末装置と、言語モデルを作成する言語モデル作成装置と、これらの装置を用いた分散型音声認識システムとに関する。
【背景技術】
【0002】
近年、携帯電話機などの各種端末装置において、キースイッチを用いた文字入力ではなく、マイクロフォンを用いた音声入力によって文字列を作成することが行われている(例えば特許文献1および特許文献2参照)。
【0003】
特許文献1および特許文献2記載の技術では、ネットワーク上に、音声認識により音声データを文章化する音声認識装置を配置する。端末装置は、音声データを音声認識装置に送信する。音声認識装置は、音響モデル、辞書、および言語モデルを含む音声認識データベースを参照して音声データから文字列を作成し、端末装置に返信する。これにより、端末装置では、メール本文などの文字列を簡単に作成することが可能となる。
【0004】
また、特許文献1および特許文献2には、音声認識データベースを更新する技術が記載されている。
【0005】
特許文献1および特許文献2記載の技術では、音声認識装置は、音声認識データベースの辞書を参照して、端末装置から受信した音声データを文字列に変換し、端末装置に返信する。端末装置は、音声認識装置により作成された文字列に対するユーザ修正を受け付け、修正された文字列を音声認識装置に送信する。音声認識装置は、受信した文字列をメール本文とするメールを作成して送信するとともに、修正部分に基づいて音声認識データベースの辞書を修正する。これにより、読み仮名に対する単語表記の認識精度を向上させることができる。
【0006】
更に、特許文献1および特許文献2には、ユーザ別に辞書を作成する技術が記載されている。
【0007】
特許文献1および特許文献2記載の技術では、端末装置は、音声データおよび文字列を、発信者番号と対応付けて音声認識装置に送信する。音声認識装置は、発信者電話番号に対応付けた複数の辞書を作成する。そして、音声認識装置は、音声データの送信元の発信者電話番号に対応する辞書を用いて音声認識を行うとともに、文字列の送信元の発信者電話番号に対応する辞書を修正する。これにより、ユーザ属性ごとに異なる単語表記の傾向を反映したユーザ別の辞書を作成することができ、音声認識の精度を向上させることができる。
【特許文献1】特開2002−215615号公報
【特許文献2】特開2001−309049号公報
【発明の開示】
【発明が解決しようとする課題】
【0008】
ところで、音声認識データベースに含まれる言語モデルは、通常、学習対象として用意された文字列に対して、所定の統計情報処理を行うことにより作成される。言語モデルは、辞書に記述された各単語について、出現確率や接続確率をデータ化したものである。
【0009】
文脈の特徴はユーザごとに異なるため、各単語の出現確率や接続確率もユーザごとに異なる。したがって、音声認識の精度の向上を図るには、このような違いを考慮して音声認識を行うことが望ましい。
【0010】
ところが、特許文献1および特許文献2記載の技術では、文字列に対する修正部分から辞書を修正するのみであるため、ユーザごとの文脈の違いを考慮して言語モデルを作成することはできない。すなわち、特許文献1および特許文献2記載の技術では、文脈に依存して異なる表記についての音声認識の精度を向上させることは困難である。
【0011】
そこで、特許文献1および特許文献2の音声認識装置で、端末装置から送られてきた文字列を利用して、ユーザ別の言語モデルを作成することが考えられる。これにより、言語モデルを作成するのに十分な量の文字列を、各ユーザから容易に取得することが可能となる。
【0012】
しかしながら、特許文献1および特許文献2記載の技術を用いた場合、メールサーバに音声認識装置を設けるなど、送信メールの経路上に音声認識装置が位置するようなシステム構成としなければならず、既存のシステムへの適用が困難である。すなわち、システム構築にコストや手間が掛かることから、文脈に依存して異なる表記についての音声認識の精度を向上させることは難しい。
【0013】
本発明は、かかる点に鑑みてなされたものであり、文脈に依存して異なる表記についての音声認識の精度を容易に向上させることができる端末装置、言語モデル作成装置、および分散型音声認識システムを提供することを目的とする。
【課題を解決するための手段】
【0014】
本発明の端末装置は、音声データを、言語モデルを用いて音声認識処理を行う音声認識装置に送信する音声データ送信手段と、通常の送信メールのメール本文を、言語モデル作成用メールとして、前記言語モデルを作成する言語モデル作成装置に送信するメール送信手段とを有する構成を採る。
【0015】
本発明の言語モデル作成装置は、端末装置から受信した言語モデル作成用メールを用いて、音声認識処理に用いる言語モデルを作成する言語モデル作成装置であって、ID情報とメール本文とを含む前記言語モデル作成用メールを受信するメール受信手段と、受信した前記言語モデル作成用メールから、メール本文とID情報とを抽出するメール処理手段と、抽出した前記メール本文を学習し、前記ID情報毎に前記言語モデルを作成する言語モデル作成手段とを有する構成を採る。
【0016】
本発明の分散型音声認識システムは、言語モデルを用いて音声データに対する音声認識処理を行う音声認識装置と、前記音声認識装置に音声データを送信する端末装置と、文字列の学習により前記言語モデルを作成する言語モデル作成装置と、を具備する分散型音声認識システムであって、前記端末装置は、通常の送信メールの宛先を編集して言語モデル作成用メールを生成し、前記言語モデル作成装置に送信し、前記言語モデル作成装置は、受信した前記言語モデル作成用メールのメール本文を学習して前記言語モデルを作成し、前記音声認識装置は、前記端末装置から受信した前記音声データに対し、前記言語モデルを用いて音声認識処理を行う構成を採る。
【発明の効果】
【0017】
本発明によれば、メールにより送信メールのメール本文を収集するので、既存のシステムに変更を加えることなく、ユーザ別の言語モデルを作成するのに十分な量の文字列を各ユーザから収集することができる。これにより、文脈に依存して異なる表記についての音声認識の精度を容易に向上させることができる。
【発明を実施するための最良の形態】
【0018】
以下、本発明の各実施の形態について、図面を参照して詳細に説明する。
【0019】
(実施の形態1)
図1は、本発明の実施の形態1に係る分散型音声認識システムとしての音声認識システムの構成の一例を示すシステム構成図である。本実施の形態は、本発明を、音声認識を用いて携帯電話機でメール本文を作成するシステムに適用した例である。
【0020】
図1において、音声認識システム100は、携帯電話機200−1〜200−M、メールサーバ300、および音声認識サーバ400を有する。これらの装置は、無線または有線により通信網500に接続されている。携帯電話機200−1〜200−Mは、同一の構成を有し、本発明の端末装置を含むものである。また、音声認識サーバ400は、本発明の言語モデル作成装置と、音声認識データベースとを含むものである。
【0021】
携帯電話機200は、携帯電話機能およびメール送受信機能を有し、更に、音声認識サーバ400を利用して音声入力によりメール本文の作成を行う音声入力機能を有している。具体的には、携帯電話機200は、入力音声の特徴を示す音声データを、自装置のID(identifier)情報と対応付けて音声認識サーバ400に送信する。そして、携帯電話機200は、音声認識サーバ400による音声認識の結果である文字列のデータ(以下「テキストデータ」という)を受信する。携帯電話機200は、このようにして音声入力機能により作成したメール本文を、メールサーバ300を介して、任意の宛先にメールで送信する。
【0022】
また、携帯電話機200は、メールを送信するごとに、その送信メールのメール本文の文字列を、自装置のID情報と対応付けて、メールにより音声認識サーバ400に送信する。このメール本文は、音声認識サーバ400において、携帯電話機200のユーザ別の言語モデル(以下「ユーザ別言語モデル」という)を作成するのに用いられる。
【0023】
メールサーバ300は、携帯電話機200のメールの送受信を管理する。
【0024】
音声認識サーバ400は、音声認識データベースを有し、この音声認識データベースに基づいて、所定の音声認識処理を行う。音声認識サーバ400は、音声データを、携帯電話機200のID情報と対応付けて受信し、対応するユーザ別言語モデルが存在する場合には、そのユーザ別言語モデルを用いて音声認識処理を行う。そして、音声認識サーバ400は、音声認識の結果として作成したテキストデータを、音声データの送信元に返信する。
【0025】
また、音声認識サーバ400は、携帯電話機200から、メールにより、携帯電話機200のID情報と対応付けて送られてきた文字列を受信する。そして、音声認識サーバ400は、受信した文字列を学習し、携帯電話機200のID情報に対応付けたユーザ別言語モデルを作成する。
【0026】
通信網500は、例えば、インターネットである。携帯電話機200、メールサーバ300、および音声認識サーバ400は、TCP/IP(transmission control protocol)などの通信プロトコルを用いて、通信網500を介して互いに通信を行う。また、携帯電話機200、メールサーバ300、および音声認識サーバ400は、SMTP(simple mail transfer protocol)やPOP3(post office protocol version 3)を用いて、メールの送受信を行う。
【0027】
このような音声認識システム100によれば、携帯電話機200からメールが送信されるごとに、送信メールのメール本文と同一内容の文字列が、メールにより音声認識サーバ400に送信される。この結果、携帯電話機200のユーザにより作成されたメール本文と同一の文字列が、音声認識サーバ400に自動的に送信される。すなわち、ユーザに特別な意識や操作をさせることなく、また、煩雑な処理を伴うことなく、ユーザ別言語モデルの作成に十分な量のテキストデータを、音声認識サーバ400に収集することができる。また、ユーザが音声認識の機能を使用してメール本文を作成するに従って、次第にユーザ固有のメール本文の特徴を文脈情報と共に学習し、音声認識精度を向上させることができる。
【0028】
次に、携帯電話機200の構成について説明する。
【0029】
図2は、携帯電話機200の構成を示すブロック図である。
【0030】
図2に示すように、携帯電話機200は、ID記憶部201、無線部202、アンテナ部203、操作部204、メール処理部205、マイクロフォン206、特徴量抽出部207、音声データ送信部208、テキストデータ受信部209、ディスプレイ210、スピーカ211、および制御部212を有する。メール処理部205は、BCC(blind carbon copy)生成部213を有する。
【0031】
ID記憶部201は、携帯電話機200に固有のID情報を記憶する。ID記憶部201は、例えば、多くの携帯電話機200に搭載されているSIM(subscriber identity module)である。この場合のID情報は、例えば、加入者識別番号(IMSI:international mobile subscriber identity)や、SIMに割り当てられた識別番号(SIMNO)である。
【0032】
無線部202は、アンテナ部203を介して、通信網500に配置された無線基地局(図示せず)と無線通信を行い、通信網500に接続する。
【0033】
操作部204は、キースイッチ(図示せず)を備え、文字入力操作や、音声認識によるメール作成の開始の指示操作を含む各種のユーザ操作を受け付ける。
【0034】
メール処理部205は、ユーザの文字入力操作、および音声認識サーバ400から受信されたテキストデータに基づいて、メール本文を作成する。そして、メール処理部205は、作成したメール本文を、任意のメールアドレスを宛先に指定して、無線部202を介してメールサーバ300に送信する。
【0035】
BCC生成部213は、メールが送信されるごとに、その送信メールのメール本文と同一の文字列を、ID記憶部201に記憶されたID情報と対応付けて、メールにより音声認識サーバ400に送信する。具体的には、BCC生成部213は、BCCの機能を用いて、送信メールのメール本文の宛先に音声認識サーバ400を追加し、送信メールのコピーメールを、音声認識サーバ400に送信する。
【0036】
マイクロフォン206は、ユーザの発話音声を含む音声を入力し、音声信号に変換する。
【0037】
特徴量抽出部207は、マイクロフォン206から出力される音声信号を分析し、音声認識サーバ400での音声認識で用いられる特徴量を抽出する。具体的には、特徴量抽出部207は、音声信号に対してフレーム処理を行い、フレームごとにフーリエ解析を含む所定の処理を行って、ケプストラムパラメータなどの音声特徴量(以下単に「特徴量」という)を抽出する。そして、特徴量抽出部207は、解析結果からユーザの音声が含まれている音声区間を検出し、音声区間の特徴量のみによる時系列データを生成する。
【0038】
音声データ送信部208は、音声認識によるメール本文の作成が開始されると、無線部202を介して、音声認識サーバ400との間で音声データおよびテキストデータを送受信するためのセッションを確立し、ID記憶部201に記憶されたID情報を音声認識サーバ400に送信する。そして、音声データ送信部208は、特徴量抽出部207から出力される音声データをパケット化し、音声認識サーバ400に送信する。
【0039】
テキストデータ受信部209は、音声データに対する音声認識結果として音声認識サーバ400から返信されるテキストデータを、無線部202を介して受信する。
【0040】
ディスプレイ210は、ユーザによる文字入力操作、および音声認識サーバ400から受信したテキストデータに基づいて、テキスト文書をメール本文の候補として表示する。また、ディスプレイ210は、携帯電話機200の操作に関する各種情報を表示する。
【0041】
スピーカ211は、例えば、携帯電話機能において相手先から送られてくる音声データを音声出力する。
【0042】
制御部212は、CPU(central processing unit)、制御プログラムを格納したROM(read only memory)などの記憶媒体、RAM(random access memory)などの作業用メモリなどを含んで構成され、携帯電話機200の各部を制御する。また、携帯電話機200の各部は、例えば、ASIC(application specific integrated circuit)や、通信回路を含んで構成される。
【0043】
次に、音声認識サーバ400の構成について説明する。
【0044】
図3は、音声認識サーバ400の構成を示すブロック図である。
【0045】
図3に示すように、音声認識サーバ400は、ネットワークインタフェース(I/F:interface)部410、ユーザ別言語モデル作成部420、音声認識データベース(DB:database)430、および音声認識部440を有する。
【0046】
ネットワークインタフェース部410は、通信網500に有線接続する。
【0047】
ユーザ別言語モデル作成部420は、携帯電話機200からメールサーバ300経由で送られてきた、携帯電話機200のID情報と対応付けられた文字列を、ネットワークインタフェース部410を介して受信する。そして、ユーザ別言語モデル作成部420は、受信した文字列を解析し、ID情報に対応付けてユーザ別言語モデルを作成して、音声認識データベース430を更新する。このユーザ別言語モデル作成部420は、メール受信部421、データベース(DB)切換部422、および言語モデル作成部423を有する。メール受信部421は、文書抽出部424およびID抽出部425を有する。
【0048】
メール受信部421は、自装置宛のメールを受信する。具体的には、メール受信部421は、メールサーバ300から、音声認識サーバ400のドメイン名を宛先とするメールを取得する。
【0049】
文書抽出部424は、受信メールのメール本文を学習対象の文字列として抽出し、言語モデル作成部423に出力する。
【0050】
言語モデル作成部423は、メール受信部421で抽出されたメール本文に対して所定の統計情報処理を行い、ユーザ別言語モデルを作成する。具体的には、既に存在するユーザ別言語モデルが処理の対象である場合には、新たに受信したメール本文の統計情報処理結果に応じて言語モデルを作成し、ユーザ別言語モデル434を修正する。また、新たなユーザ別言語モデルを作成する場合には、作成した言語モデルを、基となる受信メールから抽出されたID情報に対応付けて、ユーザ別言語モデル434に登録する。
【0051】
一方、ID抽出部425は、受信メールに対応付けられた、送信元の携帯電話機200のID情報を抽出し、データベース切換部422に出力する。具体的には、ID抽出部425は、受信メールの宛先アドレスのアカウント名から、送信元のID情報を抽出する。携帯電話機200が音声認識サーバ400にメールを送信する際の宛先アドレスの構成については後述する。
【0052】
データベース切換部422は、言語モデル作成部423による登録処理および更新処理の対象となるユーザ別言語モデルを切り換える。具体的には、データベース切換部422は、音声認識データベース430から、ID抽出部425が受信メールから抽出したID情報に対応するユーザ別言語モデルを、言語モデル作成部423の処理対象として選択する。
【0053】
ここで、言語モデルについて説明する。言語モデルは、学習対象の文字列における文脈のパターンを、関連語彙数によりモデル化したものであり、トライグラムモデル、バイグラムモデル、およびユニグラムなどのNグラムモデルを含む。
【0054】
Nグラムは、連続するN個の単語の組み合わせである。Nグラムモデルは、学習対象の文字列からNグラムを抽出し、抽出されたNグラムのそれぞれについて出現確率を算出したものである。実際には、Nグラムモデルの作成では、機能語や固有名詞の無視など、学習対象として扱う語彙の制限や、出現頻度の少ないNグラムのカットオフが行われる。これにより、計算量を削減することができる。また、出現していないNグラムを考慮した確率の平滑化などが行われる。これにより、学習の初期段階において、統計量の不足により音声認識精度が低下するのを防ぐことができる。
【0055】
すなわち、ユーザ別言語モデルは、ユーザ別にそのユーザが作成した文字列のみに基づいて作成されるため、ユーザの文脈のパターンをより反映させた内容となる。例えば、ある携帯電話機200から「尾田さんに連絡」という文字列を含むメールが何度か送信された場合、対応するユーザ別言語モデル434では、「小田さんに連絡」や「織田さんに連絡」の出現確率よりも、「尾田さんに連絡」という文字列の出現確率が高くなる。
【0056】
音声認識データベース430は、音声認識部440が所定の音声認識処理で用いる各種データを格納する。音声認識データベース430は、音響モデル431、辞書432、共通言語モデル433、およびユーザ別言語モデル434を格納する。ここでは、言語モデル作成部423によって、携帯電話機200−1〜200−Mに対応するM個のユーザ別言語モデル434−1〜434−Mが既に作成された状態を示している。
【0057】
音響モデル431は、携帯電話機200で入力音声から得られる特徴量と発音記号との確率的な対応付けをデータ化したものである。音響モデル431は、例えば、新聞記事の文字列とその新聞記事を読み上げたときの音声とをデータ化して蓄積した、読み上げ音声データベースに基づいて作成される。
【0058】
辞書432は、音声認識の対象となる単語の発音記号をデータ化したものである。辞書432は、例えば、上記した読み上げ音声データベースに基づいて作成される。
【0059】
共通言語モデル433は、辞書432に記述された単語のそれぞれについて、一般的な出現確率や接続確率をデータ化したものである。共通言語モデル433は、例えば、上記した読み上げ音声データベースのうち、テキストデータから作成される。ここでは、上記音響モデル431、辞書432、および共通言語モデル433は、全てのユーザに対して共通して使用されるものとして説明するが、勿論、これらの一部または全てをユーザ別に設けた構成としてもよい。
【0060】
ユーザ別言語モデル434は、ユーザ別言語モデル作成部420によって、携帯電話機200からの受信メール、つまり携帯電話機200の送信メールに含まれるメール本文の文字列に基づいて作成される言語モデルである。ユーザ別言語モデル434は、上記したように携帯電話機200のユーザごとに作成され、それぞれ携帯電話機200のID情報に対応付けられている。
【0061】
音声認識部440は、携帯電話機200から受信した音声データに対し、音響モデル431、辞書432、および共通言語モデル433を用いて、所定の音声認識処理を行う。そして、音声認識部440は、音声認識結果として作成したテキストデータを、音声データの送信元に返信する。また、音声認識部440は、音声データを携帯電話機200のID情報と対応付けて受信し、対応するユーザ別言語モデル434が存在する場合には、そのユーザ別言語モデル434も併せて用いる。この音声認識部440は、音声データ受信部441、データベース切換部442、文章作成部443、およびテキストデータ送信部444を有する。音声データ受信部441は、ID受信部445を有する。
【0062】
音声データ受信部441は、携帯電話機200からの要求に応じて携帯電話機200とのセッションを確立し、携帯電話機200から送られてくる音声データを受信する。
【0063】
ID受信部445は、セッション確立の際に携帯電話機200から送られてくるID情報を受信する。
【0064】
データベース切換部442は、文章作成部443による処理の対象となるユーザ別言語モデル434を切り換える。具体的には、データベース切換部442は、音声認識データベース430から、ID受信部445が受信したID情報に対応するユーザ別言語モデル434を、文章作成部443の処理対象として選択する。
【0065】
文章作成部443は、音声データに対し、音響モデル431、辞書432、および共通言語モデル433を用いて所定の音声認識処理を行い、テキストデータを生成する。具体的には、文章作成部443は、音響モデル431から各発音記号の尤度を、辞書432から各発音記号の組み合わせに対応する単語を、共通言語モデル433およびユーザ別言語モデル434からNグラムによる文脈上の各単語の出現確率をそれぞれ求める。そして、文章作成部443は、例えば、発音記号の尤度と単語の出現確率との積が最大となる単語列を探索する処理を音声データに対して行い、探索された単語列から、テキストデータを作成する。
【0066】
また、文章作成部443は、受信したID情報に対応するユーザ別言語モデル434が存在する場合には、そのユーザ別言語モデル434も併せて参照する。具体的には、文章作成部443は、共通言語モデル433とユーザ別言語モデル434とに重み付けを行い、両方の出現確率のそれぞれに重みを乗じた値の加算値を、各Nグラムの出現確率として採用する。なお、文章作成部443は、ユーザ別言語モデル434の作成過程における統計量の不足を考慮して、ユーザ別言語モデル434が作成されてからの経過時間やユーザ別言語モデル434に対する更新回数等に応じて、上記重み付けを変化させるようにしてもよい。
【0067】
このようにユーザ別言語モデル434を用いることにより、ユーザの文脈のパターンをより反映させて、音声認識を行うことができ、音声認識の精度を向上させることができる。例えば、上記の「尾田さんに連絡」の例でいうと、「オダサンニレンラク」という音声データに対して、「小田さんに連絡」や「織田さんに連絡」ではなく、「尾田さんに連絡」というテキストデータを生成することになる。ユーザに尾田さんという友人がおり、なんらかの連絡先としてメールで他者に伝達される回数が多い場合、「オダサンニレンラク」という音声が、「尾田さんに連絡」を意味する可能性が高い。すなわち、ユーザの所望の文字列をより高い確率で選択することができ、このことは、音声認識精度が向上したことを示す。
【0068】
テキストデータ送信部444は、文章作成部443から出力されるテキストデータをパケット化し、ネットワークインタフェース部410を介して、携帯電話機200に送信する。
【0069】
音声認識サーバ400は、図示しないが、CPU、制御プログラムを格納したHDD(hard disc drive)およびROMなどの記憶媒体、RAMなどの作業用メモリなどを有する。CPUによる制御プログラムの実行により、上記した各部の機能は実現される。
【0070】
以下、上記構成を有する携帯電話機200および音声認識サーバ400の動作について説明する。
【0071】
まず、携帯電話機200の動作について、フローチャートを用いて説明する。ここでは、メール作成に関する動作のみについて説明を行う。
【0072】
図4は、携帯電話機200のメール作成に関する動作の流れを示すフローチャートである。
【0073】
ステップS1100で、制御部212は、操作部204の操作などにより音声認識によるメール作成の開始が指示されたか否かを判断する。音声認識によるメール作成の開始が指示されていない場合には(S1100:NO)、処理はステップS1200に進み、音声認識によるメール作成の開始が指示された場合には(S1100:YES)、処理はステップS1300に進む。
【0074】
ステップS1200で、制御部212は、通常の操作部204の文字入力操作によるメール作成の開始が指示されたか否かを判断する。通常のメール作成の開始が指示されていない場合には(S1200:NO)、処理は後述のステップS2300に進み、通常のメール作成の開始が指示された場合には(S1200:YES)、処理はステップS1400に進む。
【0075】
ステップS1300で、音声データ送信部208は、TCP/IPプロトコルにより音声認識サーバ400との通信を開始して音声認識処理のためのセッションを確立し、ID記憶部201からID情報を読み出して音声認識サーバ400に送信する。
【0076】
ステップS1500で、制御部212は、マイクロフォン206による音声入力を開始し、マイクロフォン206から出力される音声信号を特徴量抽出部207に入力させる。
【0077】
ステップS1600で、特徴量抽出部207は、音声信号を分析して特徴量を抽出し、特徴量の時系列データである音声データを出力する。
【0078】
ステップS1700で、音声データ送信部208は、特徴量抽出部207から出力される音声データをパケット化し、音声認識サーバ400に送信する。例えば、音声データ送信部208は、音声データを蓄積しておき、操作部204にて音声入力の終了操作が行われたときに音声データを一括して音声認識サーバ400に送信する。
【0079】
ステップS1800で、テキストデータ受信部209は、音声認識サーバ400から音声認識結果の受信を待機する。音声認識結果が受信されない場合は(S1800:NO)、処理はステップS1900に進む。
【0080】
ステップS1900で、テキストデータ受信部209は、音声データ送信部208から音声データが送信されてから所定の時間が経過してタイムアウトになったか否かを判断する。タイムアウトになっていない場合には(S1900:NO)、処理はステップS1800に戻り、音声認識結果を受信しないままタイムアウトになった場合には(S1900:YES)、処理は後述のステップS2300に進む。このとき、携帯電話機200は、音声認識によるメール作成ができない旨を、ディスプレイ210を用いてユーザに通知するようにしてもよい。
【0081】
タイムアウトになる前にテキストデータ受信部209が音声認識結果を受信した場合には(S1800:YES)、処理はステップS2000に進む。
【0082】
一方、ステップS1400では、通常のメール作成の開始が指示されたことから、制御部212は、操作部204を用いた文字入力操作による通常のテキストデータ作成を開始し、処理はステップS2000に進む。
【0083】
ステップS2000で、制御部212は、音声認識結果のテキストデータまたはキー入力されたテキストデータを、ディスプレイ210に文字列表示させる。このとき、制御部212は、必要に応じて操作部204の操作による文字列の編集を受け付ける。メール本文として文字列が確定し、送信先のメールアドレスが指定されて、メール送信が指示されると、ステップS2100に進む。
【0084】
ステップS2100で、メール処理部205は、言語モデル作成用メールの送信準備をする。言語モデル作成用メールは、ユーザ別言語モデル434の作成の材料として、送信メールのメール本文に含まれる文字列を音声認識サーバ400に送るためのメールである。言語モデル作成用メールは、送信メールと同一の文字列を含み、宛て先を音声認識サーバ400とし、送信者を一意に特定するID情報を含む。
【0085】
図5は、通常の送信メールの構成と、この通常の送信メールに対応して生成される言語モデル作成用メールの構成とを示す図である。
【0086】
図5に示すように、通常の送信メール610では、宛先として、TOにユーザが指定したメールアドレスが、メール本文として、確定されたテキストがそれぞれ記述される。ここでは、付加的な宛先として、CC(copy carbon)およびBCCには何も記述されていない場合を図示している。一方、言語モデル作成用メールを含むメール620では、BCC生成部213により、付加的なアドレスとして、BCCに、言語モデル作成用メールの宛先アドレス(以下「言語モデル作成用アドレス」という)が記述される。
【0087】
言語モデル作成用アドレスは、メールアドレスのドメイン部分とアカウント部分に、音声認識サーバ400のドメイン名と、携帯電話機200のID情報とをそれぞれ記述したものである。ここでは、ID記憶部201に記憶されたID情報が「01」であり、音声認識サーバ400のドメイン名が「SRserver.ne.jp」の場合を示している。すなわち、言語モデル作成用アドレスは、送信メールのメール本文を、音声認識サーバ400に、ID情報に対応付けて送信することを可能にするものである。しかも、BCCに言語モデル作成用アドレスを指定するので、送信メールの本来の宛先である「AAA@bbb.ne.jp」の端末には、言語モデル作成用メールの送信を意識させることが無い。
【0088】
図4のステップS2200で、メール処理部205は、通常メールおよび言語モデル作成用メールを、本来の宛先および音声認識サーバ400に、メールサーバ300を介してそれぞれ送信する。
【0089】
そして、ステップS2300で、携帯電話機200は、ユーザ操作等によりメール作成に関する処理の終了を指示されたか否かを判断する。携帯電話機200は、処理の終了を指示されていない場合には(S2300:NO)、ステップS1100に戻り、指示された場合には(S2300:YES)、一連の処理を終了する。
【0090】
このように、携帯電話機200は、音声認識実行時には、音声データをID情報と対応付けて音声認識サーバ400に対して送信するとともに、メール送信時には、送信メールに含まれるメール本文をID情報と対応付けて音声認識サーバ400に対して送信する。これにより、ユーザが作成した文字列を極めて容易に言語モデルの作成に利用することができ、作成された言語モデルを音声認識処理に活用することができる。
【0091】
また、文字列の送信を、コピーメール送信により行い、ID情報の文字列への対応付けを、宛先アドレスのアカウント部分にID情報を記述することによって行う。これにより、既存の設備やアプリケーションソフトウェアの機能を最大限に活用することができ、システム構築のコストを低減することができる。
【0092】
また、SIMの識別情報は、読み出しが容易である一方で、通常はユーザによる変更が不可能となっている。また、SIMは、加入者識別情報など、ユーザに固有の情報を格納した記憶媒体として使用端末に差し替えて使用される。すなわち、ユーザは、機種変更を行っても、同一のSIMを継続して使用する場合が多い。したがって、ID情報としてSIMの識別情報を採用すれば、より容易かつ確実なユーザ識別が可能となり、音声認識の精度についての信頼性が向上する。
【0093】
次に、音声認識サーバ400の動作について、フローチャートを用いて説明する。
【0094】
図6は、音声認識サーバ400の動作の流れを示すフローチャートである。
【0095】
ステップS3100で、音声データ受信部441は、携帯電話機200からの要求を受けて携帯電話機200とのセッションが確立したか否かを判別する。セッションが確立していない場合には(S3100:NO)、処理はステップS3200に進む。セッションが確立した場合には(S3100:YES)、処理はステップS3300に進む。ここで、ID受信部445がID情報を受信した場合には、受信されたID情報がデータベース切換部442に出力される。
【0096】
ステップS3200で、メール受信部421は、メールサーバ300に対してメール取得要求を行って自装置宛のメールを受信し、携帯電話機200から言語モデル作成用メールを受信したか否かを判断する。言語モデル作成用メールを受信した場合には(S3200:YES)、処理はステップS3400に進む。受信していない場合には(S3200:NO)、処理は後述のステップS4100に進む。なお、音声認識処理に比べて、ユーザ別言語モデル作成処理は求められる即時性が低いため、ステップS3200の処理は、予め定められた時間おきに実行するようにしてもよい。
【0097】
ステップS3300以降では、音声認識処理が実行される。まず、音声認識部440は、ID受信部445が取得したID情報に従って、文章作成部443が参照すべき言語モデルを決定する。すなわち、ID情報をインデクスとして、いずれかのユーザ別言語モデル434が選択される。なお、データベース切換部442で行われる処理は、文章作成部443が音声認識データベース430を参照する際に行う処理の一部としてもよい。
【0098】
ステップS3500で、音声データ受信部441は、携帯電話機200から音声データを受信したか否かを判断する。音声データを受信していない場合には(S3500:NO)、処理はステップS3600に進み、音声データを受信した場合には(S3500:YES)、処理はステップS3700に進み、受信した音声データの文章作成部443への入力が開始される。
【0099】
ステップS3600で、音声データ受信部441は、携帯電話機200とのセッションが開始されてから音声データを受信しないまま所定の時間が経過してタイムアウトになったか否かを判断する。タイムアウトになっていない場合には(S3600:NO)、処理はステップS3500に戻り、音声データを受信しないままタイムアウトになった場合には(S3600:YES)、処理は後述のステップS4100に進む。
【0100】
ステップS3700で、文章作成部443は、音声認識データベース430を参照して所定の音声認識処理を行い、テキストデータを作成する。そして、文章作成部443は、作成したテキストデータを、テキストデータ送信部444に出力する。このとき、データベース切換部442によりいずれかのユーザ別言語モデル434の使用が決定されている場合には、文章作成部443は、該当するユーザ別言語モデル434も用いる。
【0101】
ステップS3800で、テキストデータ送信部444は、入力されたテキストデータを、音声認識結果として、音声データの送信元の携帯電話機200に送信する。そして、処理は、後述のステップS4100に進む。
【0102】
一方、ステップS3400以降では、言語モデル作成処理が実行される。メール受信部421は、受信した言語モデル作成用メールから、メール本文のテキストデータおよびID情報を抽出し、言語モデル作成部423およびデータベース切換部422にそれぞれ出力する。
【0103】
ステップS3900で、データベース切換部422は、入力されたID情報をインデクスとして、言語モデル作成部423が作成の対象とすべきユーザ別言語モデル434を決定する。なお、データベース切換部422で行われる処理は、言語モデル作成部423がユーザ別言語モデル434を作成する際に行う処理の一部としてもよい。
【0104】
ステップS4000で、言語モデル作成部423は、入力されたテキストデータに対して所定の統計情報処理を行い、ステップS3900で決定されたユーザ別言語モデル434を、統計情報処理結果に基づいて更新または作成する。
【0105】
そして、ステップS4100で、音声認識サーバ400は、ユーザ操作等により音声認識に関する処理の終了を指示されたか否かを判断する。音声認識サーバ400は、処理の終了を指示されていない場合には(S4100:NO)、ステップS3100へ戻り、指示された場合には(S4100:YES)、一連の処理を終了する。
【0106】
このように、音声認識サーバ400は、携帯電話機200から受信した言語モデル作成用メールに含まれるメール本文に基づいて、その送信元のID情報に対応付けたユーザ別言語モデル434を作成する。また、音声認識サーバ400は、携帯電話機200から受信した音声データに対して、その送信元のID情報をインデクスとしてユーザ別言語モデル434を参照して音声認識を行う。これにより、ユーザが作成した文字列を、既存の設備やアプリケーションソフトウェアの機能を最大限に活用して、そのユーザ用の音声モデルを作成する材料として収集することができる。これにより、システム構築のコストを抑えた状態で、ユーザ別の言語モデルを作成することができる。
【0107】
以下、音声認識システム100における各装置の処理および通信の流れについて、一例を挙げて説明する。
【0108】
図7は、音声認識システム100における各装置の処理および通信の流れの一例を示すシーケンス図である。ここでは、説明の簡便化のため、音声認識部440、ユーザ別言語モデル作成部420、および音声認識データベース430を分離して取り扱うものとする。
【0109】
携帯電話機200は、メール本文を作成するごとに(S5100)、通常メールおよびID情報が付された言語モデル作成用メールをメールサーバ300に送信し(S5200)、メールサーバ300は、これらのメールを保管する(S5300)。この状態で、音声認識サーバ400のユーザ別言語モデル作成部420が、メールサーバ300にメール取得要求を行うと(S5400)、メールサーバ300は、宛先アドレスに音声認識サーバ400のドメインが記述された言語モデル作成用メールを、ユーザ別言語モデル作成部420に返信する(S5500)。
【0110】
ユーザ別言語モデル作成部420は、受信した言語モデル作成用メールに付されたID情報に基づいてユーザ別言語モデル434を切り換え、メール本文の文字列に対して所定の統計情報処理を行い(S5600)、音声認識データベース430を更新する(S5700)。この結果、携帯電話機200のID情報に対応付けられたユーザ別言語モデル434は、携帯電話機200で作成されたメール本文の文脈を反映させる形で更新される(S5800)。
【0111】
その後、携帯電話機200が音声認識サーバ400の音声認識部440とのセッションを確立し(S5900)、自装置のID情報を音声認識部440に送信すると(S6000)、携帯電話機200は、音声入力および音声データからの特徴量抽出を開始し(S6100)、音声認識部440は、受信したID情報に基づいてユーザ別言語モデル434を切り換える(S6200)。そして、音声認識部440は、携帯電話機200から音声データを受信し(S6300)、更新された音声認識データベース430を参照して(S6400)、所定の音声認識処理によりテキストデータを生成する(S6500)。そして、音声認識部440は、生成したテキストデータを、携帯電話機200に返信する(S6600)。
【0112】
携帯電話機200は、音声認識結果の文字列を、メール本文の候補として表示するとともに、表示した文字列に対する編集を受け付け(S6700)、通常メールおよび言語モデル作成用メールでメールサーバ300に送信する(S6800)。これらステップS6700、S6800の処理は、上記したステップS5100、S5200の処理に対応している。
【0113】
このように、音声認識システム100では、携帯電話機200から送信されるメールのメール本文がID情報と対応付けてユーザ別言語モデル作成部420にも送信され、ユーザ別言語モデルの作成に使用される。
【0114】
以上説明したように、本実施の形態によれば、携帯電話機200は、送信メールに含まれる文字列を、自装置のID情報に対応付けて、音声認識サーバ400のユーザ別言語モデル作成部420にメールで送信する。また、携帯電話機200は、音声データを、自装置のID情報に対応付けて、音声認識サーバの音声認識部440に送信する。ユーザ別言語モデル作成部420は、受信した文字列を学習して、送信元のID情報に対応付けたユーザ別言語モデル434を作成する。音声認識部440は、受信した音声データに対して、その送信元のID情報に対応付けられたユーザ別言語モデル434を用いて音声認識を行う。メールにより送信メールのメール本文を収集するので、既存のシステムに変更を加えることなく、ユーザが作成した文字列を極めて容易に言語モデルの作成に利用することができ、作成された言語モデルを音声認識処理に活用することができる。すなわち、文脈に依存して異なる表記についての音声認識の精度を、容易に向上させることができる。
【0115】
なお、ユーザ別言語モデルおよび音声認識処理の種類は、上記内容に限定されるものではなく、文字列からその文脈に応じた内容で作成される各種言語モデルおよびこれを用いた各種音声認識処理を適用できることは勿論である。
【0116】
また、ID情報の文字列および音声データへの対応付けは、直接にID情報を用いるのではなく、予めID情報に対応付けられた、メールアドレスなどの他の識別情報を用いることによって行うようにしてもよい。
【0117】
また、携帯電話機200は、メール本文の文字列の音声認識サーバ400への送信を、通常のメールを送信するごとにではなく、定期的にまたはユーザに指定されたタイミングで、一括して行うようにしてもよい。この場合には、携帯電話機200は、例えば、送信メールを蓄積しておき、ユーザから選択を受け付け、選択されたメールの送信先を編集して、言語モデル作成用メールを作成してもよい。具体的には、例えば、TOまたはCCの宛て先に言語モデル作成用アドレスを記述し、選択された送信メールのメール本文を格納した言語モデル作成用メールを作成する。これにより、ユーザが意図的に文脈を変えた送信メールを学習対象から除外することができ、音声認識の精度の更なる向上を図ることができる。
【0118】
また、携帯電話機200は、送信メールを蓄積しない場合でも、本来の送信メールとは別個に、メール本文をコピーし言語モデル作成用アドレスをTOまたはCCの宛先としたメールを送信するようにしてもよい。
【0119】
更に、携帯電話機200は、言語モデル作成用アドレスをTOの宛先として記述する場合には、送信メールの本来の宛先をメールに含めないようにしてもよい。これにより、送信メールの本来の宛先が音声認識サーバ400側に漏洩するのを防ぐことができ、携帯電話機200のユーザおよびメール送信相手のプライバシー保護を図ることができる。
【0120】
(実施の形態2)
次いで、本発明の実施の形態2に係る、分散型音声認識システムに用いる端末装置について説明する。実施の形態1との相違点は、言語モデル作成用メールの作成対象に、受信メールを追加して、音声認識の精度の更なる向上を図るようにしたことにある。
【0121】
家族や親しい友人などとの間で、同じ話題について会話感覚でメールのやり取りが行われる場合、相手からの受信頻度や返信の確率は高くなる。また、このようなメール通信では、メール本文の文脈もお互いに類似していることが多い。ユーザが作成する文字列と文脈が類似している文字列をより多く収集できれば、より短時間で音声認識の精度を向上させることができる。そこで、受信頻度の高い他のユーザからの受信メールを、言語モデル作成用メールとして追加する場合について説明する。
【0122】
実施の形態2に係る携帯電話機200は、例えば実施の形態1の図2に示す携帯電話機200と同様の構成を有する。ただし、メール処理部205は、実施の形態1で説明した処理に加えて、以下に説明する受信メール転送処理を実行する。
【0123】
受信メール転送処理において、メール処理部205は、他の装置からメールを受信するごとに、その受信メールの送信元アドレスを記録する。また、メール処理部205は、他の装置からメールを受信するごとに、過去の記録データから、閾値との比較などにより、その受信メールの相手先からのメール受信頻度が高いか否かを判断する。そして、メール受信頻度が高い場合には、メール処理部205は、その送信元からの受信メールのメール本文の文字列を記述した言語モデル作成用メールを作成するとともに、その宛先として、実施の形態1と同様の言語モデル作成用アドレスを指定する。これにより、受信メールのコピーメールが、音声認識サーバ400に転送される。
【0124】
このように、本実施の形態によれば、送信メールのみならず、文脈の類似した受信メールのメール本文も、ID情報に対応付けて音声認識サーバ400に送信される。これにより、音声認識サーバ400のユーザ別言語モデル作成部420は、送信メールのみを用いる場合に比べて、同じ話題および同じ文章表現という観点における十分な統計量を、より短時間で収集することができる。すなわち、より短時間で、音声認識の精度を向上させることができる。
【0125】
なお、受信メールについても、受信メール単位で選択して、音声認識サーバ400に一括して送信するようにしてもよい。これにより、相手が意図的に文脈を変えている受信メールや、受信頻度は高いものの文脈が例外的に異なるような受信メールを、学習対象から除外することができ、音声認識の精度の更なる向上を図ることができる。
【0126】
また、いたずらメールなどを考慮して、送信頻度も高い相手先であることを、メール本文の送信の条件としてもよい。
【0127】
また、自己のメールのメール本文を学習対象として音声認識サーバ400に送信することについて、許可を得た相手からの受信メールに限定して、メール本文の送信を行うようにしてもよい。
【0128】
(実施の形態3)
次いで、本発明の実施の形態3に係る、分散型音声認識システムに用いる端末装置について説明する。実施の形態1との相違点は、送信メールの相手先をグループ化し、グループごとにユーザ別言語モデルを作成するようにしたことにある。
【0129】
例えば、家族に対するメール、友人に対するメール、仕事関係の人に対するメールとでは、使用される単語や文体表現が異なるのが通常である。すなわち、一人のユーザが送信するメールでも、メールの送信相手によって、メール本文の文脈は異なる。したがって、送信メールの文脈が類似する相手先をグループ化し、グループごとにユーザ別言語モデル434を作成することで、音声認識精度を更に向上させることが可能となる。そこで、送信メールの文脈が類似する相手先のグループごとに、ユーザ別言語モデル434を作成する場合について説明する。
【0130】
実施の形態3に係る携帯電話機200は、例えば実施の形態1の図2に示す携帯電話機200と同様の構成を有する。ただし、メール処理部205は、実施の形態1で説明した処理に加えて、以下に説明する相手先グルーピング処理を実行する。また、メール処理部205および音声データ送信部208は、携帯電話機200のID情報に加えて、相手先グルーピング処理においてグループごとに設定されたグループIDを、音声認識サーバ400に送信する。
【0131】
携帯電話機200は、電話番号やメールアドレスを相手先ごとに登録した電話帳を有している。電話帳に登録された相手先は、検索および管理の便宜のために、「家族」、「友人」、「会社関係」など、予め用意されたグループに振り分けられている。
【0132】
相手先グルーピング処理において、メール処理部205は、電話帳のグループを、送信メールの文脈が類似する相手先のグループとして扱い、電話帳のグループのそれぞれに、グループIDを設定する。なお、このグループIDは、各グループに予め割り当てられている識別情報を用いてもよい。
【0133】
メール処理部205は、言語モデル作成用メールを送信する際に、通常メールの送信先が属するグループに設定されたグループIDを、自装置のID情報と共に言語モデル作成用メールに付加する。例えば、メール処理部205は、実施の形態1で説明した言語モデル作成用アドレスのアカウント部分に、グループIDを追加して記述する。
【0134】
また、音声データ送信部208は、音声認識サーバ400とのセッション確立の際に、通常メールの送信先が属するグループに設定されたグループIDを、自装置のID情報と共に音声認識サーバ400に送信する。例えば、音声データ送信部208は、自装置のID情報にグループIDを追加した情報を、音声認識サーバ400に送信する。
【0135】
この場合、音声認識サーバ400のユーザ別言語モデル作成部420は、ID情報とグループIDとの組み合わせにより構成される情報に対応付けて、ユーザ別言語モデル434を作成する。また、音声認識サーバ400の音声認識部440は、ID情報とグループIDとの組み合わせにより構成される情報をインデクスとして、ユーザ別言語モデル434を参照する。
【0136】
このように、本実施の形態によれば、複数のID情報を、送信メールの送信先に応じて切り換えて、送信メールに含まれる文字列に対応付ける。これにより、ユーザごとかつメール送信先ごとに異なる文脈を考慮して音声認識を行うことができ、個々のメール作成における音声認識精度を向上させることができる。
【0137】
(実施の形態4)
次いで、本発明の実施の形態4に係る、分散型音声認識システムに用いる言語モデル作成装置について説明する。実施の形態1との相違点は、受信した言語モデル作成用メールに、読みが不明な単語(以下「未知語」という)が含まれているときに、その未知語の読みを解決するようにしたことである。
【0138】
ここで、未知語を含め、単語とは、文字、文字列、記号、記号列、画像、アニメーション等、メール本文として挿入可能な情報であって、読みを設定することにより音声入力可能とすべきものの全てを含む概念とする。
【0139】
図8は、本発明の実施の形態4に係る音声認識サーバの構成を示すブロック図であり、実施の形態1の図3に対応するものである。図3と同一部分には同一符号を付し、これについての説明を省略する。
【0140】
図8に示すように、音声認識サーバ400aは、未知語処理部450aを有する。
【0141】
未知語処理部450aは、言語モデル作成用メールに含まれる未知語の読みを解決する。未知語処理部450aは、未知語検出部451a、問合メール送受信部452a、および辞書登録部453aを有する。
【0142】
未知語検出部451aは、文書抽出部424から、言語モデル作成用メールのメール本文を入力し、メール本文の未知語を検出する。具体的には、未知語検出部451aは、入力したメール本文に含まれる個々の単語を、音声認識データベース430の辞書432で検索する。そして、未知語検出部451aは、辞書432に存在しない単語を、未知語として検出する。
【0143】
問合メール送受信部452aは、未知語検出部451aで検出された未知語を、その未知語の送信元のユーザにメールで問合せ、問合せ結果を、辞書432に登録する。具体的には、問合メール送受信部452aは、未知語を示してその未知語の読みを問い合わせる内容のメール(以下「問合メール」という)を作成し、未知語が含まれていた言語モデル作成用メールの送信元に送信する。そして、問合メール送受信部452aは、問合メールに対する応答として、未知語の読みを記述したメール(以下「応答メール」という)を受信すると、応答メールから、未知語の読みを抽出する。
【0144】
辞書登録部453aは、問合メール送受信部452aで抽出された未知語の読みを、未知語と対応付けて辞書432に登録する。
【0145】
このような音声認識サーバ400aによれば、受信した言語モデル作成用メールに未知語が含まれているときに、その未知語の読みを解決することができる。したがって、該当する読みの音声データを受信したときに、適切な単語を音声認識結果として得ることができる。
【0146】
以下、音声認識サーバ400aの動作について説明する。
【0147】
図9は、音声認識サーバ400aの動作の流れを示すフローチャートであり、実施の形態1の図6に対応するものである。図6と同一部分には同一ステップ番号を付し、これについての説明を省略する。
【0148】
文書抽出部424で言語モデル作成用メールからメール本文のテキストデータが抽出されると(S3400)、処理はステップS3810aに進む。このとき、文書抽出部424は、未知語処理部450aの未知語検出部451aに対して、抽出したテキストデータと、送信元のメールアドレスとを出力する。
【0149】
ステップS3810aで、未知語検出部451aは、辞書432を参照して、文書抽出部424から入力されたテキストデータに未知語が存在するか否かを判断する。未知語が存在しない場合には(S3810a:NO)、処理はステップS3900に進む。未知語が存在する場合には(S3810a:YES)、処理はステップS3820aに進む。このとき、未知語検出部451aは、未知語と、未知語の送信元のメールアドレスとを、問合メール送受信部452aに出力する。
【0150】
ステップS3820aで、問合メール送受信部452aは、問合メールを、未知語検出部451aから入力されたメールアドレスを宛先として送信する。このとき、問合メール送受信部452aは、送信元アドレスとして、言語モデル作成用アドレスとは異なる、未知語解決用のアドレス(以下「未知語解決用アドレス」という)を設定することが望ましい。これにより、言語モデル作成用メールと応答メールとを区別して取り扱うことが容易となる。そして、処理はステップS3900に進み、言語モデル作成用メールに基づいてユーザ言語モデルの更新等が行われる。
【0151】
一方、メール受信部421が言語モデル作成用メールを受信していない場合には(S3200:NO)、処理はステップS3210aに進む。
【0152】
ステップS3210aで、問合メール送受信部452aは、過去の問合メールに対する応答メールを受信したか否かを判断する。問合メール送受信部452aが応答メールを受信していない場合には(S3210a:NO)、処理はステップS4100に進む。問合メール送受信部452aが応答メールを受信した場合には(S3210a:YES)、処理はステップS3220aに進む。このとき、問合メール送受信部452aは、受信した応答メールに記述された未知語および未知語の読みを抽出して、辞書登録部453aに出力する。
【0153】
ステップS3220aで、辞書登録部453aは、問合メール送受信部452aから入力された読みを、同じく問合メール送受信部452aから入力された未知語に対応付けて、辞書432に登録する。
【0154】
このような動作により、音声認識サーバ400aは、未知語の読みを解決することができる。
【0155】
図10は、問合せメールと、この問合メールに対応して生成される応答メールの記述内容の一例を示す図である。ここでは、「AMI」という単語が未知語として検出され、ユーザが「AMI」に対して「あみ」という読みを希望する場合を例示する。
【0156】
図10に示すように、問合メール630aには、例えば、送信元アドレスとして、言語モデル作成用アドレスとは異なる未知語解決用アドレス「02@SRserver.ne.jp」が記述される。また、問合メール630aには、例えば、件名(SUBJECT)として、「AMIの読みを本文に入力し、返信して下さい」という指示が記述される。携帯電話機200は、受信した問合メール630aの記述内容を表示する。
【0157】
そして、ユーザが、問合メール630aの指示に従うと、応答メール640aには、メール本文として、「あみ」が記述される。
【0158】
問合メール送受信部452aは、応答メール640aを受信すると、件名に記述された未知語、つまり、「の読みを」の直前であって「Re:」を取り除いた部分を未知語として抽出し、メール本文に記述されたテキストを未知語の読みとして検出する。この結果、音声認識サーバ400aの辞書432には、「AMI」という単語に対応付けて、「あみ」という読みが登録される。この結果、「AMI」も言語モデル作成に利用可能となるとともに、ユーザが「あみ」と発声したときに、「AMI」という音声認識結果が得られるようになる。
【0159】
なお、未知語が長く、件名として記入することができない場合を考慮して、問合せメールを、例えば、「本文に、『AMI』に続けて『AMI』の読みを入力した文書を、返信して下さい」という指示をメール本文に記述したものとしてもよい。この場合には、応答メールには、メール本文として、「AMIあみ」と記述されることになる。未知語と読みの分離は、例えば、メール本文の前方から未知語を検索すれば可能である。また、未知語と読みとの間に、「:」等の予め定められた文字や記号を挿入するようにすれば、未知語と読みとの分離が容易となる。
【0160】
また、問合メールの送信先と問い合わせの対象となった未知語とを対応付けておき、応答メールがどの未知語に対する応答であるかを、この対応付けに基づいて判断するようにしてもよい。これにより、応答メールに未知語が正しく記述されていない場合でも、未知語および読みの抽出を行うことができる。
【0161】
このように、本実施の形態によれば、学習対象に読みが不明な未知語が存在する場合に、その未知語の読みを解決して辞書に登録する。これにより、絵文字、顔文字、アニメーション等、メールで多用される一方で一般的な読みが定着していないような単語であっても、音声入力が可能となる。すなわち、一般的な読みが定着していないような単語をユーザが発話する場合に、音声認識率を向上させることができる。また、メールでの逐次の問い合わせにより未知語解決を行うので、未知語が検出されてから早期にその読みを解決することができ、迅速な音声認識の精度向上が可能となる。
【0162】
なお、表記と読みが対にして登録されたバックグラウンド辞書を音声認識用の辞書432とは別に用意しておき、単語が、音声認識用の辞書432に未登録であって、バックグラウンド辞書にも未登録の場合にのみ、問合せを行うようにしてもよい。バックグラウンド辞書は、音声認識サーバ400aに格納してもよいし、音声認識サーバ400aからアクセス可能な他のサーバに格納してもよい。
【0163】
また、未知語処理部450aの一部または全てを、ネットワーク上の他の装置に配置するようにしてもよい。
【0164】
(実施の形態5)
次いで、本発明の実施の形態5に係る、分散型音声認識システムに用いる言語モデル作成装置について説明する。本実施の形態においても、実施の形態4と同様に未知語の解決を行うが、実施の形態4との相違点は、ウェブ上に用意したGUI(graphical user interface)によって、未知語の読みを解決するようにしたことにある。
【0165】
図11は、本発明の実施の形態5に係る音声認識サーバの構成を示すブロック図であり、実施の形態4の図8に対応するものである。図8と同一部分には同一符号を付し、これについての説明を省略する。
【0166】
図11に示すように、音声認識サーバ400bは、未知語処理部450bを有する。
【0167】
未知語処理部450bは、言語モデル作成用メールに含まれる未知語の読みを解決する。未知語処理部450bは、実施の形態4の未知語処理部450aの問合メール送受信部452aに代えて、未知語蓄積部454bおよびGUI処理部455bを有する。
【0168】
未知語蓄積部454bは、未知語検出部451aで検出された未知語を、その未知語の読みが解決されるまで、その未知語の送信元のID情報と対応付けて蓄積する。
【0169】
GUI処理部455bは、ユーザがウェブ上で自由にアクセスして未知語の読みを登録するためのグラフィカルユーザインタフェース(以下「未知語登録サイト」という)を構築する。この未知語登録サイトは、例えば、CGI(common gateway interface)を用いて構築され、HTTP(hypertext transfer protocol)により通信網500を介して携帯電話機200からアクセス可能となっている。GUI処理部455bは、未知語登録サイトにおいて、未知語蓄積部454bに蓄積された未知語のうち、アクセス元のユーザが作成した言語モデル作成用メールから抽出された未知語を表示し、表示した未知語に対する読みの入力を受け付ける。
【0170】
辞書登録部453aは、上述の未知語登録サイトで入力された未知語の読みを、未知語と対応付けて辞書432に登録する。
【0171】
このような音声認識サーバ400bによれば、受信した言語モデル作成用メールに未知語が含まれているときに、その未知語の読みを解決することができる。また、ユーザが望むタイミングで、未知語の読みの登録を行うことができる。
【0172】
以下、音声認識サーバ400bの動作について説明する。
【0173】
まず、未知語登録サイトの動作について説明し、その後、音声認識サーバ400bの全体動作について説明する。
【0174】
未知語登録サイトは、まず、ユーザのログイン処理として、アクセス元のID情報の取得を行う。この取得は、ウェブ画面上でユーザに入力を促すことにより行ってもよいし、携帯電話機200から製造番号等の情報を取得することにより行ってもよい。そして、未知語登録サイトは、取得したID情報に対応付けられた全ての未知語を、未知語蓄積部454bから抽出し、抽出した未知語を、個別に選択可能な状態で、ウェブ画面上に一覧表示する。そして、未知登録サイトは、いずれかの未知語が選択されると、未知語の読みを入力するための読み入力画面に遷移する。未知語登録サイトは、読み入力画面で読みが入力され、決定ボタンのクリック等の決定操作が行われると、未知語と入力された読みとを対にして一時的に記憶し、未知語の一覧表示画面に戻る。そして、登録ボタンのクリック等の登録操作、または、ユーザのログアウト処理が行われると、未知語登録サイトは、入力された未知語の読みを、登録対象として取得する。
【0175】
なお、未知語登録サイトは、携帯電話機200ではなく、パーソナルコンピュータ等の端末からアクセス可能としてもよい。携帯電話機200からのアクセスを想定した場合、未知語登録サイトは、小さい表示画面での視認性や限られたキースイッチによる操作性を考慮して、上述のように一覧表示画面と読み入力画面とを切り替えることが望ましい。しかし、パーソナルコンピュータ等の端末からのアクセスを想定した場合には、未知語登録サイトは、1つの画面上で未知語を一覧表示と読み入力とを行えるようにしてもよい。
【0176】
図12は、音声認識サーバ400bの動作の流れを示すフローチャートであり、実施の形態4の図9に対応するものである。図9と同一部分には同一ステップ番号を付し、これについての説明を省略する。
【0177】
文書抽出部424で抽出されたメール本文のテキストデータに未知語が存在する場合には(S3810a:YES)、処理はステップS3830bに進む。このとき、未知語検出部451aは、その未知語と未知語の送信元のID情報とを、未知語蓄積部454bに出力する。
【0178】
ステップS3830bで、未知語蓄積部454bは、未知語検出部451aから入力された未知語とID情報とを、対応付けて格納する。そして、処理はステップS3900に進む。
【0179】
一方、メール受信部421が言語モデル作成用メールを受信していない場合には(S3200:NO)、処理はステップS3230bに進む。
【0180】
ステップS3230bで、GUI処理部455bは、未知語登録サイトにおいて、ユーザによる未知語の読みの登録操作が行われたか否かを判断する。未知語の読みの登録操作が行われていない場合には(S3230b:NO)、処理はステップS4100に進む。
【0181】
一方、未知語の読みの登録操作が行われた場合には(S3230b:YES)、処理は、ステップS3240bに進む。この際、GUI処理部455bは、未知語登録サイトにおいて登録操作が行われた未知語と未知語の読みとを抽出して辞書登録部453aに出力し、ステップS3220aに進む。この未知語および読みは、対応付けて辞書432に登録されることになる。また、GUI処理部455bは、辞書登録部453aに出力した未知語を、未知語蓄積部454bから削除する。これにより、既に読みが登録された単語を未知語登録サイトで問い合わせるのを防ぐことができる。
【0182】
このような動作により、音声認識サーバ400bは、未知語の読みを解決することができる。
【0183】
このように、本実施の形態によれば、学習対象に読みが不明な未知語が存在する場合に、その未知語の読みを解決して辞書に登録することができ、音声認識率を向上させることができる。また、ユーザは、自己に都合の良いタイミングで、自己のメールで記述した複数の未知語の読みの入力操作を、一挙に行うことができる。これにより、ユーザの未知語入力の手間を軽減することができる。
【0184】
なお、未知語処理部450bの一部または全てを、ネットワーク上の他の装置に配置するようにしてもよい。特に、未知語蓄積部454bとGUI処理部455bとを他の装置にまとめて配置すれば、未知語登録サイトの機能をまとめて分離することができ、音声認識サーバ400bの負担を軽減することができるとともに、未知語登録サイトの処理を高速化することが可能となる。
【0185】
また、未知語登録サイトと同様の動作を行う画面を表示するユーザインタフェース(IU:user interface)を、携帯電話機のメールアプリケーションソフトウェア内に用意するようにしてもよい。この場合には、音声認識サーバは、例えば、検出した未知語を、逐次または定期的に、未知語の送信元の携帯電話機に送信し、携帯電話機は、受信した未知語を蓄積しておく。そして、アプリケーションソフトウェアは、未知語登録サイトと同様に未知語の表示と読みの入力受け付けを行い、入力された読みを、未知語と対応付けて音声認識サーバに送信し、音声認識サーバの辞書に登録させる。これにより、未知語解決の処理負担を分散することができる。
【0186】
また、携帯電話機は、音声認識サーバから未知語の読みの登録を促される前に、ユーザにより入力された単語の読みを、音声認識サーバに送信するようにしてもよい。このような読みの入力は、例えば、携帯電話機に格納された、文字変換用のユーザ辞書、かな漢字変換システムの学習情報、および電話帳に対して行われる。したがって、携帯電話機は、例えば、これらのデータが更新されるごとに、その更新後の全データ、または更新されたデータ部分のみを、音声認識サーバに送信する。データを受信した音声認識サーバは、受信データから未知語を検出し、更に未知語の読みを受信データから取得し、これらの未知語と未知語の読みとを対応付けて辞書に登録する。これにより、音声認識サーバで検出される前に、未知語の読みを解決することが可能となる。
【0187】
また、以上説明した各実施の形態では、本発明を、音声認識を用いて携帯電話機でメール本文を作成するシステムに適用した例について説明したが、これに限定されるものではない。例えば、言語モデルを用いて音声認識を行う音声認識装置と、この音声認識装置を利用してメール本文の作成を行う、パーソナルコンピュータおよびPDA(personal digital assistant)などの各種端末装置とを含むシステムに適用できることは勿論である。
【0188】
また、ユーザ別言語モデル作成部、音声認識データベース、および音声認識部を同一のサーバ内に配置した例について説明したが、これらをネットワーク上の別個の装置に配置するようにしてもよい。
【産業上の利用可能性】
【0189】
本発明に係る端末装置、言語モデル作成装置、および分散型音声認識システムは、文脈に依存して異なる表記についての音声認識の精度を容易に向上させることができる端末装置、言語モデル作成装置、および分散型音声認識システムとして有用である。
【図面の簡単な説明】
【0190】
【図1】本発明の実施の形態1に係る分散型音声認識システムとしての音声認識システムの構成の一例を示すシステム構成図
【図2】実施の形態1に係る端末装置を含む携帯電話機の構成を示すブロック図
【図3】実施の形態1に係る言語モデル作成装置を含む音声認識サーバの構成を示すブロック図
【図4】実施の形態1における携帯電話機の動作の流れを示すフローチャート
【図5】実施の形態1における言語モデル作成用メールの構成を示す図
【図6】実施の形態1における音声認識サーバの動作の流れを示すフローチャート
【図7】実施の形態1における音声認識システムのシーケンス図
【図8】本発明の実施の形態4に係る音声認識サーバの構成を示すブロック図
【図9】本発明の実施の形態4における音声認識サーバの動作の流れを示すフローチャート
【図10】本発明の実施の形態4における問合せメールおよび応答メールの記述内容の一例を示す図
【図11】本発明の実施の形態5に係る音声認識サーバの構成を示すブロック図
【図12】本発明の実施の形態5における音声認識サーバの動作の流れを示すフローチャート
【符号の説明】
【0191】
100 音声認識システム
200 携帯電話機
201 ID記憶部
202 無線部
203 アンテナ部
204 操作部
205 メール処理部
206 マイクロフォン
207 特徴量抽出部
208 音声データ送信部
209 テキストデータ受信部
210 ディスプレイ
212 制御部
213 BCC生成部
300 メールサーバ
400、400a、400b 音声認識サーバ
410 ネットワークインタフェース部
420 ユーザ別言語モデル作成部
421 メール受信部
422 データベース切換部
423 言語モデル作成部
424 文書抽出部
425 ID抽出部
430 音声認識データベース
431 音響モデル
432 辞書
433 共通言語モデル
434 ユーザ別言語モデル
440 音声認識部
441 音声データ受信部
442 データベース切換部
443 文章作成部
444 テキストデータ送信部
445 ID受信部
450a、450b 未知語処理部
451a 未知語検出部
452a 問合メール送受信部
453a 辞書登録部
454b 未知語蓄積部
455b GUI処理部


【特許請求の範囲】
【請求項1】
音声データを、言語モデルを用いて音声認識処理を行う音声認識装置に送信する音声データ送信手段と、
通常の送信メールのメール本文を、言語モデル作成用メールとして、前記言語モデルを作成する言語モデル作成装置に送信するメール送信手段と、
を有する端末装置。
【請求項2】
前記メール送信手段は、
前記通常の送信メールの宛先を編集して前記言語モデル作成用メールを生成する、
請求項1記載の端末装置。
【請求項3】
前記メール送信手段は、
前記音声認識装置の利用時に使用されるID情報と同一又は対応するID情報を、メールの一部に記述して、前記言語モデル作成用メールを生成する、
請求項2記載の端末装置。
【請求項4】
前記メール送信手段は、
前記言語モデル作成装置を宛先としないメールが送信される都度、その送信メールの宛先に前記言語モデル作成装置を追加する、
請求項2記載の端末装置。
【請求項5】
前記メール送信手段は、
前記言語モデル作成用メールとして送信するメールを、送信メール単位で選択し複数通一括して送信可能に構成された、
請求項1記載の端末装置。
【請求項6】
前記メール送信手段は、
ドメイン部分に前記音声認識装置のドメイン名を記述し、アカウント部分に前記音声認識装置の利用時に使用されるID情報を記述した言語モデル作成用アドレスを用いて、前記言語モデル作成用メールを生成する、
請求項1記載の端末装置。
【請求項7】
前記メール送信手段は、
更に、受信メールのメール本文を、前記言語モデル作成用メールとして、前記言語モデル作成装置に送信する、
請求項1記載の端末装置。
【請求項8】
前記メール送信手段は、
複数のID情報を、前記送信メールの宛先に応じて切り替えて、前記文字列に対応付ける、
請求項4記載の端末装置。
【請求項9】
単語の読みの入力を受け付ける読み入力手段と、
入力した前記読みを、前記言語モデル作成用の前記単語の読みとして、前記言語モデル作成装置に送信する読み送信手段と、を更に有する、
請求項1記載の端末装置。
【請求項10】
前記言語モデル作成装置において読みが不明な単語である未知語を取得する未知語取得手段、を更に有し、
前記読み入力手段は、取得した前記未知語を表示して前記読みの入力を受け付ける、
請求項9記載の端末装置。
【請求項11】
端末装置から受信した言語モデル作成用メールを用いて、音声認識処理に用いる言語モデルを作成する言語モデル作成装置であって、
ID情報とメール本文とを含む前記言語モデル作成用メールを受信するメール受信手段と、
受信した前記言語モデル作成用メールから、メール本文とID情報とを抽出するメール処理手段と、
抽出した前記メール本文を学習し、前記ID情報毎に前記言語モデルを作成する言語モデル作成手段と、
を有する言語モデル作成装置。
【請求項12】
前記端末装置から、単語の読みを取得する読み取得手段と、
取得した前記読みを、前記言語モデル作成用の辞書に、前記単語に対応付けて登録する辞書登録手段と、を更に有する、
請求項11記載の言語モデル作成装置。
【請求項13】
抽出したメール本文から、読みが不明な単語である未知語を検出する未知語検出手段、を更に有し、
前記読み取得手段は、
前記未知語の読みを前記端末装置から受け付ける、
請求項12記載の言語モデル作成装置。
【請求項14】
言語モデルを用いて音声データに対する音声認識処理を行う音声認識装置と、前記音声認識装置に音声データを送信する端末装置と、文字列の学習により前記言語モデルを作成する言語モデル作成装置と、を具備する分散型音声認識システムであって、
前記端末装置は、
通常の送信メールの宛先を編集して言語モデル作成用メールを生成し、前記言語モデル作成装置に送信し、
前記言語モデル作成装置は、
受信した前記言語モデル作成用メールのメール本文を学習して前記言語モデルを作成し、
前記音声認識装置は、
前記端末装置から受信した前記音声データに対し、前記言語モデルを用いて音声認識処理を行う、
分散型音声認識システム。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate


【公開番号】特開2009−75582(P2009−75582A)
【公開日】平成21年4月9日(2009.4.9)
【国際特許分類】
【出願番号】特願2008−219820(P2008−219820)
【出願日】平成20年8月28日(2008.8.28)
【出願人】(398018021)株式会社アドバンスト・メディア (23)
【Fターム(参考)】