説明

音声認識装置および音声認識方法

【課題】複数の音声認識処理をより適切に使い分けることを目的とする。
【解決手段】音声認識装置10は、予め定めた1以上の特定語を記憶する特定語記憶部11と、入力された音声データを認識することで第1言語データを生成する第1音声認識部12と、第1言語データに特定語が少なくとも一つ存在するか否かを判定する判定部13と、第1言語データに少なくとも一つの特定語が含まれていると判定された場合に、音声データを認識することで第2言語データを生成する第2音声認識部15と、判定部13による判定結果と第1言語データおよび/または第2言語データとに基づく認識結果データを出力する認識結果出力部16と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識装置および音声認識方法に関する。
【背景技術】
【0002】
従来から、マイクなどから入力された音声をテキストに変換する音声認識技術が知られている。具体的には、この音声認識は、予め辞書に登録された単語に対して、音響特徴や言語特徴を考慮して音声をマッチングさせることで、尤もらしいテキストを認識結果として出力するという技術である。
【0003】
高い精度の音声認識結果を得るためには、多くの語彙を含む大規模な辞書や、音響特徴を精密にモデル化した音響モデル、言語的特徴をモデル化した言語モデルが必要となる。しかし、これら大規模な辞書、音響モデル、および言語モデルを利用する音声認識処理を実現するためには、高性能な演算装置や大容量のメモリ装置が必要となる。そのため、携帯電話機のような小型端末で音声認識を動作させようとすると、演算装置やメモリ装置の制約を受けるため、大規模な辞書などを必要とする高性能の音声認識の実現は困難である。
【0004】
このような問題を解決する方策として、下記特許文献1には、二段階で音声認識を行う分散音声認識システムが記載されている。このシステムでは、携帯電話機のようなリモート局で少ない語彙での音声認識が行われ、そこで認識できない場合には、より多くの語彙での音声認識を実行可能な受信局に音声データが送られ、その受信局で更なる音声認識が行われる。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特許第2755471号明細書
【発明の概要】
【発明が解決しようとする課題】
【0006】
上記特許文献1に記載のシステムでは、リモート局から受信局へのデータ送信の要否を判断するために、リモート局での音声認識処理で音声が正しく認識されたか否かが判定されている。しかし、リモート局での音声認識に用いる小規模辞書の中に、ユーザが意図した言葉の同音異義語や音韻の近い類似語が含まれていると、ユーザの意図とは異なる認識処理が行われたにもかかわらず音声が正しく認識されたと判定され、大規模辞書を用いた音声認識が実行されない場合がある。一方で、リモート局での音声認識の判定を厳しくすると、リモート局での音声認識結果が正しいにもかかわらずリモート局から受信局への通信が発生し、受信局で不要な処理が行われてしまう。
【0007】
そこで本発明は、複数の音声認識処理をより適切に使い分けることが可能な音声認識装置および音声認識方法を提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明の音声認識装置は、予め定めた1以上の特定語を記憶する記憶手段と、入力された音声データを認識することで第1言語データを生成する第1音声認識手段と、音声データ及び第1言語データのいずれか一方である判定対象データに、記憶手段に記憶されている特定語が少なくとも一つ存在するか否かを判定する判定手段と、判定対象データに少なくとも一つの特定語が含まれていると判定された場合に、音声データを認識することで第2言語データを生成する第2音声認識手段と、判定手段による判定結果と第1言語データおよび/または第2言語データとに基づく認識結果データを出力する出力手段と、を備える。
【0009】
本発明の音声認識方法は、音声認識装置により実行される音声認識方法であって、入力された音声データを認識することで第1言語データを生成する第1音声認識ステップと、予め定めた1以上の特定語を記憶する記憶手段を参照して、音声データ及び第1言語データのいずれか一方である判定対象データに特定語が少なくとも一つ存在するか否かを判定する判定ステップと、判定対象データに少なくとも一つの特定語が含まれていると判定された場合に、音声データを認識することで第2言語データを生成する第2音声認識ステップと、判定ステップにおける判定結果と第1言語データおよび/または第2言語データとに基づく認識結果データを出力する出力ステップと、を含むことを特徴とする。
【0010】
このような発明によれば、所定の特定語を予め用意し、一方の音声認識(第1の音声認識)で得られた言語データ(第1言語データ)にその特定語が含まれているか否かによって、他方の音声認識(第2の音声認識)を行うか否かが判定される。これにより、一方の言語データにおける特定語の存在を検査するだけで、他方の音声認識の必要性を簡単かつ確実に判定でき、その結果、第1及び第2の音声認識処理をより適切に使い分けることが可能になる。
【0011】
本発明の音声認識装置では、判定対象データが音声データであり、判定手段が、記憶手段に記憶されている特定語を判定対象データの順方向または逆方向から探索することにより、該判定対象データに該特定語が少なくとも一つ存在するか否かを判定してもよい。
【0012】
この場合には、音声データそのものにおいて所定の特定語を探索する際に、当該特定語の前後に接続する音声がその探索に及ぼす悪影響を回避することができるので、特定語に関する判定精度を高めることができる。
【0013】
本発明の音声認識装置では、特定語が、1以上の語句で共通の属性を示す語句であってもよい。
【0014】
この場合には、語句の属性を示す語句が特定語として用いられるので、特定語を記憶するための領域を節約したり特定語に関する判定を高速化したりすることが可能になる。
【0015】
本発明の音声認識装置では、判定手段が、更に判定対象データにおける特定語の出現位置に基づいて第2言語データの生成が必要か否かを判定し、第2音声認識手段が、第2言語データの生成が必要であると判定された場合に音声データを認識してもよい。
【0016】
この場合には、第2の音声認識の要否を特定語の出現位置に基づいて正確に判定することができ、ひいては、第1及び第2の音声認識をより適切に使い分けることができる。
【0017】
本発明の音声認識装置では、第1音声認識手段が、音声データから第1言語データを生成する過程で生成される中間データを取得し、第2音声認識手段が、音声データに代えて、第1音声認識手段により取得された中間データを認識することで第2言語データを生成してもよい。
【0018】
この場合には、第2の音声認識において音声データを最初から処理する必要が無く、途中まで処理された中間データから第2言語データを生成することができる。そのため、第2の音声認識における演算時間を短縮することができる。
【0019】
本発明の音声認識装置では、音声データが、第1音声認識手段において認識される際には第1の符号化処理により符号化されており、第2音声認識手段において認識される際には第2の符号化処理により符号化されていてもよい。
【0020】
この場合には、各音声認識手段の環境に合わせて符号化された音声データに対して音声認識を実行することができる。
【0021】
本発明の音声認識装置では、出力手段が、第2言語データを待つことなく第1言語データを第1の認識結果データとして出力し、第2言語データが生成された場合には少なくとも該第2言語データに基づく第2の認識結果データを出力してもよい。
【0022】
この場合には、第1言語データを早く出力することができる。
【0023】
本発明の音声認識装置では、判定手段による判定結果に関する情報をユーザに対して出力すると共に、第2言語データの生成に関するユーザ入力を受け付ける指示受付手段を更に備え、第2音声認識手段が、第2言語データの生成を指示する旨のユーザ入力が指示受付手段により受け付けられた場合に音声データを認識してもよい。
【0024】
この場合には、第2の音声認識が必要か否かをユーザに判断させることで、ユーザが望まない第2の音声認識の実行を回避することができる。
【0025】
本発明の音声認識装置では、第2音声認識手段が更に第1言語データおよび/または判定結果を用いて音声データを認識してもよい。
【0026】
この場合には、特定語を含む第1言語データや特定語の存在に関する判定結果も第2の音声認識において用いられるので、当該音声認識の精度を上げることが可能になる。
【0027】
本発明の音声認識装置では、第2音声認識手段が複数の認識手段を備えており、判定手段による判定結果に応じて、複数の認識手段のうちの少なくとも一つが音声データを認識することで第2言語データを生成してもよい。
【0028】
この場合には、第2の音声認識を実行する手段が細分化され、判定結果に応じて少なくとも一つの認識手段が選択されるので、判定結果に応じて適切な音声認識処理を実行することが可能になる。
【0029】
本発明の音声認識装置では、第2音声認識手段が、判定手段による判定結果を待つことなく音声データの認識を開始してもよい。
【0030】
この場合には、判定結果の内容によらずに第2の音声認識が開始されるので、第2言語データが必要な場合でも最終的な認識結果データを早く出力することができる。
【0031】
本発明の音声認識装置では、音声認識装置が、互いに独立した第1の装置及び第2の装置を備え、第1の装置が少なくとも第1音声認識手段及び判定手段を備え、第2の装置が少なくとも第2音声認識手段を備え、判定対象データに少なくとも一つの特定語が存在すると判定された場合に、第1の装置から第2の装置に音声データが送信されてもよい。
【0032】
この場合には、第1の装置側における音声認識の結果に所定の特定語が存在する場合に初めて第2の装置に音声データが送信されるので、不必要な通信を減らすことができる。
【発明の効果】
【0033】
このような音声認識装置および音声認識方法によれば、第1の音声認識の結果に所定の特定語が存在する場合に初めて第2の音声認識が実行されるので、複数の音声認識処理をより適切に使い分けることができる。
【図面の簡単な説明】
【0034】
【図1】第1実施形態に係る音声認識装置の機能構成を示すブロック図である。
【図2】図1に示す音声認識装置のハードウェア構成を示す図である。
【図3】図1に示す音声認識装置の動作を示すフローチャートである。
【図4】第2実施形態に係る音声認識装置の機能構成を示すブロック図である。
【図5】第3実施形態に係る音声認識装置の機能構成を示すブロック図である。
【図6】第4実施形態に係る音声認識装置の機能構成を示すブロック図である。
【図7】第5実施形態に係る音声認識装置の機能構成を示すブロック図である。
【図8】第6実施形態に係る音声認識装置の機能構成を示すブロック図である。
【発明を実施するための形態】
【0035】
以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。なお、図面の説明において同一又は同等の要素には同一の符号を付し、重複する説明を省略する。
【0036】
(第1実施形態)
まず、図1,2を用いて、第1実施形態に係る音声認識装置10の機能及び構成を説明する。音声認識装置10は、マイクなどを介して入力された音声をテキストデータやコマンド信号などに変換する装置である。具体的には、音声認識装置10はまず限られた個数の語彙を有する小規模辞書を用いて音声認識処理(第1の音声認識)を行い、その後必要に応じて、より多くの語彙を有する大規模辞書を用いて音声認識処理(第2の音声認識)を行う。すなわち、音声認識装置10は一段階または二段階の音声認識処理を実行する。音声認識装置10は、パーソナルコンピュータや携帯端末、音響機器などの他の機器に組み込まれた形で実現されてもよいし、他とは独立した専用機器として実現されてもよい。
【0037】
なお、後で詳細に説明する小規模辞書及び大規模辞書の語彙数は全くの任意である。例えば、数万語を有する小規模辞書と、数百万語を有する大規模辞書とを用意してもよい。
【0038】
図1に示すように、音声認識装置10は機能的構成要素として特定語記億部(記憶手段)11、第1音声認識部(第1音声認識手段)12、判定部(判定手段)13、出力決定部(判定手段)14、第2音声認識部(第2音声認識手段)15、及び認識結果出力部(出力手段)16を備えている。
【0039】
この音声認識装置10は、図2に示すように、オペレーティングシステムやアプリケーション・プログラムなどを実行するCPU101と、ROM及びRAMで構成される主記憶部102と、メモリなどで構成される補助記憶部103と、データ通信を行う通信制御部104と、出力端子やモニタなどで構成される出力部105と、入力端子や操作キーなどで構成される入力部106とで構成される。図1に示す各機能は、CPU101及び主記憶部102の上に所定のプログラムを読み込ませ、CPU101の制御の下で通信制御部104、出力部105及び入力部106を動作させるとともに、主記憶部102や補助記憶部103に対してデータの読み出し又は書き込みを行うことで実現される。処理に必要なデータやデータベースは、主記憶部102又は補助記憶部103に格納される。
【0040】
図1に戻って、特定語記憶部11は予め定めた1以上の特定語を記憶する手段である。特定語とは、大規模辞書を用いた第2の音声認識が必要か否かを判定するために用いられる語句である。
【0041】
特定語の例として、例えば「…を検索」や「…を探す」などのような、ある特定の単語をデータベースから検索するためのコマンド語が考えられる。これは、入力音声において、例えばユーザにとって不明な言葉がコマンド語の前に入力されている可能性があり、このような場合には大規模辞書を用いて音声データを高精度に認識する必要があると考えられるからである。また、特定語の別の例として、「東京都千代田区…」などのような地名が考えられる。これは、住所などの地名は世の中に多く存在しており、大規模辞書を用いて音声データを高精度に認識する必要があると考えられるからである。
【0042】
また、特定語は、発音された語句そのものでなく、当該語句の属性を示す属性名(属性情報)であってもよい。例えば、「東京都」などの場所に関する語句の属性である「地名」を特定語としてもよい。このような属性としては、地名の他に人名、番号、金額、命令語などが考えられるが、特定語として設定される属性名(属性情報)は、それが複数の単語を集約するための語である限り、任意に定めてよい。なお、特定語の種類は上記のものに限定されるものではない。
【0043】
第1音声認識部12は、入力された音声データを認識することで第1言語データを生成する手段である。入力される音声データは、マイクを介して入力された音声に基づくデータであってもよいし、所定の記憶装置から読み出された音声データであってもよい。
【0044】
第1音声認識部12は音声データに対して雑音除去を行い音声区間を検出した後に、時系列の音声データをケプストラム係数のような音響特徴量パラメータに変換する。続いて、第1音声認識部12は音響特徴量パラメータの時間遷移に対して、音響モデルや、言語モデル、小規模辞書を参照することで、統計的に尤度の高い言語データ(第1言語データ)を認識結果として生成する。
【0045】
ここで、小規模辞書とは、後述する第2音声認識部15で用いられる辞書よりも少ない語彙で構成される辞書である。例えば地名に関して言うと、小規模辞書には都道府県名のみを含め、都市名などは含めないことが考えられるが、小規模辞書に含める語彙は任意に決めてよい。なお、小規模辞書は第1音声認識部12内に保持されていてもよいし、所定のメモリに格納されていてもよい。
【0046】
特定語記憶部11に属性名(属性情報)が特定語として格納されている場合には、第1音声認識部12は、音声認識結果である言語データを構成する各単語に属性情報が付加された第1言語データを生成する。例えば、第1音声認識部12は認識結果「東京都千代田区」の各単語に「地名」という属性名が付加された第1言語データ「東京都(地名)千代田区(地名)」を生成する。
【0047】
なお、第1音声認識部12による音声認識処理の具体的な手順は上記のものに限定されない。第1音声認識部12は生成した第1言語データを判定部13及び認識結果出力部16に出力する。
【0048】
判定部13は、第1音声認識部12により生成された第1言語データ(判定対象データ)に、特定語記憶部11に記憶されている特定語が少なくとも一つ存在するか否かを判定する手段である。第1言語データが入力されると、判定部13は特定語記憶部11から特定語を読み出し、第1言語データにおける特定語の有無を判定する。そして、判定部13は判定結果を出力決定部14及び認識結果出力部16に出力する。
【0049】
判定結果の態様としては、単に特定語が存在したか否かを示す情報(フラグ)や、存在した1以上の特定語のリスト、存在した一以上の特定語の属性名のリスト、各特定語の出現位置を示す位置情報などが考えられる。出現位置は、例えば「文頭」や「文末」、「10文字目」などというように、認識結果であるテキスト内での位置で表してもよいし、「開始3秒」などのように、音声データの再生時間で表してもよい。
【0050】
出力決定部14は、大規模辞書による音声認識を行なうために音声データを第2音声認識部15に出力するか否かを決定する手段である。出力決定部14には、第1音声認識部12に入力されるものと同じ音声データが入力される。
【0051】
出力決定部14は判定部13から入力された判定結果に基づいて音声データを出力するか否かを決定するが、その具体的な手法はいくつか考えられる。例えば、出力決定部14は特定語が存在する旨の判定結果が入力されたことのみをもって音声データを第2音声認識部15に出力してもよい。
【0052】
また、出力決定部14は第1言語データに含まれている複数の特定語の組合せや出現位置関係に基づくルールを用いて出力の要否を決定してもよい。例えば、第1言語データに二つの特定語「レストラン」および「検索」が含まれていた場合に音声データを出力する、というルールを出力決定部14が予め保持しているとする。このとき出力決定部14は、例えば第1言語データが「レストランの検索…」であれば音声データを第2音声認識部15に出力するが、第1言語データが「電話帳の検索…」であれば出力を行なわない。
【0053】
第2音声認識部15は、出力決定部14から入力された音声データを認識することで第2言語データを生成する手段である。すなわち第2音声認識部15は、第1言語データに少なくとも一つの特定語が含まれていると判定された場合に第2言語データを生成する。
【0054】
第2音声認識部15は、第1音声認識部12で用いられる小規模辞書よりも多くの語彙を含む大規模辞書を用いて音声認識を実行する点で、第1音声認識部12と異なる。第2音声認識部15の処理は第1音声認識部12のものと同じであるが、より多くの語彙を利用できる第2音声認識部15の方が第1音声認識部12よりも高精度の音声認識結果を生成することができる。第2音声認識部15は生成した第2言語データを認識結果出力部16に出力する。なお、大規模辞書は第2音声認識部15内に保持されていてもよいし、所定のメモリに格納されていてもよい。
【0055】
認識結果出力部16は、判定部13から入力された判定結果と第1言語データおよび/または第2言語データとに基づく認識結果データを出力する手段である。
【0056】
第1言語データに特定語が存在しないことを示す判定結果が入力された場合には、認識結果出力部16は第1言語データを認識結果データとして出力する。これに対して、第1言語データに特定語が存在することを示す判定結果が入力された場合には、認識結果出力部16は第1言語データを破棄し、第2言語データを認識結果データとして出力する。あるいは、認識結果出力部16は、第1および第2言語データに付記されている認識の信頼度情報に基づいて、どちらか一方の言語データを認識結果データとして出力してもよい。また、認識結果出力部16は、上記のように第1または第2言語データをそのまま出力するのではなく、これらのデータの一方または双方を編集することでテキストデータやアプリケーション・プログラムのコマンドを生成し、生成物を認識結果データとして出力してもよい。
【0057】
認識結果出力部16は、判定結果や第2言語データの入力を待つことなく第1言語データを出力し、その後、第1言語データに特定語が存在することを示す判定結果が入力された場合に、第2言語データそのもの、又は第2言語データに基づくデータを出力してもよい。すなわち、認識結果出力部16は早い段階で暫定的な認識結果データを出力した上で、その暫定結果と併記、あるいはそれを追記または上書きするための更なる認識結果データを出力してもよい。この場合には、第1言語データを早く出力することができる。
【0058】
認識結果データの出力先は任意である。例えば、認識結果出力部16は認識結果データを音声認識装置10内の所定のメモリに格納してもよいし、所定の表示装置(図示せず)に出力してもよいし、他の装置(図示せず)に送信してもよい。
【0059】
次に、図3を用いて、音声認識装置10の動作を説明するとともに本実施形態に係る音声認識方法について説明する。なお、以下では、特定語記憶部11に1以上の特定語が記憶されていることを前提として説明する。
【0060】
音声認識装置10に音声データが入力されると、まず第1音声認識部12が小規模辞書を用いてその音声データを認識することで第1言語データを生成する(ステップS11、第1音声認識ステップ)。続いて、判定部13がその第1言語データ内に特定語が存在するか否かを判定する(ステップS12、判定ステップ)。
【0061】
このとき特定語が第1言語データ内に存在していれば(ステップS12;YES)、出力決定部14が音声データを第2音声認識部15に出力するか否かを決定する(ステップS13、判定ステップ)。そして、第2音声認識部15に音声データが出力された場合には、第2音声認識部15が大規模辞書を用いてその音声データを認識することで第2言語データを生成する(ステップS14、第2音声認識ステップ)。
【0062】
そして最後に、認識結果出力部16が判定結果と第1および/または第2言語データに基づく最終的な認識結果データを出力する(ステップS15、出力ステップ)。特定語が第1言語データ内に存在しなかった場合には(ステップS12;NO)、認識結果出力部16は第2言語データをも用いることなく認識結果データを出力する(ステップS15)。以上で、音声認識が完了する。
【0063】
以上説明したように、第1実施形態によれば、第1言語データにおける特定語の存在を検査するだけで、第2の音声認識の必要性を簡単かつ確実に判定でき、その結果、第1及び第2の音声認識処理をより適切に使い分けることが可能になる。第1実施形態では特に、小規模辞書を用いた音声認識が不完全になることが予測されるような特定語を予め用意しておくことで、小規模辞書よりも語彙が豊富な大規模辞書による音声認識を行うか否かを簡単かつ確実に判定でき、その結果、第1及び第2の音声認識処理をより適切に使い分けることが可能になる。そして、このような使い分けにより、全体としての処理の高速化や認識精度の向上を得ることができる。
【0064】
例えば、地名に関して、小規模辞書には都道府県名のみが登録されており、大規模辞書にはすべての地名が登録されているとする。そして、入力された音声データが「東京都豊島区(とうきょうととしまく)…」であるとする。この場合、第1音声認識部12は「東京都」については正しく認識するが、「豊島区(としまく)」については全く認識できないか、あるいは「徳島(とくしま)」などというように誤認識をしてしまう。このとき、例えば「東京」が特定語として予め登録されていれば、第2音声認識部15の処理により、「東京都豊島区…」と正確に認識することができる。
【0065】
別の例で、小規模辞書には「レストラン」及び「検索」は登録されているが具体的な店舗名は登録されておらず、一方、大規模辞書には「レストラン」及び「検索」に加えてすべての店舗名が登録されているとする。そして、入力された音声データが「レストランの検索、店舗A」であるとする。この場合、第1音声認識部12は「レストランの検索」については正しく認識するが、「店舗A」については全く認識できないか、あるいは誤認識をしてしまう。このとき、例えば「レストラン」及び「検索」のうちの少なくとも一つが特定語として予め登録されていれば、第2音声認識部15の処理により、「レストランの検索、店舗A」と正確に認識することができる。
【0066】
もっとも、常に最初から大規模辞書を用いた音声認識を行えばよいとは限らない。例えば、大規模辞書を用いた音声認識は、辞書を格納するために多くの記憶領域が必要であったり、処理時の消費電力が大きかったりする。また、後述するように第2音声認識部15が別の装置に組み込まれている場合には、その装置に音声データなどを送る必要があり、ネットワークに負荷がかかったり通信料が発生したりする。したがって、必要な場合にのみ第2の音声認識を行うようにすることは重要である。本発明は、音声認識処理の使い分けを判断する際に特定語が存在するか否かを判断すれば足りるので、その判断を簡易に行うことができる。
【0067】
第1実施形態において特定語として属性名(属性情報)を用いれば、特定語を記憶するための領域を節約したり特定語に関する判定を高速化したりすることが可能になる。
【0068】
第1実施形態において特定語の位置情報を取得した場合には、第2の音声認識の要否を特定語の出現位置に基づいて正確に判定することができ、ひいては、第1及び第2の音声認識をより適切に使い分けることができる。
【0069】
(第2実施形態)
次に、図4を用いて、第2実施形態に係る音声認識装置20について説明する。音声認識装置20は、第1実施形態における第1音声認識部12、出力決定部14、及び第2音声認識部15に代えて第1音声認識部12A、出力決定部14A、及び第2音声認識部15Aを備える点で、第1実施形態における音声認識装置10と異なる。以下では、これらの相違点についてのみ説明し、第1実施形態と同様の部分については説明を省略する。
【0070】
第1音声認識部12Aは、音声認識処理の途中で得られる中間データを保持した上で、その中間データを出力決定部14Aに出力する。第1音声認識部12Aと第2音声認識部15Aとの間で共通の処理があるならば、同じ音声データに対して各音声認識部で同じ処理を行なうのは効率的でない。そこで、双方の音声認識部12A,15Aで重複する処理を施したデータを第2音声認識部15Aに送ることで、第2音声認識部15Aにおける重複処理を省略する。第1言語データを生成する処理は第1実施形態と同様である。
【0071】
重複する処理としては、例えば、入力された時系列の音声データから雑音を抑制または除去する処理や、音声区間を検出する処理、音響的な特徴量パラメータに変換する音響特徴量変換処理が挙げられるが、重複処理の種類はこれに限らない。
【0072】
中間データの構成も任意である。例えば、判定部13で認識される特定語の部分以外を第2音声認識部15Aで認識させたい場合には、音声データのうち特定語区間を第2音声認識部15Aに渡す必要は無い。この場合には、第1音声認識部12Aは音声データのうち特定語区間以外の部分を中間データとして出力する。
【0073】
出力決定部14Aは、第1音声認識部12から入力された中間データを第2音声認識部15Aに出力するか否かを決定する。第1実施形態と異なる点は、出力するデータが音声データではなく中間データであることのみであり、決定方法は第1実施形態と同様である。
【0074】
第2音声認識部15Aは、出力決定部14Aから入力された中間データを認識することで第2言語データを生成し、生成した第2言語データを認識結果出力部16に出力する。第1実施形態と異なる点は、処理するデータが音声データではなく中間データであることのみであり、第2言語データの生成方法は第1実施形態と同様である。
【0075】
このような第2実施形態によれば、第2音声認識部15Aにおいて音声データを最初から処理する必要が無く、途中まで処理された中間データから第2言語データを生成することができる。そのため、第2の音声認識における演算時間を短縮することができる。また、第1実施形態と同様の効果も第2実施形態により得ることができる。
【0076】
なお、第1音声認識手段ではなく音声認識装置外で上記のような中間データを生成し、音声認識装置が音声データ及び中間データの入力を受け付けてもよい。この場合には、音声データが第1音声認識手段に送られ、中間データが判定手段に送られる。
【0077】
(第3実施形態)
次に、図5を用いて、第3実施形態に係る音声認識装置30について説明する。音声認識装置30は、第1実施形態における出力決定部14に代えて出力決定部14Bを備える点で第1実施形態における音声認識装置10と異なる。以下では、これらの相違点についてのみ説明し、第1実施形態と同様の部分については説明を省略する。
【0078】
出力決定部14Bは、判定部13から入力された判定結果に関する情報を出力部105、あるいは音声認識装置30に接続されている表示装置に表示することで、その情報をユーザに提示する。判定結果に関する情報とは、例えば、第1音声認識部12の暫定的な認識結果や、音声データに含まれていた特定語そのもの、その特定語の属性に関する情報、特定語が含まれていたことを示す案内、大規模辞書を用いた第2の音声認識を行う旨を示す案内、特定語に対応したアプリケーション情報のうちの少なくとも一つである。もちろん、出力決定部14Bがユーザに提示する情報はこれらに限定されない。
【0079】
判定結果に関する情報を出力すると、出力決定部14Bはその情報に対するユーザ入力を受け付け、入力された操作データに基づいて、必要であれば音声データを第2音声認識部15に出力する。
【0080】
例えば、音声データが「東京都千代田区…」のような、地名の読み上げの音声であり、かつ「地名」という属性名が特定語として保持されていた場合には、出力決定部14Bは、音声データに地名が存在する旨の判定結果に基づいて、地名から地図を表示する地図アプリケーションを起動するかを示す案内を出力する。この案内は、例えば「地図アプリケーションを起動しますか?」という問合せメッセージである。ユーザがこの問合せに対して「はい」を選択した場合には、出力決定部14Bは地名のより高精度な認識が必要だとして、音声データを第2音声認識部15出力する。
【0081】
ただし、出力決定部14Bが提示する情報や受け付けるユーザ操作はこれに限らない。特定語に関する情報に対するユーザの操作を促し、操作データに基づいて音声データの出力の要否を決定するのであれば、出力決定部14Bが他の構成であってもよい。
【0082】
このように、出力決定部14Bは判定手段の他に指示受付手段としても機能する。
【0083】
このような第3実施形態によれば、第2の音声認識が必要か否かをユーザに判断させることで、ユーザが望まない第2の音声認識の実行を回避することができる。また、第1実施形態と同様の効果も第3実施形態により得ることができる。
【0084】
(第4実施形態)
次に、図6を用いて、第4実施形態に係る音声認識装置40について説明する。音声認識装置40は、第1実施形態における第1音声認識部12、出力決定部14、及び第2音声認識部15に代えて第1音声認識部12C、出力決定部14C、及び第2音声認識部15Cを備える点で、第1実施形態における音声認識装置10と異なる。以下では、これらの相違点についてのみ説明し、第1実施形態と同様の部分については説明を省略する。
【0085】
第1音声認識部12Cは、第1実施形態における第1音声認識部12と同様に生成した第1言語データを判定部13及び認識結果出力部16だけでなく、出力決定部14Cにも出力する。
【0086】
出力決定部14Cは、第1実施形態における出力決定部14と同様に決定処理を行い、出力が必要であると判定した場合には、第1言語データの全体、もしくは特定語に関連する一部を音声データと共に第2音声認識部15に出力する。例えば出力決定部14Cは、「地名」などのような、属性に関する特定語を音声データと共に第2音声認識部15Cに出力する。
【0087】
第2音声認識部15Cは、出力決定部14から入力された第1言語データの全体若しくは一部と音声データとに基づいて第2言語データを生成する。この際に、第2音声認識部15Cは入力された第1言語データに基づいて音声データの内容を推定した上で認識処理を実行する。例えば、音声データと共に「地名」を示す特定語が入力された場合には、第2音声認識部15Cは地名認識に特化した音声認識処理を実行する。
【0088】
このような第4実施形態によれば、第2の音声認識において特定語の存在に関する判定結果も用いられるので、当該音声認識の精度を上げることが可能になる。例えば、第2音声認識部15Cは入力された音声データが地名に関するものであると判断した上で、地名の認識に特化した認識処理を選択し実行することができる。これにより、音声認識の精度や処理速度を上げることができる。また、第1実施形態と同様の効果も第4実施形態により得ることができる。
【0089】
(第5実施形態)
次に、図7を用いて、第5実施形態に係る音声認識装置50について説明する。音声認識装置50は、第1実施形態における出力決定部14及び第2音声認識部15に代えて出力決定部14D及び第2音声認識部15Dを備える点で、第1実施形態における音声認識装置10と異なる。以下では、これらの相違点についてのみ説明し、第1実施形態と同様の部分については説明を省略する。
【0090】
本実施形態において、第2音声認識部15Dは特定の語句の認識に特化した複数の認識部150(150a〜150x)を備えている。各認識部150の役割分担は任意であるが、例えば、認識部150aが地名の認識に特化して処理したり、認識部150bが人名の認識に特化して処理したりすることが考えられる。各認識部150における音声認識の具体的な方法は、第1実施形態における第2音声認識部15と同様である。なお、認識部150の個数は任意に決めてよい。
【0091】
出力決定部14Dは、判定部13から入力された判定結果に基づいて、音声データの出力の要否だけでなく、その出力先を決定する。例えば、出力決定部14Dは音声データに含まれている特定語またはその種類を判定部13からの判定結果に基づいて判断し、大規模辞書を用いた第2の音声認識を第2音声認識部15Dのどの認識部で実行させるかを決定する。そして、出力決定部14Dは特定の認識部に音声データを出力する。
【0092】
例えば、認識部150aが地名を認識する手段であり、認識部150bが人名を認識する手段であるとする。このとき、音声データに地名が含まれているという判定結果を判定部13から得れば、出力決定部14Dは認識部150aに音声データを出力する。この場合には、認識部150aが第2言語データを生成して認識結果出力部16に出力する。
【0093】
なお、出力決定部14Dが複数の認識部150に音声データを出力し、複数の認識部150が協働または独立してその音声データに対して認識処理を実行してもよい。この場合には、認識結果出力部16は複数の第2言語データを組み合わせて認識結果データを生成したり、最も早く届いた第2言語データのみから認識結果データを生成したり、最も信頼度の高い第2言語データから認識結果データを生成したりすることが可能である。
【0094】
このような第5実施形態によれば、第2の音声認識を実行する手段が複数の認識部150に細分化され、判定結果に応じて少なくとも一つの認識手段が選択されるので、判定結果に応じて適切な音声認識処理を実行することが可能になる。例えば、音声データに地名が含まれている場合に、地名を認識することに特化した認識部150にその音声データを渡せば、高精度な音声認識結果を得ることができる。また、第1実施形態と同様の効果も第5実施形態により得ることができる。
【0095】
(第6実施形態)
次に、図8を用いて、第6実施形態に係る音声認識装置60について説明する。音声認識装置60は、第1実施形態における判定部13に代えて判定部13Eを備える点で第1実施形態における音声認識装置10と異なる。以下では、これらの相違点についてのみ説明し、第1実施形態と同様の部分については説明を省略する。
【0096】
判定部13Eは、第1言語データではなく音声データを判定対象データとして参照し、特定語が存在するか否かを判定する。例えば、判定部13Eは時間軸で正規化された音声データの音響特徴量と特定語の音響特徴量とのベクトル距離を算出し、その距離が閾値より高い場合には特定語が含まれていると判定する。この際に判定部13Eは音声データに対して音響特徴に基づく特定語の探索を実行するが、その探索は時系列に沿って音声データの始端から順方向に実行してもよいし、音声データの終端から逆方向に実行してもよい。あるいは、判定部13Eは両方向から探索処理を行ってもよい。判定部13はこのような探索処理により得た判定結果を第2音声認識部15に出力する。
【0097】
このような第6実施形態によれば、音声データそのものにおいて所定の特定語を探索する際に、当該特定語の前後に接続する音声がその探索に及ぼす悪影響を回避することができるので、特定語に関する判定精度を高めることができる。また、第1実施形態と同様の効果も第6実施形態により得ることができる。
【0098】
以上、本発明をその実施形態に基づいて詳細に説明した。しかし、本発明は上記実施形態に限定されるものではない。本発明は、その要旨を逸脱しない範囲で様々な変形が可能である。
【0099】
音声認識装置は1台の装置として構成されていてもよいし、互いに通信可能な複数の装置を組み合わせて構成されていてもよい。複数の装置から成る音声認識装置の例として、第1音声認識手段、記憶手段、判定手段、及び出力手段を備えるクライアント端末(第1の端末)と、第2音声認識手段を備えるサーバ(第2の端末)とから成る音声認識システムが挙げられる。
【0100】
この場合、クライアント端末では、判定手段が、サーバ側での第2の音声認識が必要と判断すると、第2音声認識手段で必要なデータ(例えば音声データや中間データ、判定結果など)をサーバに出力する。サーバでは、第2音声認識手段がそのデータを受信し、上記実施形態のいずれかの手法により第2言語データを生成してクライアント端末に送信する。そして、クライアント端末の出力手段がその第2言語データを受信して、最終的な認識結果データを生成および出力する。
【0101】
なお、クライアント端末やサーバの具体的な種類は限定されない。クライアント端末としては、例えばパーソナルコンピュータや携帯電話機などが挙げられる。
【0102】
このように装置間の通信が発生する場合でも、クライアント端末における音声認識の結果に所定の特定語が存在する場合に初めてサーバに音声データが送信されるので、不必要な通信を減らすことができる。
【0103】
各実施形態において、音声認識装置に入力される音声データは符号化されていてもよい。このとき、第1音声認識手段に入力される音声データに対して行われた符号化処理と、第2音声認識手段に入力される音声データに対して行われた符号化処理とが異なっていてもよい。例えば、上記のようなクライアント−サーバ型のシステムでは、通信量を削減するために、音声データに対して更なる圧縮処理を施した上で圧縮後の音声データをサーバに送ることが考えられる。なお、符号化されている音声データに対して音声認識処理を行う際には、第1,第2音声認識手段は予めその音声データを復号する必要がある。各音声認識手段は、環境に合わせて符号化された音声データに対して音声認識を実行することになる。
【0104】
上記各実施形態では、第2音声認識手段が判定手段による判定結果を待つことなく音声データの認識を開始してもよい。例えば、音声認識装置に入力された音声データがそのまま第1音声認識手段および第2音声認識手段に伝送され、これらの認識手段で同時に音声認識処理が始まってもよい。この場合には、判定手段による判定結果の内容によらずに第2の音声認識が開始されるので、第2言語データが必要な場合でも最終的な認識結果データを早く出力することができる。音声データあるいは第1言語データに特定語が存在しなければ、出力手段は第2音声認識手段からの第2言語データの入力を待つことなく、あるいは入力された第2言語データを破棄して、第1言語データに基づく認識結果データを出力すればよい。
【0105】
上記実施形態では、第1音声認識手段と第2音声認識手段との相違点は基本的に、用いる辞書の語彙数のみであったが、これら二つの認識手段の相違点は辞書の語彙数に限られない。例えば、二つの認識手段の違いが辞書の語彙数ではなく、実行エンジンやパラメータ、言語モデルであってもよい。パラメータに関していうと、例えば二つの認識手段の間でビーム幅を違わせてもよい。ビーム幅とは、音声を前から後ろに向かって照合(マッチング)する際にマッチング候補を途中でどれだけ残して探索するか、を示すパラメータである。言語モデルに関していうと、例えば二つの認識手段の間でN−gram(N=1,2,3,…)におけるNの値を違わせてもよい。
【0106】
本発明において、第1音声認識手段と第2音声認識手段とでは、求める目的あるいは性能(生成される言語データの精度)が互いに異なっていればよく、第1及び第2音声認識手段の間における性能の優劣関係は全くの任意である。例えば、第1音声認識手段が大規模辞書を用い、第2音声認識手段が小規模辞書を用いてもよい。また、第1及び第2の音声認識手段それぞれで用いられるビーム幅の大小関係、あるいはN−gramのN値の大小関係も任意に設定してよい。
【符号の説明】
【0107】
10,20,30,40,50,60…音声認識装置、11…特定語記憶部(記憶手段)、12,12A,12C…第1音声認識部(第1音声認識手段)、13,13E…判定部(判定手段)、14,14A,14C,14D…出力決定部(判定手段)、14B…出力決定部(判定手段、指示受付手段)、15,15A,15C,15D…第2音声認識部(第2音声認識手段)、150…認識部(第2音声認識手段)、16…認識結果出力部(出力手段)。


【特許請求の範囲】
【請求項1】
予め定めた1以上の特定語を記憶する記憶手段と、
入力された音声データを認識することで第1言語データを生成する第1音声認識手段と、
前記音声データ及び前記第1言語データのいずれか一方である判定対象データに、前記記憶手段に記憶されている特定語が少なくとも一つ存在するか否かを判定する判定手段と、
前記判定対象データに少なくとも一つの前記特定語が含まれていると判定された場合に、前記音声データを認識することで第2言語データを生成する第2音声認識手段と、
前記判定手段による判定結果と前記第1言語データおよび/または前記第2言語データとに基づく認識結果データを出力する出力手段と、
を備える音声認識装置。
【請求項2】
前記判定対象データが前記音声データであり、
前記判定手段が、前記記憶手段に記憶されている特定語を前記判定対象データの順方向または逆方向から探索することにより、該判定対象データに該特定語が少なくとも一つ存在するか否かを判定する、
請求項1に記載の音声認識装置。
【請求項3】
前記特定語が、1以上の語句で共通の属性を示す語句である、
請求項1又は2に記載の音声認識装置。
【請求項4】
前記判定手段が、更に前記判定対象データにおける前記特定語の出現位置に基づいて前記第2言語データの生成が必要か否かを判定し、
前記第2音声認識手段が、前記第2言語データの生成が必要であると判定された場合に前記音声データを認識する、
請求項1〜3のいずれか一項に記載の音声認識装置。
【請求項5】
前記第1音声認識手段が、前記音声データから前記第1言語データを生成する過程で生成される中間データを取得し、
前記第2音声認識手段が、前記音声データに代えて、前記第1音声認識手段により取得された中間データを認識することで前記第2言語データを生成する、
請求項1〜4のいずれか一項に記載の音声認識装置。
【請求項6】
前記音声データが、前記第1音声認識手段において認識される際には第1の符号化処理により符号化されており、前記第2音声認識手段において認識される際には第2の符号化処理により符号化されている、
請求項1〜4のいずれか一項に記載の音声認識装置。
【請求項7】
前記出力手段が、前記第2言語データを待つことなく前記第1言語データを第1の認識結果データとして出力し、前記第2言語データが生成された場合には少なくとも該第2言語データに基づく第2の認識結果データを出力する、
請求項1〜6のいずれか一項に記載の音声認識装置。
【請求項8】
前記判定手段による判定結果に関する情報をユーザに対して出力すると共に、前記第2言語データの生成に関するユーザ入力を受け付ける指示受付手段を更に備え、
前記第2音声認識手段が、前記第2言語データの生成を指示する旨のユーザ入力が前記指示受付手段により受け付けられた場合に前記音声データを認識する、
請求項1〜7のいずれか一項に記載の音声認識装置。
【請求項9】
前記第2音声認識手段が更に前記第1言語データおよび/または前記判定結果を用いて前記音声データを認識する、
請求項1〜8のいずれか一項に記載の音声認識装置。
【請求項10】
前記第2音声認識手段が複数の認識手段を備えており、
前記判定手段による判定結果に応じて、前記複数の認識手段のうちの少なくとも一つが前記音声データを認識することで前記第2言語データを生成する、
請求項1〜9のいずれか一項に記載の音声認識装置。
【請求項11】
前記第2音声認識手段が、前記判定手段による判定結果を待つことなく前記音声データの認識を開始する、
請求項1〜10のいずれか一項に記載の音声認識装置。
【請求項12】
前記音声認識装置が、互いに独立した第1の装置及び第2の装置を備え、
前記第1の装置が少なくとも前記第1音声認識手段及び前記判定手段を備え、
前記第2の装置が少なくとも前記第2音声認識手段を備え、
前記判定対象データに少なくとも一つの前記特定語が存在すると判定された場合に、前記第1の装置から前記第2の装置に前記音声データが送信される、
請求項1〜11のいずれか一項に記載の音声認識装置。
【請求項13】
音声認識装置により実行される音声認識方法であって、
入力された音声データを認識することで第1言語データを生成する第1音声認識ステップと、
予め定めた1以上の特定語を記憶する記憶手段を参照して、前記音声データ及び前記第1言語データのいずれか一方である判定対象データに前記特定語が少なくとも一つ存在するか否かを判定する判定ステップと、
前記判定対象データに少なくとも一つの前記特定語が含まれていると判定された場合に、前記音声データを認識することで第2言語データを生成する第2音声認識ステップと、
前記判定ステップにおける判定結果と前記第1言語データおよび/または前記第2言語データとに基づく認識結果データを出力する出力ステップと、
を含むことを特徴とする音声認識方法。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2011−232619(P2011−232619A)
【公開日】平成23年11月17日(2011.11.17)
【国際特許分類】
【出願番号】特願2010−103726(P2010−103726)
【出願日】平成22年4月28日(2010.4.28)
【出願人】(392026693)株式会社エヌ・ティ・ティ・ドコモ (5,876)
【Fターム(参考)】