音声認識装置および音声認識方法

【課題】複数の音声認識処理をより適切に使い分けることを目的とする。
【解決手段】音声認識装置１０は、予め定めた１以上の特定語を記憶する特定語記憶部１１と、入力された音声データを認識することで第１言語データを生成する第１音声認識部１２と、第１言語データに特定語が少なくとも一つ存在するか否かを判定する判定部１３と、第１言語データに少なくとも一つの特定語が含まれていると判定された場合に、音声データを認識することで第２言語データを生成する第２音声認識部１５と、判定部１３による判定結果と第１言語データおよび／または第２言語データとに基づく認識結果データを出力する認識結果出力部１６と、を備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、音声認識装置および音声認識方法に関する。
【背景技術】
【０００２】
従来から、マイクなどから入力された音声をテキストに変換する音声認識技術が知られている。具体的には、この音声認識は、予め辞書に登録された単語に対して、音響特徴や言語特徴を考慮して音声をマッチングさせることで、尤もらしいテキストを認識結果として出力するという技術である。
【０００３】
高い精度の音声認識結果を得るためには、多くの語彙を含む大規模な辞書や、音響特徴を精密にモデル化した音響モデル、言語的特徴をモデル化した言語モデルが必要となる。しかし、これら大規模な辞書、音響モデル、および言語モデルを利用する音声認識処理を実現するためには、高性能な演算装置や大容量のメモリ装置が必要となる。そのため、携帯電話機のような小型端末で音声認識を動作させようとすると、演算装置やメモリ装置の制約を受けるため、大規模な辞書などを必要とする高性能の音声認識の実現は困難である。
【０００４】
このような問題を解決する方策として、下記特許文献１には、二段階で音声認識を行う分散音声認識システムが記載されている。このシステムでは、携帯電話機のようなリモート局で少ない語彙での音声認識が行われ、そこで認識できない場合には、より多くの語彙での音声認識を実行可能な受信局に音声データが送られ、その受信局で更なる音声認識が行われる。
【先行技術文献】
【特許文献】
【０００５】
【特許文献１】特許第２７５５４７１号明細書
【発明の概要】
【発明が解決しようとする課題】
【０００６】
上記特許文献１に記載のシステムでは、リモート局から受信局へのデータ送信の要否を判断するために、リモート局での音声認識処理で音声が正しく認識されたか否かが判定されている。しかし、リモート局での音声認識に用いる小規模辞書の中に、ユーザが意図した言葉の同音異義語や音韻の近い類似語が含まれていると、ユーザの意図とは異なる認識処理が行われたにもかかわらず音声が正しく認識されたと判定され、大規模辞書を用いた音声認識が実行されない場合がある。一方で、リモート局での音声認識の判定を厳しくすると、リモート局での音声認識結果が正しいにもかかわらずリモート局から受信局への通信が発生し、受信局で不要な処理が行われてしまう。
【０００７】
そこで本発明は、複数の音声認識処理をより適切に使い分けることが可能な音声認識装置および音声認識方法を提供することを目的とする。
【課題を解決するための手段】
【０００８】
本発明の音声認識装置は、予め定めた１以上の特定語を記憶する記憶手段と、入力された音声データを認識することで第１言語データを生成する第１音声認識手段と、音声データ及び第１言語データのいずれか一方である判定対象データに、記憶手段に記憶されている特定語が少なくとも一つ存在するか否かを判定する判定手段と、判定対象データに少なくとも一つの特定語が含まれていると判定された場合に、音声データを認識することで第２言語データを生成する第２音声認識手段と、判定手段による判定結果と第１言語データおよび／または第２言語データとに基づく認識結果データを出力する出力手段と、を備える。
【０００９】
本発明の音声認識方法は、音声認識装置により実行される音声認識方法であって、入力された音声データを認識することで第１言語データを生成する第１音声認識ステップと、予め定めた１以上の特定語を記憶する記憶手段を参照して、音声データ及び第１言語データのいずれか一方である判定対象データに特定語が少なくとも一つ存在するか否かを判定する判定ステップと、判定対象データに少なくとも一つの特定語が含まれていると判定された場合に、音声データを認識することで第２言語データを生成する第２音声認識ステップと、判定ステップにおける判定結果と第１言語データおよび／または第２言語データとに基づく認識結果データを出力する出力ステップと、を含むことを特徴とする。
【００１０】
このような発明によれば、所定の特定語を予め用意し、一方の音声認識（第１の音声認識）で得られた言語データ（第１言語データ）にその特定語が含まれているか否かによって、他方の音声認識（第２の音声認識）を行うか否かが判定される。これにより、一方の言語データにおける特定語の存在を検査するだけで、他方の音声認識の必要性を簡単かつ確実に判定でき、その結果、第１及び第２の音声認識処理をより適切に使い分けることが可能になる。
【００１１】
本発明の音声認識装置では、判定対象データが音声データであり、判定手段が、記憶手段に記憶されている特定語を判定対象データの順方向または逆方向から探索することにより、該判定対象データに該特定語が少なくとも一つ存在するか否かを判定してもよい。
【００１２】
この場合には、音声データそのものにおいて所定の特定語を探索する際に、当該特定語の前後に接続する音声がその探索に及ぼす悪影響を回避することができるので、特定語に関する判定精度を高めることができる。
【００１３】
本発明の音声認識装置では、特定語が、１以上の語句で共通の属性を示す語句であってもよい。
【００１４】
この場合には、語句の属性を示す語句が特定語として用いられるので、特定語を記憶するための領域を節約したり特定語に関する判定を高速化したりすることが可能になる。
【００１５】
本発明の音声認識装置では、判定手段が、更に判定対象データにおける特定語の出現位置に基づいて第２言語データの生成が必要か否かを判定し、第２音声認識手段が、第２言語データの生成が必要であると判定された場合に音声データを認識してもよい。
【００１６】
この場合には、第２の音声認識の要否を特定語の出現位置に基づいて正確に判定することができ、ひいては、第１及び第２の音声認識をより適切に使い分けることができる。
【００１７】
本発明の音声認識装置では、第１音声認識手段が、音声データから第１言語データを生成する過程で生成される中間データを取得し、第２音声認識手段が、音声データに代えて、第１音声認識手段により取得された中間データを認識することで第２言語データを生成してもよい。
【００１８】
この場合には、第２の音声認識において音声データを最初から処理する必要が無く、途中まで処理された中間データから第２言語データを生成することができる。そのため、第２の音声認識における演算時間を短縮することができる。
【００１９】
本発明の音声認識装置では、音声データが、第１音声認識手段において認識される際には第１の符号化処理により符号化されており、第２音声認識手段において認識される際には第２の符号化処理により符号化されていてもよい。
【００２０】
この場合には、各音声認識手段の環境に合わせて符号化された音声データに対して音声認識を実行することができる。
【００２１】
本発明の音声認識装置では、出力手段が、第２言語データを待つことなく第１言語データを第１の認識結果データとして出力し、第２言語データが生成された場合には少なくとも該第２言語データに基づく第２の認識結果データを出力してもよい。
【００２２】
この場合には、第１言語データを早く出力することができる。
【００２３】
本発明の音声認識装置では、判定手段による判定結果に関する情報をユーザに対して出力すると共に、第２言語データの生成に関するユーザ入力を受け付ける指示受付手段を更に備え、第２音声認識手段が、第２言語データの生成を指示する旨のユーザ入力が指示受付手段により受け付けられた場合に音声データを認識してもよい。
【００２４】
この場合には、第２の音声認識が必要か否かをユーザに判断させることで、ユーザが望まない第２の音声認識の実行を回避することができる。
【００２５】
本発明の音声認識装置では、第２音声認識手段が更に第１言語データおよび／または判定結果を用いて音声データを認識してもよい。
【００２６】
この場合には、特定語を含む第１言語データや特定語の存在に関する判定結果も第２の音声認識において用いられるので、当該音声認識の精度を上げることが可能になる。
【００２７】
本発明の音声認識装置では、第２音声認識手段が複数の認識手段を備えており、判定手段による判定結果に応じて、複数の認識手段のうちの少なくとも一つが音声データを認識することで第２言語データを生成してもよい。
【００２８】
この場合には、第２の音声認識を実行する手段が細分化され、判定結果に応じて少なくとも一つの認識手段が選択されるので、判定結果に応じて適切な音声認識処理を実行することが可能になる。
【００２９】
本発明の音声認識装置では、第２音声認識手段が、判定手段による判定結果を待つことなく音声データの認識を開始してもよい。
【００３０】
この場合には、判定結果の内容によらずに第２の音声認識が開始されるので、第２言語データが必要な場合でも最終的な認識結果データを早く出力することができる。
【００３１】
本発明の音声認識装置では、音声認識装置が、互いに独立した第１の装置及び第２の装置を備え、第１の装置が少なくとも第１音声認識手段及び判定手段を備え、第２の装置が少なくとも第２音声認識手段を備え、判定対象データに少なくとも一つの特定語が存在すると判定された場合に、第１の装置から第２の装置に音声データが送信されてもよい。
【００３２】
この場合には、第１の装置側における音声認識の結果に所定の特定語が存在する場合に初めて第２の装置に音声データが送信されるので、不必要な通信を減らすことができる。
【発明の効果】
【００３３】
このような音声認識装置および音声認識方法によれば、第１の音声認識の結果に所定の特定語が存在する場合に初めて第２の音声認識が実行されるので、複数の音声認識処理をより適切に使い分けることができる。
【図面の簡単な説明】
【００３４】
【図１】第１実施形態に係る音声認識装置の機能構成を示すブロック図である。
【図２】図１に示す音声認識装置のハードウェア構成を示す図である。
【図３】図１に示す音声認識装置の動作を示すフローチャートである。
【図４】第２実施形態に係る音声認識装置の機能構成を示すブロック図である。
【図５】第３実施形態に係る音声認識装置の機能構成を示すブロック図である。
【図６】第４実施形態に係る音声認識装置の機能構成を示すブロック図である。
【図７】第５実施形態に係る音声認識装置の機能構成を示すブロック図である。
【図８】第６実施形態に係る音声認識装置の機能構成を示すブロック図である。
【発明を実施するための形態】
【００３５】
以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。なお、図面の説明において同一又は同等の要素には同一の符号を付し、重複する説明を省略する。
【００３６】
（第１実施形態）
まず、図１，２を用いて、第１実施形態に係る音声認識装置１０の機能及び構成を説明する。音声認識装置１０は、マイクなどを介して入力された音声をテキストデータやコマンド信号などに変換する装置である。具体的には、音声認識装置１０はまず限られた個数の語彙を有する小規模辞書を用いて音声認識処理（第１の音声認識）を行い、その後必要に応じて、より多くの語彙を有する大規模辞書を用いて音声認識処理（第２の音声認識）を行う。すなわち、音声認識装置１０は一段階または二段階の音声認識処理を実行する。音声認識装置１０は、パーソナルコンピュータや携帯端末、音響機器などの他の機器に組み込まれた形で実現されてもよいし、他とは独立した専用機器として実現されてもよい。
【００３７】
なお、後で詳細に説明する小規模辞書及び大規模辞書の語彙数は全くの任意である。例えば、数万語を有する小規模辞書と、数百万語を有する大規模辞書とを用意してもよい。
【００３８】
図１に示すように、音声認識装置１０は機能的構成要素として特定語記億部（記憶手段）１１、第１音声認識部（第１音声認識手段）１２、判定部（判定手段）１３、出力決定部（判定手段）１４、第２音声認識部（第２音声認識手段）１５、及び認識結果出力部（出力手段）１６を備えている。
【００３９】
この音声認識装置１０は、図２に示すように、オペレーティングシステムやアプリケーション・プログラムなどを実行するＣＰＵ１０１と、ＲＯＭ及びＲＡＭで構成される主記憶部１０２と、メモリなどで構成される補助記憶部１０３と、データ通信を行う通信制御部１０４と、出力端子やモニタなどで構成される出力部１０５と、入力端子や操作キーなどで構成される入力部１０６とで構成される。図１に示す各機能は、ＣＰＵ１０１及び主記憶部１０２の上に所定のプログラムを読み込ませ、ＣＰＵ１０１の制御の下で通信制御部１０４、出力部１０５及び入力部１０６を動作させるとともに、主記憶部１０２や補助記憶部１０３に対してデータの読み出し又は書き込みを行うことで実現される。処理に必要なデータやデータベースは、主記憶部１０２又は補助記憶部１０３に格納される。
【００４０】
図１に戻って、特定語記憶部１１は予め定めた１以上の特定語を記憶する手段である。特定語とは、大規模辞書を用いた第２の音声認識が必要か否かを判定するために用いられる語句である。
【００４１】
特定語の例として、例えば「…を検索」や「…を探す」などのような、ある特定の単語をデータベースから検索するためのコマンド語が考えられる。これは、入力音声において、例えばユーザにとって不明な言葉がコマンド語の前に入力されている可能性があり、このような場合には大規模辞書を用いて音声データを高精度に認識する必要があると考えられるからである。また、特定語の別の例として、「東京都千代田区…」などのような地名が考えられる。これは、住所などの地名は世の中に多く存在しており、大規模辞書を用いて音声データを高精度に認識する必要があると考えられるからである。
【００４２】
また、特定語は、発音された語句そのものでなく、当該語句の属性を示す属性名（属性情報）であってもよい。例えば、「東京都」などの場所に関する語句の属性である「地名」を特定語としてもよい。このような属性としては、地名の他に人名、番号、金額、命令語などが考えられるが、特定語として設定される属性名（属性情報）は、それが複数の単語を集約するための語である限り、任意に定めてよい。なお、特定語の種類は上記のものに限定されるものではない。
【００４３】
第１音声認識部１２は、入力された音声データを認識することで第１言語データを生成する手段である。入力される音声データは、マイクを介して入力された音声に基づくデータであってもよいし、所定の記憶装置から読み出された音声データであってもよい。
【００４４】
第１音声認識部１２は音声データに対して雑音除去を行い音声区間を検出した後に、時系列の音声データをケプストラム係数のような音響特徴量パラメータに変換する。続いて、第１音声認識部１２は音響特徴量パラメータの時間遷移に対して、音響モデルや、言語モデル、小規模辞書を参照することで、統計的に尤度の高い言語データ（第１言語データ）を認識結果として生成する。
【００４５】
ここで、小規模辞書とは、後述する第２音声認識部１５で用いられる辞書よりも少ない語彙で構成される辞書である。例えば地名に関して言うと、小規模辞書には都道府県名のみを含め、都市名などは含めないことが考えられるが、小規模辞書に含める語彙は任意に決めてよい。なお、小規模辞書は第１音声認識部１２内に保持されていてもよいし、所定のメモリに格納されていてもよい。
【００４６】
特定語記憶部１１に属性名（属性情報）が特定語として格納されている場合には、第１音声認識部１２は、音声認識結果である言語データを構成する各単語に属性情報が付加された第１言語データを生成する。例えば、第１音声認識部１２は認識結果「東京都千代田区」の各単語に「地名」という属性名が付加された第１言語データ「東京都（地名）千代田区（地名）」を生成する。
【００４７】
なお、第１音声認識部１２による音声認識処理の具体的な手順は上記のものに限定されない。第１音声認識部１２は生成した第１言語データを判定部１３及び認識結果出力部１６に出力する。
【００４８】
判定部１３は、第１音声認識部１２により生成された第１言語データ（判定対象データ）に、特定語記憶部１１に記憶されている特定語が少なくとも一つ存在するか否かを判定する手段である。第１言語データが入力されると、判定部１３は特定語記憶部１１から特定語を読み出し、第１言語データにおける特定語の有無を判定する。そして、判定部１３は判定結果を出力決定部１４及び認識結果出力部１６に出力する。
【００４９】
判定結果の態様としては、単に特定語が存在したか否かを示す情報（フラグ）や、存在した１以上の特定語のリスト、存在した一以上の特定語の属性名のリスト、各特定語の出現位置を示す位置情報などが考えられる。出現位置は、例えば「文頭」や「文末」、「１０文字目」などというように、認識結果であるテキスト内での位置で表してもよいし、「開始３秒」などのように、音声データの再生時間で表してもよい。
【００５０】
出力決定部１４は、大規模辞書による音声認識を行なうために音声データを第２音声認識部１５に出力するか否かを決定する手段である。出力決定部１４には、第１音声認識部１２に入力されるものと同じ音声データが入力される。
【００５１】
出力決定部１４は判定部１３から入力された判定結果に基づいて音声データを出力するか否かを決定するが、その具体的な手法はいくつか考えられる。例えば、出力決定部１４は特定語が存在する旨の判定結果が入力されたことのみをもって音声データを第２音声認識部１５に出力してもよい。
【００５２】
また、出力決定部１４は第１言語データに含まれている複数の特定語の組合せや出現位置関係に基づくルールを用いて出力の要否を決定してもよい。例えば、第１言語データに二つの特定語「レストラン」および「検索」が含まれていた場合に音声データを出力する、というルールを出力決定部１４が予め保持しているとする。このとき出力決定部１４は、例えば第１言語データが「レストランの検索…」であれば音声データを第２音声認識部１５に出力するが、第１言語データが「電話帳の検索…」であれば出力を行なわない。
【００５３】
第２音声認識部１５は、出力決定部１４から入力された音声データを認識することで第２言語データを生成する手段である。すなわち第２音声認識部１５は、第１言語データに少なくとも一つの特定語が含まれていると判定された場合に第２言語データを生成する。
【００５４】
第２音声認識部１５は、第１音声認識部１２で用いられる小規模辞書よりも多くの語彙を含む大規模辞書を用いて音声認識を実行する点で、第１音声認識部１２と異なる。第２音声認識部１５の処理は第１音声認識部１２のものと同じであるが、より多くの語彙を利用できる第２音声認識部１５の方が第１音声認識部１２よりも高精度の音声認識結果を生成することができる。第２音声認識部１５は生成した第２言語データを認識結果出力部１６に出力する。なお、大規模辞書は第２音声認識部１５内に保持されていてもよいし、所定のメモリに格納されていてもよい。
【００５５】
認識結果出力部１６は、判定部１３から入力された判定結果と第１言語データおよび／または第２言語データとに基づく認識結果データを出力する手段である。
【００５６】
第１言語データに特定語が存在しないことを示す判定結果が入力された場合には、認識結果出力部１６は第１言語データを認識結果データとして出力する。これに対して、第１言語データに特定語が存在することを示す判定結果が入力された場合には、認識結果出力部１６は第１言語データを破棄し、第２言語データを認識結果データとして出力する。あるいは、認識結果出力部１６は、第１および第２言語データに付記されている認識の信頼度情報に基づいて、どちらか一方の言語データを認識結果データとして出力してもよい。また、認識結果出力部１６は、上記のように第１または第２言語データをそのまま出力するのではなく、これらのデータの一方または双方を編集することでテキストデータやアプリケーション・プログラムのコマンドを生成し、生成物を認識結果データとして出力してもよい。
【００５７】
認識結果出力部１６は、判定結果や第２言語データの入力を待つことなく第１言語データを出力し、その後、第１言語データに特定語が存在することを示す判定結果が入力された場合に、第２言語データそのもの、又は第２言語データに基づくデータを出力してもよい。すなわち、認識結果出力部１６は早い段階で暫定的な認識結果データを出力した上で、その暫定結果と併記、あるいはそれを追記または上書きするための更なる認識結果データを出力してもよい。この場合には、第１言語データを早く出力することができる。
【００５８】
認識結果データの出力先は任意である。例えば、認識結果出力部１６は認識結果データを音声認識装置１０内の所定のメモリに格納してもよいし、所定の表示装置（図示せず）に出力してもよいし、他の装置（図示せず）に送信してもよい。
【００５９】
次に、図３を用いて、音声認識装置１０の動作を説明するとともに本実施形態に係る音声認識方法について説明する。なお、以下では、特定語記憶部１１に１以上の特定語が記憶されていることを前提として説明する。
【００６０】
音声認識装置１０に音声データが入力されると、まず第１音声認識部１２が小規模辞書を用いてその音声データを認識することで第１言語データを生成する（ステップＳ１１、第１音声認識ステップ）。続いて、判定部１３がその第１言語データ内に特定語が存在するか否かを判定する（ステップＳ１２、判定ステップ）。
【００６１】
このとき特定語が第１言語データ内に存在していれば（ステップＳ１２；ＹＥＳ）、出力決定部１４が音声データを第２音声認識部１５に出力するか否かを決定する（ステップＳ１３、判定ステップ）。そして、第２音声認識部１５に音声データが出力された場合には、第２音声認識部１５が大規模辞書を用いてその音声データを認識することで第２言語データを生成する（ステップＳ１４、第２音声認識ステップ）。
【００６２】
そして最後に、認識結果出力部１６が判定結果と第１および／または第２言語データに基づく最終的な認識結果データを出力する（ステップＳ１５、出力ステップ）。特定語が第１言語データ内に存在しなかった場合には（ステップＳ１２；ＮＯ）、認識結果出力部１６は第２言語データをも用いることなく認識結果データを出力する（ステップＳ１５）。以上で、音声認識が完了する。
【００６３】
以上説明したように、第１実施形態によれば、第１言語データにおける特定語の存在を検査するだけで、第２の音声認識の必要性を簡単かつ確実に判定でき、その結果、第１及び第２の音声認識処理をより適切に使い分けることが可能になる。第１実施形態では特に、小規模辞書を用いた音声認識が不完全になることが予測されるような特定語を予め用意しておくことで、小規模辞書よりも語彙が豊富な大規模辞書による音声認識を行うか否かを簡単かつ確実に判定でき、その結果、第１及び第２の音声認識処理をより適切に使い分けることが可能になる。そして、このような使い分けにより、全体としての処理の高速化や認識精度の向上を得ることができる。
【００６４】
例えば、地名に関して、小規模辞書には都道府県名のみが登録されており、大規模辞書にはすべての地名が登録されているとする。そして、入力された音声データが「東京都豊島区（とうきょうととしまく）…」であるとする。この場合、第１音声認識部１２は「東京都」については正しく認識するが、「豊島区（としまく）」については全く認識できないか、あるいは「徳島（とくしま）」などというように誤認識をしてしまう。このとき、例えば「東京」が特定語として予め登録されていれば、第２音声認識部１５の処理により、「東京都豊島区…」と正確に認識することができる。
【００６５】
別の例で、小規模辞書には「レストラン」及び「検索」は登録されているが具体的な店舗名は登録されておらず、一方、大規模辞書には「レストラン」及び「検索」に加えてすべての店舗名が登録されているとする。そして、入力された音声データが「レストランの検索、店舗Ａ」であるとする。この場合、第１音声認識部１２は「レストランの検索」については正しく認識するが、「店舗Ａ」については全く認識できないか、あるいは誤認識をしてしまう。このとき、例えば「レストラン」及び「検索」のうちの少なくとも一つが特定語として予め登録されていれば、第２音声認識部１５の処理により、「レストランの検索、店舗Ａ」と正確に認識することができる。
【００６６】
もっとも、常に最初から大規模辞書を用いた音声認識を行えばよいとは限らない。例えば、大規模辞書を用いた音声認識は、辞書を格納するために多くの記憶領域が必要であったり、処理時の消費電力が大きかったりする。また、後述するように第２音声認識部１５が別の装置に組み込まれている場合には、その装置に音声データなどを送る必要があり、ネットワークに負荷がかかったり通信料が発生したりする。したがって、必要な場合にのみ第２の音声認識を行うようにすることは重要である。本発明は、音声認識処理の使い分けを判断する際に特定語が存在するか否かを判断すれば足りるので、その判断を簡易に行うことができる。
【００６７】
第１実施形態において特定語として属性名（属性情報）を用いれば、特定語を記憶するための領域を節約したり特定語に関する判定を高速化したりすることが可能になる。
【００６８】
第１実施形態において特定語の位置情報を取得した場合には、第２の音声認識の要否を特定語の出現位置に基づいて正確に判定することができ、ひいては、第１及び第２の音声認識をより適切に使い分けることができる。
【００６９】
（第２実施形態）
次に、図４を用いて、第２実施形態に係る音声認識装置２０について説明する。音声認識装置２０は、第１実施形態における第１音声認識部１２、出力決定部１４、及び第２音声認識部１５に代えて第１音声認識部１２Ａ、出力決定部１４Ａ、及び第２音声認識部１５Ａを備える点で、第１実施形態における音声認識装置１０と異なる。以下では、これらの相違点についてのみ説明し、第１実施形態と同様の部分については説明を省略する。
【００７０】
第１音声認識部１２Ａは、音声認識処理の途中で得られる中間データを保持した上で、その中間データを出力決定部１４Ａに出力する。第１音声認識部１２Ａと第２音声認識部１５Ａとの間で共通の処理があるならば、同じ音声データに対して各音声認識部で同じ処理を行なうのは効率的でない。そこで、双方の音声認識部１２Ａ，１５Ａで重複する処理を施したデータを第２音声認識部１５Ａに送ることで、第２音声認識部１５Ａにおける重複処理を省略する。第１言語データを生成する処理は第１実施形態と同様である。
【００７１】
重複する処理としては、例えば、入力された時系列の音声データから雑音を抑制または除去する処理や、音声区間を検出する処理、音響的な特徴量パラメータに変換する音響特徴量変換処理が挙げられるが、重複処理の種類はこれに限らない。
【００７２】
中間データの構成も任意である。例えば、判定部１３で認識される特定語の部分以外を第２音声認識部１５Ａで認識させたい場合には、音声データのうち特定語区間を第２音声認識部１５Ａに渡す必要は無い。この場合には、第１音声認識部１２Ａは音声データのうち特定語区間以外の部分を中間データとして出力する。
【００７３】
出力決定部１４Ａは、第１音声認識部１２から入力された中間データを第２音声認識部１５Ａに出力するか否かを決定する。第１実施形態と異なる点は、出力するデータが音声データではなく中間データであることのみであり、決定方法は第１実施形態と同様である。
【００７４】
第２音声認識部１５Ａは、出力決定部１４Ａから入力された中間データを認識することで第２言語データを生成し、生成した第２言語データを認識結果出力部１６に出力する。第１実施形態と異なる点は、処理するデータが音声データではなく中間データであることのみであり、第２言語データの生成方法は第１実施形態と同様である。
【００７５】
このような第２実施形態によれば、第２音声認識部１５Ａにおいて音声データを最初から処理する必要が無く、途中まで処理された中間データから第２言語データを生成することができる。そのため、第２の音声認識における演算時間を短縮することができる。また、第１実施形態と同様の効果も第２実施形態により得ることができる。
【００７６】
なお、第１音声認識手段ではなく音声認識装置外で上記のような中間データを生成し、音声認識装置が音声データ及び中間データの入力を受け付けてもよい。この場合には、音声データが第１音声認識手段に送られ、中間データが判定手段に送られる。
【００７７】
（第３実施形態）
次に、図５を用いて、第３実施形態に係る音声認識装置３０について説明する。音声認識装置３０は、第１実施形態における出力決定部１４に代えて出力決定部１４Ｂを備える点で第１実施形態における音声認識装置１０と異なる。以下では、これらの相違点についてのみ説明し、第１実施形態と同様の部分については説明を省略する。
【００７８】
出力決定部１４Ｂは、判定部１３から入力された判定結果に関する情報を出力部１０５、あるいは音声認識装置３０に接続されている表示装置に表示することで、その情報をユーザに提示する。判定結果に関する情報とは、例えば、第１音声認識部１２の暫定的な認識結果や、音声データに含まれていた特定語そのもの、その特定語の属性に関する情報、特定語が含まれていたことを示す案内、大規模辞書を用いた第２の音声認識を行う旨を示す案内、特定語に対応したアプリケーション情報のうちの少なくとも一つである。もちろん、出力決定部１４Ｂがユーザに提示する情報はこれらに限定されない。
【００７９】
判定結果に関する情報を出力すると、出力決定部１４Ｂはその情報に対するユーザ入力を受け付け、入力された操作データに基づいて、必要であれば音声データを第２音声認識部１５に出力する。
【００８０】
例えば、音声データが「東京都千代田区…」のような、地名の読み上げの音声であり、かつ「地名」という属性名が特定語として保持されていた場合には、出力決定部１４Ｂは、音声データに地名が存在する旨の判定結果に基づいて、地名から地図を表示する地図アプリケーションを起動するかを示す案内を出力する。この案内は、例えば「地図アプリケーションを起動しますか？」という問合せメッセージである。ユーザがこの問合せに対して「はい」を選択した場合には、出力決定部１４Ｂは地名のより高精度な認識が必要だとして、音声データを第２音声認識部１５出力する。
【００８１】
ただし、出力決定部１４Ｂが提示する情報や受け付けるユーザ操作はこれに限らない。特定語に関する情報に対するユーザの操作を促し、操作データに基づいて音声データの出力の要否を決定するのであれば、出力決定部１４Ｂが他の構成であってもよい。
【００８２】
このように、出力決定部１４Ｂは判定手段の他に指示受付手段としても機能する。
【００８３】
このような第３実施形態によれば、第２の音声認識が必要か否かをユーザに判断させることで、ユーザが望まない第２の音声認識の実行を回避することができる。また、第１実施形態と同様の効果も第３実施形態により得ることができる。
【００８４】
（第４実施形態）
次に、図６を用いて、第４実施形態に係る音声認識装置４０について説明する。音声認識装置４０は、第１実施形態における第１音声認識部１２、出力決定部１４、及び第２音声認識部１５に代えて第１音声認識部１２Ｃ、出力決定部１４Ｃ、及び第２音声認識部１５Ｃを備える点で、第１実施形態における音声認識装置１０と異なる。以下では、これらの相違点についてのみ説明し、第１実施形態と同様の部分については説明を省略する。
【００８５】
第１音声認識部１２Ｃは、第１実施形態における第１音声認識部１２と同様に生成した第１言語データを判定部１３及び認識結果出力部１６だけでなく、出力決定部１４Ｃにも出力する。
【００８６】
出力決定部１４Ｃは、第１実施形態における出力決定部１４と同様に決定処理を行い、出力が必要であると判定した場合には、第１言語データの全体、もしくは特定語に関連する一部を音声データと共に第２音声認識部１５に出力する。例えば出力決定部１４Ｃは、「地名」などのような、属性に関する特定語を音声データと共に第２音声認識部１５Ｃに出力する。
【００８７】
第２音声認識部１５Ｃは、出力決定部１４から入力された第１言語データの全体若しくは一部と音声データとに基づいて第２言語データを生成する。この際に、第２音声認識部１５Ｃは入力された第１言語データに基づいて音声データの内容を推定した上で認識処理を実行する。例えば、音声データと共に「地名」を示す特定語が入力された場合には、第２音声認識部１５Ｃは地名認識に特化した音声認識処理を実行する。
【００８８】
このような第４実施形態によれば、第２の音声認識において特定語の存在に関する判定結果も用いられるので、当該音声認識の精度を上げることが可能になる。例えば、第２音声認識部１５Ｃは入力された音声データが地名に関するものであると判断した上で、地名の認識に特化した認識処理を選択し実行することができる。これにより、音声認識の精度や処理速度を上げることができる。また、第１実施形態と同様の効果も第４実施形態により得ることができる。
【００８９】
（第５実施形態）
次に、図７を用いて、第５実施形態に係る音声認識装置５０について説明する。音声認識装置５０は、第１実施形態における出力決定部１４及び第２音声認識部１５に代えて出力決定部１４Ｄ及び第２音声認識部１５Ｄを備える点で、第１実施形態における音声認識装置１０と異なる。以下では、これらの相違点についてのみ説明し、第１実施形態と同様の部分については説明を省略する。
【００９０】
本実施形態において、第２音声認識部１５Ｄは特定の語句の認識に特化した複数の認識部１５０（１５０ａ〜１５０ｘ）を備えている。各認識部１５０の役割分担は任意であるが、例えば、認識部１５０ａが地名の認識に特化して処理したり、認識部１５０ｂが人名の認識に特化して処理したりすることが考えられる。各認識部１５０における音声認識の具体的な方法は、第１実施形態における第２音声認識部１５と同様である。なお、認識部１５０の個数は任意に決めてよい。
【００９１】
出力決定部１４Ｄは、判定部１３から入力された判定結果に基づいて、音声データの出力の要否だけでなく、その出力先を決定する。例えば、出力決定部１４Ｄは音声データに含まれている特定語またはその種類を判定部１３からの判定結果に基づいて判断し、大規模辞書を用いた第２の音声認識を第２音声認識部１５Ｄのどの認識部で実行させるかを決定する。そして、出力決定部１４Ｄは特定の認識部に音声データを出力する。
【００９２】
例えば、認識部１５０ａが地名を認識する手段であり、認識部１５０ｂが人名を認識する手段であるとする。このとき、音声データに地名が含まれているという判定結果を判定部１３から得れば、出力決定部１４Ｄは認識部１５０ａに音声データを出力する。この場合には、認識部１５０ａが第２言語データを生成して認識結果出力部１６に出力する。
【００９３】
なお、出力決定部１４Ｄが複数の認識部１５０に音声データを出力し、複数の認識部１５０が協働または独立してその音声データに対して認識処理を実行してもよい。この場合には、認識結果出力部１６は複数の第２言語データを組み合わせて認識結果データを生成したり、最も早く届いた第２言語データのみから認識結果データを生成したり、最も信頼度の高い第２言語データから認識結果データを生成したりすることが可能である。
【００９４】
このような第５実施形態によれば、第２の音声認識を実行する手段が複数の認識部１５０に細分化され、判定結果に応じて少なくとも一つの認識手段が選択されるので、判定結果に応じて適切な音声認識処理を実行することが可能になる。例えば、音声データに地名が含まれている場合に、地名を認識することに特化した認識部１５０にその音声データを渡せば、高精度な音声認識結果を得ることができる。また、第１実施形態と同様の効果も第５実施形態により得ることができる。
【００９５】
（第６実施形態）
次に、図８を用いて、第６実施形態に係る音声認識装置６０について説明する。音声認識装置６０は、第１実施形態における判定部１３に代えて判定部１３Ｅを備える点で第１実施形態における音声認識装置１０と異なる。以下では、これらの相違点についてのみ説明し、第１実施形態と同様の部分については説明を省略する。
【００９６】
判定部１３Ｅは、第１言語データではなく音声データを判定対象データとして参照し、特定語が存在するか否かを判定する。例えば、判定部１３Ｅは時間軸で正規化された音声データの音響特徴量と特定語の音響特徴量とのベクトル距離を算出し、その距離が閾値より高い場合には特定語が含まれていると判定する。この際に判定部１３Ｅは音声データに対して音響特徴に基づく特定語の探索を実行するが、その探索は時系列に沿って音声データの始端から順方向に実行してもよいし、音声データの終端から逆方向に実行してもよい。あるいは、判定部１３Ｅは両方向から探索処理を行ってもよい。判定部１３はこのような探索処理により得た判定結果を第２音声認識部１５に出力する。
【００９７】
このような第６実施形態によれば、音声データそのものにおいて所定の特定語を探索する際に、当該特定語の前後に接続する音声がその探索に及ぼす悪影響を回避することができるので、特定語に関する判定精度を高めることができる。また、第１実施形態と同様の効果も第６実施形態により得ることができる。
【００９８】
以上、本発明をその実施形態に基づいて詳細に説明した。しかし、本発明は上記実施形態に限定されるものではない。本発明は、その要旨を逸脱しない範囲で様々な変形が可能である。
【００９９】
音声認識装置は１台の装置として構成されていてもよいし、互いに通信可能な複数の装置を組み合わせて構成されていてもよい。複数の装置から成る音声認識装置の例として、第１音声認識手段、記憶手段、判定手段、及び出力手段を備えるクライアント端末（第１の端末）と、第２音声認識手段を備えるサーバ（第２の端末）とから成る音声認識システムが挙げられる。
【０１００】
この場合、クライアント端末では、判定手段が、サーバ側での第２の音声認識が必要と判断すると、第２音声認識手段で必要なデータ（例えば音声データや中間データ、判定結果など）をサーバに出力する。サーバでは、第２音声認識手段がそのデータを受信し、上記実施形態のいずれかの手法により第２言語データを生成してクライアント端末に送信する。そして、クライアント端末の出力手段がその第２言語データを受信して、最終的な認識結果データを生成および出力する。
【０１０１】
なお、クライアント端末やサーバの具体的な種類は限定されない。クライアント端末としては、例えばパーソナルコンピュータや携帯電話機などが挙げられる。
【０１０２】
このように装置間の通信が発生する場合でも、クライアント端末における音声認識の結果に所定の特定語が存在する場合に初めてサーバに音声データが送信されるので、不必要な通信を減らすことができる。
【０１０３】
各実施形態において、音声認識装置に入力される音声データは符号化されていてもよい。このとき、第１音声認識手段に入力される音声データに対して行われた符号化処理と、第２音声認識手段に入力される音声データに対して行われた符号化処理とが異なっていてもよい。例えば、上記のようなクライアント−サーバ型のシステムでは、通信量を削減するために、音声データに対して更なる圧縮処理を施した上で圧縮後の音声データをサーバに送ることが考えられる。なお、符号化されている音声データに対して音声認識処理を行う際には、第１，第２音声認識手段は予めその音声データを復号する必要がある。各音声認識手段は、環境に合わせて符号化された音声データに対して音声認識を実行することになる。
【０１０４】
上記各実施形態では、第２音声認識手段が判定手段による判定結果を待つことなく音声データの認識を開始してもよい。例えば、音声認識装置に入力された音声データがそのまま第１音声認識手段および第２音声認識手段に伝送され、これらの認識手段で同時に音声認識処理が始まってもよい。この場合には、判定手段による判定結果の内容によらずに第２の音声認識が開始されるので、第２言語データが必要な場合でも最終的な認識結果データを早く出力することができる。音声データあるいは第１言語データに特定語が存在しなければ、出力手段は第２音声認識手段からの第２言語データの入力を待つことなく、あるいは入力された第２言語データを破棄して、第１言語データに基づく認識結果データを出力すればよい。
【０１０５】
上記実施形態では、第１音声認識手段と第２音声認識手段との相違点は基本的に、用いる辞書の語彙数のみであったが、これら二つの認識手段の相違点は辞書の語彙数に限られない。例えば、二つの認識手段の違いが辞書の語彙数ではなく、実行エンジンやパラメータ、言語モデルであってもよい。パラメータに関していうと、例えば二つの認識手段の間でビーム幅を違わせてもよい。ビーム幅とは、音声を前から後ろに向かって照合（マッチング）する際にマッチング候補を途中でどれだけ残して探索するか、を示すパラメータである。言語モデルに関していうと、例えば二つの認識手段の間でＮ−ｇｒａｍ（Ｎ＝１，２，３，…）におけるＮの値を違わせてもよい。
【０１０６】
本発明において、第１音声認識手段と第２音声認識手段とでは、求める目的あるいは性能（生成される言語データの精度）が互いに異なっていればよく、第１及び第２音声認識手段の間における性能の優劣関係は全くの任意である。例えば、第１音声認識手段が大規模辞書を用い、第２音声認識手段が小規模辞書を用いてもよい。また、第１及び第２の音声認識手段それぞれで用いられるビーム幅の大小関係、あるいはＮ−ｇｒａｍのＮ値の大小関係も任意に設定してよい。
【符号の説明】
【０１０７】
１０，２０，３０，４０，５０，６０…音声認識装置、１１…特定語記憶部（記憶手段）、１２，１２Ａ，１２Ｃ…第１音声認識部（第１音声認識手段）、１３，１３Ｅ…判定部（判定手段）、１４，１４Ａ，１４Ｃ，１４Ｄ…出力決定部（判定手段）、１４Ｂ…出力決定部（判定手段、指示受付手段）、１５，１５Ａ，１５Ｃ，１５Ｄ…第２音声認識部（第２音声認識手段）、１５０…認識部（第２音声認識手段）、１６…認識結果出力部（出力手段）。

【特許請求の範囲】
【請求項１】
予め定めた１以上の特定語を記憶する記憶手段と、
入力された音声データを認識することで第１言語データを生成する第１音声認識手段と、
前記音声データ及び前記第１言語データのいずれか一方である判定対象データに、前記記憶手段に記憶されている特定語が少なくとも一つ存在するか否かを判定する判定手段と、
前記判定対象データに少なくとも一つの前記特定語が含まれていると判定された場合に、前記音声データを認識することで第２言語データを生成する第２音声認識手段と、
前記判定手段による判定結果と前記第１言語データおよび／または前記第２言語データとに基づく認識結果データを出力する出力手段と、
を備える音声認識装置。
【請求項２】
前記判定対象データが前記音声データであり、
前記判定手段が、前記記憶手段に記憶されている特定語を前記判定対象データの順方向または逆方向から探索することにより、該判定対象データに該特定語が少なくとも一つ存在するか否かを判定する、
請求項１に記載の音声認識装置。
【請求項３】
前記特定語が、１以上の語句で共通の属性を示す語句である、
請求項１又は２に記載の音声認識装置。
【請求項４】
前記判定手段が、更に前記判定対象データにおける前記特定語の出現位置に基づいて前記第２言語データの生成が必要か否かを判定し、
前記第２音声認識手段が、前記第２言語データの生成が必要であると判定された場合に前記音声データを認識する、
請求項１〜３のいずれか一項に記載の音声認識装置。
【請求項５】
前記第１音声認識手段が、前記音声データから前記第１言語データを生成する過程で生成される中間データを取得し、
前記第２音声認識手段が、前記音声データに代えて、前記第１音声認識手段により取得された中間データを認識することで前記第２言語データを生成する、
請求項１〜４のいずれか一項に記載の音声認識装置。
【請求項６】
前記音声データが、前記第１音声認識手段において認識される際には第１の符号化処理により符号化されており、前記第２音声認識手段において認識される際には第２の符号化処理により符号化されている、
請求項１〜４のいずれか一項に記載の音声認識装置。
【請求項７】
前記出力手段が、前記第２言語データを待つことなく前記第１言語データを第１の認識結果データとして出力し、前記第２言語データが生成された場合には少なくとも該第２言語データに基づく第２の認識結果データを出力する、
請求項１〜６のいずれか一項に記載の音声認識装置。
【請求項８】
前記判定手段による判定結果に関する情報をユーザに対して出力すると共に、前記第２言語データの生成に関するユーザ入力を受け付ける指示受付手段を更に備え、
前記第２音声認識手段が、前記第２言語データの生成を指示する旨のユーザ入力が前記指示受付手段により受け付けられた場合に前記音声データを認識する、
請求項１〜７のいずれか一項に記載の音声認識装置。
【請求項９】
前記第２音声認識手段が更に前記第１言語データおよび／または前記判定結果を用いて前記音声データを認識する、
請求項１〜８のいずれか一項に記載の音声認識装置。
【請求項１０】
前記第２音声認識手段が複数の認識手段を備えており、
前記判定手段による判定結果に応じて、前記複数の認識手段のうちの少なくとも一つが前記音声データを認識することで前記第２言語データを生成する、
請求項１〜９のいずれか一項に記載の音声認識装置。
【請求項１１】
前記第２音声認識手段が、前記判定手段による判定結果を待つことなく前記音声データの認識を開始する、
請求項１〜１０のいずれか一項に記載の音声認識装置。
【請求項１２】
前記音声認識装置が、互いに独立した第１の装置及び第２の装置を備え、
前記第１の装置が少なくとも前記第１音声認識手段及び前記判定手段を備え、
前記第２の装置が少なくとも前記第２音声認識手段を備え、
前記判定対象データに少なくとも一つの前記特定語が存在すると判定された場合に、前記第１の装置から前記第２の装置に前記音声データが送信される、
請求項１〜１１のいずれか一項に記載の音声認識装置。
【請求項１３】
音声認識装置により実行される音声認識方法であって、
入力された音声データを認識することで第１言語データを生成する第１音声認識ステップと、
予め定めた１以上の特定語を記憶する記憶手段を参照して、前記音声データ及び前記第１言語データのいずれか一方である判定対象データに前記特定語が少なくとも一つ存在するか否かを判定する判定ステップと、
前記判定対象データに少なくとも一つの前記特定語が含まれていると判定された場合に、前記音声データを認識することで第２言語データを生成する第２音声認識ステップと、
前記判定ステップにおける判定結果と前記第１言語データおよび／または前記第２言語データとに基づく認識結果データを出力する出力ステップと、
を含むことを特徴とする音声認識方法。

【図１】