音声認識装置

【課題】同じシナリオであっても使用したい音声認識部を使い分けることが出来る音声認識装置を提供すること。
【解決手段】本発明の音声認識装置は、一又は複数の接続機器と接続されて音声認識を行う音声認識装置であって、音声を取り込むマイクと、前記一又は複数の接続機器と接続するための接続部と、前記一又は複数の接続機器より取得した音声認識対象の文字データを記憶する記憶部と、前記記憶部の音声認識対象の文字データから音声認識処理用の音素への変換を行う変換部と、前記変換部が変換した音素を含み音声認識に利用される音声認識辞書と、前記音声認識辞書と前記マイクより取り込んだ音声を利用して音声認識を実施する音声認識部と、前記一又は複数の接続機器から前記音声認識対象の文字データを取得しているか否かを判断し、その判断結果に基づいて前記マイクより取り込んだ音声を前記音声認識部で認識させるか否かを制御する制御部とを備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、音声で装置を制御する音声認識技術を利用した音声認識装置に関するものである。
【背景技術】
【０００２】
装置を操作する方法として、人間が発話した音声を認識してコマンド等に変換することで操作を実現する装置が一般に普及している。特に車載環境においては、ドライバーが運転しながら車載端末を操作する方法として有効である。
【０００３】
一方、車載端末のような組込みソフトウェアの環境においては、メモリおよびＣＰＵパワー等の資源が制約される傾向がある。そのため、あらかじめ音声で認識させる対象の“コマンド”および認識対象の候補を、任意の文字列ではなく、ある特定のパターンまたは集合に限定しておくことが行われる。こうすることでメモリおよびＣＰＵパワー等の資源を抑制して装置を安価に実現することが可能となる。
【０００４】
また音声認識の対話型システムにおいては、認識結果を早く提示すること、すなわちレスポンスを早くすることも重要である。限られた資源でレスポンスを向上する為には、認識対象の候補を限定することは非常に有効である。
【０００５】
従来の音声認識装置として、音声対話シナリオに記述された選択子に従い、「端末（自分自身）の音声認識部」又は「センター（通信回線を介して接続された遠隔装置）の音声認識部」のいずれかを選択する音声対話制御部を備え、音声認識の処理の難易度に応じて音声認識部を使い分けることが可能な音声対話システムが開示されている（例えば特許文献１参照）。
【先行技術文献】
【特許文献】
【０００６】
【特許文献１】特開２００５−３７６６２号公報
【発明の概要】
【発明が解決しようとする課題】
【０００７】
しかしながら、従来の音声対話システムにおいては、例えば同じシナリオ“再生する楽曲の選択”の場合に、使用する音声認識部を使い分けることが出来ない場合がある。シナリオに使用する音声認識部がどれかを記述する方式では、各々のシナリオに対して音声認識部を記述するため、１つのシナリオに対して、複数の音声認識部を柔軟に選択することが出来ない。例えば楽曲名には自装置の認識部を使用、地名にはセンターの認識部を使用、とシナリオに記載してある場合、楽曲名は常に自装置の認識部を使用することになる。
【０００８】
本発明の目的は、同じ使用用途（例．再生する楽曲の選択）でも、音声認識対象の候補の文字列の配置に従い、使用したい音声認識部を使い分けることが出来る音声認識装置を提供することである。
【課題を解決するための手段】
【０００９】
本発明の一態様として、音声認識装置は、一又は複数の接続機器と接続されて音声認識を行う音声認識装置であって、音声を取り込むマイクと、前記一又は複数の接続機器と接続するための接続部と、前記一又は複数の接続機器より取得した音声認識対象の文字データを記憶する記憶部と、前記記憶部の音声認識対象の文字データから音声認識処理用の音素への変換を行う変換部と、前記変換部が変換した音素を含み音声認識に利用される音声認識辞書と、前記音声認識辞書と前記マイクより取り込んだ音声を利用して音声認識を実施する音声認識部と、前記一又は複数の接続機器から前記音声認識対象の文字データを取得しているか否かを判断し、その判断結果に基づいて前記マイクより取り込んだ音声を前記音声認識部で認識させるか否かを制御する制御部とを備える。
【発明の効果】
【００１０】
本発明によれば、同じ使用用途（例．再生する楽曲の選択）でも、音声認識対象の候補の文字列の配置に従い、使用したい音声認識部を使い分けることが出来る。
【図面の簡単な説明】
【００１１】
【図１】本発明の実施の形態における音声認識装置１０および接続機器２０のブロック図
【図２】接続機器２０の記憶部２０４に蓄積されたデータの一例を示す図
【図３】音声認識装置１０の記憶部１０４に蓄積されたデータの一例（１）
【図４】音声認識装置１０の音声認識辞書１０６の一例（１）
【図５】音声認識装置１０の記憶部１０４に蓄積されたデータの一例（２）
【図６】音声認識装置１０の音声認識辞書１０６の一例（２）
【図７】音声認識装置１０の音声認識辞書１０６の一例（３）
【図８】本実施の形態における変形例を示すブロック図
【図９】各接続機器２０Ａ，２０Ｂ，２０Ｃの記憶部の構成を説明するための図
【発明を実施するための形態】
【００１２】
本発明の実施の形態に係る音声認識装置は、音声認識対象の候補の文字列、つまり「データベース（楽曲名や人名など）」が、どの装置に配置されているかを判断し、その判断結果に従い、どの装置の音声認識手段を使用するかを選択することができる。
【００１３】
以下、本発明の実施の形態における音声認識装置について図面を参照しながら説明する。図１は本発明の実施の形態における音声認識装置１０のブロック図である。図１に示す音声認識装置１０は音声認識部１０１と、接続部１０２と、制御部１０３と、記憶部１０４と、Ｇ２Ｐ変換部１０５と、音声認識辞書１０６と、マイク１０７とを備える。図１に示す接続機器２０は音声認識部２０１と、接続部２０２と、記憶部２０４とを備える。
【００１４】
音声認識装置１０の具体例としては、車載端末、ナビゲーションシステム、車載オーディオが挙げられる。接続機器２０の具体例としては、車内に持ち込んだスマートフォン、ポータブルオーディオ機器、電話機、等が挙げられる。音声認識装置１０は接続機器２０と有線接続又は無線通信のインターフェースにより接続される。有線接続のインターフェースには、たとえばＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）がある。無線通信のインターフェースには、たとえばＷｉＦｉ（ＷｉｒｅｌｅｓｓＦｉｄｅｌｉｔｙ）（登録商標）、およびＢｌｕｅｔｏｏｔｈ（登録商標）がある。
【００１５】
以下、本実施の形態では、音声認識装置１０は車載オーディオ、接続機器２０はポータブルオーディオ機器の場合を具体例として説明する。
【００１６】
接続機器２０は、音声認識部２０１と、接続部２０２と、記憶部２０４とを備える。記憶部２０４には、図２のように“楽曲データ（音楽ファイル）”およびこの楽曲データに付随する“楽曲情報データ”が蓄えられている。
【００１７】
図２に示す楽曲情報データは、この楽曲データに付随するメタデータである。楽曲情報データは、楽曲データの曲名の他に、例えばこの楽曲データが含まれるアルバム名、楽曲データを所有するアーティスト名、楽曲データのジャンル名を含んでも良い。
【００１８】
接続部２０２は、音声認識装置１０の接続部１０２に接続され、記憶部２０４が保持するデータを音声認識装置１０に送信し、音声認識装置１０の制御部１０３からの指示を受信する。接続部２０２は、音声認識装置１０の制御部１０３からの指示を音声認識部２０１へ出力する。音声認識部２０１は、内蔵する音声認識辞書を用いて音声認識装置１０の制御部１０３からの指示に基づき音声認識処理を行うことが可能である。
【００１９】
接続機器２０は接続部２０２を介して、“楽曲情報データ”を音声認識装置１０に提供可能な機器と、提供不可能な機器が存在する。その理由として、（１）接続機器２０の仕様による制限、（２）音声認識装置１０と接続機器２０間の接続のインターフェース仕様による制限が挙げられる。
【００２０】
以下、本実施の形態では、接続機器２０の“楽曲情報データ”を音声認識装置１０が取得している場合＜ケース１＞と、接続機器２０の“楽曲情報データ”を音声認識装置１０が取得していない場合＜ケース２＞のそれぞれのケースについて、音声認識装置１０の動作を説明する。
【００２１】
＜ケース１＞
ケース１として、接続機器２０の“楽曲情報データ”を音声認識装置１０が取得している場合の音声認識装置１０の各部の動作について説明する。
【００２２】
接続部１０２は接続機器２０と接続して情報（“楽曲情報データ”等）を送受信する。
【００２３】
記憶部１０４は接続機器２０より取得した「音声認識対象の文字データ」を記憶する。ここで、「音声認識対象の文字データ」の具体例としては、接続機器２０に蓄えられた“楽曲情報データ”が挙げられる。この“楽曲情報データ”には、楽曲名、アルバム名、アーティスト名、およびジャンル名などが含まれる。なお、制御部１０３は、音声認識装置１０が接続機器２０から“楽曲情報データ”を取得した際に、“楽曲情報データ”とこの“楽曲情報データ”の取得先である接続機器２０とを関連付けて記憶部１０４に保持する。
【００２４】
図３に、音声認識装置１０の記憶部１０４に蓄えられた“楽曲情報データ”の一例を示す。図３に示すように、記憶部１０４は、“楽曲データ（音楽ファイル）”以外に、楽曲情報データとして、曲名リスト（“曲名１”、“曲名２”、…“曲名Ｎ”）を含む。図３に示すように、本実施の形態では、音声認識装置１０の記憶部１０４に蓄えられた“楽曲情報データ”は、この“楽曲情報データ”の取得先である接続機器２０に関連付けられている。
【００２５】
Ｇ２Ｐ変換部１０５は、記憶部１０４に記憶された「音声認識対象の文字データ」から音声認識処理用の音素への変換を行う。これは一般に「Ｇｒａｐｈｅｍｅ：文字もしくは書記素」から「Ｐｈｏｎｅｍｅ：音素」へ変換する処理であり、Ｇ２Ｐ（ＧｒａｐｈｅｍｅＴｏＰｈｏｎｅｍｅ）変換と呼ばれる。
【００２６】
音声認識辞書１０６は、音声認識処理における辞書や文法を記述したものであり、基本的にはこの辞書に記載されている内容が認識可能な語彙を決定する。また、音声認識辞書１０６は、音声認識装置１０が動作中に動的に変更することも可能である。これはＧ２Ｐ変換する元となる文字列群が得られれば、その文字列群をＧ２Ｐ変換して音声認識辞書１０６を動的に変更して認識対象の語彙を変更することで実現できる。
【００２７】
例えば“楽曲情報データ”を取得してＧ２Ｐ変換済の場合には、音声認識辞書１０６は、図４に示すように固定コマンドの一例として“ＰｌａｙＭｕｓｉｃ”、“Ｓｔｏｐ”、“Ｐａｕｓｅ”という語彙を保持する。また、音声認識辞書１０６は、これら固定コマンドに加えて、可変コマンド、つまり接続機器２０から取得した情報に基づく文字データである曲名リストの“曲名１”、“曲名２”、…“曲名Ｎ”という語彙を含んで良い。ここでＮは数字であり、昨今のポータブルオーディオ機器であれば数千から数万になる場合もある。
【００２８】
音声認識部１０１は、音声認識辞書１０６に記述された辞書や文法に基づき、音声認識処理を行う。つまり、音声認識部１０１は、音声認識辞書１０６に記述された語彙のうち、マイク１０７より取り込んだ音声と良くマッチする語彙をユーザが発話した音声だと判定すると、この語彙が発話されたと見做して音声認識処理を行う。例えば、音声認識部１０１は、音声認識辞書１０６に“ＰｌａｙＭｕｓｉｃ”、“Ｓｔｏｐ”、“Ｐａｕｓｅ”という語彙に相当する内容が登録されている場合には、ユーザが発話した音声とこれらの登録内容とのマッチング処理により、良くマッチする語彙を選出する。そして、音声認識部１０１は、選出した語彙が発話されたと見做して音声認識処理を行う。
【００２９】
制御部１０３は、接続機器２０に記憶された“楽曲情報データ”が接続部１０２を介して記憶部１０４に転送され蓄積されているか否かを判断する。制御部１０３は、音声認識装置１０が接続機器２０から“楽曲情報データ”を取得していると判断した場合には、マイク１０７より取り込んだ音声を音声認識部１０１にルーティングもしくは転送する。制御部１０３は、この転送又はルーティングされた音声に基づき音声認識処理を実施するように音声認識部１０１に指示する。なお、制御部１０３は、音声認識装置１０が接続機器２０から“楽曲情報データ”を取得した際に、“楽曲情報データ”とこの“楽曲情報データ”の取得先である接続機器２０とを関連付けて記憶部１０４に保持する。
【００３０】
なお、ケース１において、接続機器２０に記憶された“楽曲情報データ”が記憶部１０４に転送され蓄積されているか否かの判断の代わりに、制御部１０３は、音声認識辞書１０６に接続機器２０の“楽曲情報データ”相当の語彙が追加されているか否かで判断しても良い。
【００３１】
＜ケース２＞
ケース２として、接続機器２０の“楽曲情報データ”を音声認識装置１０が取得していない場合の音声認識装置１０の各部の動作について説明する。この場合、音声認識装置１０は、接続部１０２が接続機器２０と接続しているものの、接続機器２０から楽曲情報データ”を取得できないものとする。つまり、接続機器２０は、接続部２０２を介して、“楽曲情報データ”を音声認識装置１０に提供不可能な機器であるとする。
【００３２】
図５は、ケース２における記憶部１０４の概念図である。上述のように音声認識装置１０は、接続機器２０から楽曲情報データ”を取得できない。そのため、記憶部１０４は、図５に示すように、楽曲データに曲名リストが無い状態となる。
【００３３】
Ｇ２Ｐ変換部１０５は、記憶部１０４に記憶された「音声認識対象の文字データ」から音声認識処理用の音素への変換を行う。つまり、Ｇ２Ｐ変換部１０５は、記憶部１０４に記憶した文字データを変換するが、元となる文字データ（“楽曲情報データ”）が記憶部１０４に無い（空集合）ために、その結果作成される音素も無い（空集合）ものとなる。
【００３４】
音声認識辞書１０６は、その結果、例えば図６に示すように、固定コマンドの一例として“ＰｌａｙＭｕｓｉｃ”、“Ｓｔｏｐ”、“Ｐａｕｓｅ”という語彙を保持するが、動的に変更される可変コマンドの一例として“楽曲情報データ”に基づく語彙（例えば、曲名リスト）を保持しない。
【００３５】
制御部１０３は、接続機器２０に記憶された“楽曲情報データ”が接続部１０２を介して記憶部１０４に転送され蓄積されているか否かを判断する。制御部１０３は、音声認識装置１０が接続機器２０から“楽曲情報データ”を未取得と判断した場合には、制御部１０３は、マイク１０７より取り込んだ音声を、自装置の音声認識部１０１ではなく、接続機器２０の音声認識部２０１へとルーティングもしくは転送し、接続機器２０の音声認識部２０１で音声認識処理を実施するように制御する。
【００３６】
ここで、接続機器２０の音声認識部２０１の動作について説明する。音声認識部２０１は、制御部１０３の制御に基づき、音声認識装置１０のマイク１０７から転送又はルーティングされた音声について、音声認識処理を行う。つまり、音声認識部２０１は、内蔵する音声認識辞書に記述された語彙のうち、音声認識装置１０のマイク１０７から取り込んだ音声と良くマッチする語彙をユーザが発話した音声だと判定すると、この語彙が発話されたと見做して音声認識処理を行う。例えば、音声認識部２０１は、内蔵する音声認識辞書に“ＰｌａｙＭｕｓｉｃ”、“Ｓｔｏｐ”、“Ｐａｕｓｅ”という語彙に相当する内容が登録されている場合には、ユーザが発話した音声とこれらの登録内容とのマッチング処理により、良くマッチする語彙を選出する。そして、音声認識部２０１は、選出した語彙が発話されたと見做して音声認識処理を行う。
【００３７】
なお、ケース２においても、接続機器２０に記憶された“楽曲情報データ”が記憶部１０４に転送され蓄積されているか否かの判断の代わりに、制御部１０３は、音声認識辞書１０６に接続機器２０の“楽曲情報データ”相当の語彙が追加されているか否かで判断することができる。
【００３８】
以上のように、本実施の形態に係る音声認識装置１０によれば、接続機器２０から文字データを取得しているか否かを判断し、その判断結果に基いてマイク１０７より取り込んだ音声を音声認識部１０１で認識させるか否かを制御する制御部１０３を備える。この構成により、本実施の形態に係る音声認識装置１０は、同じ使用用途（例えば、再生する楽曲の選択）であったとしても、音声認識対象の候補の文字列の配置に従い、使用したい音声認識部を使い分けることができる。したがって、本実施の形態に係る音声認識装置１０は、どの装置の音声認識部を使用するかを選択することができる。
【００３９】
なお、本実施の形態においては「音声認識対象の文字データ」の一例として“楽曲情報データ”として“曲名”を具体例にして説明したが曲名に限定されるものではない。例えばアルバム名、アーティスト名、ジャンル名、等でも良い。
【００４０】
なお、本実施の形態においては「音声認識対象の文字データ」の一例として“楽曲情報データ”を取り上げたが、文字データ楽曲情報データに限定されるものではないことは明らかである。例えば「音声認識対象の文字データ」を“電話帳データ”とすることにより、接続機器２０が電話機やスマートフォンの場合に、“人名”や“電話番号”を対象とした音声認識を実施する際に容易に適用できる。さらに例えば「音声認識対象の文字データ」を“地名データ”とすることにより、接続機器２０が地名データを含む機器である場合などでも応用可能である。
【００４１】
電話帳データは、“名称（名前）”のデータと、この“名称（名前）のデータ”に付随する少なくとも１つ以上の電話番号情報データを含んで良い。電話番号情報データは、この名称（名前）に紐付けられた少なくとも１つ以上の電話番号の属性情報（携帯/仕事/家庭/その他）などの情報を含んで良い。なお、電話帳データに含まれる“名称”のデータとは、人名、会社名、ニックネーム等の文字列のデータである。また、「音声認識対象の文字データ」としては、この“名称”のデータが用いられるのが通常である。
【００４２】
なお、本実施の形態においては、音声認識辞書１０６として、固定コマンドを元からある部分、可変コマンドを接続機器２０から取得した情報に基づく部分として説明したが、これに限られるものではない。図７に音声認識辞書１０６の構成を示す他の例を示す。図７に示すように、例えば音声認識装置１０自身が音楽データを保有している場合は、音声認識辞書１０６は、固定コマンドとして、“ＰｌａｙＭｕｓｉｃ”、“Ｓｔｏｐ”、“Ｐａｕｓｅ”という語彙以外に、可変コマンドとして、接続機器２０の楽曲情報データに基づく曲名リスト（曲名１、曲名２、…、曲名Ｎ）および音声認識装置１０自身が保持する楽曲情報データに基づく、曲名リスト（曲名Ａ、曲名Ｂ、…、曲名Ｚ）により構成することも可能である。
【００４３】
なお、本実施の形態において、音声認識装置１０と接続機器２０間の接続のインターフェースは、特に限定されるものではなく、また、複数のインターフェースを複数種類混在させることも可能である。さらに情報の種類も混在させることが可能である。以下、図８を参照して、複数の接続機器２０と本実施の形態に係る音声認識装置１０とが接続された場合を例に説明する。
【００４４】
なお、本実施の形態において、音声認識装置１０は、音声を外部から取り込む手段として、マイク１０７を備えるが、これにかぎらない。音声認識装置１０は、音声を外部から取得するデバイスであればマイク１０７の代わりに用いることができる。
【００４５】
（変形例）
図８は、本実施の形態における変形例を示すブロック図である。以下、図８に示す複数の接続機器２０を、それぞれ接続機器２０Ａ、接続機器２０Ｂ、接続機器２０Ｃと称し、互いに区別するが、これら接続機器２０Ａ，２０Ｂ，２０Ｃの構成は、記憶部２０４Ａ，２０４Ｂ，２０４Ｃ以外、図１に示す接続機器２０と同じである。
【００４６】
図８に示すように、接続機器２０Ａは、音声認識部２０１と、接続部２０２と、記憶部２０４Ａとを備える。同様に、接続機器２０Ｂは、音声認識部２０１と、接続部２０２と、記憶部２０４Ｂとを備え、接続機器２０Ｃは、音声認識部２０１と、接続部２０２と、記憶部２０４Ｃとを備える。これら接続機器２０Ａ，２０Ｂ，２０Ｃの音声認識部２０１、接続部２０２の動作は、上述した接続機器２０の音声認識部２０１、接続部２０２と同じであるため、詳細な説明を省略する。
【００４７】
図９を参照して、各接続機器２０Ａ，２０Ｂ，２０Ｃの記憶部の構成を説明する。図９は各接続機器２０Ａ，２０Ｂ，２０Ｃの記憶部の構成を説明するための図である。図９では、説明のため、接続機器２０Ａ，２０Ｂ，２０Ｃの構成を一部省略し、記憶部２０４Ａ，２０４Ｂ，２０４Ｃの構成のみを示している。
【００４８】
接続機器２０Ａの記憶部２０４Ａは、楽曲データに加え、「音声認識対象の文字データ」となる情報である“楽曲情報データＡ”を保持する。この“楽曲情報データＡ”には、この楽曲情報データＡに基づく曲名リスト（曲名１、曲名２、…、曲名Ｎ）が含まれる。
【００４９】
接続機器２０Ｂの記憶部２０４Ｂは、楽曲データに加え、「音声認識対象の文字データ」となる情報である“楽曲情報データＢ”を保持する。この“楽曲情報データＢ”には、この楽曲情報データＢに基づく曲名リスト（曲名Ａ、曲名Ｂ、…、曲名Ｚ）が含まれる。
【００５０】
接続機器２０Ｃの記憶部２０４Ｃは、電話番号のデータに加え、「音声認識対象の文字データ」となる情報である“電話帳データＣ”を保持する。この“電話帳データＣ”には、この電話帳データＣに基づく人名リスト（人名α、人名β、…、人名ω）が含まれる。
【００５１】
接続部１０２は、各接続機器２０Ａ，２０Ｂ，２０Ｃから「音声認識対象の文字データ」となる情報（“楽曲情報データＡ”、“電話帳データＣ”）を受信し、制御部１０３からの指示を各接続機器２０Ａ，２０Ｂ，２０Ｃに送信する。
【００５２】
以下、音声認識装置１０は、接続機器２０Ａから“楽曲情報データＡ”を取得済であり、接続機器２０Ｃから“電話帳データＣ”を取得済みであるとする。さらに、音声認識装置１０は、接続機器２０Ｂからは“楽曲情報データＢ”を未取得であるとする。そのため、音声認識装置１０の記憶部１０４は、“楽曲情報データＡ”および“電話帳データＣ”を保持する（図９参照）。言い換えると、上述した＜ケース１＞の接続機器２０に対応するのが接続機器２０Ａ，２０Ｃであり、上述した＜ケース２＞の接続機器２０に対応するのが接続機器２０Ｂである。なお、記憶部１０４には、“楽曲情報データＡ”とこの“楽曲情報データＡ”の取得先である接続機器２０Ａとを関連付けて保持されている。同様に、記憶部１０４には、“電話帳データＣ”とこの“電話帳データＣ”の取得先である接続機器２０Ｃとを関連付けて保持されている。
【００５３】
Ｇ２Ｐ変換部１０５は、記憶部１０４に記憶された「音声認識対象の文字データ」から音声認識処理用の音素への変換を行う。
【００５４】
音声認識辞書１０６は、固定コマンドとして、“ＰｌａｙＭｕｓｉｃ”、“Ｓｔｏｐ”、“Ｐａｕｓｅ”という語彙以外に、電話機能に関する“ｃａｌｌ”という語彙を保持する。さらに、音声認識装置１０の音声認識辞書１０６は、可変コマンドとして、接続機器２０Ａの楽曲情報データＡに基づく曲名リスト（曲名１、曲名２、…、曲名Ｎ）および接続機器２０Ｃの電話帳データＣに基づく人名リスト（人名α、人名β、…、人名ω）を保持する。
【００５５】
音声認識部１０１は、後述する制御部１０３の指示に基づき、音声認識辞書１０６に記述された語彙のうち、マイク１０７より取り込んだ音声と良くマッチする語彙をユーザが発話した音声だと判定すると、この語彙が発話されたと見做して音声認識処理を行う。
【００５６】
制御部１０３は、各接続機器２０Ａ，２０Ｂ，２０Ｃに保持された“楽曲情報データ”又は“電話帳データ”が接続部１０２を介して記憶部１０４に転送されているか否かを判断する。制御部１０３は、音声認識装置１０が各接続機器２０Ａ，２０Ｂ，２０Ｃのいずれかの接続機器から“楽曲情報データ”又は“電話帳データ”を取得していると判断した場合には、マイク１０７より取り込んだ音声を音声認識部１０１にルーティングもしくは転送する。制御部１０３は、この転送又はルーティングされた音声に基づき音声認識処理を実施するように音声認識部１０１に指示する。
なお、制御部１０３は、音声認識装置１０が接続機器２０Ａから“楽曲情報データＡ”を取得した際に、“楽曲情報データＡ”とこの“楽曲情報データＡ”の取得先である接続機器２０Ａとを関連付けて記憶部１０４に保持する。同様に、制御部１０３は、音声認識装置１０が接続機器２０Ｃから“電話帳データＣ”を取得した際に、“電話帳データＣ”とこの“電話帳データＣ”の取得先である接続機器２０Ｃとを関連付けて記憶部１０４に保持する。
【００５７】
この変形例では、記憶部１０４は、“楽曲情報データＡ”に関する「音声認識対象の文字データ」、つまり曲名リスト（曲名１，曲名２，…，曲名Ｎ）を保持している（図９参照）。したがって、制御部１０３は、音声認識装置１０が接続機器２０Ａから“楽曲情報データ”を取得していると判断し、マイク１０７より取り込んだ音声を音声認識部１０１にルーティングもしくは転送する。そして、制御部１０３は、この転送又はルーティングされた音声に基づき音声認識処理を実施するように音声認識部１０１に指示する。
【００５８】
また、この変形例では、記憶部１０４は、“電話帳データＣ”に関する「音声認識対象の文字データ」、つまり人名リスト（人名α，人名β，…，人名ω）を保持している（図９参照）。したがって、制御部１０３は、音声認識装置１０が接続機器２０Ｃから“電話帳データＣ”を取得していると判断し、マイク１０７より取り込んだ音声を音声認識部１０１にルーティングもしくは転送する。そして、制御部１０３は、この転送又はルーティングされた音声に基づき音声認識処理を実施するように音声認識部１０１に指示する。
【００５９】
この変形例では、記憶部１０４は、“楽曲情報データＢ”に関する「音声認識対象の文字データ」、つまり曲名リスト（曲名Ａ，曲名Ｂ，…，曲名Ｚ）を保持していない（図９参照）。したがって、制御部１０３は、接続機器２０Ｂに記憶された“楽曲情報データＢ”が接続部１０２を介して記憶部１０４に転送され蓄積されているか否かを判断する。制御部１０３は、音声認識装置１０が接続機器２０Ｂから“楽曲情報データＢ”を未取得と判断し、制御部１０３は、マイク１０７より取り込んだ音声を、接続機器２０Ｂの音声認識部２０１へとルーティングもしくは転送し、接続機器２０Ｂの音声認識部２０１で音声認識処理を実施するように制御する。
【００６０】
なお、上記実施の形態およびその変形例において、マイク１０７より取り込んだ音声を接続機器２０へとルーティングもしくは転送する場合には、実際には接続機器２０からさらにサーバなどへの遠隔装置で音声認識を実施する形態も考えられるが、いずれも本発明の基本的な発想の範囲内であることは言うまでもない。
【産業上の利用可能性】
【００６１】
本発明の音声認識装置は、同じ使用用途（例．再生する楽曲の選択）であったとしても、音声認識対象の候補の文字列の配置に従い、使用したい音声認識部を使い分けることが出来るという効果を有し、ナビゲーション装置や車載用オーディオ装置などの車載端末等として有用である。
【符号の説明】
【００６２】
１０音声認識装置
１０１音声認識部
１０２接続部
１０３制御部
１０４記憶部
１０５Ｇ２Ｐ変換部
１０６音声認識辞書
１０７マイク
２０接続機器
２０１音声認識部
２０２接続部
２０４記憶部
２０Ａ，２０Ｂ，２０Ｃ接続機器

【特許請求の範囲】
【請求項１】
一又は複数の接続機器と接続されて音声認識を行う音声認識装置であって、
音声を取り込むマイクと、
前記一又は複数の接続機器と接続するための接続部と、
前記一又は複数の接続機器より取得した音声認識対象の文字データを記憶する記憶部と、
前記記憶部の音声認識対象の文字データから音声認識処理用の音素への変換を行う変換部と、
前記変換部が変換した音素を含み音声認識に利用される音声認識辞書と、
前記音声認識辞書と前記マイクより取り込んだ音声を利用して音声認識を実施する音声認識部と、
前記一又は複数の接続機器から前記音声認識対象の文字データを取得しているか否かを判断し、その判断結果に基づいて前記マイクより取り込んだ音声を前記音声認識部で認識させるか否かを制御する制御部とを備える、
音声認識装置。
【請求項２】
前記制御部は、
前記一又は複数の接続機器から前記音声認識対象の文字データを取得している場合には、前記マイクより取り込んだ音声を自装置の音声認識部で認識させ、
前記一又は複数の接続機器から前記音声認識対象の文字データを取得していない場合には、前記マイクより取り込んだ音声を前記接続部を介して当該前記一又は複数の接続機器に送信し、音声認識を実施させる、
請求項１に記載の音声認識装置。
【請求項３】
前記音声認識対象の文字データは、楽曲のデータに付属し、前記楽曲の曲名を少なくとも含む楽曲情報データである、
請求項１又は２に記載の音声認識装置。
【請求項４】
前記音声認識対象の文字データは、名称のデータに付属し、前記名称のデータに紐付けられた少なくとも１つ以上の電話番号の属性情報を含む電話番号情報データである、
請求項１又は２に記載の音声認識装置。

【図１】