説明

音声認識装置

【課題】同じシナリオであっても使用したい音声認識部を使い分けることが出来る音声認識装置を提供すること。
【解決手段】本発明の音声認識装置は、一又は複数の接続機器と接続されて音声認識を行う音声認識装置であって、音声を取り込むマイクと、前記一又は複数の接続機器と接続するための接続部と、前記一又は複数の接続機器より取得した音声認識対象の文字データを記憶する記憶部と、前記記憶部の音声認識対象の文字データから音声認識処理用の音素への変換を行う変換部と、前記変換部が変換した音素を含み音声認識に利用される音声認識辞書と、前記音声認識辞書と前記マイクより取り込んだ音声を利用して音声認識を実施する音声認識部と、前記一又は複数の接続機器から前記音声認識対象の文字データを取得しているか否かを判断し、その判断結果に基づいて前記マイクより取り込んだ音声を前記音声認識部で認識させるか否かを制御する制御部とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声で装置を制御する音声認識技術を利用した音声認識装置に関するものである。
【背景技術】
【0002】
装置を操作する方法として、人間が発話した音声を認識してコマンド等に変換することで操作を実現する装置が一般に普及している。特に車載環境においては、ドライバーが運転しながら車載端末を操作する方法として有効である。
【0003】
一方、車載端末のような組込みソフトウェアの環境においては、メモリおよびCPUパワー等の資源が制約される傾向がある。そのため、あらかじめ音声で認識させる対象の“コマンド”および認識対象の候補を、任意の文字列ではなく、ある特定のパターンまたは集合に限定しておくことが行われる。こうすることでメモリおよびCPUパワー等の資源を抑制して装置を安価に実現することが可能となる。
【0004】
また音声認識の対話型システムにおいては、認識結果を早く提示すること、すなわちレスポンスを早くすることも重要である。限られた資源でレスポンスを向上する為には、認識対象の候補を限定することは非常に有効である。
【0005】
従来の音声認識装置として、音声対話シナリオに記述された選択子に従い、「端末(自分自身)の音声認識部」又は「センター(通信回線を介して接続された遠隔装置)の音声認識部」のいずれかを選択する音声対話制御部を備え、音声認識の処理の難易度に応じて音声認識部を使い分けることが可能な音声対話システムが開示されている(例えば特許文献1参照)。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2005−37662号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、従来の音声対話システムにおいては、例えば同じシナリオ“再生する楽曲の選択”の場合に、使用する音声認識部を使い分けることが出来ない場合がある。シナリオに使用する音声認識部がどれかを記述する方式では、各々のシナリオに対して音声認識部を記述するため、1つのシナリオに対して、複数の音声認識部を柔軟に選択することが出来ない。例えば楽曲名には自装置の認識部を使用、地名にはセンターの認識部を使用、とシナリオに記載してある場合、楽曲名は常に自装置の認識部を使用することになる。
【0008】
本発明の目的は、同じ使用用途(例.再生する楽曲の選択)でも、音声認識対象の候補の文字列の配置に従い、使用したい音声認識部を使い分けることが出来る音声認識装置を提供することである。
【課題を解決するための手段】
【0009】
本発明の一態様として、音声認識装置は、一又は複数の接続機器と接続されて音声認識を行う音声認識装置であって、音声を取り込むマイクと、前記一又は複数の接続機器と接続するための接続部と、前記一又は複数の接続機器より取得した音声認識対象の文字データを記憶する記憶部と、前記記憶部の音声認識対象の文字データから音声認識処理用の音素への変換を行う変換部と、前記変換部が変換した音素を含み音声認識に利用される音声認識辞書と、前記音声認識辞書と前記マイクより取り込んだ音声を利用して音声認識を実施する音声認識部と、前記一又は複数の接続機器から前記音声認識対象の文字データを取得しているか否かを判断し、その判断結果に基づいて前記マイクより取り込んだ音声を前記音声認識部で認識させるか否かを制御する制御部とを備える。
【発明の効果】
【0010】
本発明によれば、同じ使用用途(例.再生する楽曲の選択)でも、音声認識対象の候補の文字列の配置に従い、使用したい音声認識部を使い分けることが出来る。
【図面の簡単な説明】
【0011】
【図1】本発明の実施の形態における音声認識装置10および接続機器20のブロック図
【図2】接続機器20の記憶部204に蓄積されたデータの一例を示す図
【図3】音声認識装置10の記憶部104に蓄積されたデータの一例(1)
【図4】音声認識装置10の音声認識辞書106の一例(1)
【図5】音声認識装置10の記憶部104に蓄積されたデータの一例(2)
【図6】音声認識装置10の音声認識辞書106の一例(2)
【図7】音声認識装置10の音声認識辞書106の一例(3)
【図8】本実施の形態における変形例を示すブロック図
【図9】各接続機器20A,20B,20Cの記憶部の構成を説明するための図
【発明を実施するための形態】
【0012】
本発明の実施の形態に係る音声認識装置は、音声認識対象の候補の文字列、つまり「データベース(楽曲名や人名など)」が、どの装置に配置されているかを判断し、その判断結果に従い、どの装置の音声認識手段を使用するかを選択することができる。
【0013】
以下、本発明の実施の形態における音声認識装置について図面を参照しながら説明する。図1は本発明の実施の形態における音声認識装置10のブロック図である。図1に示す音声認識装置10は音声認識部101と、接続部102と、制御部103と、記憶部104と、G2P変換部105と、音声認識辞書106と、マイク107とを備える。図1に示す接続機器20は音声認識部201と、接続部202と、記憶部204とを備える。
【0014】
音声認識装置10の具体例としては、車載端末、ナビゲーションシステム、車載オーディオが挙げられる。接続機器20の具体例としては、車内に持ち込んだスマートフォン、ポータブルオーディオ機器、電話機、等が挙げられる。音声認識装置10は接続機器20と有線接続又は無線通信のインターフェースにより接続される。有線接続のインターフェースには、たとえばUSB(Universal Serial Bus)がある。無線通信のインターフェースには、たとえばWiFi(Wireless Fidelity)(登録商標)、およびBluetooth(登録商標)がある。
【0015】
以下、本実施の形態では、音声認識装置10は車載オーディオ、接続機器20はポータブルオーディオ機器の場合を具体例として説明する。
【0016】
接続機器20は、音声認識部201と、接続部202と、記憶部204とを備える。記憶部204には、図2のように“楽曲データ(音楽ファイル)”およびこの楽曲データに付随する“楽曲情報データ”が蓄えられている。
【0017】
図2に示す楽曲情報データは、この楽曲データに付随するメタデータである。楽曲情報データは、楽曲データの曲名の他に、例えばこの楽曲データが含まれるアルバム名、楽曲データを所有するアーティスト名、楽曲データのジャンル名を含んでも良い。
【0018】
接続部202は、音声認識装置10の接続部102に接続され、記憶部204が保持するデータを音声認識装置10に送信し、音声認識装置10の制御部103からの指示を受信する。接続部202は、音声認識装置10の制御部103からの指示を音声認識部201へ出力する。音声認識部201は、内蔵する音声認識辞書を用いて音声認識装置10の制御部103からの指示に基づき音声認識処理を行うことが可能である。
【0019】
接続機器20は接続部202を介して、“楽曲情報データ”を音声認識装置10に提供可能な機器と、提供不可能な機器が存在する。その理由として、(1)接続機器20の仕様による制限、(2)音声認識装置10と接続機器20間の接続のインターフェース仕様による制限が挙げられる。
【0020】
以下、本実施の形態では、接続機器20の“楽曲情報データ”を音声認識装置10が取得している場合<ケース1>と、接続機器20の“楽曲情報データ”を音声認識装置10が取得していない場合<ケース2>のそれぞれのケースについて、音声認識装置10の動作を説明する。
【0021】
<ケース1>
ケース1として、接続機器20の“楽曲情報データ”を音声認識装置10が取得している場合の音声認識装置10の各部の動作について説明する。
【0022】
接続部102は接続機器20と接続して情報(“楽曲情報データ”等)を送受信する。
【0023】
記憶部104は接続機器20より取得した「音声認識対象の文字データ」を記憶する。ここで、「音声認識対象の文字データ」の具体例としては、接続機器20に蓄えられた“楽曲情報データ”が挙げられる。この“楽曲情報データ”には、楽曲名、アルバム名、アーティスト名、およびジャンル名などが含まれる。なお、制御部103は、音声認識装置10が接続機器20から“楽曲情報データ”を取得した際に、“楽曲情報データ”とこの“楽曲情報データ”の取得先である接続機器20とを関連付けて記憶部104に保持する。
【0024】
図3に、音声認識装置10の記憶部104に蓄えられた“楽曲情報データ”の一例を示す。図3に示すように、記憶部104は、“楽曲データ(音楽ファイル)”以外に、楽曲情報データとして、曲名リスト(“曲名1”、“曲名2”、…“曲名N”)を含む。図3に示すように、本実施の形態では、音声認識装置10の記憶部104に蓄えられた“楽曲情報データ”は、この“楽曲情報データ”の取得先である接続機器20に関連付けられている。
【0025】
G2P変換部105は、記憶部104に記憶された「音声認識対象の文字データ」から音声認識処理用の音素への変換を行う。これは一般に「Grapheme:文字もしくは書記素」から「Phoneme:音素」へ変換する処理であり、G2P(Grapheme To Phoneme)変換と呼ばれる。
【0026】
音声認識辞書106は、音声認識処理における辞書や文法を記述したものであり、基本的にはこの辞書に記載されている内容が認識可能な語彙を決定する。また、音声認識辞書106は、音声認識装置10が動作中に動的に変更することも可能である。これはG2P変換する元となる文字列群が得られれば、その文字列群をG2P変換して音声認識辞書106を動的に変更して認識対象の語彙を変更することで実現できる。
【0027】
例えば“楽曲情報データ”を取得してG2P変換済の場合には、音声認識辞書106は、図4に示すように固定コマンドの一例として“Play Music”、“Stop”、“Pause”という語彙を保持する。また、音声認識辞書106は、これら固定コマンドに加えて、可変コマンド、つまり接続機器20から取得した情報に基づく文字データである曲名リストの“曲名1”、“曲名2”、…“曲名N”という語彙を含んで良い。ここでNは数字であり、昨今のポータブルオーディオ機器であれば数千から数万になる場合もある。
【0028】
音声認識部101は、音声認識辞書106に記述された辞書や文法に基づき、音声認識処理を行う。つまり、音声認識部101は、音声認識辞書106に記述された語彙のうち、マイク107より取り込んだ音声と良くマッチする語彙をユーザが発話した音声だと判定すると、この語彙が発話されたと見做して音声認識処理を行う。例えば、音声認識部101は、音声認識辞書106に“Play Music”、“Stop”、“Pause”という語彙に相当する内容が登録されている場合には、ユーザが発話した音声とこれらの登録内容とのマッチング処理により、良くマッチする語彙を選出する。そして、音声認識部101は、選出した語彙が発話されたと見做して音声認識処理を行う。
【0029】
制御部103は、接続機器20に記憶された“楽曲情報データ”が接続部102を介して記憶部104に転送され蓄積されているか否かを判断する。制御部103は、音声認識装置10が接続機器20から“楽曲情報データ”を取得していると判断した場合には、マイク107より取り込んだ音声を音声認識部101にルーティングもしくは転送する。制御部103は、この転送又はルーティングされた音声に基づき音声認識処理を実施するように音声認識部101に指示する。なお、制御部103は、音声認識装置10が接続機器20から“楽曲情報データ”を取得した際に、“楽曲情報データ”とこの“楽曲情報データ”の取得先である接続機器20とを関連付けて記憶部104に保持する。
【0030】
なお、ケース1において、接続機器20に記憶された“楽曲情報データ”が記憶部104に転送され蓄積されているか否かの判断の代わりに、制御部103は、音声認識辞書106に接続機器20の“楽曲情報データ”相当の語彙が追加されているか否かで判断しても良い。
【0031】
<ケース2>
ケース2として、接続機器20の“楽曲情報データ”を音声認識装置10が取得していない場合の音声認識装置10の各部の動作について説明する。この場合、音声認識装置10は、接続部102が接続機器20と接続しているものの、接続機器20から楽曲情報データ”を取得できないものとする。つまり、接続機器20は、接続部202を介して、“楽曲情報データ”を音声認識装置10に提供不可能な機器であるとする。
【0032】
図5は、ケース2における記憶部104の概念図である。上述のように音声認識装置10は、接続機器20から楽曲情報データ”を取得できない。そのため、記憶部104は、図5に示すように、楽曲データに曲名リストが無い状態となる。
【0033】
G2P変換部105は、記憶部104に記憶された「音声認識対象の文字データ」から音声認識処理用の音素への変換を行う。つまり、G2P変換部105は、記憶部104に記憶した文字データを変換するが、元となる文字データ(“楽曲情報データ”)が記憶部104に無い(空集合)ために、その結果作成される音素も無い(空集合)ものとなる。
【0034】
音声認識辞書106は、その結果、例えば図6に示すように、固定コマンドの一例として“Play Music”、“Stop”、“Pause”という語彙を保持するが、動的に変更される可変コマンドの一例として“楽曲情報データ”に基づく語彙(例えば、曲名リスト)を保持しない。
【0035】
制御部103は、接続機器20に記憶された“楽曲情報データ”が接続部102を介して記憶部104に転送され蓄積されているか否かを判断する。制御部103は、音声認識装置10が接続機器20から“楽曲情報データ”を未取得と判断した場合には、制御部103は、マイク107より取り込んだ音声を、自装置の音声認識部101ではなく、接続機器20の音声認識部201へとルーティングもしくは転送し、接続機器20の音声認識部201で音声認識処理を実施するように制御する。
【0036】
ここで、接続機器20の音声認識部201の動作について説明する。音声認識部201は、制御部103の制御に基づき、音声認識装置10のマイク107から転送又はルーティングされた音声について、音声認識処理を行う。つまり、音声認識部201は、内蔵する音声認識辞書に記述された語彙のうち、音声認識装置10のマイク107から取り込んだ音声と良くマッチする語彙をユーザが発話した音声だと判定すると、この語彙が発話されたと見做して音声認識処理を行う。例えば、音声認識部201は、内蔵する音声認識辞書に“Play Music”、“Stop”、“Pause”という語彙に相当する内容が登録されている場合には、ユーザが発話した音声とこれらの登録内容とのマッチング処理により、良くマッチする語彙を選出する。そして、音声認識部201は、選出した語彙が発話されたと見做して音声認識処理を行う。
【0037】
なお、ケース2においても、接続機器20に記憶された“楽曲情報データ”が記憶部104に転送され蓄積されているか否かの判断の代わりに、制御部103は、音声認識辞書106に接続機器20の“楽曲情報データ”相当の語彙が追加されているか否かで判断することができる。
【0038】
以上のように、本実施の形態に係る音声認識装置10によれば、接続機器20から文字データを取得しているか否かを判断し、その判断結果に基いてマイク107より取り込んだ音声を音声認識部101で認識させるか否かを制御する制御部103を備える。この構成により、本実施の形態に係る音声認識装置10は、同じ使用用途(例えば、再生する楽曲の選択)であったとしても、音声認識対象の候補の文字列の配置に従い、使用したい音声認識部を使い分けることができる。したがって、本実施の形態に係る音声認識装置10は、どの装置の音声認識部を使用するかを選択することができる。
【0039】
なお、本実施の形態においては「音声認識対象の文字データ」の一例として“楽曲情報データ”として“曲名”を具体例にして説明したが曲名に限定されるものではない。例えばアルバム名、アーティスト名、ジャンル名、等でも良い。
【0040】
なお、本実施の形態においては「音声認識対象の文字データ」の一例として“楽曲情報データ”を取り上げたが、文字データ楽曲情報データに限定されるものではないことは明らかである。例えば「音声認識対象の文字データ」を“電話帳データ”とすることにより、接続機器20が電話機やスマートフォンの場合に、“人名”や“電話番号”を対象とした音声認識を実施する際に容易に適用できる。さらに例えば「音声認識対象の文字データ」を“地名データ”とすることにより、接続機器20が地名データを含む機器である場合などでも応用可能である。
【0041】
電話帳データは、“名称(名前)”のデータと、この“名称(名前)のデータ”に付随する少なくとも1つ以上の電話番号情報データを含んで良い。電話番号情報データは、この名称(名前)に紐付けられた少なくとも1つ以上の電話番号の属性情報(携帯/仕事/家庭/その他)などの情報を含んで良い。なお、電話帳データに含まれる“名称”のデータとは、人名、会社名、ニックネーム等の文字列のデータである。また、「音声認識対象の文字データ」としては、この“名称”のデータが用いられるのが通常である。
【0042】
なお、本実施の形態においては、音声認識辞書106として、固定コマンドを元からある部分、可変コマンドを接続機器20から取得した情報に基づく部分として説明したが、これに限られるものではない。図7に音声認識辞書106の構成を示す他の例を示す。図7に示すように、例えば音声認識装置10自身が音楽データを保有している場合は、音声認識辞書106は、固定コマンドとして、“Play Music”、“Stop”、“Pause”という語彙以外に、可変コマンドとして、接続機器20の楽曲情報データに基づく曲名リスト(曲名1、曲名2、…、曲名N)および音声認識装置10自身が保持する楽曲情報データに基づく、曲名リスト(曲名A、曲名B、…、曲名Z)により構成することも可能である。
【0043】
なお、本実施の形態において、音声認識装置10と接続機器20間の接続のインターフェースは、特に限定されるものではなく、また、複数のインターフェースを複数種類混在させることも可能である。さらに情報の種類も混在させることが可能である。以下、図8を参照して、複数の接続機器20と本実施の形態に係る音声認識装置10とが接続された場合を例に説明する。
【0044】
なお、本実施の形態において、音声認識装置10は、音声を外部から取り込む手段として、マイク107を備えるが、これにかぎらない。音声認識装置10は、音声を外部から取得するデバイスであればマイク107の代わりに用いることができる。
【0045】
(変形例)
図8は、本実施の形態における変形例を示すブロック図である。以下、図8に示す複数の接続機器20を、それぞれ接続機器20A、接続機器20B、接続機器20Cと称し、互いに区別するが、これら接続機器20A,20B,20Cの構成は、記憶部204A,204B,204C以外、図1に示す接続機器20と同じである。
【0046】
図8に示すように、接続機器20Aは、音声認識部201と、接続部202と、記憶部204Aとを備える。同様に、接続機器20Bは、音声認識部201と、接続部202と、記憶部204Bとを備え、接続機器20Cは、音声認識部201と、接続部202と、記憶部204Cとを備える。これら接続機器20A,20B,20Cの音声認識部201、接続部202の動作は、上述した接続機器20の音声認識部201、接続部202と同じであるため、詳細な説明を省略する。
【0047】
図9を参照して、各接続機器20A,20B,20Cの記憶部の構成を説明する。図9は各接続機器20A,20B,20Cの記憶部の構成を説明するための図である。図9では、説明のため、接続機器20A,20B,20Cの構成を一部省略し、記憶部204A,204B,204Cの構成のみを示している。
【0048】
接続機器20Aの記憶部204Aは、楽曲データに加え、「音声認識対象の文字データ」となる情報である“楽曲情報データA”を保持する。この“楽曲情報データA”には、この楽曲情報データAに基づく曲名リスト(曲名1、曲名2、…、曲名N)が含まれる。
【0049】
接続機器20Bの記憶部204Bは、楽曲データに加え、「音声認識対象の文字データ」となる情報である“楽曲情報データB”を保持する。この“楽曲情報データB”には、この楽曲情報データBに基づく曲名リスト(曲名A、曲名B、…、曲名Z)が含まれる。
【0050】
接続機器20Cの記憶部204Cは、電話番号のデータに加え、「音声認識対象の文字データ」となる情報である“電話帳データC”を保持する。この“電話帳データC”には、この電話帳データCに基づく人名リスト(人名α、人名β、…、人名ω)が含まれる。
【0051】
接続部102は、各接続機器20A,20B,20Cから「音声認識対象の文字データ」となる情報(“楽曲情報データA”、“電話帳データC”)を受信し、制御部103からの指示を各接続機器20A,20B,20Cに送信する。
【0052】
以下、音声認識装置10は、接続機器20Aから“楽曲情報データA”を取得済であり、接続機器20Cから“電話帳データC”を取得済みであるとする。さらに、音声認識装置10は、接続機器20Bからは“楽曲情報データB”を未取得であるとする。そのため、音声認識装置10の記憶部104は、“楽曲情報データA”および“電話帳データC”を保持する(図9参照)。言い換えると、上述した<ケース1>の接続機器20に対応するのが接続機器20A,20Cであり、上述した<ケース2>の接続機器20に対応するのが接続機器20Bである。なお、記憶部104には、“楽曲情報データA”とこの“楽曲情報データA”の取得先である接続機器20Aとを関連付けて保持されている。同様に、記憶部104には、“電話帳データC”とこの“電話帳データC”の取得先である接続機器20Cとを関連付けて保持されている。
【0053】
G2P変換部105は、記憶部104に記憶された「音声認識対象の文字データ」から音声認識処理用の音素への変換を行う。
【0054】
音声認識辞書106は、固定コマンドとして、“Play Music”、“Stop”、“Pause”という語彙以外に、電話機能に関する“call”という語彙を保持する。さらに、音声認識装置10の音声認識辞書106は、可変コマンドとして、接続機器20Aの楽曲情報データAに基づく曲名リスト(曲名1、曲名2、…、曲名N)および接続機器20Cの電話帳データCに基づく人名リスト(人名α、人名β、…、人名ω)を保持する。
【0055】
音声認識部101は、後述する制御部103の指示に基づき、音声認識辞書106に記述された語彙のうち、マイク107より取り込んだ音声と良くマッチする語彙をユーザが発話した音声だと判定すると、この語彙が発話されたと見做して音声認識処理を行う。
【0056】
制御部103は、各接続機器20A,20B,20Cに保持された“楽曲情報データ”又は“電話帳データ”が接続部102を介して記憶部104に転送されているか否かを判断する。制御部103は、音声認識装置10が各接続機器20A,20B,20Cのいずれかの接続機器から“楽曲情報データ”又は“電話帳データ”を取得していると判断した場合には、マイク107より取り込んだ音声を音声認識部101にルーティングもしくは転送する。制御部103は、この転送又はルーティングされた音声に基づき音声認識処理を実施するように音声認識部101に指示する。
なお、制御部103は、音声認識装置10が接続機器20Aから“楽曲情報データA”を取得した際に、“楽曲情報データA”とこの“楽曲情報データA”の取得先である接続機器20Aとを関連付けて記憶部104に保持する。同様に、制御部103は、音声認識装置10が接続機器20Cから“電話帳データC”を取得した際に、“電話帳データC”とこの“電話帳データC”の取得先である接続機器20Cとを関連付けて記憶部104に保持する。
【0057】
この変形例では、記憶部104は、“楽曲情報データA”に関する「音声認識対象の文字データ」、つまり曲名リスト(曲名1,曲名2,…,曲名N)を保持している(図9参照)。したがって、制御部103は、音声認識装置10が接続機器20Aから“楽曲情報データ”を取得していると判断し、マイク107より取り込んだ音声を音声認識部101にルーティングもしくは転送する。そして、制御部103は、この転送又はルーティングされた音声に基づき音声認識処理を実施するように音声認識部101に指示する。
【0058】
また、この変形例では、記憶部104は、“電話帳データC”に関する「音声認識対象の文字データ」、つまり人名リスト(人名α,人名β,…,人名ω)を保持している(図9参照)。したがって、制御部103は、音声認識装置10が接続機器20Cから“電話帳データC”を取得していると判断し、マイク107より取り込んだ音声を音声認識部101にルーティングもしくは転送する。そして、制御部103は、この転送又はルーティングされた音声に基づき音声認識処理を実施するように音声認識部101に指示する。
【0059】
この変形例では、記憶部104は、“楽曲情報データB”に関する「音声認識対象の文字データ」、つまり曲名リスト(曲名A,曲名B,…,曲名Z)を保持していない(図9参照)。したがって、制御部103は、接続機器20Bに記憶された“楽曲情報データB”が接続部102を介して記憶部104に転送され蓄積されているか否かを判断する。制御部103は、音声認識装置10が接続機器20Bから“楽曲情報データB”を未取得と判断し、制御部103は、マイク107より取り込んだ音声を、接続機器20Bの音声認識部201へとルーティングもしくは転送し、接続機器20Bの音声認識部201で音声認識処理を実施するように制御する。
【0060】
なお、上記実施の形態およびその変形例において、マイク107より取り込んだ音声を接続機器20へとルーティングもしくは転送する場合には、実際には接続機器20からさらにサーバなどへの遠隔装置で音声認識を実施する形態も考えられるが、いずれも本発明の基本的な発想の範囲内であることは言うまでもない。
【産業上の利用可能性】
【0061】
本発明の音声認識装置は、同じ使用用途(例.再生する楽曲の選択)であったとしても、音声認識対象の候補の文字列の配置に従い、使用したい音声認識部を使い分けることが出来るという効果を有し、ナビゲーション装置や車載用オーディオ装置などの車載端末等として有用である。
【符号の説明】
【0062】
10 音声認識装置
101 音声認識部
102 接続部
103 制御部
104 記憶部
105 G2P変換部
106 音声認識辞書
107 マイク
20 接続機器
201 音声認識部
202 接続部
204 記憶部
20A,20B,20C 接続機器

【特許請求の範囲】
【請求項1】
一又は複数の接続機器と接続されて音声認識を行う音声認識装置であって、
音声を取り込むマイクと、
前記一又は複数の接続機器と接続するための接続部と、
前記一又は複数の接続機器より取得した音声認識対象の文字データを記憶する記憶部と、
前記記憶部の音声認識対象の文字データから音声認識処理用の音素への変換を行う変換部と、
前記変換部が変換した音素を含み音声認識に利用される音声認識辞書と、
前記音声認識辞書と前記マイクより取り込んだ音声を利用して音声認識を実施する音声認識部と、
前記一又は複数の接続機器から前記音声認識対象の文字データを取得しているか否かを判断し、その判断結果に基づいて前記マイクより取り込んだ音声を前記音声認識部で認識させるか否かを制御する制御部とを備える、
音声認識装置。
【請求項2】
前記制御部は、
前記一又は複数の接続機器から前記音声認識対象の文字データを取得している場合には、前記マイクより取り込んだ音声を自装置の音声認識部で認識させ、
前記一又は複数の接続機器から前記音声認識対象の文字データを取得していない場合には、前記マイクより取り込んだ音声を前記接続部を介して当該前記一又は複数の接続機器に送信し、音声認識を実施させる、
請求項1に記載の音声認識装置。
【請求項3】
前記音声認識対象の文字データは、楽曲のデータに付属し、前記楽曲の曲名を少なくとも含む楽曲情報データである、
請求項1又は2に記載の音声認識装置。
【請求項4】
前記音声認識対象の文字データは、名称のデータに付属し、前記名称のデータに紐付けられた少なくとも1つ以上の電話番号の属性情報を含む電話番号情報データである、
請求項1又は2に記載の音声認識装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2013−68665(P2013−68665A)
【公開日】平成25年4月18日(2013.4.18)
【国際特許分類】
【出願番号】特願2011−205165(P2011−205165)
【出願日】平成23年9月20日(2011.9.20)
【出願人】(000005821)パナソニック株式会社 (73,050)
【Fターム(参考)】