説明

コード認識装置および経路探索装置

【課題】余分な情報を含む音声の認識を、確実に実行できるコード認識装置の提供。
【解決手段】イギリスの郵便番号の前半フレーズの発話を促し(S210)、音声認識をする(S220)。結果が「CV2」であれば、「CV2」につながり得る後半フレーズの数字部を特定する(S230)。特定した後半フレーズの数字部に対して、全通りを列挙することでダミー認識辞書を作る(S240)。後半フレーズの発話を促し(S250)、音声入力部13を通じて入力される音声を、作成したフレーズと照合することで認識する(S260)。「2TB」とユーザが発話したのなら「2TB」と認識する。認識した前半フレーズ及び後半フレーズのうちの数字部に基づいて、郵便番号を認識する(S270)。前半フレーズがCV2、後半フレーズが2TBであれば、「CV2−2」と認識する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コード認識装置および経路探索装置に関する。
【背景技術】
【0002】
従来、郵便番号の入力を受けて、地図上の地点を特定する装置が知られている(例えば特許文献1)。この装置をカーナビゲーション装置として構成する場合、運転者にとっては、音声認識によって郵便番号を入力できると便利である。このような従来技術による、地点の特定に必要な郵便番号を音声によって認識する方法を、イギリスの郵便番号を具体例として用いて説明する。
【0003】
イギリスの郵便番号は、次のような規則に従って定められている。その規則とは、「LE67−2DQ」のように、数字と英語のアルファベットとが混ざった前後半の2フレーズから構成される、というものである。さらに、前半のフレーズはアルファベット・数字の桁数が地域によって変わることがあるのに対して、後半のフレーズについては常に[数字一桁+アルファベット二桁]から成るということも定められている。
【0004】
ところで、実際に地図データとして記憶されている郵便番号データは、[前半フレーズ+後半フレーズの数字部]で構成されている。例えば、「LE67−2DQ」の場合、「LE67−2」として記憶されている。そのため、経路探索装置が目的地を設定するためには[前半フレーズ+後半フレーズの数字部]を認識する必要がある。なお、イギリスに関しては、先述したものとは異なる、郵便番号全体と地点とが対応付けられた地図情報は、一般に入手できないのが現状である。
【0005】
このような[前半フレーズ+後半フレーズの数字部]を認識するための、従来の音声認識処理を図3を用いて説明する。図3は、経路探索装置に備えられるコンピュータが主体となって実行する従来型音声認識処理である。まず、スピーカを通じて、郵便番号の前半の発話をユーザに促す(S110)。
【0006】
次に、マイクを通じて、前半フレーズの音声認識をする(S120)。即ち、マイクから入力されるユーザの発話音声を表す音声信号に基づき、認識辞書を用いて、ユーザから郵便番号の前半フレーズに対応する記号列を認識する。例えば、その結果が「CV2」であったとする。そうすると、地図データに記憶されている郵便番号の情報を参照して、「CV2」につながり得る後半フレーズの数字部を特定する(S130)。例えば、その結果が「2、4、7、9」であったとする。そうすると、特定結果に基づいて、認識辞書を作成する(S140)。つまり、「2、4、7、9」の夫々の数字に対し、この数字に対応する音声の特徴を表す音声データを対応付けて認識辞書を作成する。
【0007】
次に、スピーカを通じて、郵便番号の後半の発話をユーザに促す(S150)。そして、マイクを通じて入力されたユーザの発話音声を表す音声信号と認識辞書内の音声データとを照合して、後半フレーズの数字部を認識する(S160)。例えば、ユーザが「2TB」と発話したなら「2」と認識する。最後に、音声認識の結果に基づいて、郵便番号を認識する(S170)。先述した例の場合なら、「CV2−2」となる。
【0008】
このように郵便番号を前後半に分けて認識する理由は、認識率を良くするためである。つまり、後半については、前半の認識結果に基づいて、少数の候補の認識辞書を作ることができるので、認識率が良くなる。
【特許文献1】特開平5−019684号公報
【発明の開示】
【発明が解決しようとする課題】
【0009】
先述した技術の課題は、ユーザが「2TB」と発話したのに、装置は「2」と認識しなくてはならないことである。このような場合「TB」という余分な情報によって、肝心な「2」の認識を誤ることがある。つまり、「2」に対応する、辞書中の音声認識用の音声データと、「2TB」という音声信号とを照合するわけだから、一致度の判定に無理が生じてしまう。
【0010】
本発明は先述した課題を鑑み、余分な情報を含む音声の認識を、確実に実行できるコード認識装置、及びこのコード認識装置を利用した経路探索装置の提供を目的とする。
【課題を解決するための手段】
【0011】
先述した課題を解決するためになされた請求項1に記載のコード認識装置は、所定規則を満たす記号列としての特定種のコードを認識するコード認識装置である。このコード認識装置は、集音手段と、第一認識手段と、列挙手段と、辞書作成手段と、第二認識手段と、抽出手段とを備える。
【0012】
集音手段は、周囲の音声を集音すると共に音声信号に変換する。第一認識手段は、集音手段によって変換された音声信号に基づき、特定種のコードを構成する記号列の一部として予め定められた第一の部位を認識する。列挙手段は、第一認識手段が認識した第一の部位の記号列と結合することで、上述した所定規則を満足させることができる全ての記号列を列挙する。辞書作成手段は、列挙手段が列挙した記号列の全てについて、記号列と音声データとを対応付けてなる音声認識用辞書を作成する。
【0013】
なお、列挙手段が列挙する記号列は、第一の部位以外の、特定種のコードの一部として予め定められた第二の部位である。そして、集音手段は、辞書作成手段が動作した後に、音声を集音すると共に音声信号に変換する。
【0014】
また、第二認識手段は、辞書作成手段が作成した音声認識用辞書に含まれる音声データのうち、辞書作成手段が動作した後に集音手段によって変換された音声信号に最も合致する音声データに対応付けられた記号列を、第二の部位の記号列として認識する。そして、抽出手段は、第二の部位の一部として予め定められた第三の部位の記号を、第二認識手段が認識した記号列から抽出する。
【0015】
請求項1に記載のコード認識装置によれば、余分な情報を含む音声の認識を、確実に実行できる。なぜなら、従来技術のように入力された音声の一部を認識するのではなく、入力された音声を一旦そのまま認識し、その後に余分な情報を削るようにして必要な部分を抽出するからである。
【0016】
例えば、先述した従来技術の例だと、「LE67−2DQ」と発話された音声をそのまま「LE67−2DQ」と認識した後に、「LE67−2」という形にするために後半部分の一部を抽出する。こうすることで、確実に音声認識できるのに加えて、認識した情報のうち必要な部分だけを得ることができる。
【0017】
請求項1に記載のコード認識装置は、請求項2に記載のように構成されるとよい。請求項2に記載のコード認識装置は、記憶手段と、取得手段とを備える。記憶手段は、特定種のコードのそれぞれについてのデータを備えるデータベースであって、第一認識手段が認識対象とする第一の部位の記号列と、抽出手段が抽出対象とする第三の部位の記号と、からなる記号列の組み合わせ毎に、上記データが関連付けられてなるデータベースを記憶する。
【0018】
また、取得手段は、第一認識手段が認識した第一の部位の記号列、及び、抽出手段が抽出した第三の部位の記号とからなる記号列の組み合わせに関連付けられたデータを、データベースから取得する。
【0019】
請求項2に記載のコード認識装置によれば、データベースの検索に必要な情報が、余分な情報と共に音声入力される場合において、データベースの検索が確実に実行できる。
請求項2に記載のコード認識装置は、具体的には、請求項3のように構成されるとよい。請求項3に記載のコード認識装置が認識する特定種のコードは、前半部分及び後半部分の記号列の組み合わせからなる郵便コードである。そして、特定種のコードの第一の部位とは、郵便コードの前半部分のことである。また、特定種のコードの第二の部位とは、郵便コードの後半部分のことである。そして、特定種のコードの第三の部位とは、郵便コードの後半部分の一部であって、郵便コードの前半部分に続く部位である。
【0020】
請求項3のコード認識装置によれば、ユーザに発話に基づいて、例えば、郵便コードの前半部分と後半部分の一部とからなる記号列に対応付けられたデータを確実に取得できる。
【0021】
請求項3に記載のコード認識装置は、具体的には、請求項4のように構成されるとよい。請求項4に記載のコード認識装置は、以下の条件を所定規則として満たす郵便コードを認識するものである。その条件を次に列挙する。第一の部位は、数字とアルファベットとの任意の組み合わせによって構成されるものである。また、第二の部位は、一桁の数字と、当該一桁の数字に続くアルファベット二文字とによって構成されるものである。さらに、第三の部位は、第二の部位に含まれる一桁の数字である。
【0022】
このような規則の郵便コードを認識するために、列挙手段は、郵便コードの第一の部位と第三の部位との組み合わせとしてデータベースに登録されている記号列の一群の中から、第一認識手段が認識した数字とアルファベットとの組み合わせを郵便コードの第一の部位として含む記号列を全て検索して得る。そして、当該検索により得られた各記号列において第三の部位として用いられている数字毎に当該数字に続くアルファベット二文字の全組み合わせを第二の部位の一部として数え上げることで、第二の部位を構成する記号列を列挙する。
【0023】
なお、ここでは「数え上げる」は「列挙する」と同じ意味である。両者の客体を区別しやすいように、表現を変えただけである。
請求項4のコード認識装置によれば、ユーザに発話に基づいて、例えば、イギリスの地図情報のような、郵便コードの前半部分と後半部分の一部とからなる記号列に対応付けられたデータを確実に取得できる。なぜなら、イギリスの郵便コードの規則は、この請求項で限定された内容に合致するからである。
【0024】
請求項3又は請求項4に記載のコード認識装置を利用して、請求項5に記載の経路探索装置を構成するとよい。請求項5に記載の経路探索装置は、請求項3又は請求項4に記載のコード認識装置と、地点間の経路を探索する探索手段とを備える。なお、データベースは、データとして、郵便コードの内、前半部分と、郵便コードの後半部分の一部であって、郵便コードの前半部分に続く部位とからなる記号列ごとに、地点を表すデータを備える。
【0025】
そして、取得手段は、第一認識手段が認識した前半部分の記号列と、抽出手段が抽出した後半部分の一部であって、前半部分に続く部位とに基づき、地点を表すデータをデータベースから取得する。そして、探索手段は、取得手段が取得したデータが示す地点を、探索する経路の始点又は終点に設定する。
【0026】
請求項5の経路探索装置によれば、経路探索時に郵便コードによって地点を特定するときに、地点の特定に不要な桁数の郵便番号が音声によって入力されるときでも、地点の誤認識を回避して、正しく経路探索を実行できる。
【発明を実施するための最良の形態】
【0027】
以下、図面と共に説明する。図1は、本発明が適用された経路探索装置10の概略構成図である。経路探索装置10は、図1に示すように、車両の現在位置を測位する測位器11、ユーザインタフェースとして機能する操作スイッチ群12及び音声の入力を受ける音声入力部13、記憶媒体から地図データ等を読み出して制御部20に入力する地図データ入力器17、地図や経路案内画面等を表示するための表示部14、各種ガイド音声を出力するための音声出力部15、並びに、先述した測位器11、操作スイッチ群12、音声入力部13及び地図データ入力器17からの入力に応じて各種処理を実行し、装置内各部を制御する制御部20を備える。
【0028】
測位器11は、GPS(Global Positioning System)用の人工衛星からの送信電波を、GPSアンテナを介して受信して、その衛星の軌道情報および現在日時の情報を取得するGPS受信機11aと、車両に加えられる回転運動の大きさを測定するジャイロスコープ11bと、車両の走行距離を測定する距離センサ11cと、地磁気から進行方位を測定する地磁気センサ11dとを備える。
【0029】
また、操作スイッチ群12は、表示部14と一体に構成されたタッチパネルや表示部14の周囲に設けられたメカニカルなキースイッチ等から構成されている。この他、音声入力部13は、ユーザが発する音声情報を取得できるように、周囲の音声を集音して、これを音声信号に変換するマイクで構成されている。
【0030】
その他、地図データ入力器17は、図示しない記憶媒体に記憶された地図データ等を制御部20に入力するものである。記憶媒体には、地図データとして、郵便番号データ、道路の位置や接続関係を示すデータ(リンクデータ及びノードデータ)、地形データ、施設データ等が記憶されている。この他、測位精度向上のためのマップマッチング用データや、経路案内用の音声データ等が記憶されている。尚、記憶媒体としては、CD−ROM、DVD、ハードディスクなどの媒体を挙げることができる。なお、本実施例の経路探索装置10は、イギリスでの利用を想定したものであり、地図データは、イギリスの地理を表したものである。
【0031】
その他、表示部14は、カラー表示装置であり、液晶モニタ等で構成される。この表示部14には、制御部20の制御により、車両の現在位置周囲の地図や、ユーザにより指定された目的地までの経路などが表示される。また、音声出力部15は、スピーカ等から構成され、制御部20の制御を受けて、目的地までの経路案内に係るガイド音声を出力する。
【0032】
また、制御部20は、CPU20a、RAM20b、ROM20c及びNVRAM20d等から構成される。そしてCPU20aによって、ROM20cに記憶された各種プログラムを実行することにより、装置内各部を統括制御すると共に、地図表示機能、経路探索機能、経路案内機能、音声認識機能などを実現する。
【0033】
次に、図2を用いて経路探索処理を説明する。経路探索処理は、制御部20が主体となって実行する処理である。また、この処理は、音声入力部13を通じて入力された指令を契機に実行が開始される。具体的には、経路探索に必要な、目的地などの位置を特定するための情報として郵便番号を音声で入力したいという旨を、音声入力部13を通じてユーザが入力したときに、実行される処理である。
【0034】
ただし、S210及びS110、S220及びS120、さらに、S230及びS130は、同じ処理であるので、説明を省く。そこで、S240から説明する。
S230で特定した後半フレーズの数字部と組み合わせられる全通りの記号列を列挙することで、ダミー認識辞書を作る(S240)。
【0035】
具体的には、イギリスの郵便番号の規則に従って、特定した数字部のそれぞれに対して、AA、AB、AC、…、ZX、ZY、ZZという具合に、二桁のアルファベットとしてあり得る全組み合わせを付加して、676(=26の二乗)通りのパターンの記号列を、特定した後半フレーズの数字部ごとに生成し、各記号列に対応する音声認識用の音声データを作る。そして、各記号列について、この記号列と音声データとを対応付けてなるダミー認識辞書を作成する。
【0036】
尚、ここでいう音声データとは、対応するフレーズの音声の特徴を表す音声データのことであり、対応するフレーズの音声波形を表すデータであってもよいし、音声の特徴量を記したデータであってもよい。
【0037】
ここで、S230及びS240の処理をまとめる。地図データ入力器17にセットされた記憶媒体には、郵便番号データとして、郵便番号の前半フレーズ及び後半フレーズの数字部(郵便番号の一部)を構成する記号列の組み合わせ毎に、当該記号列から特定される地点の位置(緯度・経度)を表す位置データが、当該記号列の情報に対応付けられて記憶されている。そして、S230では、記憶媒体に登録されている「郵便番号の一部」の一群の中から、S220で認識した記号列を前半フレーズとして含む記号列の全てを検索する。
【0038】
そして、S240では、まず、アルファベット二文字の全組み合わせを数え上げる。さらに、S230での検索によって得られた各記号列において、上記後半フレーズの数字部毎に、この数字と上記数え上げたアルファベット二文字との全組み合わせを列挙する。そして、列挙した記号列毎に、この記号列と音声データとを対応付けてなるダミー認識辞書を作成する。
【0039】
次に、音声出力部15を通じて、郵便番号の後半フレーズの発話をユーザに促す(S250)。そして、音声入力部13を通じて入力されるユーザの発話音声を、作成したダミー認識辞書内の音声データと照合することで認識する(S260)。例えば、「2TB」とユーザが発話したのなら「2TB」と認識する。
【0040】
即ち、音声入力部13を通じて入力されるユーザの発話音声を表す音声信号の特徴と最も合致する音声データを、ダミー認識辞書内で検索し、ダミー認識辞書から上記最も合致する音声データに対応付けられた記号列の情報を取得することで、ユーザが発した3文字の記号列を認識する。
【0041】
そして、認識した後半部分の郵便番号(3文字の記号列)から頭の数字(先頭の記号)を抽出することで、地図データに格納された形式である、前半フレーズ及び認識した後半フレーズの数字部を認識する(S270)。例えば、前半フレーズがCV2、後半フレーズが2TBであれば、「CV2−2」と認識する。
【0042】
そして、S270で認識した郵便番号の一部に対応する地点を、地図データに基づいて特定する(S280)。即ち、S280では、S270で上記郵便番号の一部として認識した記号列に対応付けられた位置データを、上記記憶媒体から取得して、取得した位置データが示す地点を、S270で認識した郵便番号の一部に対応する地点であると特定する。
【0043】
最後に、S280で特定した地点を目的地に設定すると共に、現在地点を出発地に設定して、出発地から目的地までの最適経路を探索し、探索により得られた最適経路をユーザに表示部14を通じて提示する(S290)。
【0044】
以上、本発明の実施例について説明した。本実施例によれば、ユーザが発話すると予想される記号列についての全ての組み合わせについて、この記号列の音声データを登録してなるダミー認識辞書を作成し、このダミー認識辞書に基づいてユーザの発話音声を認識するので、音声の認識率が向上することになる。
【0045】
この効果を導く本発明に特徴的な構成についてまとめる。つまり、欲しい情報についてだけ辞書を作るのではなく、情報としては不要にも関わらずユーザが発話することが予想されるものの全通りについてまで辞書を作り、その後に不要なものを削るというステップを踏む、という構成である。全通りの辞書を作るのは、後半部分を構成する記号列の規則は分かっているものの、データとしては入手困難であるからである。このように、一見、余分とも思えるステップを踏むことにより、本発明に特有の効果を得ることができるのである。
【0046】
なお、本発明の実施形態は、先述した実施例に限定されない。例えば、経路探索に際しては、出発地及び目的地の情報共に、上述した郵便番号の音声認識によりユーザから取得してもよい。
【0047】
最後に、特許請求の範囲と実施例との対応関係を述べる。第一認識手段はS220、列挙手段はS230及びS240、辞書作成手段はS240、第二認識手段はS260、抽出手段はS270、取得手段はS280、探索手段はS290、によってそれぞれ実現される。
【図面の簡単な説明】
【0048】
【図1】経路探索装置10の概略構成を示す図。
【図2】経路探索処理を表すフローチャート。
【図3】従来型音声認識処理を表すフローチャート。
【符号の説明】
【0049】
10…経路探索装置、11…測位器、11a…GPS受信機、11b…ジャイロスコープ、11c…距離センサ、11d…地磁気センサ、12…操作スイッチ群、13…音声入力部、14…表示部、15…音声出力部、17…地図データ入力器、20…制御部、20a…CPU、20b…RAM、20c…ROM、20d…NVRAM

【特許請求の範囲】
【請求項1】
所定規則を満たす記号列である特定種のコードを認識するコード認識装置であって、
周囲の音声を集音すると共に音声信号に変換する集音手段と、
前記集音手段によって変換された音声信号に基づき、前記特定種のコードを構成する記号列の一部として予め定められた第一の部位を、認識する第一認識手段と、
前記特定種のコードの内、前記第一の部位以外の部位としての第二の部位を構成する記号列であって、前記第一認識手段が認識した第一の部位と結合することで、前記所定規則を満足する全ての記号列を列挙する列挙手段と、
前記列挙手段が列挙した記号列の全てについて、記号列と音声データとを対応付けてなる音声認識用辞書を作成する辞書作成手段と、
を備え、
前記集音手段は、前記辞書作成手段が動作した後に再び、音声を集音すると共に音声信号に変換し、
さらに、当該コード認識装置は、
前記辞書作成手段が作成した音声認識用辞書に含まれる音声データのうち、前記辞書作成手段が動作した後に前記集音手段によって変換された前記音声信号に最も合致する音声データに対応付けられた記号列を、前記第二の部位の記号列として認識する第二認識手段と、
前記第二の部位の一部として予め定められた第三の部位の記号を、前記第二認識手段が認識した記号列から抽出する抽出手段と、
を備える
ことを特徴とするコード認識装置。
【請求項2】
前記特定種のコードのそれぞれについて対応するデータを備えるデータベースであって、前記第一認識手段が認識対象とする前記第一の部位の記号列と、前記抽出手段が抽出対象とする前記第三の部位の記号とからなる記号列の組み合わせ毎に、前記データが関連付けられてなるデータベースを記憶する記憶手段と、
前記第一認識手段が認識した前記第一の部位の記号列と、前記抽出手段が抽出した前記第三の部位の記号とからなる記号列の組み合わせに関連付けられたデータを、前記データベースから取得する取得手段と、
を備えることを特徴とする請求項1に記載のコード認識装置。
【請求項3】
前記特定種のコードは、前半部分及び後半部分の記号列の組み合わせからなる郵便コードであり、
前記第一の部位は、前記郵便コードの前半部分であり、
前記第二の部位は、前記郵便コードの後半部分であり、
前記第三の部位は、前記郵便コードの後半部分の一部であって、前記郵便コードの前半部分に続く部位である
ことを特徴とする請求項2に記載のコード認識装置。
【請求項4】
前記第一の部位は、数字とアルファベットとの任意の組み合わせによって構成され、
前記第二の部位は、一桁の数字と、当該一桁の数字に続くアルファベット二文字とによって構成され、
前記第三の部位は、前記第二の部位に含まれる一桁の数字であり、
前記列挙手段は、前記郵便コードの前記第一の部位と前記第三の部位との組み合わせとして前記データベースに登録されている記号列の一群の中から、前記第一認識手段が認識した数字とアルファベットとの組み合わせを前記郵便コードの前記第一の部位として含む記号列を全て検索して得ると共に、当該検索により得られた各記号列において前記第三の部位として用いられている数字毎に当該数字に続くアルファベット二文字の全組み合わせを前記第二の部位の一部として数え上げることで、前記第二の部位を構成する記号列を列挙する
ことを特徴とする請求項3に記載のコード認識装置。
【請求項5】
請求項3又は請求項4に記載のコード認識装置と、地点間の経路を探索する探索手段と、を備える経路探索装置であって、
前記データベースは、前記データとして、前記郵便コードの内、前記前半部分と、前記後半部分の一部であって、前記前半部分に続く部位とからなる記号列ごとに、地点を表すデータを備え、
前記取得手段は、前記第一認識手段が認識した前記前半部分の記号列と、前記抽出手段が抽出した前記後半部分の一部であって、前記前半部分に続く部位とに基づき、前記地点を表すデータを前記データベースから取得し、
前記探索手段は、前記取得手段が取得した前記データが示す地点を、探索する経路の始点又は終点に設定する
ことを特徴とする経路探索装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2010−66493(P2010−66493A)
【公開日】平成22年3月25日(2010.3.25)
【国際特許分類】
【出願番号】特願2008−232445(P2008−232445)
【出願日】平成20年9月10日(2008.9.10)
【出願人】(000004260)株式会社デンソー (27,639)
【Fターム(参考)】