説明

ナビゲーション装置、ナビゲーション装置を用いた音声認識方法、および、プログラム

【課題】入力した音声のうちの一部分が誤認識された場合に、音声の再入力にかかるユーザの手間を軽減する技術を提供する。
【解決手段】ナビゲーション装置100は、複数の選択ボタンを備え、複数の構成要素に分割可能であって階層構造を有する言語系列を格納する記憶部と、音声を入力する音声入力部と、記憶部に格納されている言語系列の中から、音声入力部から入力された音声に対応する言語系列の候補を特定する音声認識部と、音声認識部によって特定された言語系列の候補を、選択ボタン数の構成要素に分割して表示する表示部と、を備える。音声認識部は、表示された言語系列に含まれる1つの構成要素が選択ボタンを用いて選択されると、選択された構成要素と、当該構成要素より下位の構成要素と、について変更した言語系列の候補を再度特定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ナビゲーション装置、ナビゲーション装置を用いた音声認識方法、および、プログラムに関する。
【背景技術】
【0002】
ナビゲーション装置の中には、音声認識機能を有するものがある。音声認識機能を用いた音声の認識率は、近年めざましく向上してきている(例えば、特許文献1)。
【0003】
しかし、音声認識が行われる環境によっては、誤認識してしまう場合がある。そして、入力された音声が誤認識されると、ユーザは発話によって音声の再入力を行わなければならない。
【0004】
一般的には、このような音声の再入力では、ユーザは、一度入力した音声(言葉)の全内容を入力(発話)し直す必要がある。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2008−20872号
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、入力した音声のうち一部分だけが誤認識されている場合には、全内容を入力し直すことは、ユーザにとって負担となる。
【0007】
本発明は、入力した音声のうちの一部分が誤認識された場合に、音声の再入力にかかるユーザの手間を軽減する技術を提供することを目的とする。
【課題を解決するための手段】
【0008】
上記課題を解決するための本願発明は、複数の選択ボタンを備えるナビゲーション装置であって、複数の構成要素に分割可能であって階層構造を有する言語系列を格納する記憶部と、音声を入力する音声入力部と、前記記憶部に格納されている言語系列の中から、前記音声入力部から入力された音声に対応する言語系列の候補を特定する音声認識部と、前記音声認識部によって特定された言語系列の候補を、前記選択ボタン数の構成要素に分割して表示する表示部と、を備える。前記音声認識部は、表示された言語系列に含まれる1つの構成要素が前記選択ボタンを用いて選択されると、選択された構成要素と、当該構成要素より下位の構成要素と、について変更した言語系列の候補を再度特定する。
【図面の簡単な説明】
【0009】
【図1】本発明の一実施形態が適用されたナビゲーション装置の概略構成図である。
【図2】(A)地図データの概略データ構造を示す図である。(B)施設情報の詳細なデータ構造を示す図である。
【図3】住所情報の詳細なデータ構造(階層構造)を示す図である。
【図4】(A)ステアリングの概観図である。(B)ステアリングスイッチの詳細について示す図である。
【図5】演算処理部の機能ブロック図である。
【図6】音声認識処理の概要を示すフロー図である。
【図7】(A)〜(E)音声認識処理中の画面遷移図である。
【発明を実施するための形態】
【0010】
以下、本発明の実施形態の一例を図面を参照して説明する。
【0011】
図1は、本発明の一実施形態が適用されたナビゲーション装置100の概略構成図である。図示するようにナビゲーション装置100は、演算処理部1と、ディスプレイ2と、記憶装置3と、音声入出力装置4(マイクロフォン41、スピーカ42)と、入力装置5(タッチパネル51、ダイヤルスイッチ52、ステアリングスイッチ53)と、車速センサ6と、ジャイロセンサ7と、GPS受信装置8と、を備えている。ナビゲーション装置100は、車両に載置されている車載用ナビゲーション装置としてもよいし、携帯電話やPDAなどの携帯端末としてもよい。
【0012】
演算処理部1は、様々な処理を行う中心的ユニットである。例えば、演算処理部1は、数値演算及び各デバイスを制御するといった様々な処理を実行するCPU(Central Processing Unit)21と、記憶装置3から読み出した地図データ、演算データなどを格納するRAM(Random Access Memory)22と、プログラムやデータを格納するROM(Read Only Memory)23と、各種ハードウェアを演算処理部1に接続するためのI/F(インタフェース)24と、を有する。そして、演算処理部1は、各デバイスをバス25で相互に接続した構成からなる。そして、後述する各機能部(101〜104)は、CPU21がRAM22などのメモリに読み出したプログラムを実行することで実現される。
【0013】
例えば、演算処理部1は、車速センサ6、ジャイロセンサ7、GPS受信装置8から出力される情報を基にして現在地を算出する。また、得られた現在地情報に基づいて、表示に必要な地図データを記憶装置3から読み出す。また、読み出した地図データをグラフィック展開し、そこに現在地マーク(或いは、移動体の位置を示す移動体マーク)を重ねてディスプレイ2に表示する。また、記憶装置3に記憶されている地図データを用いて、ユーザから指示された出発地、又は演算処理部1で算出された現在地と、目的地と、を結ぶ最適な経路(以下では「推奨経路」という)を探索する。また、音声入出力装置4のスピーカ42やディスプレイ2を用いてユーザを誘導する。
【0014】
ディスプレイ2は、文字や画像の表示を行うための画面を備え、演算処理部1等で生成されたグラフィックス情報を前記画面上に表示するユニットである。ディスプレイ2は、液晶ディスプレイや有機EL(Electro-Luminescence)ディスプレイなどで構成される。
【0015】
記憶装置3は、CD−ROMやDVD−ROMやHDDやICカードといった記憶媒体で構成される。この記憶媒体には、例えば、地図データ310、辞書データ、音声データ、動画データ、等が記憶されている。また、記憶媒体は、電源供給が停止した場合でも必要なデータを保持可能なフラッシュメモリなどで構成されていてもよい。
【0016】
図2(A)は、地図データ310の概略データ構造を示す図である。図示するように、地図データ310は、地図上の区画された領域であるメッシュの識別コード(メッシュID)311ごとに、そのメッシュ領域に含まれている道路を構成する各リンクのリンクデータ320を含んでいる。
【0017】
リンクデータ320は、リンクの識別コード(リンクID)321ごとに、リンクを構成する2つのノード(開始ノード、終了ノード)の座標情報322、リンクを含む道路の種別情報を示す道路種別323、リンクの長さを示すリンク長情報324、リンク旅行時間325、2つのノードにそれぞれ接続するリンクの識別コード(接続リンクID)326、リンクの周辺に位置する施設情報327、などを含んでいる。なお、ここでは、リンクを構成する2つのノードについて開始ノードと終了ノードを区別することで、道路の上り方向と下り方向を、それぞれ別のリンクとして管理することができる。また、地図データ310には、地図表示における道路や施設を表示するための描画データが格納されている。
【0018】
図2(B)は、施設情報327の詳細なデータ構造を示す図である。図示するように、施設情報327は、施設位置3271と、施設名称3272と、電話番号3273と、住所情報3274と、を少なくとも含んでいる。
【0019】
施設位置3271は、施設の位置を示す情報を含み、例えば、座標データからなる。
【0020】
施設名称3272は、施設の名称を示す情報を含み、例えば「大阪第一ホテル」等の文字列からなる。
【0021】
電話番号3273は、施設の電話番号を示す情報を含み、例えば、数字列からなる。
【0022】
住所情報3274は、施設の所在地を示す情報を含み、例えば「東京都文京区白山○−○○−○」等の一般的な住所データからなる。
【0023】
図3は、住所情報3274の詳細なデータ構造(階層構造)を示す図である。図示するように、住所情報3274は、階層構造を有するデータである。
【0024】
例えば、住所情報3274は、図示するように、「県名」を示す上位データ(階層1)と、「市区町村名」を示す中位データ(階層2)と、「町・字、番地」を示す下位データ(階層3)と、を含む。
【0025】
住所情報3274は、複数の上位データを有し、上位データ(図示する例では「東京都」)ごとに、複数の中位データ(図示する例では「文京区」や「新宿区」)を有する。また、住所情報3274は、中位データ(図示する例では「文京区」)ごとに、複数の下位データ(図示する例では「白山○−○○−○」や「白山○−○○−△」等)を有する。
【0026】
なお、図示する例では、住所情報3274の階層数は、後述するステアリングスイッチ53に備わる選択ボタン53A〜Cの個数となるように設定されている。
【0027】
また、住所情報3274を各階層に分割する方法は、これに限定されず、例えば、中位データ(階層2)を「市区町村名」を示すデータに変更し、下位データ(階層3)を「町・字、番地」を示すデータ等に変更してもよい。
【0028】
図1に戻り、音声入出力装置4は、音声入力装置としてマイクロフォン41と、音声出力装置としてスピーカ42と、を備える。マイクロフォン41は、運転手やその他の搭乗者から発された音声などを取得する。スピーカ42は、演算処理部1で生成された音声信号を出力する。これらのマイクロフォン41とスピーカ42は、車両の所定の部位に、別個に配置されている。
【0029】
入力装置5は、ユーザからの指示を受け付けるユニットである。入力装置5は、タッチパネル51と、ダイヤルスイッチ52と、ステアリングスイッチ53と、その他のハードスイッチ(図示せず)であるスクロールキー、縮尺変更キーなどで構成される。また、入力装置5には、ナビゲーション装置100に対して遠隔で操作指示を行うことができるリモートコントローラが含まれる。リモートコントローラは、ダイヤルスイッチやスクロールキー、縮尺変更キーなどを備え、各キーやスイッチが操作された情報をナビゲーション装置100に送出することができる。
【0030】
タッチパネル51は、ディスプレイ2の表示面に貼られた透過性のある操作パネルである。タッチパネル51は、ディスプレイ2に表示された画像のXY座標と対応したタッチ位置を特定し、タッチ位置を座標に変換して出力する。タッチパネル51は、感圧式または静電式の入力検出素子などにより構成される。
【0031】
ダイヤルスイッチ52は、時計回り及び反時計回りに回転可能に構成され、所定の角度の回転ごとにパルス信号を発生し、演算処理部1に出力する。演算処理部1では、パルス信号の数から、ダイヤルスイッチ52の回転角度を求める。
【0032】
ステアリングスイッチ53は、車両の進行方向を変更するためのステアリング200に配置され、ユーザ(ドライバー)がステアリング200を操作しながらタッチ可能なボタン群で構成される。
【0033】
図4(A)は、ステアリング200の概観図である。図示するように、ステアリングスイッチ200は、例えば、ステアリング200の操作時においてユーザ(ドライバー)が左手を添える部分(点線で囲まれた部分)に配置される。
【0034】
また、図4(B)は、ステアリングスイッチ53の詳細について示す図である。図示するように、ステアリングスイッチ53は、複数(例えば、3つ)の選択ボタン53A〜Cと、確定ボタン53Dと、修正ボタン53Eと、を備える。
【0035】
選択ボタン53A〜Cは、ディスプレイ2に選択可能に表示された複数の候補の中から、1つの候補を選択する指示を行うためのボタンである。例えば、ナビゲーション装置100で行われた音声認識について複数の結果(候補)がディスプレイ2に表示された場合には、ユーザ(ドライバー)は、いずれか1つの選択ボタン53A〜Cをタッチすることによって、1つの音声認識結果(候補)を選択することができる。
【0036】
確定ボタン53Dは、選択ボタン53A〜Cを用いて選択された1つの候補に確定する指示を行うためのボタンである。例えば、選択ボタン53A〜Cを用いて1つの音声認識結果(候補)が選択された後に、ユーザ(ドライバー)は、確定ボタン53Dをタッチすることによって、選択された1つの音声認識結果(候補)が正しいものとして確定することができる。
【0037】
修正ボタン53Eは、選択ボタン53A〜Cを用いて選択された1つの候補について修正する指示を行うためのボタンである。例えば、選択ボタン53A〜Cを用いて1つの音声認識結果(候補)が選択された後に、ユーザ(ドライバー)は、修正ボタン53Eをタッチすることによって、選択された1つの音声認識結果(候補)について修正することができる。
【0038】
図1に戻り、車速センサ6、ジャイロセンサ7、及び、GPS受信装置8は、移動体(ナビゲーション装置100)の現在地(自車位置)などを算出するために使用される。車速センサ6は、車速を算出するために用いる車速データを出力するセンサである。ジャイロセンサ7は、光ファイバジャイロや振動ジャイロ等で構成され、移動体の回転による角速度を検出するものである。GPS受信装置8は、GPS衛星からの信号を受信し、移動体とGPS衛星間の距離とその距離の変化率を3個以上の衛星に対して測定することで、移動体の現在地や進行速度を測定する。
【0039】
図5は、演算処理部1の機能ブロック図である。図示するように、演算処理部1は、基本制御部101と、入力受付部102と、出力処理部103と、音声認識部104と、を有する。
【0040】
基本制御部101は様々な処理を行う中心的な機能部であり、処理内容に応じて、他の機能部を制御する。例えば、基本制御部101は、各種センサ6、7、GPS受信装置8等の情報を取得し、マップマッチング処理等を行って現在地を特定する。また、基本制御部101は、随時、走行した日付および時刻と、位置と、を対応付けて、リンクごとに走行履歴を記憶装置3に記憶する。さらに、基本制御部101は、各機能部からの要求に応じて、GPS受信装置8によって受信したGPS情報に含まれる現在時刻を出力する。また、基本制御部101は、他の機能部から推奨経路の情報を要求されると、当該情報を出力する。
【0041】
また、基本制御部101は、地図データ310を用いて、出発地又は現在地と、目的地と、を結ぶ最適な経路(推奨経路)を探索する。当該経路探索においては、ダイクストラ法等の経路探索ロジックを用いて、道路の所定の区間(例えば、リンク)に対して予め設定されたリンクコスト(図2のリンク旅行時間325でもよい)に基づいて経路を探索する。なお、基本制御部101は、現在の日時に基づいて予測した到着日時・日の種類に対応する統計情報に含まれるリンクコストを用いて、推奨経路を探索してもよい。
【0042】
また、基本制御部101は、車両の現在地が推奨経路から逸脱しないように、推奨経路に基づいて誘導情報を生成し、出力処理部103へ出力する。
【0043】
入力受付部102は、入力装置5またはマイクロフォン41を介して入力されたユーザ(搭乗者)からの指示を受け付け、他の機能部に出力する。例えば、入力受付部102は、ステアリングスイッチ53のいずれかのボタン(選択ボタン53A〜C、確定ボタン53D、修正ボタン53E、等)がタッチされると、タッチされたボタンを特定する情報を、後述する音声認識部104へ出力する。また、入力受付部102は、マイクロフォン41を介して音声(ユーザから発された音声)が入力されると、入力された音声を電気信号(或いはデータ)に変換し、後述する音声認識部104へ出力する。また、入力受付部102は、入力装置5を介して電源の投入や切断等が指示されると、その指示を基本制御部101へ出力する。
【0044】
出力処理部103は、ディスプレイ2に、地図、推奨経路、ユーザに通知する各種メッセージ、等を表示させる。具体的には、表示処理部103は、他の機能部からの指示に基づき、ディスプレイ2の画面上に表示させるためのグラフィックス情報を生成してディスプレイ2に送信する。また、出力処理部103は、ディスプレイ2に表示させた地図上に、車両の位置を示す車両マークや各種設定画面などを表示するグラフィック情報を生成してディスプレイ2へ送信する。また、出力処理部103は、基本制御部101から出力された誘導情報に基づく音声信号を、スピーカ42から音声出力させる。
【0045】
音声認識部104は、例えば、目的地となる施設を検索する場合に音声認識処理を行う。具体的には、音声認識部104は、ユーザから発された音声に対応する言語系列の候補を特定する。なお、音声認識部104は、地図データ310の施設情報327に含まれる施設名称3272、電話番号3273、住所情報3274の中から、ユーザから発された音声に対応する言語系列の候補を検索するようにする。
【0046】
また、音声認識部104は、ユーザから発された音声に対応する言語系列の候補のうち、ユーザに選択された候補を、部分的に修正することができる。例えば、音声認識部104は、ユーザに選択された候補を、複数の構成要素に分割する。そして、分割された複数の構成要素の中から、修正する1つの構成要素が選択されると、選択された構成要素について音声の再入力をユーザに対して促す。それから、音声認識部104は、再入力された音声に対応する構成要素の候補を特定し、修正する構成要素として選択されたものと入れ替える。
【0047】
なお、上記した各構成要素は、ナビゲーション装置100の構成を理解容易にするために、主な処理内容に応じて分類したものである。構成要素の分類の仕方やその名称によって、本願発明が制限されることはない。ナビゲーション装置100の構成は、処理内容に応じて、さらに多くの構成要素に分類することもできる。また、1つの構成要素がさらに多くの処理を実行するように分類することもできる。
【0048】
また、各機能部(101〜104)は、ハードウェア(ASICなど)により構築されてもよい。また、各機能部の処理が一つのハードウェアで実行されてもよいし、複数のハードウェアで実行されてもよい。
【0049】
次に、上記構成からなるナビゲーション装置100の特徴的な動作について説明する。
【0050】
<音声認識処理>
図6は、ナビゲーション装置100が行う音声認識処理の概要を示すフローチャートである。
【0051】
図示するように、入力受付部102は、音声認識処理の開始の指示を受け付けるまで待機する(ステップS101;No)。
【0052】
そして、入力受付部102は、音声認識処理の開始の指示を受け付けると(ステップS101;Yes)、音声認識処理(本フローのステップS102以降の処理)を開始する。例えば、入力受付部102は、目的地を設定する指示が入力装置5を介して入力されると、処理をステップS102に移行する。ただし、音声認識処理を開始するタイミングは、これに限定されない。
【0053】
処理がステップS102に移行すると、入力受付部102は、マイクロフォン41を介して音声(ユーザから発された音声)が入力されるのを待機する。そして、入力受付部102は、マイクロフォン41を介して音声が入力されると、入力された音声を電気信号(或いはデータ)に変換し、音声認識部104へ出力する(ステップS102)。
【0054】
次に、音声認識部104は、入力受付部102から入力された電気信号(或いはデータ)に基づき、ユーザから発された音声に対応する言語系列の候補を特定する(ステップS103)。具体的には、音声認識部104は、入力受付部102から入力された電気信号(或いはデータ)と、記憶装置3に格納されている辞書データと、を比較しながら、ユーザから発せられた音声の特徴に近い言語系列(例えば、施設名称3272、電話番号3273、住所情報3274)の上位数個を、候補として特定する。
【0055】
なお、記憶装置3に格納されている辞書データには、地図データ310に含まれる施設情報327(例えば、施設名称3272、電話番号3273、住所情報3274)ごとに、当該施設情報327について発話するときの音声の特徴データが格納されている。
【0056】
また、本実施形態では、音声認識部104は、ステップS103で特定する言語系列の候補の個数を、ステアリングスイッチ53に備わる選択ボタン53A〜Cの個数(すなわち、3個)とする。
【0057】
それから、音声認識部104は、ステップS103で特定された言語系列の候補を、ディスプレイ2に表示する(ステップS104)。具体的には、音声認識部104は、出力処理部103に対して、ディスプレイ2の画面上にステップS103で特定された言語系列の候補を表示させる指示を出力する。そして、出力処理部103は、音声認識部104からの指示に基づき、ステップS103で特定された言語系列の候補を、選択可能に表示するためのグラフィックス情報を生成してディスプレイ2に送信する。これにより、ディスプレイ2の画面上には、ステップS103で音声認識部104によって特定された言語系列の候補が選択可能に表示される。
【0058】
図7(A)は、ステップS103で特定された言語系列の候補の表示例を示す図である。図示する例では、ディスプレイ2の画面上には、ステップS103で特定された言語系列の候補として、第1の候補「神奈川県座間市広野台○−○○−△」と、第2の候補「東京都新宿区西新宿○−○○−○」と、第3の候補「神奈川県座間市広野台○−△△−△」と、の文字列が表示されている。これとともに、各候補を選択可能に表示するために、各候補に並べて各選択ボタン53A〜Cを連想させる文字列が表示される。例えば、第1の候補「神奈川県座間市広野台○−○○−△」には、第1の選択ボタン53Aを連想させる文字列「A」が並べて表示される。同様に、第2の候補「東京都新宿区西新宿○−○○−○」には、第2の選択ボタン53Bを連想させる文字列「B」が並べて表示される。また、第3の候補「神奈川県座間市広野台○−△△−△」には、第3の選択ボタン53Cを連想させる文字列「C」が並べて表示される。
【0059】
入力受付部102は、図7(A)に示すような画面がディスプレイ2に表示されている状態で、いずれか1つの選択ボタン53A〜Cがタッチされるまで待機する。そして、入力受付部102は、いずれか1つの選択ボタン53A〜Cがユーザによってタッチされると、タッチされた選択ボタン53A〜Cを特定する情報を、音声認識部104へ通知する。
【0060】
そして、音声認識部104は、ユーザに選択された候補に対して、修正せずに確定するのか、修正を加えるのか、を指示するための画面をディスプレイ2に表示する(ステップS105)。具体的には、音声認識部104は、出力処理部103に対して、ディスプレイ2の画面上に、確定を指示するための確定アイコンと、修正を指示するための修正アイコン「修正」と、を表示させる指示を出力する。そして、出力処理部103は、音声認識部104からの指示に基づき、確定を指示するための確定アイコンと、修正を指示するための修正アイコンと、を選択可能に表示するためのグラフィックス情報を生成してディスプレイ2に送信する。これにより、ディスプレイ2の画面上には、確定を指示するための確定アイコンと、修正を指示するための修正アイコンと、が選択可能に表示される。
【0061】
図7(B)は、ユーザに選択された候補に対して、修正せずに確定するのか、修正を加えるのか、を指示するための画面の表示例を示す図である。図示する例では、ディスプレイ2の画面上には、確定アイコンと、修正アイコンと、が表示されている。これとともに、各アイコンを選択可能に表示するために、各アイコンに並べて、ステアリングボタン53内の確定ボタン53Dと修正ボタン53Eを連想させる文字列が表示される。例えば、確定アイコンには、確定ボタン53Dを連想させる文字列「確定」が並べて表示される。同様に、修正アイコンには、修正ボタン53Eを連想させる文字列「修正」が並べて表示される。
【0062】
入力受付部102は、図7(B)に示すような画面がディスプレイ2に表示されている状態で、確定ボタン53D又は修正ボタン53Eがタッチされるまで待機する。そして、入力受付部102は、確定ボタン53D又は修正ボタン53Eがユーザによってタッチされると、タッチされたボタン53D、Eを特定する情報を、音声認識部104へ通知する。
【0063】
ここで、音声認識部104は、確定ボタン53Dを特定する情報が入力受付部102から通知された場合には、修正の指示はないと判定する(ステップS105;No)。この場合には、音声認識部104は、図7(A)に示す画面がディスプレイ2に表示されている状態でユーザに選択された候補を、目的地として設定する施設として確定する。そのために、音声認識部104は、まず、ステップS104で入力受付部102から通知された情報(選択ボタン53A〜Cを特定する情報)に基づいて、ユーザにタッチされた選択ボタン53A〜Cを特定する。それから、音声認識部104は、特定した選択ボタン53A〜Cに対応する候補を、目的地として設定する施設として確定する。なお、本実施形態では、第1の選択ボタン53Aと第1の候補が対応し、第2の選択ボタン53Bと第2の候補が対応し、第3の選択ボタン53Cと第3の候補が対応しているものとする。
【0064】
目的地として設定する施設を確定後、音声認識部104は、処理をステップS111に移行する。
【0065】
そして、基本制御部101は、ステップS105で確定された施設に基づく各種処理を実行する(ステップS111)。例えば、基本制御部101は、処理がステップS111に移行すると、ステップS105で特定された施設の施設情報327を記憶装置3から読み出し、読み出した施設情報327に含まれる施設位置3271で特定される位置を目的地として設定する。
【0066】
ステップS111の処理を終了後、基本制御部101は、本フローを終了する。
【0067】
一方、ステップS105において、音声認識部104は、修正ボタン53Eを特定する情報が入力受付部102から通知された場合には、修正の指示があると判定する(ステップS105;Yes)。
【0068】
この場合には、音声認識部104は、図7(A)に示す画面がディスプレイ2に表示されている状態でユーザに選択された候補に対して、構成要素への分割を行う(ステップS106)。具体的には、音声認識部104は、ユーザに選択された候補(例えば、第2の候補が選択された場合には「東京都新宿区西新宿○−○○−○」という言語系列)を、住所情報3724で設定されている「県名」「市区町村名」「町・字、番地」という各階層に分割する。すなわち、この例では、「東京都」「新宿区」「西新宿○−○○−○」という3要素に分割される。
【0069】
なお、本実施形態の説明では、住所の選択を例として挙げているが、住所以外のものであっても、階層構造が定義できる選択対象であれば、構成要素への分割を行うことができる。例えば、楽曲を選択する場合を挙げる。1個の楽曲は「アーティスト名」「アルバム名」「楽曲名」という3層の階層構造の中に分類することができる。よって、楽曲名を選択する操作に本実施形態を適用する場合、「アーティスト名」「アルバム名」「楽曲名」という3要素に分割すればよい。
【0070】
また、住所情報3724に示すような各階層の内訳を示すデータが利用できない場合であっても、形態素解析を使用すれば、構成要素へ分割することが可能である。具体的には、音声認識部104は、ユーザに選択された候補(例えば、第2の候補が選択された場合には「東京都新宿区西新宿○−○○−○」という言語系列)を、記憶装置3に格納されている形態素解析用の辞書データを用いて複数の構成要素(単語)に分割する。このような形態素解析については、汎用プログラム(例えば、「茶筌システム」http://chasen.naist.jp/hiki/ChaSen/)等を使用すればよい。
【0071】
なお、本実施形態では、ステップS106において、音声認識部104は、ユーザに選択された候補についての分割数(構成要素の個数)を、ステアリングスイッチ53に備わる選択ボタン53A〜Cの個数となるようにする。
【0072】
そして、音声認識部104は、ステップS106で複数の構成要素に分割された候補(言語系列)を、ディスプレイ2に表示する(ステップS107)。具体的には、音声認識部104は、出力処理部103に対して、ユーザに選択された候補(言語系列)を、ステップS106で分割された構成要素ごとに区切って表示させる指示を出力する。そして、出力処理部103は、音声認識部104からの指示に基づき、分割された構成要素ごとに選択可能となるように表示するためのグラフィックス情報を生成してディスプレイ2に送信する。これにより、ディスプレイ2の画面上には、ステップS106で分割された構成要素が選択可能に表示される。
【0073】
図7(C)は、分割された構成要素のうち、修正する構成要素を指示するための画面の表示例を示す図である。図示する例では、ディスプレイ2の画面上には、分割された3つの構成要素(「東京都」、「新宿区」、「西新宿○−○○−○」)が表示されている。これとともに、各構成要素を選択可能に表示するために、各構成要素に並べて各選択ボタン53A〜Cを連想させる文字列が表示される。例えば、先頭の構成要素「東京都」には、第1の選択ボタン53Aを連想させる文字列「A」が並べて表示される。同様に、中間の構成要素「新宿区」には、第2の選択ボタン53Bを連想させる文字列「B」が並べて表示される。また、末尾の構成要素「西新宿○−○○−○」には、第3の選択ボタン53Cを連想させる文字列「C」が並べて表示される。
【0074】
なお、図示する例では、階層構造を有する住所情報3274が複数の構成要素に分割されているが、もちろん、階層構造を有さない施設名称3272や電話番号3273が複数の構成要素に分割されてもよい。
【0075】
入力受付部102は、図7(C)に示すような画面がディスプレイ2に表示されている状態で、いずれか1つの選択ボタン53A〜Cがタッチされるまで待機する。そして、入力受付部102は、いずれか1つの選択ボタン53A〜Cがユーザによってタッチされると、タッチされた選択ボタン53A〜Cを特定する情報を、音声認識部104へ通知する。
【0076】
そして、音声認識部104は、ユーザに選択された構成要素について、音声(発話)の再入力をユーザに対して促す画面を、ディスプレイ2に表示する(ステップS108)。具体的には、音声認識部104は、出力処理部103に対して、ユーザに選択された構成要素と、当該構成要素より下位の構成要素をハイライト表示させるとともに、音声(発話)の再入力を促すメッセージを表示させる指示を出力する。そして、出力処理部103は、音声認識部104からの指示に基づき、ユーザに選択された構成要素と、当該構成要素より下位の構成要素について音声(発話)の再入力を促す画面を表示するためのグラフィックス情報を生成してディスプレイ2に送信する。これにより、ディスプレイ2の画面上には、修正する構成要素について音声(発話)の再入力を促す画面が表示される。
【0077】
図7(D)は、修正対象としてユーザに選択された構成要素と、当該構成要素より下位の構成要素について、音声(発話)の再入力をユーザに促す画面の表示例を示す図である。図示する例では、ディスプレイ2の画面上には、ユーザに選択された構成要素(図示する例では「新宿区」)と、当該構成要素より下位の構成要素(図示する例では「西新宿○−○○−○」)がハイライト表示されている。これとともに、音声(発話)の再入力を促すメッセージ(例えば、「修正部分を正しく発音して下さい!」)が表示されている。
【0078】
それから、入力受付部102は、マイクロフォン41を介して修正対象の構成要素と、当該構成要素より下位の構成要素について音声(ユーザから発された音声)が再入力されるのを待機する。そして、入力受付部102は、マイクロフォン41を介して音声が再入力されると、再入力された音声を電気信号(或いはデータ)に変換し、音声認識部104へ出力する。
【0079】
次に、音声認識部104は、入力受付部102から再入力された電気信号(或いはデータ)に基づき、ユーザから発された音声に対応する構成要素と、当該構成要素より下位の構成要素の候補を特定する(ステップS109)。具体的には、音声認識部104は、入力受付部102から再入力された電気信号(或いはデータ)と、記憶装置3に格納されている辞書データと、を比較しながら、ユーザから発せられた音声の特徴に近い構成要素と、当該構成要素より下位の構成要素(住所情報3274に部分的に含まれる文字列)の上位数個を、候補として特定する。
【0080】
ただし、音声認識部104は、ステップS109においては、記憶装置3に格納されている辞書データのうち、ステップS107で修正する構成要素として選択された構成要素より上位の構成要素(図示する例では「東京都」)を、上位データに有する住所情報3274に絞って検索を行う。そのため、本実施形態の音声認識処理では、不要なデータ(すなわち、上位データに「東京都」以外のデータを有する住所情報3274)を検索対象から除外できる。そのため、ユーザから発せられた音声の特徴に近い構成要素を検索する速度が高速化し、音声認識の精度も向上する。
【0081】
それから、音声認識部104は、修正する構成要素としてユーザに選択された構成要素(ステップS107で選択された構成要素)と、当該構成要素より下位の構成要素を、ステップS109で特定された構成要素で置き換える。そして、音声認識部104は、この置き換えによって生成される言語系列の候補を、ディスプレイ2に表示する(ステップS110)。具体的には、音声認識部104は、出力処理部103に対して、ディスプレイ2の画面上にステップS109で特定された構成要素で置き換えられた言語系列の候補を表示させる指示を出力する。そして、出力処理部103は、音声認識部104からの指示に基づき、ステップS109で特定された構成要素で置き換えられた言語系列の候補を、選択可能に表示するためのグラフィックス情報を生成してディスプレイ2に送信する。これにより、ディスプレイ2の画面上には、ステップS109で音声認識部104によって特定された構成要素で置き換えられた言語系列の候補が選択可能に表示される。
【0082】
図7(E)は、一部の構成要素が修正された言語系列の候補の表示例を示す図である。図示する例では、ディスプレイ2の画面上には、ステップS109で特定された構成要素と、当該構成要素より下位の構成要素で置き換えられた言語系列の候補として、第1の候補「東京都文京区白山○−○○−○」と、第2の候補「東京都文京区白山○−○△−△」と、第3の候補「東京都文京区白山△−△△−△」と、の文字列が表示されている。これとともに、各候補を選択可能に表示するために、各候補に並べて各選択ボタン53A〜Cを連想させる文字列が表示される。例えば、第1の候補「東京都文京区白山○−○○−○」には、第1の選択ボタン53Aを連想させる文字列「A」が並べて表示される。同様に、第2の候補「東京都文京区白山○−○△−△」には、第2の選択ボタン53Bを連想させる文字列「B」が並べて表示される。また、第3の候補「東京都文京区白山△−△△−△」には、第3の選択ボタン53Cを連想させる文字列「C」が並べて表示される。
【0083】
なお、音声認識部104は、ステップS107で修正する構成要素として選択された構成要素より上位の構成要素(図示する例では「東京都」)の部分については、正しく音声認識できているものとして変更しない。そのため、図7(E)に示す第1〜第3の候補には、共通して「東京都」の文字列が含まれている。
【0084】
入力受付部102は、図7(E)に示すような画面がディスプレイ2に表示されている状態で、いずれか1つの選択ボタン53A〜Cがタッチされるまで待機する。そして、入力受付部102は、いずれか1つの選択ボタン53A〜Cがユーザによってタッチされると、タッチされた選択ボタン53A〜Cを特定する情報を、音声認識部104へ通知する。
【0085】
それから、音声認識部104は、処理をステップS105に戻し、修正箇所がなくなるまで(ステップS105;No)、ステップS105からステップS110までの処理を繰り返し実行する。
【0086】
こうして、本実施形態の音声認識処理では、入力した音声のうちの一部分が誤認識された場合において、誤認識された一部分についてのみ音声を再入力して音声認識をやり直すことができる。そのため、長文となる音声の再入力が不要となり、音声の再入力にかかる手間が軽減される。
【0087】
特に、本実施形態の住所情報3274のように階層構造を有するデータの音声認識処理においては、修正する構成要素としてユーザに選択された構成要素と、当該構成要素より下位の構成要素について音声を再入力して音声認識をやり直すことができる。そして、再度、音声認識を行う際には、上述した通り、不要なデータ(すなわち、上位データに「東京都」以外のデータを有する住所情報3274)を検索対象から除外できるため、ユーザから発せられた音声の特徴に近い構成要素を検索(特定)する速度が高速化し、音声認識の精度も向上する。
【0088】
なお、上記したフローの各処理単位は、ナビゲーション装置100の処理を理解容易にするために、主な処理内容に応じて分割したものである。処理ステップの分類の仕方やその名称によって、本願発明が制限されることはない。ナビゲーション装置100が行う処理は、さらに多くの処理ステップに分割することもできる。また、1つの処理ステップが、さらに多くの処理を実行してもよい。
【0089】
また、上記の実施形態は、本発明の要旨を例示することを意図し、本発明を限定するものではない。多くの代替物、修正、変形例は当業者にとって明らかである。
【0090】
以下に、上記実施形態の変形例を挙げる。
【0091】
例えば、音声認識の結果(すなわち、ユーザから入力された音声に基づいて予測(特定)された言語系列)の一部を削除したい場合にも適用できる。
【0092】
この場合には、例えば、上記ステップS107において、図7(C)に示すように「※長押しで削除」等のメッセージを追加して表示すればよい。そして、この画面がディスプレイ2に表示されている状態で、削除したい構成要素がある場合には、ユーザは、複数の選択ボタン53A〜Cを長く(1秒以上)タッチすればよい。そして、入力受付部102は、いずれか1つの選択ボタン53A〜Cがユーザによって長くタッチされると、長くタッチされた選択ボタン53A〜Cを削除する指示を、音声認識部104へ通知する。
【0093】
それから、音声認識部104は、上記のステップS108、S109の処理を省略し、処理をステップS110へ移行する。ステップS110では、音声認識部104は、削除する構成要素としてユーザに選択された構成要素(ステップS107で選択された構成要素)を削除する。そして、音声認識部104は、一部の構成要素が削除されて生成される言語系列(1つの言語系列)を、ディスプレイ2に表示し、処理をステップS105に戻す。
【0094】
このように、音声認識の結果の一部を削除したい場合には、音声の再入力を省略して該当箇所を削除できるため、誤認識された箇所を効率良く修正することができる。
【0095】
また、上記実施形態では、ステアリングスイッチ53には、3つの選択ボタン53A〜Cと、1つの確定ボタン53Dと、1つの修正ボタン53Eと、が設けられている。しかし、本発明はこれに限定されない。例えば、選択ボタン53A〜Cは、2つ、或いは、4つ以上設けられてもよい。また、確定ボタン53Dと修正ボタン53Eを別個に設けず、1つのボタンで兼用するようにしてもよい。この場合には、当該ボタンが1回タッチされれば、上記で説明した確定ボタン53Dがタッチされたものとみなし、当該ボタンが長く(1秒以上)タッチされれば、上記で説明した修正ボタン53Eがタッチされたものとみなせばよい。
【0096】
また、選択ボタン53A〜C、確定ボタン53D、修正ボタン53Eは、それぞれ、車両のステアリング53以外の位置に配置されてもよく、車両内の任意の位置に配置可能である。また、選択ボタン53A〜C、確定ボタン53D、修正ボタン53Eは、ディスプレイ2の画面上にアイコンとして表示されてもよい。
【符号の説明】
【0097】
1・・・演算処理部、2・・・ディスプレイ、3・・・記憶装置、4・・・音声入出力装置、5・・・入力装置、6・・・車速センサ、7・・・ジャイロセンサ、8・・・GPS受信装置、21・・・CPU、22・・・RAM、23・・・ROM、24・・・インタフェース(I/F)、41・・・マイクロフォン、42・・・スピーカ、51・・・タッチパネル、52・・・ダイヤルスイッチ、53・・・ステアリングスイッチ、53A〜C・・・選択ボタン、53D・・・確定ボタン、53E・・・修正ボタン、100・・・ナビゲーション装置、101・・・基本制御部、102・・・入力受付部、103・・・表示処理部、104・・・音声認識部、310・・・地図データ、311・・・メッシュID、320・・・リンクデータ、321・・・リンクID、322・・・開始ノード・終了ノード、323・・・道路種別、324・・・リンク長、325・・・リンク旅行時間、326・・・開始接続リンク・終了接続リンク、327・・・施設情報、3271・・・施設位置、3272・・・施設名称、3273・・・電話番号、3274・・・住所情報。

【特許請求の範囲】
【請求項1】
複数の選択ボタンを備えるナビゲーション装置であって、
複数の構成要素に分割可能であって階層構造を有する言語系列を格納する記憶部と、
音声を入力する音声入力部と、
前記記憶部に格納されている言語系列の中から、前記音声入力部から入力された音声に対応する言語系列の候補を特定する音声認識部と、
前記音声認識部によって特定された言語系列の候補を、前記選択ボタン数の構成要素に分割して表示する表示部と、を備え、
前記音声認識部は、
表示された言語系列に含まれる1つの構成要素が前記選択ボタンを用いて選択されると、選択された構成要素と、当該構成要素より下位の構成要素と、について変更した言語系列の候補を再度特定する、
ことを特徴とするナビゲーション装置。
【請求項2】
請求項1に記載のナビゲーション装置であって、
前記音声認識部は、
再度特定された言語系列に含まれる1つの構成要素について、前記選択ボタンを用いてさらに選択されると、選択された構成要素と、当該構成要素より下位の構成要素と、について変更した言語系列の候補を再度特定する、
ことを特徴とするナビゲーション装置。
【請求項3】
請求項2に記載のナビゲーション装置であって、
前記表示部は、
再度特定された言語系列に含まれる構成要素のうち、変更された構成要素をさらに前記選択ボタン数の構成要素に分割して表示する、
ことを特徴とするナビゲーション装置
【請求項4】
請求項1乃至3のいずれか1項に記載のナビゲーション装置であって、
前記選択ボタンは、車両のステアリングに設けられる、
ことを特徴とするナビゲーション装置。
【請求項5】
請求項1乃至4のいずれか1項に記載のナビゲーション装置であって、
前記言語系列には、少なくとも住所情報が含まれる、
ことを特徴とするナビゲーション装置。
【請求項6】
複数の選択ボタンを備えるナビゲーション装置を用いた音声認識方法であって、
前記ナビゲーション装置は、複数の構成要素に分割可能であって階層構造を有する言語系列を格納する記憶部を備えており、
音声を入力する音声入力ステップと、
前記記憶部に格納されている言語系列の中から、前記音声入力ステップで入力された音声に対応する言語系列の候補を特定する音声認識ステップと、
前記音声認識ステップで特定された言語系列の候補を、前記選択ボタン数の構成要素に分割して表示する表示ステップと、
前記表示ステップで表示された言語系列に含まれる1つの構成要素が前記選択ボタンを用いて選択されると、選択された構成要素と、当該構成要素より下位の構成要素と、について変更した言語系列の候補を再度特定する音声再認識ステップと、を行う、
ことを特徴とする音声認識方法。
【請求項7】
コンピューターを、複数の選択ボタンを備えるナビゲーション装置として機能させるためのプログラムであって、
前記ナビゲーション装置は、複数の構成要素に分割可能であって階層構造を有する言語系列を格納する記憶部を備えており、
音声を入力する音声入力ステップと、
前記記憶部に格納されている言語系列の中から、前記音声入力ステップで入力された音声に対応する言語系列の候補を特定する音声認識ステップと、
前記音声認識ステップで特定された言語系列の候補を、前記選択ボタン数の構成要素に分割して表示する表示ステップと、
前記表示ステップで表示された言語系列に含まれる1つの構成要素が前記選択ボタンを用いて選択されると、選択された構成要素と、当該構成要素より下位の構成要素と、について変更した言語系列の候補を再度特定する音声再認識ステップと、を前記コンピューターに実行させる、
ことを特徴とするプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2013−15732(P2013−15732A)
【公開日】平成25年1月24日(2013.1.24)
【国際特許分類】
【出願番号】特願2011−149488(P2011−149488)
【出願日】平成23年7月5日(2011.7.5)
【出願人】(000001487)クラリオン株式会社 (1,722)
【Fターム(参考)】