オペレーティングシステム及びオペレーティング方法
【課題】ユーザの利便性を向上させ、発話から要求されるタスクを推定する精度を向上させたオペレーティングシステム及びオペレーティング方法を提供する。
【解決手段】センター200の操作判断処理部207は、ドライバー及びオペレータの発話に含まれる単語を抽出し、単語ごとに属性が関連付けられて記憶された類語・関連語DB208から単語に関連付けられた属性を読み出し、読み出された属性に関連付けられたタスクの候補あるいは実際に行なわれるべきタスクのドメインが記憶された類語・関連語DB208から属性に関連付けられたタスクの候補等のドメインを読み出し、ドライバー等の発話に含まれる単語について、単語ごとに読み出されたドメインを集計し、最も集計数の多いドメインに係るものをタスクの候補及び実際に行なわれるべきタスクとして推定する。これにより高精度にタスクの推定を行うことができる。
【解決手段】センター200の操作判断処理部207は、ドライバー及びオペレータの発話に含まれる単語を抽出し、単語ごとに属性が関連付けられて記憶された類語・関連語DB208から単語に関連付けられた属性を読み出し、読み出された属性に関連付けられたタスクの候補あるいは実際に行なわれるべきタスクのドメインが記憶された類語・関連語DB208から属性に関連付けられたタスクの候補等のドメインを読み出し、ドライバー等の発話に含まれる単語について、単語ごとに読み出されたドメインを集計し、最も集計数の多いドメインに係るものをタスクの候補及び実際に行なわれるべきタスクとして推定する。これにより高精度にタスクの推定を行うことができる。
【発明の詳細な説明】
【技術分野】
【0001】
本発明はオペレーティングシステム及びオペレーティング方法に関し、特に、発話者の発話に含まれる情報から要求されるタスクの推定を行うオペレーティングシステム及びオペレーティング方法に関するものである。
【背景技術】
【0002】
車両を運転中のドライバーは、運転操作に忙しいため、ナビゲーションシステムの目的地の設定等の運転操作以外の操作を行うことが困難である。そこで、ドライバーの発話を解析することにより、ドライバーが要求するタスクを推定し、ドライバーの操作を要さずに、当該タスクを実行する装置が提案されている。例えば、特許文献1には、車両のドライバーと外部センターのオペレータとが対話をし、外部センターがドライバーの発話を認識して、ドライバーが希望する表示情報を車両の表示装置に表示させるシステムが開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2004−333319号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上記のような技術では、例えば、オペレータに目的地設定をさせる場合には、ドライバーが現在地、目的地及び要求するタスクを具体的にコマンドとしてオペレータに告げる必要があり、ドライバーはコマンドの水準でしか発話をすることができないため、ドライバーにとって利便性が低い。また、ドライバーの発話から要求されるタスクを推定する精度が低く、システムの動作の信頼性が低い。そのため、上記のような技術では、誤認識を極力防ぐために、限られた操作に関するコマンドとしての発話しか受け付けられず、限られた操作の補助のみを行なうシステムとなっている。
【0005】
本発明は、このような事情を考慮してなされたものであり、その目的は、ユーザにとっての利便性を向上させ、発話から要求されるタスクを推定する精度を向上させたオペレーティングシステム及びオペレーティング方法を提供することにある。
【課題を解決するための手段】
【0006】
本発明は、第1発話者の発話に含まれる情報から、要求されるタスクの候補の推定を行う要求タスク推定ユニットを備え、要求タスク推定ユニットは、第1発話者の発話に含まれる複数の単語を抽出し、単語ごとに単数又は複数の属性が関連付けられて記憶されたデータベースから、単語に関連付けられた前記属性を読み出し、読み出された単数又は複数の属性に関連付けられたタスクの候補の単数又は複数のドメインが記憶されたデータベースから、属性に関連付けられたタスクの候補のドメインを読み出し、第1発話者の発話に含まれる複数の単語について、単語ごとに読み出されたドメインを集計し、最も集計数の多いドメインに係るタスクの候補を要求されるタスクの候補として推定するオペレーティングシステムである。
【0007】
この構成によれば、要求タスク推定ユニットは、第1発話者の発話に含まれる複数の単語を抽出し、単語ごとに単数又は複数の属性が関連付けられて記憶されたデータベースから、単語に関連付けられた属性を読み出し、読み出された単数又は複数の属性に関連付けられたタスクの候補の単数又は複数のドメインが記憶されたデータベースから、属性に関連付けられたタスクの候補のドメインを読み出し、第1発話者の発話に含まれる複数の単語について、単語ごとに読み出されたドメインを集計し、最も集計数の多いドメインに係るタスクの候補を要求されるタスクの候補として推定するため、高精度にタスクの候補の推定を行うことができる。
【0008】
なお、本発明における「タスクの候補」とは、例えば、後述するように、検索、経路案内、ナビゲーションシステムの操作及び機器の設定の変更等のユーザに対するサービスそれぞれが挙げられる。あるいは、本発明のおける「タスクの候補」とは、後述するように、例えば、検索キーワード等の検索条件が異なる検索処理それぞれが含まれる。
【0009】
この場合、要求タスク推定ユニットは、単語ごとに読み出されたドメインについて、単語に対するドメインの重要度に応じたスコアを集計し、最も集計されたスコアの多いドメインに係るタスクの候補を要求されるタスクの候補として推定することが好適である。
【0010】
この構成によれば、要求タスク推定ユニットは、単語ごとに読み出されたドメインについて、単語に対するドメインの重要度に応じたスコアを集計し、最も集計されたスコアの多いドメインに係るタスクの候補を要求されるタスクの候補として推定するため、さらに単語に対するドメインの重要度に応じて、高精度にタスクの候補の推定を行うことができる。
【0011】
また、第2発話者の発話に含まれる情報に基づいて、要求タスク推定ユニットが推定した要求されるタスクの候補から行われるべきタスクを選択するアクションタスク選択ユニットをさらに備えることが好適である。
【0012】
この構成によれば、要求タスク推定ユニットが、第1発話者の発話に含まれる情報から要求されるタスクの候補の推定を行ない、アクションタスク選択ユニットが、第2発話者の発話に含まれる情報に基づいて、要求タスク推定ユニットが推定した要求されるタスクの候補に応じて行われるべきタスクを選択する。そのため、第1発話者と第2発話者との二人の発話に含まれる情報からタスクの推定が行われる。よって、タスクの推定に要する時間や発話数を低減でき、ユーザにとっての利便性を向上させ、発話から要求されるタスクを推定する精度を向上させることができる。
【0013】
この場合、アクションタスク選択ユニットは、第2発話者の発話に含まれる複数の単語を抽出し、単語ごとに単数又は複数の属性が関連付けられて記憶されたデータベースから、単語に関連付けられた属性を読み出し、読み出された単数又は複数の属性に関連付けられたタスクの単数又は複数のドメインが記憶されたデータベースから、属性に関連付けられたタスクのドメインを読み出し、第1発話者の発話に含まれる複数の単語について、単語ごとに読み出されたドメインを集計し、最も集計数の多いドメインに係るタスクを要求されるタスクに応じたタスクとして選択することが好適である。
【0014】
この構成によれば、アクションタスク選択ユニットは、第2発話者の発話に含まれる複数の単語を抽出し、単語ごとに単数又は複数の属性が関連付けられて記憶されたデータベースから、単語に関連付けられた属性を読み出し、読み出された単数又は複数の属性に関連付けられたタスクの単数又は複数のドメインが記憶されたデータベースから、属性に関連付けられたタスクのドメインを読み出し、第1発話者の発話に含まれる複数の単語について、単語ごとに読み出されたドメインを集計し、最も集計数の多いドメインに係るタスクを要求されるタスクに応じたタスクとして選択するため、さらに高精度にタスクの選択を行うことができる。
【0015】
この場合、アクションタスク選択ユニットは、単語ごとに読み出されたドメインについて、単語に対するドメインの重要度に応じたスコアを集計し、最も集計されたスコアの多いドメインに係るタスクを要求されるタスクとして選択することが好適である。
【0016】
この構成によれば、アクションタスク選択ユニットは、単語ごとに読み出されたドメインについて、単語に対するドメインの重要度に応じたスコアを集計し、最も集計されたスコアの多いドメインに係るタスクを要求されるタスクとして選択するため、単語に対するドメインの重要度に応じて、高精度にタスクの選択を行うことができる。
【0017】
一方、本発明は、第1発話者の発話に含まれる情報から、要求されるタスクの推定を行う要求タスク推定工程を含み、要求タスク推定工程は、第1発話者の発話に含まれる複数の単語を抽出し、単語ごとに単数又は複数の属性が関連付けられて記憶されたデータベースから、単語に関連付けられた属性を読み出し、読み出された単数又は複数の属性に関連付けられたタスクの候補の単数又は複数のドメインが記憶されたデータベースから、属性に関連付けられたタスクの候補のドメインを読み出し、第1発話者の発話に含まれる複数の単語について、単語ごとに読み出されたドメインを集計し、最も集計数の多いドメインに係るタスクの候補を要求されるタスクの候補として推定するオペレーティング方法である。
【0018】
この場合、要求タスク推定工程は、単語ごとに読み出されたドメインについて、単語に対するドメインの重要度に応じたスコアを集計し、最も集計されたスコアの多いドメインに係るタスクの候補を要求されるタスクの候補として推定することが好適である。
【0019】
また、第2発話者の発話に含まれる情報に基づいて、要求タスク推定工程で推定した要求されるタスクの候補から行われるべきタスクを選択するアクションタスク選択工程をさらに含むことが好適である。
【0020】
この場合、要求タスク推定工程は、第1発話者の発話に含まれる複数の単語を抽出し、単語ごとに単数又は複数の属性が関連付けられて記憶されたデータベースから、単語に関連付けられた属性を読み出し、読み出された単数又は複数の属性に関連付けられたタスクの候補の単数又は複数のドメインが記憶されたデータベースから、属性に関連付けられたタスクの候補のドメインを読み出し、第1発話者の発話に含まれる複数の単語について、単語ごとに読み出されたドメインを集計し、最も集計数の多いドメインに係るタスクの候補を要求されるタスクの候補として推定することが好適である。
【0021】
この場合、アクションタスク選択工程は、単語ごとに読み出されたドメインについて、単語に対するドメインの重要度に応じたスコアを集計し、最も集計されたスコアの多いドメインに係るタスクを要求される前記タスクとして選択することが好適である。
【発明の効果】
【0022】
本発明のオペレーティングシステム及びオペレーティング方法によれば、ユーザにとっての利便性を向上させ、発話から要求されるタスクを推定する精度を向上させることができる。
【図面の簡単な説明】
【0023】
【図1】第1実施形態に係るオペレーティングシステムの構成を示す図である。
【図2】第1実施形態に係る発話の認識結果から要求タスクのドメインを抽出する処理を示すフローチャートである。
【図3】語句属性1を示す属性1テーブルである。
【図4】語句属性2を示す属性2テーブルである。
【図5】語句属性1,2に関連付けられたドメインを示すドメイン対応表である。
【図6】ドメインに関連付けられた要求タスクを示すドメイン−要求タスク対応表である。
【図7】第2実施形態に係る発話の認識結果から要求タスクのドメインを抽出する処理を示すフローチャートである。
【図8】認識された単語と各単語ごとに予め付与されている属性a,bとを示すテーブルである。
【図9】語句属性aを示す属性aテーブルである。
【図10】語句属性bを示す属性bテーブルである。
【図11】ドメインごとの重要度に応じたスコアを定義した属性スコア算出テーブルである。
【図12】認識された単語とその属性a,bとの一部を示すテーブルである。
【図13】スコア算出の例を示す図である。
【発明を実施するための形態】
【0024】
以下、図面を参照して本発明の実施形態に係るオペレーティングシステムを説明する。
【0025】
図1に示すように、本発明の第1実施形態に係るオペレーティングシステムは、通信回線で接続された車載機100、センター200及びオペレータ端末300からなる。本実施形態のオペレーティングシステムは、車両に搭載された車載機100を用いるユーザとオペレータ端末300を操作するオペレータとがセンター200を介して対話することにより、ユーザの要求に応じてオペレータが行なうべきタスクを推定するためのものである。
【0026】
図1に示すように、車載機100は、マイク101、音声分析処理部(DSR−C:Distributed Speech Recognition Client)102、GPSセンサ103、位置情報処理部104、画面出力処理部105及びディスプレイ装置106を有している。マイク101は、車両内の特にドライバーであるユーザ(第1発話者)の発話を検出し、検出結果を音声信号として音響分析処理部102に出力する。音響分析処理部102は、音声認識処理をセンター200で行うため、発話データのサイズを圧縮してセンター200に送信する。
【0027】
GPSセンサ103は、GPS(Global Positioning System)衛星からの信号をGPS受信機で受信し、各々の信号の相違から車両の位置を測位する。車載機100は、GPSセンサ103が測位した位置情報と地図データとに基づいてユーザに対して経路案内を行う不図示のナビゲーションを備えている。位置情報処理部104は、GPSセンサ103が検出した位置情報を収集してセンター200に送信する。
【0028】
画面出力処理部105は、センター200から送信された情報を受信し、特にドライバーであるユーザに対してディスプレイ装置106により情報を表示するためのものである。
【0029】
センター200は、語彙DB201、音声認識処理部(DSR−S)202、キーワード抽出処理部203、行動履歴DB204、操作履歴DB205、状況判断処理部206、操作判断処理部207及び類語・関連語DB208を有している。
【0030】
語彙DB201は、音声認識の対象となる語彙を蓄積した認識辞書のデータベースである。語彙DB201には、同じ単語の別名や愛称等の言換え語彙も含まれる。
【0031】
音声認識処理部(DSR−S:Distributed Speech Recognition Server)202は、車載機100の音響分析処理部102から送信されたユーザの発話データをディクテーション認識してテキスト化する。また、音声認識処理部202は、オペレータ端末300の音響分析処理部303から送信されたオペレータの発話データをディクテーション認識してテキスト化する。
【0032】
キーワード抽出処理部203は、音声認識処理部202がテキスト化した発話テキストからタスクの推定に必要なキーワードとなる単語を抽出する。
【0033】
行動履歴DB204は、車載機100が搭載された車両のユーザであるドライバーの過去の設定目的地、走行ルート、時間帯等の行動履歴に関する情報を格納する。なお、本実施形態では、センター200の行動履歴DB204にドライバーの過去の行動履歴に関する情報を格納するが、センター200の外部の機器にドライバーの過去の行動履歴に関する情報が格納されても良い。
【0034】
操作履歴DB205は、車載機100が搭載された車両のユーザであるドライバーの過去の発話内容、検索条件等の操作履歴に関する情報を格納する。
【0035】
状況判断処理部206は、車載機100の位置情報処理部104から送信された車載機100が搭載された車両の位置情報の取得と、行動履歴DB204に格納された行動履歴に関する情報及び操作履歴DB205に格納された操作履歴に関する情報の取得とを行なう。また、状況判断処理部206は、現在の時刻も取得する。
【0036】
操作判断処理部207は、キーワード抽出処理部203のキーワードの抽出結果と、状況判断処理部206が取得したユーザに関する情報とを合わせ、類語・関連語DBに格納された類語・関連語に関する情報を参照しつつ、ユーザの要求するタスクの候補を推定する。また、操作判断処理部207は、タスクの候補の推定結果に基づいて、オペレータが行うべきタスクを選択し、実行させる。操作判断処理部207の推定結果は、車載機100の画面出力処理部105及びオペレータ端末300のディスプレイ装置301に出力される。
【0037】
類語・関連語DB208は、語彙DB201に格納された語彙と意味的な関連のある類語及び関連語に関する情報を格納する。なお、車載機100からの発話データ、位置情報及びセンター200からの推定結果は、車載機100とセンター200に接続された路側インフラストラクチャーとの間で、短距離通信等により送受信される。施設情報DB210には、車載機100を搭載した車両が立寄ることが可能な種々の施設に関する情報が記憶されている。
【0038】
オペレータ端末300は、ディスプレイ装置301、マイク302及び音響分析処理部(DSR−C:Distributed Speech Recognition Client)303を有している。ディスプレイ装置301は、センター200の操作判断処理部207から送信された情報を受信し、オペレータに対して情報を表示するためのものである。
【0039】
マイク302は、オペレータ(第2発話者)の発話を検出し、検出結果を音声信号として音響分析処理部303に出力する。音響分析処理部303は、音声認識処理をセンター200で行うため、発話データのサイズを圧縮してセンター200に送信する。
【0040】
以下、本実施形態のオペレーティングシステムの動作について説明する。以下の例では、まず、発話からタスクを推定する原理を示すため、ドライバーの発話から、POI(Position Information)検索といったタスクを推定する手法を中心に説明する。例えば、車載機100が搭載された車両のドライバーがマイク101に、「池袋のXXX(コンビニエンスストア名)は?」と発話する。音響分析処理部102は、センター200の音声認識処理部202が音声認識を行うのに最低限必要な情報のみを抽出し、発話データとしてセンター200の音声認識処理部202に送信する。
【0041】
音声認識処理部202は、ディクテーション認識を用いて発話データをテキスト化し、発話テキストとする。このとき、音声認識処理部202は語彙DB201を参照しつつ、キーワード中に愛称、別称等の言換え表現が含まれる場合は、言換え表現を基本表現に置換したものを出力する。上記の例では、発話内に言換え表現は含まれないので、基本表現の置換は行なわれない。なお、言換え表現と基本表現の定義は普遍的なものではなく、語彙DB201の整備仕様により適宜決定される。
【0042】
キーワード抽出処理部203は、音声認識処理部202が出力した発話テキストを構文解析する。構文解析では、キーワード抽出処理部203は、形態素解析による品詞分解と係り受け関係の判別を行なう。キーワード抽出処理部203は、品詞分解結果から、意味の判別に必要な品詞の単語のみを抜き出したものを操作判断処理部207に送信する。ここで、意味の判別に必要な品詞とは、名詞、動詞、形容詞、形容動詞等の単独で目的推定のための意味を持つ可能性が高い品詞をいう。例えば、本例では、「池袋」、「XXX(コンビニエンスストア名)」が抽出される。以上より、図2に示すように、音声認識結果からの単語抽出が完了する(S101)。
【0043】
操作判断処理部207は、キーワード抽出処理部203から受け取った抽出されたキーワードを、予め定義された判断のルールと照合し、ドライバーから要求される要求タスクを推定する。本実施形態では、類語・関連語DB208に複数の語句属性が記憶されている。語句属性には、所定のキーワードが関連付けられて類語・関連語DB208に記憶されている。例えば、語句属性1について図3に示すような属性1テーブルが定義されているものとする。操作判断処理部207は、抽出されたキーワードそれぞれが、語句属性1の語句属性1テーブルに関連付けられているか否か判定する(S102)。キーワード「池袋」に関連付けられている語句属性1は、id1=2:「エリア」である。キーワード「XXX(コンビニエンスストア名)」に関連付けられている語句属性1は、id1=4:「チェーン」である。このような語句属性は、施設情報DB210の各施設の属性情報からも生成することができる。
【0044】
例えば、語句属性2について図4に示すような属性2テーブルが定義されているものとする。操作判断処理部207は、抽出されたキーワードそれぞれが、語句属性2の語句属性2テーブルに関連付けられているか否か判定する(S103)。キーワード「池袋」に関連付けられている語句属性2は、id2=a:「属性なし」である。キーワード「XXX(コンビニエンスストア名)」に関連付けられている語句属性2は、id2=e:「コンビニ」である。
【0045】
本例では、抽出されたキーワード「池袋」、「XXX(コンビニエンスストア名)」は、語句属性1テーブル及び語句属性2テーブルのいずれかに関連付けられているため、操作判断処理部207は、これらのキーワードをドメイン判定必要語句として記憶する(S104)。一方、もし、抽出されたキーワードが、語句属性1テーブル、語句属性2テーブル及びその他の語句属性テーブルのいずれにも関連付けられていないときは、操作判断処理部207は、当該キーワードをドメイン判定必要語句ではないとして破棄する(S105)。
【0046】
全てのキーワードを操作判断処理部207が処理したときは(S106)、操作判断処理部207は、抽出されたキーワードそれぞれについてドメイン対応表による該当ドメインがいずれであるかを判定し、ドメイン一覧より該当ドメインを抽出する(S107,S108)。
【0047】
類語・関連語DB208には、図5に示すようなドメイン対応表が記憶されている。ドメイン対応表では、語句属性1及び語句属性2ごとに対応するタスクのドメイン1〜13が定義されている。ドメイン1〜13のタスクは、それぞれ図6に示すように定義されている。
【0048】
例えば、キーワード「池袋」については、語句属性1はid1=2:「エリア」であり、語句属性2はid2=a:「属性なし」であるから、図5の表の丸印で示すドメイン1,4,5,6,7,8,9,10,11,12及び13が該当する。また、キーワード「XXX(コンビニエンスストア名)」については、語句属性1はid1=4:「チェーン」であり、語句属性2はid2=e:「コンビニ」であるから、図5の表の丸印で示すドメイン8が該当する。
【0049】
操作判断処理部207は、ドメイン対応表による該当ドメインの判定が全てのキーワードについて完了したときは(S107)、該当するドメインを集計することにより要求タスクを推定する(S109)。例えば、本例では、キーワード「池袋」、「XXX(コンビニエンスストア名)」のいずれにも該当するドメインは、ドメイン8の「POI検索−POI未定−コンビニ」である。そこで、操作判断処理部207は、ドメイン8の「POI(Position Information)検索−POI未定−コンビニ」をタスクとして推定する。
【0050】
操作判断処理部207は、タスクの推定結果をオペレータ端末300のディスプレイ装置301と車載機100の画面出力処理部105に送信する。オペレータ端末300では、当該タスクの推定結果に基づき、オペレータがマイク302に発話をし、ドライバーの発話と同様の処理が行われ、当該タスクを実際に行なわれるべきタスクとして確認する処理がなされる。これに対して、車載機100でも、ドライバーがマイク101に発話をし、上記と同様の処理が行われる。このような処理を繰り返すことにより、短時間で精度良くタスクの推定を行うことができる。
【0051】
本実施形態によれば、センター200の操作判断処理部207は、ドライバー及びオペレータの発話に含まれる複数の単語を抽出し、単語ごとに単数又は複数の属性が関連付けられて記憶された類語・関連語DB208から、単語に関連付けられた属性を読み出し、読み出された単数又は複数の属性に関連付けられたタスクの候補あるいは実際に行なわれるべきタスクの単数又は複数のドメインが記憶された類語・関連語DB208から、属性に関連付けられたタスクの候補あるいは実際に行なわれるべきタスクのドメインを読み出し、ドライバー及びオペレータの発話に含まれる複数の単語について、単語ごとに読み出されたドメインを集計し、最も集計数の多いドメインに係るタスクの候補あるいは実際に行なわれるべきタスクをタスクの候補及び実際に行なわれるべきタスクとして推定するため、さらに高精度にタスクの推定を行うことができる。
【0052】
また、本実施形態によれば、センター200の操作判断処理部207が、ドライバー(ユーザ)の発話に含まれる情報から要求されるタスクの候補の推定を行ない、オペレータの発話に含まれる情報に基づいて、推定したタスクの候補に応じて行われるべきタスクを選択する。そのため、ドライバーとオペレータとの二人の発話に含まれる情報からタスクの推定が行われる。よって、タスクの推定に要する時間や発話数を低減でき、ユーザにとっての利便性を向上させ、発話から要求されるタスクを推定する精度を向上させることができる。
【0053】
以下、本発明の第2実施形態について説明する。本実施形態では、単語ごとに読み出されたドメインについて、単語に対するドメインの重要度に応じたスコアを集計し、最も集計されたスコアの多いドメインに係るタスクの候補やタスクを要求されるタスクの候補や実際に行われるべきタスクとして推定する。
【0054】
例えば、車載機100が搭載された車両のドライバーがマイク101に、「池袋でAチェーン(コンビニエンスストア名)を探して欲しいんだけど?」と発話する。図7及び図8に示すように、発話に含まれる各単語が認識され、認識結果よりデータベースから各単語の属性が抽出される(S201)。なお、第1実施形態と同様に、このような語句属性は、施設情報DB210の各施設の属性情報からも生成することができる。また、図8に示すように、信頼度といった要素を設定し、信頼度が所定の閾値未満の単語を処理から除いたり、信頼度に応じて処理の重み付けをしても良い。
【0055】
図7に示すように、操作判別処理部207は、単語の属性aからIDを抽出する(S202)。図8及び9に示すように、また、音声認識結果による単語「池袋」に対して、属性aのIDは、IDa=2の「エリア」となる。また、音声認識結果による単語「Aチェーン」に対して、属性aのIDは、IDa=8の「チェーン」となる。さらに、図7に示すように、操作判別処理部207は、単語の属性bからIDを抽出する(S203)。図8及び10に示すように、また、音声認識結果による単語「池袋」に対して、属性bのIDは、存在しない。また、音声認識結果による単語「Aチェーン」に対して、属性bのIDは、IDb=8の「コンビニ」となる。
【0056】
操作判別処理部207は、図11に示すようなドメインごとの重要度に応じたスコアを定義した属性スコア算出テーブルから、該当IDに対応する全ドメインのスコアを算出する(S204)。例えば、単語「Aチェーン」に対しては、属性aのIDa=8、属性bのIDb=8であるから、ドメイン1のスコアは1である。一方、ドメイン8のスコアは3となる。
【0057】
このようにして、操作判別処理部207は、発話中で認識された各単語について各ドメインのスコアを加算する(S205)。例えば、図12に示すように、単語「池袋」に対して、属性aのIDa=2であり、属性bのIDb=0である。また、単語「Aチェーン」に対して、属性aのIDa=8であり、属性bのIDb=8である。さらに、単語「探して」に対して、属性aのIDa=0であり、属性bのIDb=16である。
【0058】
これらの各単語について、図11の属性スコア算出テーブルを用いて、各ドメインのスコアが算出される。例えば、図13に示すように、ドメイン1「POI検索−POI特定−名称」については、単語「池袋」に対してスコア3、単語「Aチェーン」に対してスコア1、単語「探して」に対してスコア0である。これにより、ドメイン1のスコアの集計値は4となる。一方、ドメイン8「POI検索−POI未定−コンビニ」については、単語「池袋」に対してスコア3、単語「Aチェーン」に対してスコア3、単語「探して」に対してスコア0である。これにより、ドメイン1のスコアの集計値は6となる。
【0059】
操作判別処理部207は、対話の終端まで全てのドメインについて同様の処理を繰り返し(S206)、集計したスコア順にドメインをソートする(S207)。例えば、最もスコアの高いドメインがドメイン8「POI検索−POI未定−コンビニ」であるとすると、操作判別処理部207は、ドメイン8の「POI検索−POI未定−コンビニ」が要求されるタスクであり、実際に行われるべきタスクである可能性が高いと推定する。
【0060】
本実施形態では、センター200の操作判断処理部207は、ドライバー及びオペレータの発話に含まれる複数の単語を抽出し、単語ごとに単数又は複数の属性が関連付けられて記憶された類語・関連語DB208から、単語に関連付けられた属性を読み出し、読み出された単数又は複数の属性に関連付けられたタスクの候補あるいは実際に行なわれるべきタスクの単数又は複数のドメインが記憶された類語・関連語DB208から、属性に関連付けられたタスクの候補あるいは実際に行なわれるべきタスクのドメインを読み出し、ドライバー及びオペレータの発話に含まれる複数の単語について、単語ごとに読み出されたドメインについて、単語に対するドメインの重要度に応じたスコアを集計し、最も集計されたスコアの多いドメインに係るタスクの候補あるいは実際に行なわれるべきタスクをタスクの候補及び実際に行なわれるべきタスクとして推定するため、さらに高精度にタスクの推定を行うことができる。
【0061】
尚、本発明は、上記した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。例えば、上記実施形態では、車載機を用いるドライバーとオペレータ端末を用いるオペレータとの間で対話をする態様について中心に説明したが、例えば、車載機以外にも、発話者の一部又は全部が、何らかの事情により細かい手動による操作が困難な場合においても、本発明は適用可能であり、効果を発揮する。さらに、発話者も2名に限られず、3名以上の発話者からの発話に基づいてタスクを推定することが可能である。
【符号の説明】
【0062】
100…車載機、101…マイク、102…音響分析処理部(DSR−C)、103…GPSセンサ、104…位置情報処理部、105…画面出力処理部、106…ディスプレイ装置、200…センター、201…語彙DB、202…音声認識処理部(DSR−S)、203…キーワード抽出処理部、204…行動履歴DB、205…操作履歴DB、206…状況判断処理部、207…操作判断処理部、208…類語・関連語DB、210…施設情報DB、300…オペレータ端末、301…ディスプレイ、302…マイク、303…音響分析処理部。
【技術分野】
【0001】
本発明はオペレーティングシステム及びオペレーティング方法に関し、特に、発話者の発話に含まれる情報から要求されるタスクの推定を行うオペレーティングシステム及びオペレーティング方法に関するものである。
【背景技術】
【0002】
車両を運転中のドライバーは、運転操作に忙しいため、ナビゲーションシステムの目的地の設定等の運転操作以外の操作を行うことが困難である。そこで、ドライバーの発話を解析することにより、ドライバーが要求するタスクを推定し、ドライバーの操作を要さずに、当該タスクを実行する装置が提案されている。例えば、特許文献1には、車両のドライバーと外部センターのオペレータとが対話をし、外部センターがドライバーの発話を認識して、ドライバーが希望する表示情報を車両の表示装置に表示させるシステムが開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2004−333319号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上記のような技術では、例えば、オペレータに目的地設定をさせる場合には、ドライバーが現在地、目的地及び要求するタスクを具体的にコマンドとしてオペレータに告げる必要があり、ドライバーはコマンドの水準でしか発話をすることができないため、ドライバーにとって利便性が低い。また、ドライバーの発話から要求されるタスクを推定する精度が低く、システムの動作の信頼性が低い。そのため、上記のような技術では、誤認識を極力防ぐために、限られた操作に関するコマンドとしての発話しか受け付けられず、限られた操作の補助のみを行なうシステムとなっている。
【0005】
本発明は、このような事情を考慮してなされたものであり、その目的は、ユーザにとっての利便性を向上させ、発話から要求されるタスクを推定する精度を向上させたオペレーティングシステム及びオペレーティング方法を提供することにある。
【課題を解決するための手段】
【0006】
本発明は、第1発話者の発話に含まれる情報から、要求されるタスクの候補の推定を行う要求タスク推定ユニットを備え、要求タスク推定ユニットは、第1発話者の発話に含まれる複数の単語を抽出し、単語ごとに単数又は複数の属性が関連付けられて記憶されたデータベースから、単語に関連付けられた前記属性を読み出し、読み出された単数又は複数の属性に関連付けられたタスクの候補の単数又は複数のドメインが記憶されたデータベースから、属性に関連付けられたタスクの候補のドメインを読み出し、第1発話者の発話に含まれる複数の単語について、単語ごとに読み出されたドメインを集計し、最も集計数の多いドメインに係るタスクの候補を要求されるタスクの候補として推定するオペレーティングシステムである。
【0007】
この構成によれば、要求タスク推定ユニットは、第1発話者の発話に含まれる複数の単語を抽出し、単語ごとに単数又は複数の属性が関連付けられて記憶されたデータベースから、単語に関連付けられた属性を読み出し、読み出された単数又は複数の属性に関連付けられたタスクの候補の単数又は複数のドメインが記憶されたデータベースから、属性に関連付けられたタスクの候補のドメインを読み出し、第1発話者の発話に含まれる複数の単語について、単語ごとに読み出されたドメインを集計し、最も集計数の多いドメインに係るタスクの候補を要求されるタスクの候補として推定するため、高精度にタスクの候補の推定を行うことができる。
【0008】
なお、本発明における「タスクの候補」とは、例えば、後述するように、検索、経路案内、ナビゲーションシステムの操作及び機器の設定の変更等のユーザに対するサービスそれぞれが挙げられる。あるいは、本発明のおける「タスクの候補」とは、後述するように、例えば、検索キーワード等の検索条件が異なる検索処理それぞれが含まれる。
【0009】
この場合、要求タスク推定ユニットは、単語ごとに読み出されたドメインについて、単語に対するドメインの重要度に応じたスコアを集計し、最も集計されたスコアの多いドメインに係るタスクの候補を要求されるタスクの候補として推定することが好適である。
【0010】
この構成によれば、要求タスク推定ユニットは、単語ごとに読み出されたドメインについて、単語に対するドメインの重要度に応じたスコアを集計し、最も集計されたスコアの多いドメインに係るタスクの候補を要求されるタスクの候補として推定するため、さらに単語に対するドメインの重要度に応じて、高精度にタスクの候補の推定を行うことができる。
【0011】
また、第2発話者の発話に含まれる情報に基づいて、要求タスク推定ユニットが推定した要求されるタスクの候補から行われるべきタスクを選択するアクションタスク選択ユニットをさらに備えることが好適である。
【0012】
この構成によれば、要求タスク推定ユニットが、第1発話者の発話に含まれる情報から要求されるタスクの候補の推定を行ない、アクションタスク選択ユニットが、第2発話者の発話に含まれる情報に基づいて、要求タスク推定ユニットが推定した要求されるタスクの候補に応じて行われるべきタスクを選択する。そのため、第1発話者と第2発話者との二人の発話に含まれる情報からタスクの推定が行われる。よって、タスクの推定に要する時間や発話数を低減でき、ユーザにとっての利便性を向上させ、発話から要求されるタスクを推定する精度を向上させることができる。
【0013】
この場合、アクションタスク選択ユニットは、第2発話者の発話に含まれる複数の単語を抽出し、単語ごとに単数又は複数の属性が関連付けられて記憶されたデータベースから、単語に関連付けられた属性を読み出し、読み出された単数又は複数の属性に関連付けられたタスクの単数又は複数のドメインが記憶されたデータベースから、属性に関連付けられたタスクのドメインを読み出し、第1発話者の発話に含まれる複数の単語について、単語ごとに読み出されたドメインを集計し、最も集計数の多いドメインに係るタスクを要求されるタスクに応じたタスクとして選択することが好適である。
【0014】
この構成によれば、アクションタスク選択ユニットは、第2発話者の発話に含まれる複数の単語を抽出し、単語ごとに単数又は複数の属性が関連付けられて記憶されたデータベースから、単語に関連付けられた属性を読み出し、読み出された単数又は複数の属性に関連付けられたタスクの単数又は複数のドメインが記憶されたデータベースから、属性に関連付けられたタスクのドメインを読み出し、第1発話者の発話に含まれる複数の単語について、単語ごとに読み出されたドメインを集計し、最も集計数の多いドメインに係るタスクを要求されるタスクに応じたタスクとして選択するため、さらに高精度にタスクの選択を行うことができる。
【0015】
この場合、アクションタスク選択ユニットは、単語ごとに読み出されたドメインについて、単語に対するドメインの重要度に応じたスコアを集計し、最も集計されたスコアの多いドメインに係るタスクを要求されるタスクとして選択することが好適である。
【0016】
この構成によれば、アクションタスク選択ユニットは、単語ごとに読み出されたドメインについて、単語に対するドメインの重要度に応じたスコアを集計し、最も集計されたスコアの多いドメインに係るタスクを要求されるタスクとして選択するため、単語に対するドメインの重要度に応じて、高精度にタスクの選択を行うことができる。
【0017】
一方、本発明は、第1発話者の発話に含まれる情報から、要求されるタスクの推定を行う要求タスク推定工程を含み、要求タスク推定工程は、第1発話者の発話に含まれる複数の単語を抽出し、単語ごとに単数又は複数の属性が関連付けられて記憶されたデータベースから、単語に関連付けられた属性を読み出し、読み出された単数又は複数の属性に関連付けられたタスクの候補の単数又は複数のドメインが記憶されたデータベースから、属性に関連付けられたタスクの候補のドメインを読み出し、第1発話者の発話に含まれる複数の単語について、単語ごとに読み出されたドメインを集計し、最も集計数の多いドメインに係るタスクの候補を要求されるタスクの候補として推定するオペレーティング方法である。
【0018】
この場合、要求タスク推定工程は、単語ごとに読み出されたドメインについて、単語に対するドメインの重要度に応じたスコアを集計し、最も集計されたスコアの多いドメインに係るタスクの候補を要求されるタスクの候補として推定することが好適である。
【0019】
また、第2発話者の発話に含まれる情報に基づいて、要求タスク推定工程で推定した要求されるタスクの候補から行われるべきタスクを選択するアクションタスク選択工程をさらに含むことが好適である。
【0020】
この場合、要求タスク推定工程は、第1発話者の発話に含まれる複数の単語を抽出し、単語ごとに単数又は複数の属性が関連付けられて記憶されたデータベースから、単語に関連付けられた属性を読み出し、読み出された単数又は複数の属性に関連付けられたタスクの候補の単数又は複数のドメインが記憶されたデータベースから、属性に関連付けられたタスクの候補のドメインを読み出し、第1発話者の発話に含まれる複数の単語について、単語ごとに読み出されたドメインを集計し、最も集計数の多いドメインに係るタスクの候補を要求されるタスクの候補として推定することが好適である。
【0021】
この場合、アクションタスク選択工程は、単語ごとに読み出されたドメインについて、単語に対するドメインの重要度に応じたスコアを集計し、最も集計されたスコアの多いドメインに係るタスクを要求される前記タスクとして選択することが好適である。
【発明の効果】
【0022】
本発明のオペレーティングシステム及びオペレーティング方法によれば、ユーザにとっての利便性を向上させ、発話から要求されるタスクを推定する精度を向上させることができる。
【図面の簡単な説明】
【0023】
【図1】第1実施形態に係るオペレーティングシステムの構成を示す図である。
【図2】第1実施形態に係る発話の認識結果から要求タスクのドメインを抽出する処理を示すフローチャートである。
【図3】語句属性1を示す属性1テーブルである。
【図4】語句属性2を示す属性2テーブルである。
【図5】語句属性1,2に関連付けられたドメインを示すドメイン対応表である。
【図6】ドメインに関連付けられた要求タスクを示すドメイン−要求タスク対応表である。
【図7】第2実施形態に係る発話の認識結果から要求タスクのドメインを抽出する処理を示すフローチャートである。
【図8】認識された単語と各単語ごとに予め付与されている属性a,bとを示すテーブルである。
【図9】語句属性aを示す属性aテーブルである。
【図10】語句属性bを示す属性bテーブルである。
【図11】ドメインごとの重要度に応じたスコアを定義した属性スコア算出テーブルである。
【図12】認識された単語とその属性a,bとの一部を示すテーブルである。
【図13】スコア算出の例を示す図である。
【発明を実施するための形態】
【0024】
以下、図面を参照して本発明の実施形態に係るオペレーティングシステムを説明する。
【0025】
図1に示すように、本発明の第1実施形態に係るオペレーティングシステムは、通信回線で接続された車載機100、センター200及びオペレータ端末300からなる。本実施形態のオペレーティングシステムは、車両に搭載された車載機100を用いるユーザとオペレータ端末300を操作するオペレータとがセンター200を介して対話することにより、ユーザの要求に応じてオペレータが行なうべきタスクを推定するためのものである。
【0026】
図1に示すように、車載機100は、マイク101、音声分析処理部(DSR−C:Distributed Speech Recognition Client)102、GPSセンサ103、位置情報処理部104、画面出力処理部105及びディスプレイ装置106を有している。マイク101は、車両内の特にドライバーであるユーザ(第1発話者)の発話を検出し、検出結果を音声信号として音響分析処理部102に出力する。音響分析処理部102は、音声認識処理をセンター200で行うため、発話データのサイズを圧縮してセンター200に送信する。
【0027】
GPSセンサ103は、GPS(Global Positioning System)衛星からの信号をGPS受信機で受信し、各々の信号の相違から車両の位置を測位する。車載機100は、GPSセンサ103が測位した位置情報と地図データとに基づいてユーザに対して経路案内を行う不図示のナビゲーションを備えている。位置情報処理部104は、GPSセンサ103が検出した位置情報を収集してセンター200に送信する。
【0028】
画面出力処理部105は、センター200から送信された情報を受信し、特にドライバーであるユーザに対してディスプレイ装置106により情報を表示するためのものである。
【0029】
センター200は、語彙DB201、音声認識処理部(DSR−S)202、キーワード抽出処理部203、行動履歴DB204、操作履歴DB205、状況判断処理部206、操作判断処理部207及び類語・関連語DB208を有している。
【0030】
語彙DB201は、音声認識の対象となる語彙を蓄積した認識辞書のデータベースである。語彙DB201には、同じ単語の別名や愛称等の言換え語彙も含まれる。
【0031】
音声認識処理部(DSR−S:Distributed Speech Recognition Server)202は、車載機100の音響分析処理部102から送信されたユーザの発話データをディクテーション認識してテキスト化する。また、音声認識処理部202は、オペレータ端末300の音響分析処理部303から送信されたオペレータの発話データをディクテーション認識してテキスト化する。
【0032】
キーワード抽出処理部203は、音声認識処理部202がテキスト化した発話テキストからタスクの推定に必要なキーワードとなる単語を抽出する。
【0033】
行動履歴DB204は、車載機100が搭載された車両のユーザであるドライバーの過去の設定目的地、走行ルート、時間帯等の行動履歴に関する情報を格納する。なお、本実施形態では、センター200の行動履歴DB204にドライバーの過去の行動履歴に関する情報を格納するが、センター200の外部の機器にドライバーの過去の行動履歴に関する情報が格納されても良い。
【0034】
操作履歴DB205は、車載機100が搭載された車両のユーザであるドライバーの過去の発話内容、検索条件等の操作履歴に関する情報を格納する。
【0035】
状況判断処理部206は、車載機100の位置情報処理部104から送信された車載機100が搭載された車両の位置情報の取得と、行動履歴DB204に格納された行動履歴に関する情報及び操作履歴DB205に格納された操作履歴に関する情報の取得とを行なう。また、状況判断処理部206は、現在の時刻も取得する。
【0036】
操作判断処理部207は、キーワード抽出処理部203のキーワードの抽出結果と、状況判断処理部206が取得したユーザに関する情報とを合わせ、類語・関連語DBに格納された類語・関連語に関する情報を参照しつつ、ユーザの要求するタスクの候補を推定する。また、操作判断処理部207は、タスクの候補の推定結果に基づいて、オペレータが行うべきタスクを選択し、実行させる。操作判断処理部207の推定結果は、車載機100の画面出力処理部105及びオペレータ端末300のディスプレイ装置301に出力される。
【0037】
類語・関連語DB208は、語彙DB201に格納された語彙と意味的な関連のある類語及び関連語に関する情報を格納する。なお、車載機100からの発話データ、位置情報及びセンター200からの推定結果は、車載機100とセンター200に接続された路側インフラストラクチャーとの間で、短距離通信等により送受信される。施設情報DB210には、車載機100を搭載した車両が立寄ることが可能な種々の施設に関する情報が記憶されている。
【0038】
オペレータ端末300は、ディスプレイ装置301、マイク302及び音響分析処理部(DSR−C:Distributed Speech Recognition Client)303を有している。ディスプレイ装置301は、センター200の操作判断処理部207から送信された情報を受信し、オペレータに対して情報を表示するためのものである。
【0039】
マイク302は、オペレータ(第2発話者)の発話を検出し、検出結果を音声信号として音響分析処理部303に出力する。音響分析処理部303は、音声認識処理をセンター200で行うため、発話データのサイズを圧縮してセンター200に送信する。
【0040】
以下、本実施形態のオペレーティングシステムの動作について説明する。以下の例では、まず、発話からタスクを推定する原理を示すため、ドライバーの発話から、POI(Position Information)検索といったタスクを推定する手法を中心に説明する。例えば、車載機100が搭載された車両のドライバーがマイク101に、「池袋のXXX(コンビニエンスストア名)は?」と発話する。音響分析処理部102は、センター200の音声認識処理部202が音声認識を行うのに最低限必要な情報のみを抽出し、発話データとしてセンター200の音声認識処理部202に送信する。
【0041】
音声認識処理部202は、ディクテーション認識を用いて発話データをテキスト化し、発話テキストとする。このとき、音声認識処理部202は語彙DB201を参照しつつ、キーワード中に愛称、別称等の言換え表現が含まれる場合は、言換え表現を基本表現に置換したものを出力する。上記の例では、発話内に言換え表現は含まれないので、基本表現の置換は行なわれない。なお、言換え表現と基本表現の定義は普遍的なものではなく、語彙DB201の整備仕様により適宜決定される。
【0042】
キーワード抽出処理部203は、音声認識処理部202が出力した発話テキストを構文解析する。構文解析では、キーワード抽出処理部203は、形態素解析による品詞分解と係り受け関係の判別を行なう。キーワード抽出処理部203は、品詞分解結果から、意味の判別に必要な品詞の単語のみを抜き出したものを操作判断処理部207に送信する。ここで、意味の判別に必要な品詞とは、名詞、動詞、形容詞、形容動詞等の単独で目的推定のための意味を持つ可能性が高い品詞をいう。例えば、本例では、「池袋」、「XXX(コンビニエンスストア名)」が抽出される。以上より、図2に示すように、音声認識結果からの単語抽出が完了する(S101)。
【0043】
操作判断処理部207は、キーワード抽出処理部203から受け取った抽出されたキーワードを、予め定義された判断のルールと照合し、ドライバーから要求される要求タスクを推定する。本実施形態では、類語・関連語DB208に複数の語句属性が記憶されている。語句属性には、所定のキーワードが関連付けられて類語・関連語DB208に記憶されている。例えば、語句属性1について図3に示すような属性1テーブルが定義されているものとする。操作判断処理部207は、抽出されたキーワードそれぞれが、語句属性1の語句属性1テーブルに関連付けられているか否か判定する(S102)。キーワード「池袋」に関連付けられている語句属性1は、id1=2:「エリア」である。キーワード「XXX(コンビニエンスストア名)」に関連付けられている語句属性1は、id1=4:「チェーン」である。このような語句属性は、施設情報DB210の各施設の属性情報からも生成することができる。
【0044】
例えば、語句属性2について図4に示すような属性2テーブルが定義されているものとする。操作判断処理部207は、抽出されたキーワードそれぞれが、語句属性2の語句属性2テーブルに関連付けられているか否か判定する(S103)。キーワード「池袋」に関連付けられている語句属性2は、id2=a:「属性なし」である。キーワード「XXX(コンビニエンスストア名)」に関連付けられている語句属性2は、id2=e:「コンビニ」である。
【0045】
本例では、抽出されたキーワード「池袋」、「XXX(コンビニエンスストア名)」は、語句属性1テーブル及び語句属性2テーブルのいずれかに関連付けられているため、操作判断処理部207は、これらのキーワードをドメイン判定必要語句として記憶する(S104)。一方、もし、抽出されたキーワードが、語句属性1テーブル、語句属性2テーブル及びその他の語句属性テーブルのいずれにも関連付けられていないときは、操作判断処理部207は、当該キーワードをドメイン判定必要語句ではないとして破棄する(S105)。
【0046】
全てのキーワードを操作判断処理部207が処理したときは(S106)、操作判断処理部207は、抽出されたキーワードそれぞれについてドメイン対応表による該当ドメインがいずれであるかを判定し、ドメイン一覧より該当ドメインを抽出する(S107,S108)。
【0047】
類語・関連語DB208には、図5に示すようなドメイン対応表が記憶されている。ドメイン対応表では、語句属性1及び語句属性2ごとに対応するタスクのドメイン1〜13が定義されている。ドメイン1〜13のタスクは、それぞれ図6に示すように定義されている。
【0048】
例えば、キーワード「池袋」については、語句属性1はid1=2:「エリア」であり、語句属性2はid2=a:「属性なし」であるから、図5の表の丸印で示すドメイン1,4,5,6,7,8,9,10,11,12及び13が該当する。また、キーワード「XXX(コンビニエンスストア名)」については、語句属性1はid1=4:「チェーン」であり、語句属性2はid2=e:「コンビニ」であるから、図5の表の丸印で示すドメイン8が該当する。
【0049】
操作判断処理部207は、ドメイン対応表による該当ドメインの判定が全てのキーワードについて完了したときは(S107)、該当するドメインを集計することにより要求タスクを推定する(S109)。例えば、本例では、キーワード「池袋」、「XXX(コンビニエンスストア名)」のいずれにも該当するドメインは、ドメイン8の「POI検索−POI未定−コンビニ」である。そこで、操作判断処理部207は、ドメイン8の「POI(Position Information)検索−POI未定−コンビニ」をタスクとして推定する。
【0050】
操作判断処理部207は、タスクの推定結果をオペレータ端末300のディスプレイ装置301と車載機100の画面出力処理部105に送信する。オペレータ端末300では、当該タスクの推定結果に基づき、オペレータがマイク302に発話をし、ドライバーの発話と同様の処理が行われ、当該タスクを実際に行なわれるべきタスクとして確認する処理がなされる。これに対して、車載機100でも、ドライバーがマイク101に発話をし、上記と同様の処理が行われる。このような処理を繰り返すことにより、短時間で精度良くタスクの推定を行うことができる。
【0051】
本実施形態によれば、センター200の操作判断処理部207は、ドライバー及びオペレータの発話に含まれる複数の単語を抽出し、単語ごとに単数又は複数の属性が関連付けられて記憶された類語・関連語DB208から、単語に関連付けられた属性を読み出し、読み出された単数又は複数の属性に関連付けられたタスクの候補あるいは実際に行なわれるべきタスクの単数又は複数のドメインが記憶された類語・関連語DB208から、属性に関連付けられたタスクの候補あるいは実際に行なわれるべきタスクのドメインを読み出し、ドライバー及びオペレータの発話に含まれる複数の単語について、単語ごとに読み出されたドメインを集計し、最も集計数の多いドメインに係るタスクの候補あるいは実際に行なわれるべきタスクをタスクの候補及び実際に行なわれるべきタスクとして推定するため、さらに高精度にタスクの推定を行うことができる。
【0052】
また、本実施形態によれば、センター200の操作判断処理部207が、ドライバー(ユーザ)の発話に含まれる情報から要求されるタスクの候補の推定を行ない、オペレータの発話に含まれる情報に基づいて、推定したタスクの候補に応じて行われるべきタスクを選択する。そのため、ドライバーとオペレータとの二人の発話に含まれる情報からタスクの推定が行われる。よって、タスクの推定に要する時間や発話数を低減でき、ユーザにとっての利便性を向上させ、発話から要求されるタスクを推定する精度を向上させることができる。
【0053】
以下、本発明の第2実施形態について説明する。本実施形態では、単語ごとに読み出されたドメインについて、単語に対するドメインの重要度に応じたスコアを集計し、最も集計されたスコアの多いドメインに係るタスクの候補やタスクを要求されるタスクの候補や実際に行われるべきタスクとして推定する。
【0054】
例えば、車載機100が搭載された車両のドライバーがマイク101に、「池袋でAチェーン(コンビニエンスストア名)を探して欲しいんだけど?」と発話する。図7及び図8に示すように、発話に含まれる各単語が認識され、認識結果よりデータベースから各単語の属性が抽出される(S201)。なお、第1実施形態と同様に、このような語句属性は、施設情報DB210の各施設の属性情報からも生成することができる。また、図8に示すように、信頼度といった要素を設定し、信頼度が所定の閾値未満の単語を処理から除いたり、信頼度に応じて処理の重み付けをしても良い。
【0055】
図7に示すように、操作判別処理部207は、単語の属性aからIDを抽出する(S202)。図8及び9に示すように、また、音声認識結果による単語「池袋」に対して、属性aのIDは、IDa=2の「エリア」となる。また、音声認識結果による単語「Aチェーン」に対して、属性aのIDは、IDa=8の「チェーン」となる。さらに、図7に示すように、操作判別処理部207は、単語の属性bからIDを抽出する(S203)。図8及び10に示すように、また、音声認識結果による単語「池袋」に対して、属性bのIDは、存在しない。また、音声認識結果による単語「Aチェーン」に対して、属性bのIDは、IDb=8の「コンビニ」となる。
【0056】
操作判別処理部207は、図11に示すようなドメインごとの重要度に応じたスコアを定義した属性スコア算出テーブルから、該当IDに対応する全ドメインのスコアを算出する(S204)。例えば、単語「Aチェーン」に対しては、属性aのIDa=8、属性bのIDb=8であるから、ドメイン1のスコアは1である。一方、ドメイン8のスコアは3となる。
【0057】
このようにして、操作判別処理部207は、発話中で認識された各単語について各ドメインのスコアを加算する(S205)。例えば、図12に示すように、単語「池袋」に対して、属性aのIDa=2であり、属性bのIDb=0である。また、単語「Aチェーン」に対して、属性aのIDa=8であり、属性bのIDb=8である。さらに、単語「探して」に対して、属性aのIDa=0であり、属性bのIDb=16である。
【0058】
これらの各単語について、図11の属性スコア算出テーブルを用いて、各ドメインのスコアが算出される。例えば、図13に示すように、ドメイン1「POI検索−POI特定−名称」については、単語「池袋」に対してスコア3、単語「Aチェーン」に対してスコア1、単語「探して」に対してスコア0である。これにより、ドメイン1のスコアの集計値は4となる。一方、ドメイン8「POI検索−POI未定−コンビニ」については、単語「池袋」に対してスコア3、単語「Aチェーン」に対してスコア3、単語「探して」に対してスコア0である。これにより、ドメイン1のスコアの集計値は6となる。
【0059】
操作判別処理部207は、対話の終端まで全てのドメインについて同様の処理を繰り返し(S206)、集計したスコア順にドメインをソートする(S207)。例えば、最もスコアの高いドメインがドメイン8「POI検索−POI未定−コンビニ」であるとすると、操作判別処理部207は、ドメイン8の「POI検索−POI未定−コンビニ」が要求されるタスクであり、実際に行われるべきタスクである可能性が高いと推定する。
【0060】
本実施形態では、センター200の操作判断処理部207は、ドライバー及びオペレータの発話に含まれる複数の単語を抽出し、単語ごとに単数又は複数の属性が関連付けられて記憶された類語・関連語DB208から、単語に関連付けられた属性を読み出し、読み出された単数又は複数の属性に関連付けられたタスクの候補あるいは実際に行なわれるべきタスクの単数又は複数のドメインが記憶された類語・関連語DB208から、属性に関連付けられたタスクの候補あるいは実際に行なわれるべきタスクのドメインを読み出し、ドライバー及びオペレータの発話に含まれる複数の単語について、単語ごとに読み出されたドメインについて、単語に対するドメインの重要度に応じたスコアを集計し、最も集計されたスコアの多いドメインに係るタスクの候補あるいは実際に行なわれるべきタスクをタスクの候補及び実際に行なわれるべきタスクとして推定するため、さらに高精度にタスクの推定を行うことができる。
【0061】
尚、本発明は、上記した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。例えば、上記実施形態では、車載機を用いるドライバーとオペレータ端末を用いるオペレータとの間で対話をする態様について中心に説明したが、例えば、車載機以外にも、発話者の一部又は全部が、何らかの事情により細かい手動による操作が困難な場合においても、本発明は適用可能であり、効果を発揮する。さらに、発話者も2名に限られず、3名以上の発話者からの発話に基づいてタスクを推定することが可能である。
【符号の説明】
【0062】
100…車載機、101…マイク、102…音響分析処理部(DSR−C)、103…GPSセンサ、104…位置情報処理部、105…画面出力処理部、106…ディスプレイ装置、200…センター、201…語彙DB、202…音声認識処理部(DSR−S)、203…キーワード抽出処理部、204…行動履歴DB、205…操作履歴DB、206…状況判断処理部、207…操作判断処理部、208…類語・関連語DB、210…施設情報DB、300…オペレータ端末、301…ディスプレイ、302…マイク、303…音響分析処理部。
【特許請求の範囲】
【請求項1】
第1発話者の発話に含まれる情報から、要求されるタスクの候補の推定を行う要求タスク推定ユニットを備え、
前記要求タスク推定ユニットは、
前記第1発話者の発話に含まれる複数の単語を抽出し、
前記単語ごとに単数又は複数の属性が関連付けられて記憶されたデータベースから、前記単語に関連付けられた前記属性を読み出し、
読み出された単数又は複数の前記属性に関連付けられた前記タスクの候補の単数又は複数のドメインが記憶されたデータベースから、前記属性に関連付けられた前記タスクの候補の前記ドメインを読み出し、
前記第1発話者の発話に含まれる複数の単語について、前記単語ごとに読み出された前記ドメインを集計し、最も集計数の多いドメインに係る前記タスクの候補を要求される前記タスクの候補として推定する、オペレーティングシステム。
【請求項2】
前記要求タスク推定ユニットは、前記単語ごとに読み出された前記ドメインについて、前記単語に対する前記ドメインの重要度に応じたスコアを集計し、最も集計された前記スコアの多いドメインに係る前記タスクの候補を要求される前記タスクの候補として推定する、請求項1に記載のオペレーティングシステム。
【請求項3】
第2発話者の発話に含まれる情報に基づいて、前記要求タスク推定ユニットが推定した要求されるタスクの候補から行われるべきタスクを選択するアクションタスク選択ユニットをさらに備えた、請求項1又は2に記載のオペレーティングシステム。
【請求項4】
前記アクションタスク選択ユニットは、
前記第2発話者の発話に含まれる複数の単語を抽出し、
前記単語ごとに単数又は複数の属性が関連付けられて記憶されたデータベースから、前記単語に関連付けられた前記属性を読み出し、
読み出された単数又は複数の前記属性に関連付けられた前記アクションタスクの単数又は複数のドメインが記憶されたデータベースから、前記属性に関連付けられた前記タスクの前記ドメインを読み出し、
前記第2発話者の発話に含まれる複数の単語について、前記単語ごとに読み出された前記ドメインを集計し、最も集計数の多いドメインに係る前記タスクを要求される前記タスクとして選択する、請求項3に記載のオペレーティングシステム。
【請求項5】
前記アクションタスク選択ユニットは、前記単語ごとに読み出された前記ドメインについて、前記単語に対する前記ドメインの重要度に応じたスコアを集計し、最も集計された前記スコアの多いドメインに係る前記タスクを要求される前記タスクとして選択する、請求項4に記載のオペレーティングシステム。
【請求項6】
第1発話者の発話に含まれる情報から、要求されるタスクの推定を行う要求タスク推定工程を含み、
前記要求タスク推定工程は、
前記第1発話者の発話に含まれる複数の単語を抽出し、
前記単語ごとに単数又は複数の属性が関連付けられて記憶されたデータベースから、前記単語に関連付けられた前記属性を読み出し、
読み出された単数又は複数の前記属性に関連付けられた前記タスクの候補の単数又は複数のドメインが記憶されたデータベースから、前記属性に関連付けられた前記タスクの候補の前記ドメインを読み出し、
前記第1発話者の発話に含まれる複数の単語について、前記単語ごとに読み出された前記ドメインを集計し、最も集計数の多いドメインに係る前記タスクの候補を要求される前記タスクの候補として推定する、オペレーティング方法。
【請求項7】
前記要求タスク推定工程は、前記単語ごとに読み出された前記ドメインについて、前記単語に対する前記ドメインの重要度に応じたスコアを集計し、最も集計された前記スコアの多いドメインに係る前記タスクの候補を要求される前記タスクの候補として推定する、請求項6に記載のオペレーティング方法。
【請求項8】
第2発話者の発話に含まれる情報に基づいて、前記要求タスク推定工程で推定した要求されるタスクの候補から行われるべきタスクを選択するアクションタスク選択工程をさらに含む、請求項6又は7に記載のオペレーティング方法。
【請求項9】
前記アクションタスク選択工程は、
前記第2発話者の発話に含まれる複数の単語を抽出し、
前記単語ごとに単数又は複数の属性が関連付けられて記憶されたデータベースから、前記単語に関連付けられた前記属性を読み出し、
読み出された単数又は複数の前記属性に関連付けられた前記タスクの単数又は複数のドメインが記憶されたデータベースから、前記属性に関連付けられた前記タスクの前記ドメインを読み出し、
前記第1発話者の発話に含まれる複数の単語について、前記単語ごとに読み出された前記ドメインを集計し、最も集計数の多いドメインに係る前記タスクを要求タスクに応じた前記タスクとして選択する、請求項8に記載のオペレーティング方法。
【請求項10】
前記アクションタスク選択工程は、前記単語ごとに読み出された前記ドメインについて、前記単語に対する前記ドメインの重要度に応じたスコアを集計し、最も集計された前記スコアの多いドメインに係る前記タスクを要求される前記タスクとして選択する、請求項9に記載のオペレーティング方法。
【請求項1】
第1発話者の発話に含まれる情報から、要求されるタスクの候補の推定を行う要求タスク推定ユニットを備え、
前記要求タスク推定ユニットは、
前記第1発話者の発話に含まれる複数の単語を抽出し、
前記単語ごとに単数又は複数の属性が関連付けられて記憶されたデータベースから、前記単語に関連付けられた前記属性を読み出し、
読み出された単数又は複数の前記属性に関連付けられた前記タスクの候補の単数又は複数のドメインが記憶されたデータベースから、前記属性に関連付けられた前記タスクの候補の前記ドメインを読み出し、
前記第1発話者の発話に含まれる複数の単語について、前記単語ごとに読み出された前記ドメインを集計し、最も集計数の多いドメインに係る前記タスクの候補を要求される前記タスクの候補として推定する、オペレーティングシステム。
【請求項2】
前記要求タスク推定ユニットは、前記単語ごとに読み出された前記ドメインについて、前記単語に対する前記ドメインの重要度に応じたスコアを集計し、最も集計された前記スコアの多いドメインに係る前記タスクの候補を要求される前記タスクの候補として推定する、請求項1に記載のオペレーティングシステム。
【請求項3】
第2発話者の発話に含まれる情報に基づいて、前記要求タスク推定ユニットが推定した要求されるタスクの候補から行われるべきタスクを選択するアクションタスク選択ユニットをさらに備えた、請求項1又は2に記載のオペレーティングシステム。
【請求項4】
前記アクションタスク選択ユニットは、
前記第2発話者の発話に含まれる複数の単語を抽出し、
前記単語ごとに単数又は複数の属性が関連付けられて記憶されたデータベースから、前記単語に関連付けられた前記属性を読み出し、
読み出された単数又は複数の前記属性に関連付けられた前記アクションタスクの単数又は複数のドメインが記憶されたデータベースから、前記属性に関連付けられた前記タスクの前記ドメインを読み出し、
前記第2発話者の発話に含まれる複数の単語について、前記単語ごとに読み出された前記ドメインを集計し、最も集計数の多いドメインに係る前記タスクを要求される前記タスクとして選択する、請求項3に記載のオペレーティングシステム。
【請求項5】
前記アクションタスク選択ユニットは、前記単語ごとに読み出された前記ドメインについて、前記単語に対する前記ドメインの重要度に応じたスコアを集計し、最も集計された前記スコアの多いドメインに係る前記タスクを要求される前記タスクとして選択する、請求項4に記載のオペレーティングシステム。
【請求項6】
第1発話者の発話に含まれる情報から、要求されるタスクの推定を行う要求タスク推定工程を含み、
前記要求タスク推定工程は、
前記第1発話者の発話に含まれる複数の単語を抽出し、
前記単語ごとに単数又は複数の属性が関連付けられて記憶されたデータベースから、前記単語に関連付けられた前記属性を読み出し、
読み出された単数又は複数の前記属性に関連付けられた前記タスクの候補の単数又は複数のドメインが記憶されたデータベースから、前記属性に関連付けられた前記タスクの候補の前記ドメインを読み出し、
前記第1発話者の発話に含まれる複数の単語について、前記単語ごとに読み出された前記ドメインを集計し、最も集計数の多いドメインに係る前記タスクの候補を要求される前記タスクの候補として推定する、オペレーティング方法。
【請求項7】
前記要求タスク推定工程は、前記単語ごとに読み出された前記ドメインについて、前記単語に対する前記ドメインの重要度に応じたスコアを集計し、最も集計された前記スコアの多いドメインに係る前記タスクの候補を要求される前記タスクの候補として推定する、請求項6に記載のオペレーティング方法。
【請求項8】
第2発話者の発話に含まれる情報に基づいて、前記要求タスク推定工程で推定した要求されるタスクの候補から行われるべきタスクを選択するアクションタスク選択工程をさらに含む、請求項6又は7に記載のオペレーティング方法。
【請求項9】
前記アクションタスク選択工程は、
前記第2発話者の発話に含まれる複数の単語を抽出し、
前記単語ごとに単数又は複数の属性が関連付けられて記憶されたデータベースから、前記単語に関連付けられた前記属性を読み出し、
読み出された単数又は複数の前記属性に関連付けられた前記タスクの単数又は複数のドメインが記憶されたデータベースから、前記属性に関連付けられた前記タスクの前記ドメインを読み出し、
前記第1発話者の発話に含まれる複数の単語について、前記単語ごとに読み出された前記ドメインを集計し、最も集計数の多いドメインに係る前記タスクを要求タスクに応じた前記タスクとして選択する、請求項8に記載のオペレーティング方法。
【請求項10】
前記アクションタスク選択工程は、前記単語ごとに読み出された前記ドメインについて、前記単語に対する前記ドメインの重要度に応じたスコアを集計し、最も集計された前記スコアの多いドメインに係る前記タスクを要求される前記タスクとして選択する、請求項9に記載のオペレーティング方法。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【公開番号】特開2011−221344(P2011−221344A)
【公開日】平成23年11月4日(2011.11.4)
【国際特許分類】
【出願番号】特願2010−91374(P2010−91374)
【出願日】平成22年4月12日(2010.4.12)
【出願人】(000003207)トヨタ自動車株式会社 (59,920)
【出願人】(398018021)株式会社アドバンスト・メディア (23)
【Fターム(参考)】
【公開日】平成23年11月4日(2011.11.4)
【国際特許分類】
【出願日】平成22年4月12日(2010.4.12)
【出願人】(000003207)トヨタ自動車株式会社 (59,920)
【出願人】(398018021)株式会社アドバンスト・メディア (23)
【Fターム(参考)】
[ Back to top ]