説明

車両の統合操作装置による携帯端末の遠隔的な操作方法、および車両の統合操作装置

【課題】音声を使用して、統合操作装置からの携帯端末を制御するための方法と装置とを提供する。
【解決手段】統合操作装置100は、携帯端末120の現在のユーザーインターフェース(UI)画面122、222、262の画像表現を受け取る。統合操作装置100は、現在のUI画面122、222、262の画像表現を調べることにより、入力機構124−130、224−234、264−274の候補の位置を決定する。入力機構124−130、224−234、264−274の候補は文字認識処理を用いて調べられる。これにより、入力機構124−130、224−234、264−274のための音声認識コマンドが決定される。決定された音声認識コマンドと、それらのUI画面における位置は、音声認識データベースに格納される。それらは、音声認識の間に発声された音声コマンドで検索され、関連付けられる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、車両の統合操作装置による携帯端末の遠隔的な操作方法、および車両の統合操作装置に関する。より詳細には、本発明は、画像処理と文字認識を使用して、携帯端末用の音声認識データベースを作成する方法および装置に関するものである。
【背景技術】
【0002】
従来、特許文献1に開示されるような車両のためのユーザーインターフェース装置が知られている。車両の典型的な統合操作装置は車両内の制御装置を制御するための複雑なユーザーインターフェースを利用者に提供する。例えば、統合操作装置のユーザーインターフェースは、利用者が車両のオーディオビジュアル(AV)システム、空調(HVAC)システムおよび/またはGPSシステムを制御することを可能にする。
【0003】
統合操作装置はタッチスクリーンを備えることができる。これにより、利用者は、システムのうちの1つの属性を調節するか制御するためのコマンドに対応するスクリーン、すなわち画面上の区画に触れることにより、利用者からの指示を入力することができる。例えば、利用者は、入力機構、例えば音量を調節するためのボタン、を表示している画面の一区画を押すことによってオーディオビジュアルシステムの音量を調節することができる。
【0004】
さらに、車両の統合操作装置は、利用者からの入力を提供するための予め設定されたコマンドの一群、コマンド群を有している。利用者は、例えば「音量増加」といった特定のコマンドを発声することにより音声コマンドを出すことができる。統合操作装置に関連付けられた音声認識部は、利用者によって発声された単語または語句を識別するために音声認識ソフトウェアを実行する。その後、音声認識部は、発声された単語または語句が認識されたコマンドかどうかを判断し、そうならば、音声認識部は、認識されたコマンドを、そのコマンドを実行する適切な車両システムに伝える。
【0005】
さらに、利用者は、車両の統合操作装置に携帯端末を同期させることができる。携帯端末と統合操作装置とは、USB接続のような有線接続、またはBluetooth(登録商標)接続のような無線接続を介して接続される。上記接続が提供されると、利用者は、統合操作装置によって、携帯端末との制限された相互作用を得ることができる。例えば、利用者は、ハンズフリー会話の実行、または携帯端末の音楽などのリストへのアクセスが可能である。
【0006】
ここに提示された背景技術の記述は、本発明の位置づけを一般的に説明するためのものである。この背景技術の欄に述べられた範囲で、発明者らの開発活動は、出願の時点における先行技術として妥当することのないここの記述の側面と同様に、明示的にも、また、暗示的にも、本発明に対する先行技術として自認されたものではない。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2005−100277号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
上記従来技術では、利用者は、車両の統合操作装置の音声認識機能を使用して、携帯端末を制御することができない。
【0009】
さらに、携帯端末のための多くのアプリケーションがサードパーティと呼ばれる第三者的なソフトウェア開発者によって開発されるにつれて、車両の統合操作装置を通してそれらのアプリケーションに音声コマンドを与えるための効率的な手法の必要性が高まっている。
【0010】
本発明は上記従来技術の問題点に鑑みてなされたものであり、その目的は、車両に所属する車両の統合操作装置の音声認識機能によって携帯端末を遠隔的に操作することができる操作方法、および車両の統合操作装置を提供することである。
【0011】
本発明の他の目的は、携帯端末が提供するユーザーインターフェースへの適合が可能な操作方法、および装置を提供することである。
【0012】
本発明のさらに他の目的は、携帯端末がもつ音声認識によるコマンド機能を車両の統合走査装置に移植することができる操作方法、および装置を提供することである。
【課題を解決するための手段】
【0013】
本発明は上記目的を達成するために以下の技術的手段を採用する。
【0014】
本発明のひとつの側面によると、車両の統合操作装置を使用して、遠隔的に携帯端末を操作する操作方法が提供される。操作方法は携帯端末から携帯端末のユーザーインターフェース画面のユーザーインターフェース表現を受け取り、入力機構の入力表現を見つけるためにユーザーインターフェース画面のユーザーインターフェース表現をスキャン、すなわち調べる工程を含む。入力機構は携帯端末にコマンドを供給するために使用される。操作方法は、音声認識コマンドを決定するために入力機構の入力表現をスキャンし、音声認識データベースの中で入力機構に音声認識コマンドを関連付ける工程をさらに含む。利用者が、音声認識コマンドを発声すると、統合操作装置は、入力機構に対応する信号を携帯端末に送信する。
【0015】
本発明の他の側面によると、音声認識を使用して、遠隔的に携帯端末を操作するように構成された車両の統合操作装置が提供される。統合操作装置は、携帯端末から携帯端末のユーザーインターフェース画面のユーザーインターフェース表現を受け取る通信部を有する。統合操作装置は、ユーザーインターフェース画面のユーザーインターフェース表現の上で入力機構の入力表現を見つけるためにユーザーインターフェース画面のユーザーインターフェース表現をスキャンする画像スキャン部をさらに備える。入力機構は携帯端末にコマンドを供給するために使用される。統合操作装置は、入力機構の入力表現から識別された少なくともひとつの文字または記号に基づいて音声認識コマンドを決定するために画像スキャン部によって見つけられた入力機構の入力表現を文字認識処理によって調べる文字記号認識部をさらに備える。統合操作装置は、ユーザーインターフェース画面に見つけられた入力機構に対応する音声認識コマンドを格納する携帯端末音声認識データベースをさらに備える。利用者が音声認識コマンドを発声すると、統合操作装置は、入力機構に対応する信号を携帯端末に送信する。
【0016】
この発明を適用可能な他の分野は、以下の説明によって明らかにされる。この発明の概要における説明と具体的な例示とは、具体的な説明を与える用途だけを意図したものであって、本発明の技術的範囲を限定することを意図したものではない。
【図面の簡単な説明】
【0017】
【図1】図1は、携帯端末および車両の統合操作装置の典型的なユーザーインターフェース画面を示す平面図である。
【図2A】図2Aは、携帯端末のデフォルトのユーザーインターフェース、すなわち初期画面のユーザーインターフェースを示す平面図である。
【図2B】図2Bは、携帯端末のひとつのアプリケーションのユーザーインターフェースを示す平面図である。
【図3】図3は、音声認識を実行するための統合操作装置の構成を示すブロック図である。
【図4】図4は、統合操作装置の携帯端末音声認識データベースを拡張するひとつの方法を示すフローチャートである。
【図5】図5は、統合操作装置の携帯端末音声認識データベースを拡張する代替方法を示すフローチャートである。
【図6】図6は音声認識を実行する方法を示すフローチャートである。
【図7】図7は音声認識を実行するための代替方法を示すフローチャートである。
【発明を実施するための形態】
【0018】
以下に、図面を参照しながら本発明を実施するための複数の形態を説明する。各形態において先行する形態で説明した事項に対応する部分には同一の参照符号を付して重複する説明を省略する場合がある。各形態において構成の一部のみを説明している場合は、構成の他の部分については先行して説明した他の形態を適用することができる。各実施形態で具体的に組合せが可能であることを明示している部分同士の組合せばかりではなく、特に組合せに支障が生じなければ、明示してなくとも実施形態同士を部分的に組み合せることも可能である。
【0019】
(第1実施形態)
車両の統合操作装置が改良され、進歩するにつれて、利用者の携帯端末と統合操作装置との間の通信能力も改良され、進歩している。図1において、統合操作装置100および携帯端末120の一例が図示されている。統合操作装置100は、典型的な例では、車両のセンターコンソールに位置付けられている。統合操作装置100は、利用者が車両の種々の側面からの制御を可能とする。統合走査装置100は、車両に属するインターフェース装置とも呼ぶことができる。統合操作装置100は、車両に固定的に設置されているから、車載機100とも呼ばれる。例えば、利用者は、複数の入力機構104、106、108および110を有するユーザーインターフェース102を表示するタッチスクリーンを使用して、車両のオーディオビジュアル(AV)システム、空調(HVAC)システム、および全地球測位システム(GPS)を制御することができる。以下の説明において、ユーザーインターフェースの語は、UIと表記されることがある。利用者は、統合操作装置100への指令を出すためにスクリーン上の、入力機構104、106、108、または110に触れることができる。
【0020】
統合操作装置100は、携帯端末120に接続可能か、または通信可能に構成される。携帯端末120と統合操作装置100との間の接続は、USB接続のような有線接続、またはWiFi接続、もしくはBluetooth(登録商標)接続のような無線接続によって提供することができる。統合操作装置100と携帯端末120の間で一旦接続が確立されれば、統合操作装置100は携帯端末120の現在のUI122の表現を受け取ることができる。携帯端末120の現在のUI122は携帯端末120によって現在表示されている画像である。統合操作装置100は統合操作装置100のスクリーンに現在のUI102の画像表現を表示するように構成される。
【0021】
携帯端末120の現在のUI122は、携帯端末120のスクリーンに表示された複数の入力機構124、126、128、および130を含んでいる。例示された複数の入力機構124、126、128、および130は、携帯端末120によって実行することができるコマンドを示す記号または文字があるボタン、すなわちアイコンである。携帯端末120のスクリーンに表示された入力機構124、126、128、および130は、携帯端末120それ自身の状態に依存している。例えば、携帯端末120がデフォルト状態である場合、UIは利用者に対して、利用者による選択のために、複数のアプリケーション、すなわち携帯端末において実行可能なアプリケーションプログラムを表示することができる。このようなアプリケーションとして、複数のアプリケーションを例示することができる。例えば、電話として機能する電話アプリケーション、電子メールのための電子メールアプリケーション、インターネットを経由するラジオ放送を受信するためのインターネットラジオアプリケーション、全地球測位システム(GPS)を利用するGPSアプリケーションもしくは地図アプリケーション、音楽を再生するための音楽プレーヤーアプリケーション、天気予報を表示するための天候アプリケーション、および第三者的なソフトウェア提供者から提供されたサードパーティー製アプリケーションを例示することができる。携帯端末がアプリケーションを実行している場合、例えば利用者が電話アプリケーションあるいはサードパーティー製アプリケーションを選択した場合、携帯端末120のUI122は選択されたアプリケーションに特有の複数の入力機構124、126、128、および130を表示する。
【0022】
上述のように、統合操作装置100は携帯端末120の現在のUI122を受け取り、複数の入力機構104、106、108、および110を含む携帯端末120によって表示された現在のUI122に対応するUI102を表示する。統合操作装置100に表示された複数の入力機構104、106、108、および110は、携帯端末120に入力を供給するために利用者によって操作される。利用者は、入力機構104、106、108、あるいは110を表示するスクリーンの一区画を押すことにより、そこにある入力機構を活性化する。また、統合操作装置100は、利用者によって、スクリーンの上の特定の入力機構か位置が押されたか選択されたことを示すメッセージ、すなわち信号を、携帯端末120へ送信する。入力機構104、106、108、および110のひとつを押すことによる効果は、利用者が携帯端末120の上の、対応する入力機構124、126、128、あるいは130を押した場合と同じである。統合操作装置100から通信を受けると、携帯端末120は利用者によって押された入力機構104、106、108、あるいは110に対応するコマンド、すなわち実行指令を実行する。
【0023】
図2Aおよび図2Bは、ユーザーインターフェース画面の一例を図示している。以下の説明において、ユーザーインターフェースの語は、UIと記述されることがある。図2Aは、初期画面としてのデフォルトスクリーン222と、統合操作装置100に表示された、上記スクリーン222に対応する初期画面としてのデフォルトUI画面202との一例が図示している。携帯端末120のデフォルトUI画面222には、複数の入力機構の例が表示される。図中には、複数のアプリケーションに対応し、対応するアプリケーションを選択的に起動するための複数の入力機構、すなわちアイコンが図示されている。図中には、文字情報を送信するためのテキストメッセージアプリケーションを起動するための入力機構224が図示されている。図中には、電話アプリケーションを起動するための入力機構226が図示されている。図中には、電子メールアプリケーションを起動するための入力機構228が図示されている。図中には、インターネットラジオアプリケーションを起動するための入力機構230が図示されている。図中には、GPSアプリケーションを起動するための入力機構232が図示されている。図中には、音楽プレーヤーアプリケーションを起動するための入力機構234が図示されている。上記入力機構224、226、228、230、232、および234に対応する複数の入力機構204、206、208、210、212、および214が、統合操作装置100のスクリーン上に表示されている。利用者は、統合操作装置100あるいは携帯端末120のいずれかの上で複数の入力機構のひとつを選択肢、それを触ることによって、選択された入力機構に対応するアプリケーションを起動することができる。
【0024】
図2Bは、利用者によって選択され、携帯端末120の上で実行されるアプリケーションのユーザーインターフェース262の一例を図示している。統合操作装置100は、UI262に対応するユーザーインターフェース242を表示している。図2Bの例は、利用者が図2Aにおけるインターネットラジオのアプリケーションの入力機構210、または入力機構230を選択した場合を示している。したがって、インターネットラジオアプリケーション用のUI262は携帯端末120のスクリーンに表示される。また、対応するUI242は統合操作装置100のスクリーンに表示される。上述のように、統合操作装置100は携帯端末120から現在のUI262の表現を受け取り、統合操作装置100のスクリーンに上記の表現を表示する。UI262は、インターネットラジオのアプリケーションを制御するための、複数の入力機構264、266、268、270、272、および274を含んでいる。例えば、インターネットラジオアプリケーション用の入力機構は、ラジオ放送局を選択するための複数の入力機構を含むことができる。例えば、Rock(ロック)に分類されるラジオ放送局の入力機構264、Classical(古典)に分類されるラジオ放送局の入力機構266、News(ニュース)に分類されるラジオ放送局の入力機構268、およびCustom(カスタム)に分類されるラジオ放送局270の入力機構を含むことができる。さらに、インターネットラジオアプリケーション用の入力機構は、その上に記号を表示する複数の入力機構を含むことができる。例えば、2本の垂直の棒からなる記号を表示する休止のための入力機構に272、または、右を指す三角形からなる記号を表示するラジオ方向を再生するための入力機構274を含むことができる。統合操作装置100は、入力機構264、266、268、270、272、および274に対応する入力機構244、246、248、250、252、および254を表示している。利用者は、統合操作装置100または携帯端末120からのインターネットラジオのアプリケーションを制御することができる。
【0025】
図2Aおよび図2Bに示された一例は、携帯端末120を制御するためのUIの一例、または携帯端末120の上で実行されるアプリケーションの一例を提示すること、そして、統合操作装置100が携帯端末120の現在のUIをどのように表示することができるかを示す一例を提示することを意図したものである。提示されたアプリケーションとUIとは、あくまで一例に過ぎず、制限的な意図をもって提示されたものではない。
【0026】
提示された統合操作装置100は音声認識能力を含んでいる。音声認識能力は、車両内の様々なシステムの制御のために、利用者が音声コマンドを利用することを可能にする。図3は音声認識を実行し、他の車両システムを制御するための統合操作装置100および統合操作装置100の構成部品を例示している。
【0027】
上述のように、統合操作装置100は、通信部306によって携帯端末120と接続されることができ、通信することができる。上述のように、携帯端末120と統合操作装置100とは有線接続、または無線接続によって通信可能である。通信部306は2つの装置100、120の間の通信を可能とするように構成される。したがって、実施形態のいくつかの具体例では、通信部306は、有線接続通信をサポートするためのポート、例えばUSBポートを含むことができる。他の具体的な実施形態では、通信部306は、無線通信をサポートするための送受信機、例えばWiFi接続機器、またはBluetooth(登録商標)接続機器を含むことができる。統合操作装置100は、通信部306の使用によって、現在のUI122の画像表現を受け取り、携帯端末120にコマンドを伝える。統合操作装置100と携帯端末120の間の他の通信、例えばハンズフリー通話を実行するための通信、も可能であるものと解されるべきである。
【0028】
なお、画像表現の一例は、携帯端末の画面に表示された各画素の色情報からなる画素情報である。つまり、統合操作装置が携帯端末から、ボタンの位置や形状、テキストなどを受け取らず、UIに関する情報として画素情報だけを受取る場合には、統合操作装置は、携帯端末の画面に表示されたUIの内容を判別することが困難である。そのため、後述する画像スキャンや文字記号認識などの画像分析が必要となる。
【0029】
上述のように統合操作装置100は音声認識機能を有している。音声認識機能は、音声認識部310によって、少なくとも部分的に実行される。なお、以下の説明において、部は、モジュール、手段、または機能ブロックとも呼ぶことができる。音声認識部310は利用者から音声コマンドを受け取るために図示されないマイクロホンを備えることができる。実施形態のいくつかの具体例では、音声認識部310は音声コマンドを音素に解析し、音素に基づいて発声された単語または語句を決定する。音声認識部310は、既存の、または今後開発されるあらゆる音声認識技術を利用して提供することができる。例えば、隠れマルコフモデル(Hidden Markov Model:HMM)を利用した音声認識技術、または動的時間伸縮法(Dynamic Time Warping)を利用した音声認識技術を利用することができる。一旦音声から単語または語句が決定されると、音声認識部310は、有効なコマンドが入力されたかどうか判断するために携帯端末音声認識データベース316あるいは車載機音声認識データベース318を検索することができる。有効なコマンドがデータベース316またはデータベース318のいずれかで見つかれば、そのデータベースは音声認識部310に音声認識結果を返す。音声認識結果は、音声認識部310に対して、発声した利用者が要求した動作、または処理を示す。例えば、コマンドが車載機音声認識データベース318で見つかった場合、音声認識部310は、車両の複数の設定状態のうちのひとつの設定状態を調節するか制御するためのコマンドを示す音声認識結果を受け取る。例えば、音声認識部310は、HVACシステムの特定の設定状態を調節するコマンド、またはオーディオビジュアルシステムの音量を調節するコマンドを示す音声認識結果を受け取る。この例では、音声認識部310は、車両の様々なシステムにコマンドを送信する統合操作装置の制御部308にコマンドを伝えることができる。
【0030】
音声コマンドが携帯端末音声認識データベース316で見つかる場合、音声認識部310は、利用者によって選択された入力機構を示す音声認識結果を受け取る。例えば、UI部302が携帯端末120の上で実行中のインターネットラジオのUI242、図2B参照、に対応するUI242を表示している場合を考える。利用者が、「Rock」と表示された入力機構264に対応する単語「ロック」を発声した場合、音声認識部310は入力機構264、図2B参照、に対応する音声認識操作を受け取る。その後、音声認識部310はユーザーインターフェース部302に音声認識結果を伝えて、それによって、利用者が特定の入力機構を選択したことを、ユーザーインターフェースに示す。特定の入力機構が選択されたことを示しているUI部302は、次には、通信部306によって、携帯端末120に信号を送信する。携帯端末120は信号を受け取り、利用者の選択に対応するコマンドを実行する。
【0031】
なお、統合操作装置から携帯端末へ送信される信号の一例は、携帯端末の画面上のタッチ操作位置に相当する操作位置信号である。つまり、携帯端末は統合操作装置から操作位置信号を受取ることにより、携帯端末の画面上の該当する位置がタッチ操作されたものとして操作を実行する、これにより、利用者の指示に対応する操作が行われる。
【0032】
車載機音声認識データベース318には、予め設定された複数の音声コマンドを事前に予めインストールしておくことができる。車載機音声認識データベース318中のひとつのエントリー、すなわち登録項目は、音声認識結果および実際のコマンドのためのフィールド含むことができる。実施形態のいくつかの具体例では、車載機音声認識データベース318中のひとつのエントリーは、さらに音声コマンドが対応するUI画像または画面のためのフィールドを含むことができる。例えば、それらの実施形態では、統合操作装置100がオーディオビジュアルシステムに関係のあるUI画面を表示している場合、HVACシステムの設定状態を調節するためのコマンドは認識されないようにすることができる。
【0033】
携帯端末音声認識データベース316は、利用者の携帯端末120に依存したものであり、その状態に依存したものある。さらに、統合操作装置100は、携帯端末120を制御するための一群の音声コマンドまたはUI画面に関して、予備的な情報を持っていないものである。したがって、統合操作装置100は、携帯端末120の現在のUI122(図1)の入力機構を学習し、かつ学習された入力機構に基づいて、携帯端末音声認識データベース316に移植し、それを拡張するように構成されている。
【0034】
統合操作装置100は、現在のUI122(図1)の上の入力機構の位置を決定するために画像スキャン部312を含んでいる。また、統合操作装置100は、捜し出された入力機構と関連付けられた音声コマンドを決定するために文字記号認識部314を含んでいる。画像スキャン部312は、携帯端末120から現在のUI122(図1)の画像表現を受け取り、入力機構を示すあらかじめ定められた形を見つけるためにUI122の画像表現をスキャン、すなわち調べる。画像スキャン部312は、画像処理を実行するから、画像処理部とも呼ぶことができる。例えば、画像スキャン部312は、正方形、長方形あるいは円のようなあらかじめ定められた形を形成する境界を捜すことができる。さらに、実施形態のいくつかの具体例では、統合操作装置100は、ファームウェア、すなわち基本的なソフトウェアの更新を受信するように構成することができる。これらの実施形態では、新しい人気のあるアプリケーションが設計され、それらが携帯端末120において利用可能になると、画像スキャン部312は人気のあるアプリケーションの入力機構を示す特別の模様を探索するために更新することができる。実施形態のいくつかの具体例では、画像スキャン部312は、入力機構の画像表現、および入力機構の位置と寸法を、文字記号認識部314へ出力する。他の具体例では、文字記号認識部314は、UIの全画像表現を受け取ることができる。これらの具体例では、画像スキャン部312は、見つかった入力機構の位置を文字記号認識部314に出力する。
【0035】
文字記号認識部314は、見つかった入力機構の位置に基づいた現在のUIのための音声コマンドを決定する。入力機構または既知の記号上の文字を決定するために、文字記号認識部314は入力機構上で文字と記号とを認識するための文字認識処理を実行する。実施形態のいくつかの具体例では、文字記号認識部314は、入力機構の上でOCR処理と呼ばれる文字認識処理を実行する。OCR処置は、光学的文字認識処理に基づく技術である。ここでは、OCR処理は、光学的処理を伴うことなく画像表現における文字、記号を認識する処理を意味する。これらの具体例では、文字記号認識部314は、1以上の文字または記号の固定的かつ静的な形状を認識する。1文字以上の文字が識別される場合、文字記号認識部314は識別された文字に対応する文字列を生成する。文字記号認識部314が記号を識別する場合、文字記号認識部314は、記号と関連付けられた単語または語句を決定するために、参照テーブルまたは同様の十分な構成を採用することができる。例えば、ガソリンスタンドのガソリン供給用のポンプの記号が識別される場合、参照テーブルは、ポンプの記号を有する場所と語句「ガソリンスタンド」とを関連付けることができる。
【0036】
文字が検出された場合、文字記号認識部314は、分析された入力機構の上の単語または語句を決定し、さらに、携帯端末音声認識データベース316のための音声コマンドのエントリーを生成する。例えば、図2Bの中に描かれた統合操作装置100のUI242の場合、文字記号認識部314は入力機構244をスキャンし、入力機構244に、左から右へ、文字 R−O−C−Kが記述されていることを判定する。その後、文字記号認識部314は、入力機構244へのエントリー、すなわち入力操作信号を生成する。エントリーは、音声コマンド「ロック」と、「Rock」の入力機構244が表示されたUI242の上の位置を含む。文字記号認識部314は、音声認識部310が特定のアプリケーションの実行の間に発声された音声コマンドのための音声認識を実行しているときに、音声認識の精度の向上が図られるように、入力機構244のためのエントリーにアプリケーションの識別子をさらに含むことができる。
【0037】
文字記号認識部314によって記号が検出される場合、文字記号認識部314は、記号に関連付けられた単語または語句を決定するために、参照テーブルまたはそれと等価の構成の中で記号を検索する。例えば、図2Bの中で描かれた統合操作装置100のUI242の場合、文字記号認識部314は入力機構254をスキャンし、右を指す三角形が描かれていることを判定する。文字記号認識部314は参照テーブルを検索して、右を指す三角形が再生に相当する「Play」のための認識された記号であることを決定する。さらに、参照テーブルは、再開に相当する「Resume」、または開始に相当する「Start」のような、その記号に関連付けられる追加の類似した単語を持つことができる。その後、文字記号認識部は、参照テーブルから検索された用語を使用して、「Play」のための入力機構254のためのデータベースへのエントリーを生成する。データベースのためのエントリーは、「プレイ」という音声コマンド、および「Play」のための入力機構254が表示されたUI242の上における位置を含む。文字記号認識部314は、1つを超える単語が識別されたシンボルに関連付けられている場合、さらに同様に類似した単語のための複数のエントリーを含むことができる。文字記号認識部314は、音声認識部310が特定のアプリケーションの実行の間に発声された音声コマンドのための音声認識を実行しているときに、音声認識の精度の向上が図られるように、入力機構254のためのエントリーにアプリケーションの識別子をさらに含むことができる。
【0038】
一旦、文字記号認識部314が携帯端末音声認識データベース316を拡張すると、音声認識部310は携帯端末120のための音声コマンドをサポートすることができる。音声認識部310は、統合操作装置100と携帯端末120とが接続されているか、またはそれらが通信状態にあるか否かを判定し、そのような状態ならば、音声認識部310は、受けた音声コマンドによって携帯端末音声認識データベース316を検索する。音声コマンドが携帯端末音声認識データベース316で見つかる場合、音声認識部310は、利用者が音声コマンドに対応する特定の入力機構を選択したことを示すメッセージをUI部302に送信する。その後、UI部302は、特定の入力機構が選択されたことを携帯端末120に通知する。他の具体例では、音声認識部310は、携帯端末120に利用者の選択を直接的に伝えることができる場合もある。コマンドが見つからなければ、音声認識部310は、利用者が統合操作装置100に特有の音声コマンドを発したかどうか判断するために車載機音声認識データベース318を検索する。例えば、利用者は、携帯端末120を分離するコマンドを発するかもしれない。
【0039】
統合操作装置100の例示された構成部分は、あくまで例示のために示されたものであって、限定的なものではないものと解されるべきである。ここに記述された機能を達成するために他の構成および構成部品を採用することが可能である。例えば、統合操作装置100は、音声コマンドおよび対応する位置か結果を受け取ると、それに応答して、音声認識データベースのエントリーを作る構成部分をさらに含むことができる。更に、記述された構成部品のリストは、既述された機能を達成する構成部品である。統合操作装置100の音声認識能力に影響しない統合操作装置100の他の構成部品は図示されていない。
【0040】
図4には、携帯端末音声認識データベース316に移植し、それを拡張する住むためのステップの一例が図示されている。一般に、ステップ410で示されるように、統合操作装置100は携帯端末120から現在のUI画面の画像表現を受け取る。実施形態のいくつかの具体例では、統合操作装置100は加工されていないそのままのデータとして画像表現を受け取る。ひとつの形態では、統合操作装置100は、そのままの画像表現を、画像スキャン部312と互換性をもつフォーマットに変換しなければならない。別の形態では、画像スキャン部312は、そのままの画像表現を処理するように構成される。
【0041】
画像スキャン部312は、ステップ412で示されるように、携帯端末120の現在のUIの中に描かれた入力機構の候補の位置を決定するために、現在のUIの画像表現をスキャンする。画像スキャン部312は、予め設定された形を探索するように画像をスキャンする。例えば、画像スキャン部312は、正方形、長方形あるいは円のために、UIの画像表現をスキャンすることができる。予め設定された形の実例のそれぞれは、入力機構の候補として記録され、文字記号認識部314によって分析される。画像スキャン部312は、入力機構の候補を既知の種々の形式で既述してもよい。例えば、画像スキャン部312は、入力機構の候補の中心点、高さおよび幅を識別することができる。さらに、画像スキャン部312は、入力機構の候補の形を記録することができる。画像スキャン部312は、それぞれの入力機構の候補に関連したデータを、文字記号認識部314へ提供する。
【0042】
ステップ414で示されるように、文字記号認識部314はUIの画像表現に関して入力機構の候補の位置を受け取り、入力機構の候補上で文字認識処理を実行する。ステップ414では、音声コマンドを特定するために、発見された入力機構に対して文字認識処理を実行し、さらに、音声コマンドのためのエントリーを生成する。この実施形態では、文字記号認識部314は異なる文字または記号を認識するように構成することができる。分析対象の言語が左から右へ書かれている、例えば、英語、ドイツ語、ロシア語の場合と仮定すると、文字記号認識部314は、左から右まで入力機構の候補の範囲をスキャンすることができる。文字または記号が見つかれば、文字記号認識部314は、見つけられた文字または記号が、認識された文字または記号かどうかを判断するために、統合操作装置100の記憶装置に格納された参照テーブルを検索する。文字または記号が認識された場合、文字記号認識部314は、文字または記号を、文字列または同様の構造の中に、認識された文字または記号を記録する。入力機構の候補が完全に分析されるまで、文字記号認識部314はこのようにして入力機構をスキャンし続ける。
【0043】
更に、文字記号認識部314は、人気のあるアプリケーションに特有の文字または記号の組合せを認識するようにプログラムすることができる。利用者によって利用可能な大多数のアプリケーションは、サードパーティと呼ばれるソフトウェア開発者によって立案、設計されている。これらのサードパーティ製のアプリケーションの主題の範囲は、インターネットを経由する銀行業務のためのアプリケーションから、インターネットラジオのアプリケーション、およびソーシャルネットワーキングのアプリケーションまで及ぶ。それらは、利用者によって、携帯端末120に選択的にダウンロードされる。サードパーティ製アプリケーションのうちのいくつかは、たいへん人気がある。これらの人気のあるアプリケーションは、言葉の代わりに記号を持つ入力機構を有する場合がある。あるサードパーティ製アプリケーションが利用可能になるか、人気がでると、そのサードパーティ製アプリケーションに特有の記号を認識するように、例えば、ファームウェアの更新処理によって、文字記号認識部314は更新することができる。例えば、現在のところ人気のあるサードパーティ製アプリケーションのひとつとして、Pandora Media, Inc.によって提供されているPandoraと呼ばれるラジオのためのアプリケーションが知られている。ラジオのためのアプリケーションであるPandoraのUIは、上向きの親指、および下向きの親指をもつ複数の入力機構を含んでいる。それらは、利用者がPandoraのシステムに対して、利用者がその曲を好きか嫌いかを示すために表示される。ラジオのためのアプリケーションであるPandoraの人気に基づいて、文字記号認識部314はPandoraに特有の上記記号を認識するように更新することができる。したがって、利用者が「好き」と発声した場合、音声認識部が利用者は上向きの親指をもつ入力機構を選択したのだと理解するように、ラジオのためのアプリケーションであるPandoraのUIが表示されており、しかも文字記号認識部314が上向きの親指の記号に遭遇する場合、文字記号認識部314は、その入力機構に、「好き」および/または「立てた親指」といった単語または語句を関連付ける。
【0044】
一旦文字認識処理が入力機構の上で実行されると、文字記号認識部314は携帯端末音声認識データベース316のための音声コマンドのエントリーを生成する。音声コマンドのエントリーは音声コマンド、およびUI画面の上の入力機構の位置を含んでいる。したがって、音声コマンドが携帯端末音声認識データベース316で見つかる場合、音声認識部310は利用者がどの入力機構を選択したか携帯端末120に示すことができる。さらに、記号が認識された場合、音声コマンドのエントリーは、記号が記号の代わりに表わす単語か語句を持つ。さらに、「好き」および「立てた親指」といった1つを超える単語または語句が記号に関連付けられている場合、入力機構の同じ位置と結果とをそれぞれが含む別々の音声コマンドのエントリーが文字記号認識部314によって生成されうる。音声コマンドのエントリーは、そのエントリーが属するUI画面および/またはアプリケーションを示すフィールドを含むことができる。一旦1つ以上の音声コマンドのエントリーが文字記号認識部314によって生成されれば、ステップ416で示されるように、音声コマンドのエントリーは携帯端末音声認識データベース316に格納することができる。
【0045】
図5には、携帯端末音声認識データベース316に移植し、それを拡張する方法の一例が図示されている。統合操作装置100は、携帯端末120がそれらの通信の開始を要求する時を検知することが可能とされている。したがって、統合操作装置100は、ステップ510および512で示されるように、携帯端末120との接続が確立されたかどうか判断するために通信部306を監視する。
【0046】
一旦携帯端末120と統合操作装置100の間で接続が確立されれば、ステップ514で示されるように、そして、携帯端末120から利用可能ならば、統合操作装置100は携帯端末120の予め設定された音声認識コマンドの一群を受け取る。ステップ514では、携帯機100の音声認識のための複数のエントリーが、統合操作装置100に設けられた車載機音声認識データベース318にコピーされる。携帯端末120には、その上に予めインストールされた音声認識データベースを有する場合がある。例えば、携帯端末120の音声認識データベースは、利用者の知り合いとの通話を開始するための音声コマンドのエントリーを含む場合がある。したがって、統合操作装置100は、携帯端末120の音声認識データベースのエントリーを受け取り、それらを携帯端末音声認識データベース316に格納するか、または予め設定された音声コマンドのためだけの第三のデータベースに格納する。エントリーが携帯端末音声認識データベース316に格納される場合、エントリーは入力機構の位置よりも、電話と通信するための実際のコマンドを含んでいる場合がある。
【0047】
その後、統合操作装置は、UI画面をスキャンし、分析する必要があるかどうか判断する。ステップ516で示されるように、統合操作装置100は、携帯端末120のUIが、統合操作装置100のタッチスクリーン(ディスプレイ)304(図3)に表示されるように設定されているか否かを判定する。いくつかの具体例では、統合操作装置100は、携帯端末120との接続を検知すると、統合操作装置100のディスプレイ304に携帯端末120のUIが表示されることを望むか否かを利用者に対して問い合わせる。利用者が肯定的に答えれば、ステップ518で示されるように、携帯端末120は統合操作装置100に現在のUIの画像表現を送信する。
【0048】
携帯端末120が統合操作装置100に現在のUIを送信する場合、携帯端末120は、そのUIがアプリケーションのUIであるのか、または携帯端末120のUIであるのかを示すメタデータと呼ばれる追加的なデータ、例えば属性データを含ませることができる。さらに、識別子は特定のUI画面に割り当てることができる。このメタデータを使用して、統合操作装置100は、ステップ520で示されるように、現在のUI画面のための予め設定された音声認識コマンドが、以前にステップ514において携帯端末120から受け取られたかどうかを判断することができる。ステップ520では、携帯端末100のUI画面のための音声認識用データ、例えばタグデータが既に存在するか否かを判定する。音声コマンドが現在のUI画面のために既に受け取られた場合、統合操作装置100はUI画面を分析する必要はない。また、統合操作装置100は、例えばステップ516に戻ることにより、携帯端末120から次のUI画面を受け取るのを待つ。
【0049】
しかしながら、予め設定された音声認識コマンドが受け取られなかった場合、統合操作装置100はステップ522で示されるように、現在のUIが以前に分析されたかどうか判断する。再び、統合操作装置100は、現在のUIがすでに以前に分析されたかどうかを決定するために現在のUIに関係するメタデータを使用することができる。現在のUI画面が分析済みである場合、統合操作装置100は、例えば、ステップ516に戻ることによって、携帯端末120から次のUI画面を受け取るのを待つ。現在のUI画面が分析されていない場合、統合操作装置100は現在のUI画面が分析されるべきであると決定する。
【0050】
なお、現在のUIが以前に分析されたか否かを判断するためのメタデータは、例えば、アプリケーションのID、バージョン、画面のタイトル、画像のサイズなど、の情報である。つまり、現在のUIに関するメタデータと分析結果に関するメタデータとが一致する場合には、現在のUIは以前に分析されたと判断することができる。
【0051】
上記の説明において詳細に説明したように、画像スキャン部312はステップ524で示されるように、UI画面のどこに入力機構の候補が置かれているかを決定するために、携帯端末120から現在のUI画面を受け取り、受け取ったUI画面をスキャンする。1以上の入力機構の候補が現在のUI画面に置かれているならば、ステップ526で示されるように、文字記号認識部314は、入力機構の候補と関連付けられた音声コマンドを決定するために、入力機構の候補の上で文字認識を実行する。文字記号認識部314は、文字あるいは認識しうる記号をその上に表示した入力機構のそれぞれに対して、音声コマンドのエントリーを生成する。その後、ステップ528で示されるように、音声コマンドのエントリーは携帯端末音声認識データベース316に格納される。いくつかの具体例では、画像スキャン部312および/または文字記号認識部314が、画面の上のある位置を入力機構であると誤って識別する場合がある。これらの場合、やはり、エントリーは生成され、携帯端末音声認識データベース316に格納される。もし、利用者が誤って識別された入力機構に対応する音声コマンドを発生すると、音声認識部310またはUI部302は、誤って識別された入力機構の位置を携帯端末120に伝えるが、例えば、利用者がコマンドに関連付けられていない画面の一部を押した場合と同じように、それらは携帯端末120によって無視される。
【0052】
図5に図示された方法は、単なる図示のためのものであり、限定的な意図はないものとして解釈されるべきである。さらに、追加的なステップが実行されることがあり、さらに、ステップのうちのいくつかは図示の順序ではなく実行されることがあるものと解釈されるべきである。
【0053】
図6には、音声認識を実行する方法が図示されている。典型的な例では、利用者が車両の音声認識機能の使用を望む場合、利用者は車両に設けられたボタン、例えばステアリングホイールまたは車両のコンソールに設けられたボタンを押すことにより音声認識を起動することができる。したがって、ステップ610で示されるように、音声認識を始めるために、利用者は音声認識ボタンを押し、音声コマンドを発声する。その後、音声認識部310は、音声認識のために使用するデータベースを決定する。すなわち、音声認識部310は、携帯端末音声認識データベース316、および車載機音声認識データベース318のいずれか一方を選択する。どのデータベースを使用するかを決めるために、音声認識部310は、ステップ612で示されるように、UI部302が携帯端末120の現在のUIを表示しているかどうか判断する。UI部302が携帯端末120の現在のUIを表示していれば、ステップ614で示されるように、音声認識部310は、音声認識を行なうために携帯端末音声認識データベース316を使用する。UI部302が携帯端末120の現在のUIを表示していなければ、ステップ620で示されるように、音声認識部310は、音声認識を行なうために車載機音声認識データベース318を使用する。同様に、携帯端末音声認識データベース316が選択されているが、発せられたコマンドが、携帯端末音声認識データベース316で見つからなければ、ステップ620で示されるように、音声認識部310は車載機音声認識データベース318を使用する。携帯端末音声認識データベース316が選択されており、発声されたコマンドがステップ616で携帯端末音声認識データベース316に見つかる場合、ステップ618で示されるように、音声認識部310は利用者によって選択された入力機構を送信する。
【0054】
車載機音声認識データベース318が使用される場合、音声認識部310は、発声された音声コマンドのために、車載機音声認識データベース318を探索する。コマンドが車載機音声認識データベース318で見つかれば、ステップ624で示されるように、そのコマンドが実行される。コマンドが車載機音声認識データベース318で見つからない場合、コマンドは見つからなかったものとされ、利用者は、無効のコマンドが発声されたことを通知される。
【0055】
図7では、音声認識を実行するための代替的な方法が図示されている。最初に、利用者は、音声認識のためのボタンを押すような確認的操作を実行することによって、音声認識機能を起動する。その後、利用者は音声コマンドを発声する。ステップ710で示されるように、音声認識部310は利用者の音声コマンドを受け取る。上述のように、音声認識部310は、利用者によって発せられた単語または語句を決定するために、隠れマルコフモデルのような技術を使用することができる。音声コマンドを受け取る際、音声認識部310は、どの音声認識データベースを最初に検索するか決める。ステップ712において、携帯端末120が統合操作装置100と接続状態、または通信状態にあると判定され、しかも、ステップ714において、統合操作装置100が携帯端末120の現在のUI画面を表示していると判定される場合、ステップ716で示されるように、音声認識部310は携帯端末音声認識データベース316を使用する。しかし、携帯端末120が統合操作装置100と接続状態になく、かつ通信状態にもないと判定されるか、または、統合操作装置100が携帯端末120の現在のUI画面を表示していないと判定される場合、ステップ726で示されるように、音声認識を最初に実行するために、音声認識部310は車載機音声認識データベース318を使用する。
【0056】
音声認識部310が携帯端末音声認識データベース316を利用する場合、音声認識部310はステップ710で決定された単語または語句によって携帯端末音声認識データベース316を検索する。音声認識部310が発声されたコマンドと一致するコマンドを携帯端末音声認識データベース316に見つける場合、音声認識部310はステップ720で示されるように、利用者が現在のUI画面の特定の位置で入力機構を選択したことを、携帯端末120に通知する。先に説明したように、携帯端末音声認識データベース316中のエントリーは音声コマンド、およびUI画面の上の入力機構の位置を含んでいる。いくつかの具体例では、利用者が特別の入力機構を選択したと音声認識部310がUI部302に通知し、そして、UI部302が、携帯端末120に選択された入力機構の位置を伝える。
【0057】
音声コマンドが携帯端末音声認識データベース316で見つからなければ、音声認識部310は、ステップ722で示されるように、音声コマンドが車載機音声認識データベース318において探索されたかどうか判断する。もし車載機音声認識データベース318が探索されていれば、音声認識部310はステップ724で示されるように、発声された音声コマンドが見つからないことを決定する。この場合、統合操作装置100は、コマンドが見つからなかったことを示す聴覚的なメッセージのような、返答を利用者に供給することができる。
【0058】
車載機音声認識データベース318がまだ探索されていないと音声認識部310が断定する場合、その後に、音声認識部310は発声された音声コマンドのために、車載機音声認識データベース318を探索する。音声認識部310はステップ710で決定された、発声された音声コマンドによって、車載機音声認識データベース318を検索する。もし、車載機音声認識データベース318の中に適合するものが見つかれば、音声認識部310は車載機音声認識データベース318から、発声された音声コマンドに対応するコマンドまたは結果を受け取る。ステップ730で示されるように、音声認識部310は、コマンドを実行するための統合操作装置の制御部308に、コマンドを伝える。
【0059】
発声された音声コマンドが車載機音声認識データベース318で見つからなければ、音声認識部310は、統合操作装置100と携帯端末120とが接続されているかどうか、または通信可能な状態にあるかどうかを判断する。携帯端末120が統合操作装置100と接続されていないか、またはそれらが通信可能な状態にない場合、ステップ736で示されるように、音声認識部310は発声された音声コマンドが見つからないことを決定する。しかしながら、携帯端末120が統合操作装置100と接続されているか、または通信可能な状態に有る場合、ステップ734で示されるように、音声認識部310は、携帯端末音声認識データベース316が音声コマンドを求めて既に探索されたかどうか判断する。携帯端末音声認識データベース316が既に探索されている場合、ステップ736で示されるように、音声認識部310は発声された音声コマンドが見つからないことを決定する。上述のように、音声認識部310が発声された音声コマンドを見つけることができないことを決定する時、コマンドが見つからないことを示す聴覚的なメッセージが利用者に対して再生される。携帯端末音声認識データベース316が探索されていない場合、ステップ716で示されるように、音声認識部310は発せられた音声コマンドを求めて携帯端末音声認識データベース316を探索する。
【0060】
以上の説明は、あくまで一例を図示するためのものであって、この開示、その適用範囲、またはその使用形態の限定を意図したものではない。ここに使用されたように、「A、BおよびCの少なくとも1つ」との表現は、非排他的論理であるORを用いる論理(AまたはBまたはC)を意味するものとして解されるべきである。方法内のステップは、この開示の原理を変更することなく、異なる順序によって実行可能であるものとして理解されるべきである。
【0061】
ここに使用されたように、モジュールは、以下に列挙される構成要素の一部を示すか、またはそれを含むものを示すことがある。構成要素は、(1)ASIC(Application Specific Integrated Circuit)と呼ばれる、特定用途向け集積回路、(2)電気回路、(3)論理回路の組み合わせ、(4)FPGA(Field Programmable Gate Array)と呼ばれる、製造後に構成、機能を設定可能な集積回路、(5)プログラムコードを実行する、共有の、専用の、または一群の、プロセッサー、(6)上述の機能を提供する適切な部品、および(7)チップ上に配置されたシステムのような、上記構成要素の一部またはすべての組み合わせ物を含む。モジュール、および部は、プロセッサーによって実行されたプログラムコードを格納するメモリを含むことがある。メモリは、共有、専用、またはグループとして提供されうる。
【0062】
コード、またはプログラムコードは、上述のように、ソフトウェア、ファームウェアおよび/またはマイクロコードを含みうるものであって、プログラム、ルーチン、機能、クラスおよび/またはオブジェクトを指すことがある。共有は、上述のように、多数のモジュールからの一部またはすべてのコードが単一または共有のプロセッサーを使用して実行される場合があることを意味する。さらに、多数のモジュールからの一部またはすべてのコードは、単一または共有のメモリに格納される場合がある。グループは、上述のように、単一のモジュールからの一部またはすべてのコードが一群のプロセッサーを使用して実行される場合があることを意味する。さらに、単一のモジュールからの一部またはすべてのコードは一群のメモリを使用して格納される場合がある。
【0063】
ここに記述された装置と方法は、1台以上のプロセッサーによって実行された1つ以上のコンピュータプログラムによって具体化することができる。コンピュータプログラムは、コンピューター読取り可能な非一時的記録を提供し、かつ実体的な記録媒体の上に格納される、プロセッサーによって実行可能な命令群を含んでいる。コンピュータプログラムは、保存されたデータを含むことがある。コンピューター読取り可能な非一時的記録を提供し、かつ実体的な記録媒体の非制限的な例として、不揮発性メモリー、磁気記憶装置、および光記憶装置を挙げることができる。
【0064】
この実施形態によると、車両の統合操作装置100から音声認識によって携帯端末120を遠隔的に操作する方法が提供される。この操作方法には、携帯端末120から携帯端末120のユーザーインターフェース画面122、222、262のユーザーインターフェース表現を受け取る工程が含まれる。携帯端末120にコマンドを供給するために使用される入力機構124−130、224−234、264−274の入力表現を見つけるために、ユーザーインターフェース画面のユーザーインターフェース表現を調べる工程と、音声認識コマンドを決定するために入力機構124−130、224−234、264−274の入力表現を調べる工程とが含まれる。音声認識データベース316、318の中で入力機構に音声認識コマンドを関連付けることにより、利用者が音声認識コマンドを発声すると、統合操作装置100が入力機構に対応する信号を携帯端末120に送信する。
【0065】
この実施形態によると以下に列挙する特徴が提供される。統合操作装置100のディスプレイ304上にユーザーインターフェース画面122、222、262のユーザーインターフェース表現を表示する。ユーザーインターフェース画面122、222、262のユーザーインターフェース表現を調べる工程は、ユーザーインターフェース画面122、222、262のユーザーインターフェース表現の上でユーザーインターフェース画面のユーザーインターフェース表現の中の入力機構124−130、224−234、264−274の位置を決定するために画像処理を実行する。入力機構124−130、224−234、264−274の入力表現を調べる工程は、入力機構124−130、224−234、264−274の入力表現の上で文字認識処理を実行する。音声認識コマンドは、入力機構124−130、224−234、264−274の入力表現の上で実行された文字認識処理の結果に基づいている。文字認識処理のためのアプリケーション機能は、文字および予め設定された記号を認識し、かつ認識された文字または記号に基づいて、単語または語句を、調べられた入力機構124−130、224−234、264−274に関連付けるように構成されている。予め設定された記号は、予め設定された単語または語句と関連付けられている。さらに、携帯端末120から予め設定された音声認識コマンドの一群を受け取り、一群の予め設定された音声認識コマンドを、音声認識データベース316、318に格納する。
【0066】
この実施形態によると、音声認識により携帯端末120を遠隔的に操作する車両の統合操作装置100が提供される。統合操作装置100は、携帯端末120から携帯端末120のユーザーインターフェース画面122、222、262のユーザーインターフェース表現を受け取る通信部306と、携帯端末120にコマンドを供給するために使用される入力機構124−130、224−234、264−274の入力表現をユーザーインターフェース画面122、222、262のユーザーインターフェース表現の上に見つけるために、ユーザーインターフェース画面122、222、262の表現を調べる画像スキャン部312と、入力機構124−130、224−234、264−274の入力表現から識別された少なくともひとつの文字または記号に基づいて音声認識コマンドを決定するために画像スキャン部312によって見つけられた入力機構124−130、224−234、264−274の入力表現を文字認識処理によって調べる文字記号認識部314と、ユーザーインターフェース画面122、222、262に見つけられた入力機構に対応する音声認識コマンドを格納する携帯端末音声認識データベース316とを備える。統合操作装置100は、利用者が音声認識コマンドを発声すると、入力機構に対応する信号を携帯端末120に送信する手段310、302、306を備える。
【0067】
この実施形態によると、以下に列挙する特徴が提供される。さらに、携帯端末120のユーザーインターフェース画面122、222、262のユーザーインターフェース表現を表示するディスプレイを備える。画像スキャン部312は、ユーザーインターフェース画面の上の入力機構124−130、224−234、264−274の位置を決定するために画像認識を実行する。文字記号認識部314は入力機構の入力表現の上で文字認識処理を実行する。文字記号認識部314は、入力機構124−130、224−234、264−274の入力表現の上で実行された文字認識処理の結果に基づいて、音声認識コマンドを決定する。文字記号認識部314は、文字および予め設定された記号を認識し、かつ認識された文字または記号に基づいて、単語または語句を、調べられた入力機構124−130、224−234、264−274に関連付けるように構成されている。予め設定された記号は、予め設定された単語または語句と関連付けられている。通信部は、携帯端末120から予め設定された音声認識コマンドの一群を受け取り、一群の予め設定された音声認識コマンドが、統合操作装置100の音声認識データベース316、318に格納される。
【0068】
この明細書における開示の広い教唆は、様々な形式で具体化することができる。したがって、この明細書における開示は、特定の例示を含んでいるが、図面、明細書および特許請求の範囲の参照および学習に基づいて当業者には他の変形例が明らかになるから、ここに開示された発明の真の技術的範囲はそのように制限されるべきではない。
【0069】
(他の実施形態)
以上、本発明の好ましい実施形態について説明したが、本発明は上述した実施形態に何ら制限されることなく、本発明の主旨を逸脱しない範囲において種々変形して実施することが可能である。上記実施形態の構造は、あくまで例示であって、本発明の範囲はこれらの記載の範囲に限定されるものではない。本発明の範囲は、特許請求の範囲の記載によって示され、さらに特許請求の範囲の記載と均等の意味及び範囲内での全ての変更を含むものである。
【0070】
例えば、制御装置が提供する手段と機能は、ソフトウェアのみ、ハードウェアのみ、あるいはそれらの組合せによって提供することができる。例えば、制御装置をアナログ回路によって構成してもよい。
【符号の説明】
【0071】
100 車両の統合操作装置(車載機)、
102、202、242 ユーザーインターフェース(UI)、
104−110、204−214、244−254 入力機構、
120 携帯端末、
122、222、262 ユーザーインターフェース(UI)、
124−130、224−234、264−274 入力機構、
302 ユーザーインターフェース部(UI部)
304 タッチスクリーン(ディスプレイ)
306 通信部
308 制御部
310 音声認識部
312 画像スキャン部
314 文字記号認識部
316 携帯端末音声認識データベース
318 車載機音声認識データベース。

【特許請求の範囲】
【請求項1】
車両の統合操作装置から音声認識によって携帯端末を遠隔的に操作する方法において、
前記携帯端末から前記携帯端末のユーザーインターフェース画面のユーザーインターフェース表現を受け取り、
前記携帯端末にコマンドを供給するために使用される入力機構の入力表現を見つけるために、前記ユーザーインターフェース画面の前記ユーザーインターフェース表現を調べ、
音声認識コマンドを決定するために前記入力機構の前記入力表現を調べ、
音声認識データベースの中で前記入力機構に前記音声認識コマンドを関連付けることにより、利用者が前記音声認識コマンドを発声すると、前記統合操作装置が前記入力機構に対応する信号を前記携帯端末に送信することを特徴とする車両の統合操作装置による携帯端末の遠隔的な操作方法。
【請求項2】
前記統合操作装置のディスプレイ上に前記ユーザーインターフェース画面の前記ユーザーインターフェース表現を表示することを特徴とする請求項1に記載の操作方法。
【請求項3】
前記ユーザーインターフェース画面の前記ユーザーインターフェース表現を調べる工程は、前記ユーザーインターフェース画面の前記ユーザーインターフェース表現の上で前記ユーザーインターフェース画面の前記ユーザーインターフェース表現の中の前記入力機構の位置を決定するために画像処理を実行することを特徴とする請求項1または請求項2に記載の操作方法。
【請求項4】
前記入力機構の前記入力表現を調べる工程は、前記入力機構の前記入力表現の上で文字認識処理を実行することを特徴とする請求項1から請求項3のいずれかに記載の操作方法。
【請求項5】
前記音声認識コマンドは、前記入力機構の前記入力表現の上で実行された前記文字認識処理の結果に基づいていることを特徴とする請求項4に記載の操作方法。
【請求項6】
前記文字認識処理のためのアプリケーション機能は、文字および予め設定された記号を認識し、かつ認識された文字または記号に基づいて、単語または語句を、調べられた前記入力機構に関連付けるように構成されていることを特徴とする請求項4または請求項5に記載の操作方法。
【請求項7】
前記予め設定された記号は、予め設定された単語または語句と関連付けられていることを特徴とする請求項6に記載の操作方法。
【請求項8】
さらに、前記携帯端末から予め設定された前記音声認識コマンドの一群を受け取り、前記一群の予め設定された音声認識コマンドを、前記音声認識データベースに格納することを特徴とする請求項1から請求項7のいずれかに記載の操作方法。
【請求項9】
携帯端末から前記携帯端末のユーザーインターフェース画面のユーザーインターフェース表現を受け取る通信部と、
前記携帯端末にコマンドを供給するために使用される入力機構の入力表現を前記ユーザーインターフェース画面の前記ユーザーインターフェース表現の上に見つけるために、前記ユーザーインターフェース画面の前記表現を調べる画像スキャン部と、
前記入力機構の前記入力表現から識別された少なくともひとつの文字または記号に基づいて音声認識コマンドを決定するために前記画像スキャン部によって見つけられた前記入力機構の前記入力表現を文字認識処理によって調べる文字記号認識部と、
前記ユーザーインターフェース画面に見つけられた前記入力機構に対応する前記音声認識コマンドを格納する携帯端末音声認識データベースとを備え、
利用者が前記音声認識コマンドを発声すると、前記入力機構に対応する信号を前記携帯端末に送信することを特徴とする音声認識により携帯端末を遠隔的に操作する車両の統合操作装置。
【請求項10】
さらに、前記携帯端末の前記ユーザーインターフェース画面の前記ユーザーインターフェース表現を表示するディスプレイを備えることを特徴とする請求項9に記載の統合操作装置。
【請求項11】
前記画像スキャン部は、前記ユーザーインターフェース画面の上の前記入力機構の位置を決定するために画像認識を実行することを特徴とする請求項9または請求項10に記載の統合操作装置。
【請求項12】
前記文字記号認識部は前記入力機構の前記入力表現の上で文字認識処理を実行することを特徴とする請求項9から請求項11のいずれかに記載の統合操作装置。
【請求項13】
前記文字記号認識部は、前記入力機構の前記入力表現の上で実行された前記文字認識処理の結果に基づいて、前記音声認識コマンドを決定することを特徴とする請求項12に記載の統合操作装置。
【請求項14】
前記文字記号認識部は、文字および予め設定された記号を認識し、かつ認識された文字または記号に基づいて、単語または語句を、調べられた前記入力機構に関連付けるように構成されていることを特徴とする請求項12または請求項13に記載の統合操作装置。
【請求項15】
前記予め設定された記号は、予め設定された単語または語句と関連付けられていることを特徴とする請求項14に記載の統合操作装置。
【請求項16】
前記通信部は、前記携帯端末から予め設定された前記音声認識コマンドの一群を受け取り、前記一群の予め設定された音声認識コマンドが、前記統合操作装置の前記音声認識データベースに格納されることを特徴とする請求項9から請求項15のいずれかに記載の統合操作装置。

【図1】
image rotate

【図2A】
image rotate

【図2B】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate