情報処理装置,インタフェース提供方法およびプログラム
【課題】ユーザの音声による選択項目の選択を実現するためのユーザインタフェースとしての利便性を従来よりも向上させる。
【解決手段】まず、ユーザの音声が、いずれの選択経路におけるいずれの選択項目に対応するかを推定し、そうして推定した選択項目をユーザが選択したものとみなしている(s210)。そして、その選択項目が選択されることにより表示させるべき別階層のメニューへとカレントメニューを遷移させ(s230〜s240)、これを表示部4に表示させている。このように、その音声から推定される選択項目を、そのユーザが選択した項目として、メニューの表示を随時変更していくことができる。
【解決手段】まず、ユーザの音声が、いずれの選択経路におけるいずれの選択項目に対応するかを推定し、そうして推定した選択項目をユーザが選択したものとみなしている(s210)。そして、その選択項目が選択されることにより表示させるべき別階層のメニューへとカレントメニューを遷移させ(s230〜s240)、これを表示部4に表示させている。このように、その音声から推定される選択項目を、そのユーザが選択した項目として、メニューの表示を随時変更していくことができる。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、第1階層から第n階層(nは任意の数)までの階層構造をなす複数のメニューそれぞれが有する各選択項目をユーザに選択させることにより、その選択項目を有するメニューから別階層のメニューへと遷移する、ように構成されたユーザインタフェースに関する。
【背景技術】
【0002】
従来、ユーザが何を発話すればよいのか戸惑うことなく、ユーザの音声による選択項目の選択を実現するために、ユーザによるボタン操作に応じた項目からなるメニューを表示部に表示させると共に音声の入力を開始し、そうして入力された音声で識別された項目に対応する処理を実行する、といったシステム(従来システム1)が提案されている(特許文献1参照)。
【0003】
一方、ユーザがボタン操作を行って音声入力を開始することが困難である場合や、ボタン操作にわずらわしさを感じる等の問題に対して、ユーザが明示的にボタン操作を行うことなく、ユーザの発話を常時認識するシステム(従来システム2)が提案されている(例えば特許文献2)。
【特許文献1】特開2007−171809号公報
【特許文献2】特開2000−194393号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかし上述した従来システム1は、ユーザによるボタン操作がなければ、その後に識別すべき項目がメニューとして表示されないため、従来システム2のようにボタン操作を行わない常時認識システムへ適用できないという課題がある。
【0005】
さらに、複数のメニューを階層構造にしたユーザインタフェース装置において複数の階層を一度に選択する音声入力を行いたい場合には、ユーザは階層に合わせた正しい順番及び正しい選択経路で各階層の選択項目を発話する必要がある。
【0006】
しかし、従来システム1に代表される従来のメニュー表示技術を用いた場合、音声入力が終了し、音声認識によって選択項目が確定されるまでメニューが更新されないため、階層に合わせた正しい順番及び正しい選択経路で複数の選択項目を続けて発話することが困難になり、ユーザインタフェースとしての利便性が低くなってしまうという課題がある。
【0007】
本発明は、このような課題を解決するためになされたものであり、その目的は、ユーザの音声による選択項目の選択を実現するためのユーザインタフェースとしての利便性を従来よりも向上させることである。
【課題を解決するための手段】
【0008】
上記課題を解決するためには、ユーザの音声による操作を実現するためのユーザインタフェース装置を、以下に示す第1の構成(請求項1)のようにするとよい。
この構成は、第1階層から第n階層(nは任意の数)までの階層構造をなす複数のメニューそれぞれが有する各選択項目をユーザに選択させることにより、その選択項目を有するメニューから別階層のメニューへと遷移するように構成されたユーザインタフェースを実装してなるユーザインタフェース装置である。
【0009】
そして、複数のメニューそれぞれのうち、その時点で表示させるべきメニューであるカレントメニューを表示部に表示させるメニュー表示手段と、外部から入力される音声が、第i階層(1≦i<n)のメニューから第n階層のメニューへと遷移するまでに選択されうる選択項目からなるそれぞれの選択経路のうち、いずれの選択経路におけるいずれの選択項目に対応するかを推定する項目推定手段と、前記カレントメニューを、前記項目推定手段により推定された選択項目が選択されることにより表示させるべき別階層のメニューに遷移させるメニュー遷移手段と、を備えており、前記メニュー表示手段は、前記メニュー遷移手段によりカレントメニューとして遷移させられたメニューを示す画像を表示部に表示させる。
【0010】
このように構成された情報処理装置では、まず、ユーザの音声が、いずれの選択経路におけるいずれの選択項目に対応するかを推定し、そうして推定した選択項目をユーザが選択したものとみなしている。そして、その選択項目が選択されることにより表示させるべき別階層のメニューへとカレントメニューを遷移させ、これを表示部に表示させている。
【0011】
このように、現時点までに入力された音声から推定される選択項目を、そのユーザが選択した項目として、メニューの表示を随時変更していくことができる。
そのため、ユーザにとっては、表示部に表示されるメニューを見ながら、その中の選択項目を任意に選んでその内容を順番に続けて発声していくだけで、そのメニューを該当する別メニューへと表示を変更させていくことができる結果、従来のように音声認識が終了してメニューが変更されるのを待った上で次の階層の項目を発声していくといった手間がかからない点で利便性が高い。
【0012】
この構成において表示部に表示させるカレントメニューは、一旦表示された以降、継続的に表示させておけばよいが、音声の入力がないまま一定期間が経過した場合は、ユーザによる選択項目の選択が中断,中止されているといえるため、表示部における表示領域の視認性を向上させるなどの観点から、その一定期間の経過をもってメニューの表示を消去させることとしてもよい。
【0013】
このためには、例えば、上記構成を以下に示す第2の構成(請求項2)のようにするとよい。この構成において、前記メニュー表示手段は、メニューを示す画像を表示部に表示させた以降、外部からの音声の入力が所定期間以上なされていない場合に、メニューの前記表示部による表示を消去させる。
【0014】
この構成であれば、外部から音声が入力されない期間が所定期間以上継続した場合に、メニューの表示を消去させることができ、これ以降、表示部における表示領域の視認性を向上させることができる。
【0015】
また、上記各構成において、表示部にメニューが表示されていない状態で、新しくメニューを表示させる方法としては、例えば、上記構成を以下に示す第3の構成(請求項3)のようにするとよい。
【0016】
この構成において、前記メニュー表示手段は、メニューが表示部に表示されていない状態で、外部から音声の入力がなされた場合に、カレントメニューを表示部に表示させる。
この構成であれば、本情報処理装置起動直後のように、メニューが表示されていない状態の場合は、内容によらず、ユーザが何らかの発話を行うことでメニューを表示することができ、利便性の高い情報処理装置を実現できる。また、第2の構成のように、外部から音声が入力されない期間が所定期間以上継続して表示が消去された後でユーザが発話を行った場合にも、カレントメニューを表示することができるため、利便性の高い情報処理装置を実現できる。
【0017】
また、上記各構成におけるカレントメニューの遷移は、外部から入力される音声に基づいてのみ行われるものとすればよい。ただ、外部から入力される音声に基づいてカレントメニューが遷移した後、音声の入力がないまま一定期間が経過した場合は、ユーザによる選択項目の選択が中断,中止されているといえる。この場合、以降、ユーザが項目の選択を再度行おうとしたとき、その中断,中止前いずれのメニューがカレントメニューとなっていたかを忘れてしまい、選択項目の選択に際して混乱してしまう恐れがある。
【0018】
そのため、外部から入力される音声に基づいてカレントメニューが遷移した後、音声の入力がないまま一定期間が経過した場合には、選択項目の選択を再度行うにあたって、一定の同じメニュー,例えばトップメニューから開始するようにしておくことが好適といえる。このためには、例えば、上記各構成を以下に示す第4の構成(請求項4)のようにするとよい。
【0019】
この構成において、前記メニュー遷移手段は、外部からの音声の入力が所定期間以上なされていない場合に、前記カレントメニューを第1階層のメニューへと遷移させる。
この構成であれば、外部から入力される音声に基づいてカレントメニューが遷移していたとしても、外部から音声が入力されない期間が所定期間以上継続した場合には、カレントメニューが最上位階層(第1階層)のメニュー,つまりトップメニューに戻されるため、選択項目の選択を再度行うにあたってトップメニューから選択の項目を開始すればよいこととなる。
【0020】
これにより、ユーザが選択項目の選択を中断,中止したとしても、その選択の再開時、常に第1階層のメニューから選択項目の選択を行えばよくなるため、選択項目の選択に際しての混乱を防止することができる結果、ユーザインタフェースとしての利便性を高めることができる。
【0021】
また、上記各構成において、外部から入力された音声が、いずれの選択経路におけるいずれの選択項目に対応するかの推定は、外部から音声の入力が開始されたことをもって開始することとすればよい。
【0022】
なお、この音声が入力される「外部」とは、当該ユーザインタフェース装置の外部であり、マイクを介して音声を入力可能な構成であればこのマイクのこととすればよく、また、ネットワークを介して音声を入力する経路を有している場合であればこの経路のこととすればよい。
【0023】
また、外部から入力される音声が、いずれの選択経路におけるいずれの選択項目であるかは、どのように推定することとしてもよく、具体的な例としては、例えば、以下に示す第5の構成(請求項5)のようにすることが考えられる。
【0024】
この構成においては、外部から入力された音声を、前記選択項目を選択するためのユーザの発話パターンを格納した発話パターン辞書における各発話パターンと比較し、その比較結果たる類似度が所定のしきい値以上となった発話パターンを認識結果として出力する音声認識手段と、を備えており、前記項目推定手段は、前記音声認識手段により順次認識された発話パターンに対応する選択項目それぞれからなる選択経路につき、該選択経路において最新の選択項目を推定結果として出力する。
【0025】
この構成であれば、周知の音声認識の結果に至るまでの発話パターンそれぞれで形成される仮説探索における現時点での仮説情報を用いて、外部から入力される音声が何と発話しようとしているのかを推定したうえで、最終的にいずれの選択経路におけるいずれの選択項目を選択しようとしているのかを推定することができる。
【0026】
また、この構成においては、以下に示す第6の構成(請求項6)のようにするとよい。
この構成において、前記項目推定手段は、前記音声認識手段による認識の都度、該認識に際してしきい値以上の類似度となった発話パターンが複数種類存在した場合、最も類似度の高い発話パターンに対応する選択項目それぞれからなる選択経路につき、該選択経路において最新の選択項目を推定結果として出力する。
【0027】
この構成であれば、音声認識の都度、その認識に際してしきい値以上の類似度となった発話パターンが複数種類存在していたとしても、その中から最も類似度の大きな発話パターンに対応する選択項目それぞれからなる選択経路を推定することができる。
【0028】
このように、最も類似度が高い発話パターンは、最も実際の発話内容として尤もらしい選択経路および選択項目に対応しているといえることから、精度よく選択経路および選択項目を推定することができる。
【0029】
なお、この構成におけるある発話パターンの類似度としては、例えば当該発話パターンの発話内容に対応する確率モデルの尤度や、前記尤度を仮説探索の処理時間で正規化した値などが利用できる。
【0030】
また、上記各構成においてカレントメニューの遷移は、例えば、その内容を示す情報を更新することで実現すればよく、そのための構成としては、上記各構成を以下に示す第7の構成(請求項7)のようにするとよい。
【0031】
この構成において、前記メニュー遷移手段は、前記カレントメニューを示すカレント情報を、前記項目推定手段にて推定された選択項目に基づいて表示させるべき別階層のメニューを示すものに更新することでメニューを遷移させる。そして、前記メニュー表示手段は、前記カレント情報で示されるメニューを表示部に表示させる。
【0032】
この構成であれば、所定の記憶領域に格納されたカレント情報を更新することにより、カレントメニューを遷移させることができる。
また、上記各構成におけるカレントメニューの遷移は、ユーザによる操作部への操作を受けた場合にも実施されるようにするとよい。
【0033】
ところで、上記各構成において、表示部によるメニューの表示に際しては、常に同じ表示態様にて表示させることとしてもよいが、周辺環境に応じてその表示態様を異ならせるようにしてもよい。
【0034】
例えば、外部からの入力音声が、選択経路に沿った内容の音声であるか否かにより、その表示態様を異ならせることが考えられる。
このための構成としては、上記各構成を以下に示す第8の構成(請求項8)のようにすることが考えられる。
【0035】
この構成においては、外部から入力される音声に基づき、該音声が前記選択経路に沿った内容の音声であることの信頼度を特定する信頼特定手段と、前記メニュー遷移手段によりカレントメニューが遷移させられる都度、該メニューの表示態様を、前記信頼特定手段により特定された信頼度に応じて決定する第1の態様決定手段と、を備えている。そして、前記メニュー表示手段は、前記カレントメニューとして遷移させられたメニューを、該メニューについて前記第1の態様決定手段が決定した表示態様にて表示部に表示させる。
【0036】
この構成であれば、音声入力部からの入力音声が、上述した選択経路に沿った内容の音声であることの信頼度に応じて、メニューを示す画像の表示態様を異ならせることができる。
【0037】
この構成における「信頼度」は、例えば、特開平11−85188号公報(以降「特許文献3」という)のように競合モデルを用意して尤度比を算出する方法や、最大の類似度を持つ仮説と他の仮説との類似度の差の大きさに対応する値を用いる方法を用いることにより特定することとすればよい。
【0038】
また、この構成において異ならせる表示態様としては、どのようなものであってもよいが、例えば、メニューを示す画像の大きさに基づく表示態様が考えられ、このための構成としては、以下に示す第9の構成(請求項9)のようにすることが考えられる。
【0039】
この構成において、前記第1の態様決定手段は、前記カレントメニューの表示領域における大きさを、前記信頼特定手段により特定された信頼度に応じて決定して、前記メニュー表示手段は、前記カレントメニューとして遷移させられたメニューを、前記第1の態様決定手段により決定された表示領域に合わせた大きさにて表示部に表示させる。
【0040】
この構成であれば、音声入力部からの入力音声における信頼度が高いほどメニューにおける表示領域を大きくすることができる。
また、メニューを示す画像の表示態様を異ならせる要因たる周辺環境としては、情報処理装置外部からの指令が考えられ、その指令に応じて表示態様を異ならせることが考えられる。
【0041】
このための構成としては、上記各構成を以下に示す第10の構成(請求項10)のようにすることが考えられる。
この構成においては、記メニュー遷移手段によりカレントメニューが遷移させられた以降、外部からの指令を受けて、該メニューの表示態様を決定する第2の態様決定手段、を備えている。そして、前記メニュー表示手段は、前記カレントメニューとして遷移させられたメニューを、該メニューについて前記第2の態様決定手段が決定した表示態様にて表示部に表示させる。
【0042】
この構成であれば、外部からの指令に応じて、メニューを示す画像の表示態様を異ならせることができる。
この構成における「外部からの指令」としては、例えば、ユーザによる音声を入力して動作する所定装置との通信を経て、この所定装置が音声入力を受けて動作しているか否かを検知した結果を用いることが考えられる。
【0043】
このためには、上記構成を以下に示す第11の構成(請求項11)のようにすればよい。
この構成において、ユーザによる音声を入力して動作する外部の所定装置(外部装置)との通信を経て、該所定装置が音声入力を受けて動作しているか否かを判定する外部音声入力判定手段,を備えている。前記第2の態様決定手段は、前記外部音声入力判定手段により外部装置側で音声入力が行われていないと判定された場合に、前記カレントメニューを表示させるべき旨を決定する一方、外部装置側で音声入力が行われていると判定された場合に、前記カレントメニューを表示させない旨を決定する。
【0044】
この構成であれば、ユーザによる音声を入力して動作する所定装置が音声入力を受けて動作している場合に、メニューの遷移が行われないようにすることができる。
このように、所定装置が音声入力を受けて動作しているということは、本情報処理装置に対する音声入力とは無関係に発声が行われている可能性が高く、そのような無関係の音声を入力してその後の処理を行ってしまうと、ユーザの意図しないメニュー遷移が行われてしまう。
【0045】
そのため、上記のように、所定装置が音声入力を受けて動作している場合にメニューの表示が行われないようにすることにより、ユーザの意図しないメニュー遷移が行われないようにすることができる。
【0046】
また、上述した「外部からの指令」としては、例えば、本情報処理装置の操作部或いは当該情報処理装置に接続されている所定装置がユーザにより操作されていることを検知した結果を用いることが考えられる。
【0047】
このためには、上記第10の構成または第11の構成を以下に示す第12の構成(請求項12)のようにすればよい。
この構成においては、当該情報処理装置の操作部或いは当該情報処理装置に接続されている所定装置がユーザにより操作されていることを検出する操作検出手段,を備えている。そして、前記第2の態様決定手段は、前記操作検出手段により操作がなされていないと判定された場合に、前記カレントメニューを表示させるべき旨を決定する一方、前記操作検出手段により操作がなされていると判定された場合に、前記カレントメニューを表示させない旨を決定する。
【0048】
この構成であれば、本情報処理装置の操作部或いは当該情報処理装置に接続されている所定装置が操作されている場合に、メニューの遷移が行われないようにすることができる。
【0049】
このように、本情報処理装置の操作部或いは当該情報処理装置に接続されている所定装置が操作されているということは、本情報処理装置のメニュー選択とは無関係に発声が行われている可能性が高く、そのような無関係の音声を入力してその後の処理を行ってしまうと、ユーザの意図しないメニュー遷移が行われてしまう。
【0050】
そのため、上記のように、操作部に対する操作が行われている場合にメニューの遷移が行われないようにすることにより、ユーザの意図しないメニュー遷移が行われないようにすることができる。
【0051】
また、上述した「外部からの指令」としては、例えば、本情報処理装置周辺に位置しているユーザの数を検出した結果を用いることが考えられる。
このためには、上記第10〜第12のいずれかの構成を以下に示す第13の構成(請求項13)のようにすればよい。
【0052】
この構成においては、当該情報処理装置周辺に位置しているユーザの数を検出するユーザ検出手段,を備えている。そして、前記第2の態様決定手段は、前記ユーザ検出手段により1人のユーザのみが位置していることが検出された場合、前記カレントメニューの表示領域の大きさを通常の大きさとして決定する一方、複数のユーザが位置していることが検出された場合、前記カレントメニューの表示領域の大きさを通常よりも小さくするように決定する。
【0053】
この構成であれば、1人のユーザのみが位置していることが検出された場合には、カレントメニューの表示領域を通常の大きさとするが、複数のユーザが位置していることが検出された場合には、カレントメニューの表示領域を通常よりも小さい表示領域とすることができる。
【0054】
このように、複数のユーザが周辺に位置している場合は、本情報処理装置を音声により操作する以外のユーザからすると、表示部に表示されるメニューが必ずしも必要な情報ではない。そのため、上記構成のように、このような場合におけるメニューの表示領域を小さくすることで、そのような表示態様を異ならせない構成と比べて、他のユーザにとっての表示部の視認性が低下することを防止することができる。
【0055】
なお、この構成において、周辺に位置しているユーザの数を検出するためには、その周辺においてユーザが位置しうる領域付近にセンサを配置しておき、その検出結果に基づいてユーザの数を検出することとすればよい。また、周辺においてユーザが位置しうる領域をカメラで撮影しておき、その映像に含まれるユーザを画像処理で特定することにより、ユーザの数を検出することとすればよい。
【0056】
また、上記各構成においては、第14の構成(請求項14)のように、前記項目推定手段により推定された選択項目に割り当てられた所定の処理を実施する処理実施手段,を備えているようにしてもよい。
【0057】
この構成であれば、各メニューにおける選択項目のうち、最下層のメニューなどにおいて所定の処理が割り当てられた選択項目が選択されたとみなされた場合に、その割り当てられた処理を実行することができる。
【0058】
また、上記課題を解決するためには、第1階層から第n階層(nは任意の数)までの階層構造をなす複数のメニューそれぞれが有する各選択項目をユーザに選択させることにより、その選択項目を有するメニューから別階層のメニューへと遷移するように構成されたユーザインタフェースを提供するためのユーザインタフェース提供方法(請求項15)としてもよい。
【0059】
このインタフェース提供方法は、複数のメニューそれぞれのうち、その時点で表示させるべきメニューであるカレントメニューを表示部に表示させるメニュー表示手順と、外部から入力される音声が、第i階層(1≦i<n)のメニューから第n階層のメニューへと遷移するまでに選択されうる選択項目それぞれの選択経路のうち、いずれの選択経路におけるいずれの選択項目に対応するかを推定する項目推定手順と、前記カレントメニューを、前記項目推定手順により推定した選択項目が選択されることにより表示させるべき別階層のメニューに遷移させるメニュー遷移手順と、を含む。そして、前記メニュー表示手順では、前記メニュー遷移手順にてカレントメニューとして遷移させられたメニューを示す画像を表示部に表示させる。
【0060】
このインタフェース提供方法であれば、上述した第1の構成に係るユーザインタフェース装置と同様の作用,効果を得ることができる。
なお、このインタフェース提供方法は、上述した第2〜第14のいずれかの構成に係るユーザインタフェース装置における各手段を手順として実現した方法としてもよく、この場合、上述した第2〜第14のいずれかの構成に係るユーザインタフェース装置と同様の作用,効果を得ることができる。
【0061】
また、上記課題を解決するためには、上述した第1〜第14のいずれかの構成に係る全ての手段として機能させるための各種処理手順をコンピュータシステムに実行させるためのプログラム(請求項16)としてもよい。
【0062】
このプログラムにより制御されるコンピュータシステムであれば、上記第1から第14のいずれかの構成に係るユーザインタフェース装置の一部を構成することができる。
なお、上述したプログラムは、コンピュータシステムによる処理に適した命令の順番付けられた列からなるものであって、各種記録媒体や通信回線を介してユーザインタフェース,情報処理装置や、これを利用するユーザ等に提供されるものである。
【発明を実施するための最良の形態】
【0063】
以下に本発明の実施形態を図面と共に説明する。
(0)全体構成
情報処理装置1は、周知のナビゲーション装置のユーザインタフェースを実現すべく、このナビゲーション装置に実装されたものであり、図1に示すように、CPU,ROM,RAMなどからなる制御部10と、入出力インタフェース(I/O)20と、からなる周知のコンピュータシステムであって、ナビゲーション装置のうち、各種情報を記憶する記憶部2,ユーザによる操作を受け付ける操作部3,各種情報を表示する表示部4,マイク5を介した音声の入力を制御する音声入力部6などが接続されている。
【0064】
これらのうち、制御部10は、ROMに記憶されたプログラムに従って各種処理を実行することで、音声入力部6を介した音声の入力レベル(音量)によってユーザの発話音声が含まれているか否かを検出する音声検出手段31,マイク5を介して入力される音声で示される選択項目(後述する)を推定する項目推定手段33,マイク5を介して入力される音声の内容を周知の音声認識により解析する音声認識手段35,音声認識手段35の解析結果に応じた処理を実施する処理実施手段37,項目推定手段33による項目推定結果に基づいて表示すべきメニューを遷移させるメニュー遷移手段38、表示部4によるメニューの表示を制御するメニュー表示手段39などとして機能する。これら機能によって、制御部10は、ナビゲーション装置のユーザインタフェースを実現している。
【0065】
このユーザインタフェースは、第1階層から第n階層(nは任意の数)までの階層構造をなす複数のメニューそれぞれが有する各選択項目をユーザに選択させることにより、その選択項目を有するメニューから別階層のメニューへと遷移するように構成されたものである。
【0066】
具体的には、ユーザがマイク5に向けて音声を発した以降、表示部4に第1階層のメニュー(トップメニュー)が表示され(図2の画面A参照)、その後、このメニューにて選択可能ないずれかの選択項目を発してなる音声をマイク5から入力すると、その選択項目が選択されたものとして、その選択項目の選択により遷移すべき別階層のメニューへと表示内容を変化させていく(図2の画面B,C参照)、といったユーザインタフェースである。そして、最下層のメニューにおいて選択された選択項目に対応する処理が実施されることとなる。
【0067】
以下、上記のような構成の情報処理装置1について、制御部10により実行される処理手順が異なる実施形態を順に説明する。
(1)第1実施形態
(1−1)指示受付処理
はじめに、情報処理装置1が起動された以降、制御部10のCPUがROMに格納されたプログラムに従って繰り返し実行する指示受付処理の処理手順を、図3に基づいて説明する。
【0068】
この指示受付処理が起動されると、まず、音声入力部6を介した音声の入力が開始されるまで待機状態となる(s110:NO)。ここでは、音声検出手段31により検出された音声のレベルが一定以上となった場合に、ユーザの発話が開始されたと判定される。
【0069】
その後、ユーザの発話が開始されたら(s110:YES)、後述する表示内容決定処理が行われる(s120)。
この表示内容決定処理では、その時点までにマイク5を介して入力された音声が、第i階層(1≦i<n)のメニューから第n階層のメニューへと遷移するまでに選択されうる選択項目それぞれの選択経路のうち、いずれの選択経路におけるいずれの選択項目に対応するかを推定し、その推定結果に応じて表示部4に表示させるべきメニューを決定する。
【0070】
次に、上記s120での決定事項に基づいて、表示部4にメニューを表示させるためのメニュー表示処理が行われる(s130)。ここでは、上記s120にて決定されたメニューが、メニュー表示手段39により表示部4に表示させられる。
【0071】
なお、上記s120にてメニューが決定されていない場合、メニュー表示手段39は、その時点で表示部4に表示されているメニューの表示を消去させる。ここでいう「メニューが決定されていない」とは、メニューの表示を消去させるべき旨が決定されていた場合や、表示させるべきメニューが存在していなかった場合などのことである。
【0072】
次に、音声認識手段35が、ユーザの音声に対する音声認識を終了すべき状況であるか否かをチェックする(s150)。ここでは、上述した音声検出手段31による音声入力の検出が所定期間以上なされていない場合に、音声認識を終了すべき状況であると判定される。
【0073】
このs150で音声認識を終了すべき状況ではないと判定された場合(s150:NO)、プロセスがs120へと戻り、以降、音声認識を終了すべき状況となるまで、上記s120〜s150が繰り返し行われる。
【0074】
そして、音声認識を終了すべき状況となったら、上記s150でその旨が判定され(s150:YES)、音声認識手段35が、その時点までにマイク5を介して入力され、CPUの内蔵メモリまたはRAMに格納された音声に対して、周知の音声認識を行うことにより、その音声で示される文字列が特定される(s152)。
【0075】
そして、処理実施手段37が、上記s152にて特定された文字列に対応する選択項目に基づき、その選択項目に割り当てられた所定の処理を実行した後(s160)、プロセスがs110へと戻る。
【0076】
このs160において、例えば、選択項目が第n階層のメニューにおける選択項目でないなど、選択項目に割り当てられた処理が存在していない場合には、現時点で表示されているメニュー及び現在時刻が履歴情報(カレント情報)としてメモリまたはRAMの所定領域に格納され(既に格納されている場合はその履歴情報が更新され)、プロセスがs110へと戻る。
【0077】
なお、本実施形態では、上記s110で音声の入力が開始されたと判定された以降、そうして入力される音声を示す情報がメモリまたはRAMに蓄積されていき、プロセスがs110へと戻るとそれまでに蓄積された音声の情報が削除されるように構成されている。
(1−2)表示内容決定処理
続いて、上記指示受付処理のs120である表示内容決定処理の処理手順を図4に基づいて説明する。
【0078】
この表示内容決定処理では、まず、音声認識手段35が後述する仮説情報を生成する(s210)。
ここでは、まず、この時点で蓄積されている情報で示される音声,つまりその時点までにマイク5を介して入力された音声を、予め保持している音響的・言語的確率モデル及び後述する発話パターン辞書と、周知の仮説探索によって比較し、その比較結果たる類似度が最も大きい発話パターンを示す仮説(図5の「1位」参照)について、発話パターン辞書上での位置(現在位置)、類似度、及び現在時刻を示す情報を仮説情報として生成する。この類似度としては、例えば、当該発話パターンの発話内容に対応する確率モデルの尤度や、尤度を仮説探索の処理時間で正規化した値などが利用できる。
【0079】
上述した発話パターン辞書は、選択項目或いは選択経路を選択するためにユーザがどのように発話するかを表す発話パターンを格納しており、本実施例では、図6に示すように、発話パターンを単語毎の接続関係で規定した有効グラフ状の形で表されている。
【0080】
なお、この発話パターン辞書では、想定される複数の発話パターンを単語単位に分解し、この単語を接続していくことにより、第i階層(1≦i<n)のメニューから第n階層のメニューへと遷移するまでに選択されうる選択項目の選択経路がそれぞれ形成される。
【0081】
次に、音声認識手段35は、上記s210にて生成された仮説情報をメモリにおける仮説情報用の記憶領域に記憶させる(s220)。
次に、項目推定手段33は、上記s220にて記憶させた仮説情報に基づき、以下の手順に従って上記発話パターン辞書における最終的な現在位置を確定する(s230)。
【0082】
ここでは、まず、最終的な現在位置の候補となる候補位置として、あらかじめ定められた初期位置が設定される(s310)。本実施形態では、第1階層のメニューとして定められたトップメニューに対応する位置として単語の存在しない位置が初期位置として定められており(図6「初期位置」参照)、この位置が候補位置に設定される。
【0083】
続いて、この時点でメモリまたはRAMに履歴情報(カレント情報)が記憶されているか否かがチェックされ(s320)、履歴情報が記憶されていれば(s320:YES)、この履歴情報で示される現在時刻と実際の現在時刻との差,つまり履歴情報が生成された以降の経過時間T0が、所定のしきい値THs以上である(THs≦To)か否かがチェックされる(s330)。
【0084】
なお、この「しきい値THs」とは、履歴情報が生成された以降、選択項目の選択が中断,中止された場合に到達しうる経過時間として定められたものである。
このs330で経過時間T0がしきい値THs未満である(T0<THs)と判定された場合には(s330:NO)、候補位置としてその履歴情報で示される現在位置が設定された後(s340)、プロセスが次の処理(s350)へと移行する。
【0085】
また、上記s320で履歴情報が記憶されていないと判定された場合(s320:NO),または,上記s330で経過時間T0がしきい値THs以上であると判定された場合(s330:YES)、上記s340が行われることなく、プロセスが次の処理(s350)へと移行する。
【0086】
次に、この時点でメモリに仮説情報が記憶されているか否かがチェックされ(s350)、仮説情報が記憶されていれば(s350:YES)、この仮説情報で示される類似度rが所定の最低値THaより大きい(THa<r)か否かがチェックされる(s360)。
【0087】
このs360で類似度rが最低値THaより大きいと判定された場合(s360:YES)、その仮説情報で示される現在位置の整合性がチェックされる(s370)。ここでは、仮説情報で示される現在位置が、この時点でメモリに記憶されている履歴情報で示される現在位置から発話パターン辞書を順方向に辿ることで到達できる位置にあることをもって、現在位置同士の整合性があると判定される。
【0088】
このs370で現在位置同士の整合性があると判定された場合(s370:YES)、候補位置としてその仮説情報で示される現在位置が設定された後(s380)、プロセスが次の処理(s400)へと移行する。
【0089】
また、上記s370で現在位置同士の整合性がないと判定された場合(s370:NO)、この仮説情報で示される類似度rが所定のしきい値THbより大きい(THb<r)か否かがチェックされる(s390)。なお、この「しきい値THb」は、しきい値THaよりも大きな値として定められたものである。
【0090】
このs390で類似度rがしきい値THbより大きいと判定された場合(s390:YES)、プロセスがs380へと移行し、候補位置としてその仮説情報で示される現在位置が設定される。
【0091】
また、上記s350で仮説情報が記憶されていないと判定された場合(s350:NO),上記s360で類似度rが最低値THa以下であると判定された場合(s360:NO),または,上記s390で類似度rがしきい値THb以下であると判定された場合(s390:NO)、上記s380が行われることなく、プロセスが次の処理(s400)へと移行する。
【0092】
そして、この時点における候補位置が最終的な現在位置として確定される(s400)。 こうして、s310〜s400にての発話パターン辞書における最終的な現在位置が確定された後、項目推定手段33は、その現在位置に基づいて表示部4に表示させるべきメニューを決定する(s240)。
【0093】
発話パターン辞書は、選択項目を選択するための予め想定された発話パターンを単語毎の接続関係で規定するものであることから、この発話パターン辞書における最終的な現在位置は、いずれかの選択経路に沿って辿り着いた選択項目を示すものとなる。
【0094】
そのため、このs240では、最終的な現在位置である単語に対応する選択項目が、ユーザにより選択された選択項目とみなされ、その選択項目が選択されることにより遷移させるべき別階層のメニューが存在していれば、そのメニューが表示部4に表示させるべきメニューとして決定される。
【0095】
なお、音声の入力が開始された直後などのように仮説情報が記憶されておらず、かつ履歴情報も記憶されていない場合は、候補位置には予め定められた初期位置が設定されているため、表示させるべきメニューとしては初期位置に対応する第1階層のメニューが選ばれることとなる。
【0096】
次に、メニュー遷移手段38が、その時点で表示させるべきメニューであるカレントメニューを、上記s240にて決定されたメニューに遷移させる(s250)。ここでは、カレントメニューおよび現在時刻がメモリまたはRAMの所定領域に格納され(既に格納されている場合はその内容が更新され)、これにより、カレントメニューが遷移する。
【0097】
次に、メニュー表示手段39は、過去の一定期間内にマイク5を介した音声の入力があったか否かをチェックする(s260)。ここでは、上述した音声検出手段31による音声入力の検出が一定期間内になされていれば、過去の一定期間内にマイク5を介した音声の入力があると判定される一方、音声入力の検出が一定期間内になされていなければ、過去の一定期間内にマイク5を介した音声の入力がないと判定される。
【0098】
なお、この「一定期間」とは、ユーザによる選択項目の選択が中断,中止された場合に到達しうる経過時間として定められたものである。
このs260で、過去の一定期間内にマイク5を介した音声の入力があると判定された場合には(s260:YES)、メニューを表示すべき旨の決定がなされた後(s270)、プロセスが上記指示受付処理へと戻る(s130へと移行する)。
【0099】
一方、上記s260で、過去の一定期間内にマイク5を介した音声の入力がないと判定された場合には(s260:NO)、メニューの表示を消去すべき旨の決定がなされた後(s280)、プロセスが上記指示受付処理へと戻る(s130へと移行する)。
(1−3)作用,効果
このように構成された情報処理装置1では、まず、ユーザの音声が、いずれの選択経路におけるいずれの選択項目に対応するかを推定し、そうして推定した選択項目をユーザが選択したものとみなしている(図4のs210)。このとき、「いずれの選択経路におけるいずれの選択項目に対応するか」は、周知の音声認識の結果に至るまでの発話パターンそれぞれで形成される仮説探索の仮説情報を用いて、外部から入力される音声が何と発話しようとしているのかを推定したうえで、最終的にいずれの選択経路におけるいずれの選択項目を選択しようとしているのかを推定している。
【0100】
そして、その選択項目が選択されることにより表示させるべき別階層のメニューへとカレントメニューを遷移させ(同図s230〜s250)、これを表示部4に表示させている(図3のs130)。このように、ユーザが実際に選択した項目に対応させて、メニューの表示を随時変更していくことができる。
【0101】
そのため、ユーザにとっては、表示部4に表示されるメニューを見ながら、その中の選択項目を任意に選んでその内容を順番に続けて発声していくだけで、そのメニューを該当する別メニューへと表示を変更させていくことができる結果(図2参照)、従来のように音声認識が終了してメニューが変更されるのを待った上で次の階層の項目を発声していくといった手間がかからない点で利便性が高い。
【0102】
また、上記実施形態では、外部から音声が入力されない期間が所定期間以上継続した場合に(図4のs260「NO」)、メニューの表示を消去させることができる(同図s280,図3のs130)。
【0103】
表示部4に表示させるカレントメニューは、一旦表示された以降、継続的に表示させておけばよいが、音声の入力がないまま一定期間が経過した場合は、ユーザによる選択項目の選択が中断,中止されているといえるため、表示部4における表示領域の視認性を向上させるなどの観点から、その一定期間の経過をもってメニューの表示を消去させることが望ましい。
【0104】
また、上記実施形態では、本情報処理装置1の起動直後のように、メニューが表示されていない状態の場合、ユーザが何らかの発話を行うことで(図3のs110:YES)、初期位置として定められたトップメニューを候補位置としてカレントメニューが決定される(図4のs310〜s400)。そのため、メニューが表示されていない状態の場合、ユーザが何らかの発話を行うことで、第1階層のトップメニューを表示させることができる。
【0105】
また、上記実施形態では、音声の入力が開始された直後などのように仮説情報が記憶されておらず、かつ履歴情報も記憶されていない場合は、候補位置には予め定められた初期位置が設定される結果、表示させるべきメニューとして初期位置に対応する第1階層のメニューが選ばれる(図4のs310〜s400)。
【0106】
つまり、外部から入力される音声に基づいてカレントメニューが遷移していたとしても、外部から音声が入力されない期間が所定期間以上継続した場合には(同図s260「NO」)、その後、カレントメニューが最上位階層(第1階層)のメニュー,つまりトップメニューに戻されるため、選択項目の選択を再度行うにあたってトップメニューから選択の項目を開始すればよいこととなる。
【0107】
これにより、ユーザが選択項目の選択を中断,中止したとしても、その選択の再開時、常にトップメニューから選択項目の選択を行えばよくなるため、選択項目の選択に際しての混乱を防止することができる結果、ユーザインタフェースとしての利便性を高めることができる。
【0108】
また、上記実施形態では、所定の記憶領域に格納されたカレント情報を更新することにより、カレントメニューを遷移させることができる(図4のs250)。
また、上記実施形態では、各メニューにおける選択項目のうち、所定の処理が割り当てられた選択項目が選択されたとみなされた場合に、その割り当てられた処理を実行することができる(図3のs160)。
【0109】
また、上記実施形態では、ユーザの音声がいずれの選択経路におけるいずれの選択項目に対応するかを推定する際に実施される音声認識の都度、その認識に際してしきい値以上の類似度となった発話パターンが複数種類認識されていたとしても、その中から最も類似度の大きな発話パターンに対応する選択項目それぞれからなる選択経路を推定することができる。
(1−4)変形例
以上、本発明の実施の形態について説明したが、本発明は、上記実施形態に何ら限定されることはなく、本発明の技術的範囲に属する限り種々の形態をとり得ることはいうまでもない。
【0110】
例えば、上記実施形態においては、カレントメニューが遷移させられる都度、その旨のメッセージを表示部4に表示させたり、スピーカーからメッセージ或いはビープ音を出力させることとしてもよい。この場合、カレントメニューが遷移させられた旨をその都度報知することができる。
【0111】
また、上記実施形態においては、本発明の情報処理装置が、ナビゲーション装置におけるユーザインタフェースを実現するための装置として実装された構成を例示した。しかし、本発明の情報処理装置は、ナビゲーション装置以外の装置におけるユーザインタフェースを実現するための装置として実装してもよい。
【0112】
また、上記実施形態では、カレントメニューが遷移した後、外部から音声が入力されない期間が所定期間以上継続した場合には、カレントメニューが直ちに最上位階層のメニュー,つまりトップメニューに戻されるように構成してもよい。
【0113】
このためには、図4におけるs260で、過去の一定期間内にマイク5を介した音声の入力がないと判定された場合に(s260:NO)、図7に示すように、カレントメニューを第1階層のメニューへと遷移させた後(s282)、s280へ移行してメニューの消去を決定する(図7(a)),または,s270へ移行してメニューの表示を決定する(図7(b)こととすればよい。
【0114】
このように、カレントメニューが最上位階層のトップメニューに戻される構成であれば、選択の中断,中止前のカレントメニューに拘わらず、その選択の再開時、常に第1階層のメニューから選択項目の選択を行えばよくなり、選択項目の選択に際しての混乱を防止することができる結果、ユーザインタフェースとしての利便性を高めることができる。
【0115】
また、上記実施形態においては、マイク5を介して入力される音声に基づいてメニューの遷移が実現されるように構成されたものを例示したが、このメニューの遷移を実現するための音声としては、ネットワークを介して音声を入力する経路を有している場合であれば、この経路を介して入力される音声を用いてもよい。
【0116】
また、上記実施形態におけるカレントメニューの遷移は、ユーザによる操作部3への操作を受けた場合に実施されるようにしてもよい。この場合、過去の一定期間内に音声の入力が検出されなかった場合でも、メニューの第1階層への遷移やメニュー表示の消去を行わないようにする、或いは、音声入力による遷移とは異なる一定期間を設けることが望ましい。
(2)第2実施形態
この実施形態においては、表示内容決定処理の一部処理内容が一部相違しているだけであるため、この相違点についてのみ説明する。
【0117】
この相違点とは、上記第1実施形態が、表示部4によるメニューの表示に際し、常に同じ表示態様にて表示させるのに対し、本実施形態が、周辺環境に応じてその表示態様を異ならせている点である。具体的には、外部からの入力音声が、選択経路に沿った内容の音声であるか否かにより、その表示態様を異ならせるように構成されている。
(2−1)表示内容決定処理
本実施形態における表示内容決定処理では、第1実施形態と同様にs210〜s250が行われた後、図8に示すように、その時点までにマイク5を介して入力された音声に基づいて、この音声が上述した選択経路に沿った内容の音声であることの信頼度が特定される(s251)。ここでは、その時点までにマイク5を介して入力され、CPUの内蔵メモリまたはRAMに格納された音声に基づいて、上述した特許文献3のように競合モデルを用意して音声認識処理を行い、上述した仮説情報の類似度(尤度)と競合モデルの現在時刻の仮説の類似度(尤度)との尤度比を算出することにより信頼度が特定される。
【0118】
なお、この信頼度の特定は、このs251ではなく、本表示内容決定処理とは独立した別の処理において実施することとしてもよく、この場合、このs251では、こうして特定された信頼度を別の処理から取得することとすればよい。
【0119】
こうして特定された信頼度が所定の第1しきい値TH1より大きければ(s252:YES)、通常の表示サイズによりメニューを表示すべき旨の決定がなされた後(s253)、プロセスが上記指示受付処理へと戻る(s130へと移行する)。
【0120】
上述したs252での判定基準となる「第1しきい値TH1」とは、その時点までにマイク5を介して入力された音声が選択経路に沿った内容の音声であると判定して問題ない程度の信頼度として定められた値である。そして、上記s253でいう「通常の表示サイズによりメニューを表示すべき旨」とは、表示部4においてメニューを表示させる際の表示領域を、第1実施形態と同様の表示領域とすべきことを意味する。
【0121】
こうして指示受付処理へと戻った後は、図3のs130にて通常の表示サイズによるメニューの表示がなされることとなる。
また、上記s251で特定された信頼度が、第1しきい値TH1より小さい値として定められた第2しきい値TH2より大きければ(s252:NO,s254:YES)、通常よりも小さい表示サイズによりメニューを表示すべき旨の決定がなされた後(s255)、プロセスが上記指示受付処理へと戻る(s130へと移行する)。
【0122】
上述したs254での判定基準となる「第2しきい値TH2」とは、その時点までにマイク5を介して入力された音声が選択経路に沿った内容の音声であると判定するのに十分ではない信頼度として定められた値である。そして、上記s255でいう「通常よりも小さい表示サイズによりメニューを表示すべき旨」とは、表示部4においてメニューを表示させる際の表示領域を、第1実施形態における表示領域よりも小さい表示領域とすべきことを意味する。
【0123】
こうして指示受付処理へと戻った後は、図3のs130にて通常よりも小さい表示サイズによるメニューの表示がなされることとなる。
また、上記s251で特定された信頼度が、第2しきい値TH2以下である場合(s254:NO)、s280へ移行し、メニューの表示を消去すべき旨の決定がなされた後で、プロセスが上記指示受付処理へと戻る(s130へと移行する)。
(2−2)作用,効果
このように構成された情報処理装置1によれば、第1実施形態と同様の構成から得られる作用,効果の他、以下に示すような作用,効果を得ることができる。
【0124】
例えば、上記実施形態においては、外部から入力される音声が、上述した選択経路に沿った内容の音声であることの信頼度に応じて、メニューを示す画像の表示態様を異ならせることができる。具体的には、外部からの入力音声における信頼度が高いほどメニューにおける表示領域を大きくすることができる。
【0125】
なお、この実施形態においては、表示態様として表示サイズを異ならせるように構成されているが、こうして異ならせる表示態様としては、表示サイズ以外の態様としてもよい。
(3)第3実施形態
この実施形態においては、表示内容決定処理の一部処理内容が一部相違しているだけであるため、この相違点についてのみ説明する。
【0126】
この相違点とは、上記第1実施形態が、表示部4によるメニューの表示に際し、常に同じ表示態様にて表示させるのに対し、本実施形態が、周辺環境に応じてその表示態様を異ならせている点である。具体的には、ユーザによる音声を入力して動作する所定装置7(図1参照)に対する音声の入力が行われているか否かにより、その表示態様を異ならせるように構成されている。なお、この所定装置7とは、例えば、情報処理装置1と通信可能に接続された情報端末(より具体的には携帯電話端末)などのことである。
(3−1)表示内容決定処理
本実施形態における表示内容決定処理では、第1実施形態と同様にs210〜s250が行われた後、図9に示すように、所定装置7との通信を経て、所定装置7が音声入力を受けて動作しているか否かがチェックされる(s410)。
【0127】
このs410で、所定装置7が音声入力を受けて動作していると判定された場合には(s410:YES)、プロセスがs280へと移行し、メニューの表示を消去すべき旨の決定がなされた後、プロセスが上記指示受付処理へと戻る(s130へと移行する)。
【0128】
一方、上記s410で、所定装置7が音声入力を受けて動作していないと判定された場合には(s410:NO)、プロセスがs270へと移行し、メニューを表示すべき旨の決定がなされた後、プロセスが上記指示受付処理へと戻る(s130へと移行する)。
(3−2)作用,効果
このように構成された情報処理装置1によれば、第1実施形態と同様の構成から得られる作用,効果の他、以下に示すような作用,効果を得ることができる。
【0129】
例えば、上記実施形態においては、ユーザによる音声を入力して動作する所定装置7が音声入力を受けて動作している場合に、メニューの表示が行われないようにすることができる。
【0130】
このように、所定装置7に対する音声入力が行われているということは、本情報処理装置1に対する音声入力とは無関係に発声が行われている可能性が高く、そのような無関係の音声を入力してその後の処理を行ってしまうと、ユーザの意図しないメニュー遷移が行われてしまう。
【0131】
そのため、上記のように、所定装置7が音声入力を受けて動作している場合にメニューの表示が行われないようにすることにより、ユーザの意図しないメニュー遷移が行われないようにすることができる。
(4)第4実施形態
この実施形態においては、表示内容決定処理の一部処理内容が一部相違しているだけであるため、この相違点についてのみ説明する。
【0132】
この相違点とは、上記第1実施形態が、表示部4によるメニューの表示に際し、常に同じ表示態様にて表示させるのに対し、本実施形態が、周辺環境に応じてその表示態様を異ならせている点である。具体的には、操作部3或いは当該情報処理装置1に接続されている所定装置7に対する操作が行われているか否かにより、その表示態様を異ならせるように構成されている。
(4−1)表示内容決定処理
本実施形態における表示内容決定処理では、第1実施形態と同様にs210〜s250が行われた後、図10に示すように、操作部3或いは情報処理装置1に接続されている所定装置7において操作が行われている最中であるか否かがチェックされる(s420)。
【0133】
このs420で、操作部3或いは情報処理装置1に接続されている所定装置7において操作が行われていると判定された場合には(s420:YES)、プロセスがs280へと移行し、メニューの表示を消去すべき旨の決定がなされた後、プロセスが上記指示受付処理へと戻る(s130へと移行する)。
【0134】
一方、上記s420で、操作部3或いは情報処理装置1に接続されている所定装置7において操作が行われていないと判定された場合には(s420:NO)、プロセスがs270へと移行し、メニューを表示すべき旨の決定がなされた後、プロセスが上記指示受付処理へと戻る(s130へと移行する)。
(4−2)作用,効果
このように構成された情報処理装置1によれば、第1実施形態と同様の構成から得られる作用,効果の他、以下に示すような作用,効果を得ることができる。
【0135】
例えば、上記実施形態においては、情報処理装置1の操作部或いは情報処理装置1に接続されている所定装置7が操作されている場合に、メニューの表示が行われないようにすることができる。
【0136】
このように、情報処理装置1の操作部3或いは情報処理装置1に接続されている所定装置7が操作されているということは、情報処理装置1のメニュー選択とは無関係に発声が行われている可能性が高く、そのような無関係の音声を入力してその後の処理を行ってしまうと、ユーザの意図しないメニュー遷移が行われてしまう。
【0137】
そのため、上記のように、操作部3に対する操作が行われている場合にメニューの遷移が行われないようにすることにより、ユーザの意図しないメニュー遷移が行われないようにすることができる。
(5)第5実施形態
この実施形態においては、表示内容決定処理の一部処理内容が一部相違しているだけであるため、この相違点についてのみ説明する。
【0138】
この相違点とは、上記第1実施形態が、表示部4によるメニューの表示に際し、常に同じ表示態様にて表示させるのに対し、本実施形態が、周辺環境に応じてその表示態様を異ならせている点である。具体的には、情報処理装置1周辺に位置しているユーザの数に応じて、その表示態様を異ならせるように構成されている。
(5−1)表示内容決定処理
本実施形態における表示内容決定処理は、第1実施形態と同様にs210〜s260が行われ、このs260で「YES」と判定された後、図11に示すように、情報処理装置1周辺に位置するユーザの数がチェックされる(s430)。
【0139】
この実施形態では、情報処理装置1周辺に位置しているユーザの数を検出すべく、その周辺においてユーザが位置しうる領域付近にセンサが配置されているため、このs430では、それらの検出結果に基づいてユーザの数を検出する。なお、ここでは、周辺においてユーザが位置しうる領域をカメラで撮影しておき、その映像に含まれるユーザを画像処理で特定することにより、ユーザの数を検出することとしてもよい。
【0140】
こうしてチェックされたユーザの数が「1」であれば(s430:YES)、通常の表示サイズによりメニューを表示すべき旨の決定がなされた後(s440)、プロセスが上記指示受付処理へと戻る(s130へと移行する)。
【0141】
また、上記s430にてチェックされたユーザの数が複数であれば(s430:NO)、通常よりも小さい表示サイズによりメニューを表示すべき旨の決定がなされた後(s450)、プロセスが上記指示受付処理へと戻る(s130へと移行する)。
(5−2)作用,効果
このように構成された情報処理装置1によれば、第1実施形態と同様の構成から得られる作用,効果の他、以下に示すような作用,効果を得ることができる。
【0142】
例えば、上記実施形態においては、情報処理装置1周辺に1人のユーザのみが位置していることが検出された場合には(図11のs430「YES」)、カレントメニューの表示領域を通常の大きさとするが(同図s440)、複数のユーザが位置していることが検出された場合には(同図s430「NO」)、カレントメニューの表示領域を通常よりも小さい表示領域とすることができる(同図s450)。
【0143】
このように、複数のユーザが周辺に位置している場合は、情報処理装置1を音声により操作する以外のユーザからすると、表示部4に表示されるメニューが必ずしも必要な情報ではない。そのため、上記構成のように、このような場合におけるメニューの表示領域を小さくすることで、そのような表示態様を異ならせない構成と比べて、他のユーザにとっての表示部4の視認性が低下することを防止することができる。
【0144】
なお、この実施形態においては、表示態様として表示サイズを異ならせるように構成されているが、こうして異ならせる表示態様としては、表示サイズ以外の態様としてもよい。
(6)本発明との対応関係
以上説明した実施形態において、図8のs310は本発明における信頼特定手段であり、同図s253,s255は本発明における第1の態様決定手段であり,図11のs440,s450は本発明における第2の態様決定手段であり、図9のs410は本発明における外部音声入力判定手段であり、図10のs420は本発明における操作検出手段であり、図11のs430は本発明におけるユーザ検出手段であり、図3のs160は本発明における処理実施手段である。
【図面の簡単な説明】
【0145】
【図1】情報処理装置の全体構成を示すブロック図
【図2】表示部に表示されるメニューが遷移していく様子を示す図
【図3】指示受付処理を示すフローチャート
【図4】表示内容決定処理を示すフローチャート
【図5】ユーザが選択した選択項目を推定する過程を示す図
【図6】発話パターン辞書の構成を示す図
【図7】別の実施形態における表示内容決定処理を示すフローチャート
【図8】第2実施形態における表示内容決定処理を示すフローチャート
【図9】第3実施形態における表示内容決定処理を示すフローチャート
【図10】第4実施形態における表示内容決定処理を示すフローチャート
【図11】第5実施形態における表示内容決定処理を示すフローチャート
【符号の説明】
【0146】
1…情報処理装置、2…記憶部、3…操作部、4…表示部、5…マイク、6…音声入力部、7…所定装置、10…制御部、20…入出力インタフェース、31…音声検出手段、33…項目推定手段、35…音声認識手段、37…処理実施手段、38…メニュー遷移手段、39…メニュー表示手段。
【技術分野】
【0001】
本発明は、第1階層から第n階層(nは任意の数)までの階層構造をなす複数のメニューそれぞれが有する各選択項目をユーザに選択させることにより、その選択項目を有するメニューから別階層のメニューへと遷移する、ように構成されたユーザインタフェースに関する。
【背景技術】
【0002】
従来、ユーザが何を発話すればよいのか戸惑うことなく、ユーザの音声による選択項目の選択を実現するために、ユーザによるボタン操作に応じた項目からなるメニューを表示部に表示させると共に音声の入力を開始し、そうして入力された音声で識別された項目に対応する処理を実行する、といったシステム(従来システム1)が提案されている(特許文献1参照)。
【0003】
一方、ユーザがボタン操作を行って音声入力を開始することが困難である場合や、ボタン操作にわずらわしさを感じる等の問題に対して、ユーザが明示的にボタン操作を行うことなく、ユーザの発話を常時認識するシステム(従来システム2)が提案されている(例えば特許文献2)。
【特許文献1】特開2007−171809号公報
【特許文献2】特開2000−194393号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかし上述した従来システム1は、ユーザによるボタン操作がなければ、その後に識別すべき項目がメニューとして表示されないため、従来システム2のようにボタン操作を行わない常時認識システムへ適用できないという課題がある。
【0005】
さらに、複数のメニューを階層構造にしたユーザインタフェース装置において複数の階層を一度に選択する音声入力を行いたい場合には、ユーザは階層に合わせた正しい順番及び正しい選択経路で各階層の選択項目を発話する必要がある。
【0006】
しかし、従来システム1に代表される従来のメニュー表示技術を用いた場合、音声入力が終了し、音声認識によって選択項目が確定されるまでメニューが更新されないため、階層に合わせた正しい順番及び正しい選択経路で複数の選択項目を続けて発話することが困難になり、ユーザインタフェースとしての利便性が低くなってしまうという課題がある。
【0007】
本発明は、このような課題を解決するためになされたものであり、その目的は、ユーザの音声による選択項目の選択を実現するためのユーザインタフェースとしての利便性を従来よりも向上させることである。
【課題を解決するための手段】
【0008】
上記課題を解決するためには、ユーザの音声による操作を実現するためのユーザインタフェース装置を、以下に示す第1の構成(請求項1)のようにするとよい。
この構成は、第1階層から第n階層(nは任意の数)までの階層構造をなす複数のメニューそれぞれが有する各選択項目をユーザに選択させることにより、その選択項目を有するメニューから別階層のメニューへと遷移するように構成されたユーザインタフェースを実装してなるユーザインタフェース装置である。
【0009】
そして、複数のメニューそれぞれのうち、その時点で表示させるべきメニューであるカレントメニューを表示部に表示させるメニュー表示手段と、外部から入力される音声が、第i階層(1≦i<n)のメニューから第n階層のメニューへと遷移するまでに選択されうる選択項目からなるそれぞれの選択経路のうち、いずれの選択経路におけるいずれの選択項目に対応するかを推定する項目推定手段と、前記カレントメニューを、前記項目推定手段により推定された選択項目が選択されることにより表示させるべき別階層のメニューに遷移させるメニュー遷移手段と、を備えており、前記メニュー表示手段は、前記メニュー遷移手段によりカレントメニューとして遷移させられたメニューを示す画像を表示部に表示させる。
【0010】
このように構成された情報処理装置では、まず、ユーザの音声が、いずれの選択経路におけるいずれの選択項目に対応するかを推定し、そうして推定した選択項目をユーザが選択したものとみなしている。そして、その選択項目が選択されることにより表示させるべき別階層のメニューへとカレントメニューを遷移させ、これを表示部に表示させている。
【0011】
このように、現時点までに入力された音声から推定される選択項目を、そのユーザが選択した項目として、メニューの表示を随時変更していくことができる。
そのため、ユーザにとっては、表示部に表示されるメニューを見ながら、その中の選択項目を任意に選んでその内容を順番に続けて発声していくだけで、そのメニューを該当する別メニューへと表示を変更させていくことができる結果、従来のように音声認識が終了してメニューが変更されるのを待った上で次の階層の項目を発声していくといった手間がかからない点で利便性が高い。
【0012】
この構成において表示部に表示させるカレントメニューは、一旦表示された以降、継続的に表示させておけばよいが、音声の入力がないまま一定期間が経過した場合は、ユーザによる選択項目の選択が中断,中止されているといえるため、表示部における表示領域の視認性を向上させるなどの観点から、その一定期間の経過をもってメニューの表示を消去させることとしてもよい。
【0013】
このためには、例えば、上記構成を以下に示す第2の構成(請求項2)のようにするとよい。この構成において、前記メニュー表示手段は、メニューを示す画像を表示部に表示させた以降、外部からの音声の入力が所定期間以上なされていない場合に、メニューの前記表示部による表示を消去させる。
【0014】
この構成であれば、外部から音声が入力されない期間が所定期間以上継続した場合に、メニューの表示を消去させることができ、これ以降、表示部における表示領域の視認性を向上させることができる。
【0015】
また、上記各構成において、表示部にメニューが表示されていない状態で、新しくメニューを表示させる方法としては、例えば、上記構成を以下に示す第3の構成(請求項3)のようにするとよい。
【0016】
この構成において、前記メニュー表示手段は、メニューが表示部に表示されていない状態で、外部から音声の入力がなされた場合に、カレントメニューを表示部に表示させる。
この構成であれば、本情報処理装置起動直後のように、メニューが表示されていない状態の場合は、内容によらず、ユーザが何らかの発話を行うことでメニューを表示することができ、利便性の高い情報処理装置を実現できる。また、第2の構成のように、外部から音声が入力されない期間が所定期間以上継続して表示が消去された後でユーザが発話を行った場合にも、カレントメニューを表示することができるため、利便性の高い情報処理装置を実現できる。
【0017】
また、上記各構成におけるカレントメニューの遷移は、外部から入力される音声に基づいてのみ行われるものとすればよい。ただ、外部から入力される音声に基づいてカレントメニューが遷移した後、音声の入力がないまま一定期間が経過した場合は、ユーザによる選択項目の選択が中断,中止されているといえる。この場合、以降、ユーザが項目の選択を再度行おうとしたとき、その中断,中止前いずれのメニューがカレントメニューとなっていたかを忘れてしまい、選択項目の選択に際して混乱してしまう恐れがある。
【0018】
そのため、外部から入力される音声に基づいてカレントメニューが遷移した後、音声の入力がないまま一定期間が経過した場合には、選択項目の選択を再度行うにあたって、一定の同じメニュー,例えばトップメニューから開始するようにしておくことが好適といえる。このためには、例えば、上記各構成を以下に示す第4の構成(請求項4)のようにするとよい。
【0019】
この構成において、前記メニュー遷移手段は、外部からの音声の入力が所定期間以上なされていない場合に、前記カレントメニューを第1階層のメニューへと遷移させる。
この構成であれば、外部から入力される音声に基づいてカレントメニューが遷移していたとしても、外部から音声が入力されない期間が所定期間以上継続した場合には、カレントメニューが最上位階層(第1階層)のメニュー,つまりトップメニューに戻されるため、選択項目の選択を再度行うにあたってトップメニューから選択の項目を開始すればよいこととなる。
【0020】
これにより、ユーザが選択項目の選択を中断,中止したとしても、その選択の再開時、常に第1階層のメニューから選択項目の選択を行えばよくなるため、選択項目の選択に際しての混乱を防止することができる結果、ユーザインタフェースとしての利便性を高めることができる。
【0021】
また、上記各構成において、外部から入力された音声が、いずれの選択経路におけるいずれの選択項目に対応するかの推定は、外部から音声の入力が開始されたことをもって開始することとすればよい。
【0022】
なお、この音声が入力される「外部」とは、当該ユーザインタフェース装置の外部であり、マイクを介して音声を入力可能な構成であればこのマイクのこととすればよく、また、ネットワークを介して音声を入力する経路を有している場合であればこの経路のこととすればよい。
【0023】
また、外部から入力される音声が、いずれの選択経路におけるいずれの選択項目であるかは、どのように推定することとしてもよく、具体的な例としては、例えば、以下に示す第5の構成(請求項5)のようにすることが考えられる。
【0024】
この構成においては、外部から入力された音声を、前記選択項目を選択するためのユーザの発話パターンを格納した発話パターン辞書における各発話パターンと比較し、その比較結果たる類似度が所定のしきい値以上となった発話パターンを認識結果として出力する音声認識手段と、を備えており、前記項目推定手段は、前記音声認識手段により順次認識された発話パターンに対応する選択項目それぞれからなる選択経路につき、該選択経路において最新の選択項目を推定結果として出力する。
【0025】
この構成であれば、周知の音声認識の結果に至るまでの発話パターンそれぞれで形成される仮説探索における現時点での仮説情報を用いて、外部から入力される音声が何と発話しようとしているのかを推定したうえで、最終的にいずれの選択経路におけるいずれの選択項目を選択しようとしているのかを推定することができる。
【0026】
また、この構成においては、以下に示す第6の構成(請求項6)のようにするとよい。
この構成において、前記項目推定手段は、前記音声認識手段による認識の都度、該認識に際してしきい値以上の類似度となった発話パターンが複数種類存在した場合、最も類似度の高い発話パターンに対応する選択項目それぞれからなる選択経路につき、該選択経路において最新の選択項目を推定結果として出力する。
【0027】
この構成であれば、音声認識の都度、その認識に際してしきい値以上の類似度となった発話パターンが複数種類存在していたとしても、その中から最も類似度の大きな発話パターンに対応する選択項目それぞれからなる選択経路を推定することができる。
【0028】
このように、最も類似度が高い発話パターンは、最も実際の発話内容として尤もらしい選択経路および選択項目に対応しているといえることから、精度よく選択経路および選択項目を推定することができる。
【0029】
なお、この構成におけるある発話パターンの類似度としては、例えば当該発話パターンの発話内容に対応する確率モデルの尤度や、前記尤度を仮説探索の処理時間で正規化した値などが利用できる。
【0030】
また、上記各構成においてカレントメニューの遷移は、例えば、その内容を示す情報を更新することで実現すればよく、そのための構成としては、上記各構成を以下に示す第7の構成(請求項7)のようにするとよい。
【0031】
この構成において、前記メニュー遷移手段は、前記カレントメニューを示すカレント情報を、前記項目推定手段にて推定された選択項目に基づいて表示させるべき別階層のメニューを示すものに更新することでメニューを遷移させる。そして、前記メニュー表示手段は、前記カレント情報で示されるメニューを表示部に表示させる。
【0032】
この構成であれば、所定の記憶領域に格納されたカレント情報を更新することにより、カレントメニューを遷移させることができる。
また、上記各構成におけるカレントメニューの遷移は、ユーザによる操作部への操作を受けた場合にも実施されるようにするとよい。
【0033】
ところで、上記各構成において、表示部によるメニューの表示に際しては、常に同じ表示態様にて表示させることとしてもよいが、周辺環境に応じてその表示態様を異ならせるようにしてもよい。
【0034】
例えば、外部からの入力音声が、選択経路に沿った内容の音声であるか否かにより、その表示態様を異ならせることが考えられる。
このための構成としては、上記各構成を以下に示す第8の構成(請求項8)のようにすることが考えられる。
【0035】
この構成においては、外部から入力される音声に基づき、該音声が前記選択経路に沿った内容の音声であることの信頼度を特定する信頼特定手段と、前記メニュー遷移手段によりカレントメニューが遷移させられる都度、該メニューの表示態様を、前記信頼特定手段により特定された信頼度に応じて決定する第1の態様決定手段と、を備えている。そして、前記メニュー表示手段は、前記カレントメニューとして遷移させられたメニューを、該メニューについて前記第1の態様決定手段が決定した表示態様にて表示部に表示させる。
【0036】
この構成であれば、音声入力部からの入力音声が、上述した選択経路に沿った内容の音声であることの信頼度に応じて、メニューを示す画像の表示態様を異ならせることができる。
【0037】
この構成における「信頼度」は、例えば、特開平11−85188号公報(以降「特許文献3」という)のように競合モデルを用意して尤度比を算出する方法や、最大の類似度を持つ仮説と他の仮説との類似度の差の大きさに対応する値を用いる方法を用いることにより特定することとすればよい。
【0038】
また、この構成において異ならせる表示態様としては、どのようなものであってもよいが、例えば、メニューを示す画像の大きさに基づく表示態様が考えられ、このための構成としては、以下に示す第9の構成(請求項9)のようにすることが考えられる。
【0039】
この構成において、前記第1の態様決定手段は、前記カレントメニューの表示領域における大きさを、前記信頼特定手段により特定された信頼度に応じて決定して、前記メニュー表示手段は、前記カレントメニューとして遷移させられたメニューを、前記第1の態様決定手段により決定された表示領域に合わせた大きさにて表示部に表示させる。
【0040】
この構成であれば、音声入力部からの入力音声における信頼度が高いほどメニューにおける表示領域を大きくすることができる。
また、メニューを示す画像の表示態様を異ならせる要因たる周辺環境としては、情報処理装置外部からの指令が考えられ、その指令に応じて表示態様を異ならせることが考えられる。
【0041】
このための構成としては、上記各構成を以下に示す第10の構成(請求項10)のようにすることが考えられる。
この構成においては、記メニュー遷移手段によりカレントメニューが遷移させられた以降、外部からの指令を受けて、該メニューの表示態様を決定する第2の態様決定手段、を備えている。そして、前記メニュー表示手段は、前記カレントメニューとして遷移させられたメニューを、該メニューについて前記第2の態様決定手段が決定した表示態様にて表示部に表示させる。
【0042】
この構成であれば、外部からの指令に応じて、メニューを示す画像の表示態様を異ならせることができる。
この構成における「外部からの指令」としては、例えば、ユーザによる音声を入力して動作する所定装置との通信を経て、この所定装置が音声入力を受けて動作しているか否かを検知した結果を用いることが考えられる。
【0043】
このためには、上記構成を以下に示す第11の構成(請求項11)のようにすればよい。
この構成において、ユーザによる音声を入力して動作する外部の所定装置(外部装置)との通信を経て、該所定装置が音声入力を受けて動作しているか否かを判定する外部音声入力判定手段,を備えている。前記第2の態様決定手段は、前記外部音声入力判定手段により外部装置側で音声入力が行われていないと判定された場合に、前記カレントメニューを表示させるべき旨を決定する一方、外部装置側で音声入力が行われていると判定された場合に、前記カレントメニューを表示させない旨を決定する。
【0044】
この構成であれば、ユーザによる音声を入力して動作する所定装置が音声入力を受けて動作している場合に、メニューの遷移が行われないようにすることができる。
このように、所定装置が音声入力を受けて動作しているということは、本情報処理装置に対する音声入力とは無関係に発声が行われている可能性が高く、そのような無関係の音声を入力してその後の処理を行ってしまうと、ユーザの意図しないメニュー遷移が行われてしまう。
【0045】
そのため、上記のように、所定装置が音声入力を受けて動作している場合にメニューの表示が行われないようにすることにより、ユーザの意図しないメニュー遷移が行われないようにすることができる。
【0046】
また、上述した「外部からの指令」としては、例えば、本情報処理装置の操作部或いは当該情報処理装置に接続されている所定装置がユーザにより操作されていることを検知した結果を用いることが考えられる。
【0047】
このためには、上記第10の構成または第11の構成を以下に示す第12の構成(請求項12)のようにすればよい。
この構成においては、当該情報処理装置の操作部或いは当該情報処理装置に接続されている所定装置がユーザにより操作されていることを検出する操作検出手段,を備えている。そして、前記第2の態様決定手段は、前記操作検出手段により操作がなされていないと判定された場合に、前記カレントメニューを表示させるべき旨を決定する一方、前記操作検出手段により操作がなされていると判定された場合に、前記カレントメニューを表示させない旨を決定する。
【0048】
この構成であれば、本情報処理装置の操作部或いは当該情報処理装置に接続されている所定装置が操作されている場合に、メニューの遷移が行われないようにすることができる。
【0049】
このように、本情報処理装置の操作部或いは当該情報処理装置に接続されている所定装置が操作されているということは、本情報処理装置のメニュー選択とは無関係に発声が行われている可能性が高く、そのような無関係の音声を入力してその後の処理を行ってしまうと、ユーザの意図しないメニュー遷移が行われてしまう。
【0050】
そのため、上記のように、操作部に対する操作が行われている場合にメニューの遷移が行われないようにすることにより、ユーザの意図しないメニュー遷移が行われないようにすることができる。
【0051】
また、上述した「外部からの指令」としては、例えば、本情報処理装置周辺に位置しているユーザの数を検出した結果を用いることが考えられる。
このためには、上記第10〜第12のいずれかの構成を以下に示す第13の構成(請求項13)のようにすればよい。
【0052】
この構成においては、当該情報処理装置周辺に位置しているユーザの数を検出するユーザ検出手段,を備えている。そして、前記第2の態様決定手段は、前記ユーザ検出手段により1人のユーザのみが位置していることが検出された場合、前記カレントメニューの表示領域の大きさを通常の大きさとして決定する一方、複数のユーザが位置していることが検出された場合、前記カレントメニューの表示領域の大きさを通常よりも小さくするように決定する。
【0053】
この構成であれば、1人のユーザのみが位置していることが検出された場合には、カレントメニューの表示領域を通常の大きさとするが、複数のユーザが位置していることが検出された場合には、カレントメニューの表示領域を通常よりも小さい表示領域とすることができる。
【0054】
このように、複数のユーザが周辺に位置している場合は、本情報処理装置を音声により操作する以外のユーザからすると、表示部に表示されるメニューが必ずしも必要な情報ではない。そのため、上記構成のように、このような場合におけるメニューの表示領域を小さくすることで、そのような表示態様を異ならせない構成と比べて、他のユーザにとっての表示部の視認性が低下することを防止することができる。
【0055】
なお、この構成において、周辺に位置しているユーザの数を検出するためには、その周辺においてユーザが位置しうる領域付近にセンサを配置しておき、その検出結果に基づいてユーザの数を検出することとすればよい。また、周辺においてユーザが位置しうる領域をカメラで撮影しておき、その映像に含まれるユーザを画像処理で特定することにより、ユーザの数を検出することとすればよい。
【0056】
また、上記各構成においては、第14の構成(請求項14)のように、前記項目推定手段により推定された選択項目に割り当てられた所定の処理を実施する処理実施手段,を備えているようにしてもよい。
【0057】
この構成であれば、各メニューにおける選択項目のうち、最下層のメニューなどにおいて所定の処理が割り当てられた選択項目が選択されたとみなされた場合に、その割り当てられた処理を実行することができる。
【0058】
また、上記課題を解決するためには、第1階層から第n階層(nは任意の数)までの階層構造をなす複数のメニューそれぞれが有する各選択項目をユーザに選択させることにより、その選択項目を有するメニューから別階層のメニューへと遷移するように構成されたユーザインタフェースを提供するためのユーザインタフェース提供方法(請求項15)としてもよい。
【0059】
このインタフェース提供方法は、複数のメニューそれぞれのうち、その時点で表示させるべきメニューであるカレントメニューを表示部に表示させるメニュー表示手順と、外部から入力される音声が、第i階層(1≦i<n)のメニューから第n階層のメニューへと遷移するまでに選択されうる選択項目それぞれの選択経路のうち、いずれの選択経路におけるいずれの選択項目に対応するかを推定する項目推定手順と、前記カレントメニューを、前記項目推定手順により推定した選択項目が選択されることにより表示させるべき別階層のメニューに遷移させるメニュー遷移手順と、を含む。そして、前記メニュー表示手順では、前記メニュー遷移手順にてカレントメニューとして遷移させられたメニューを示す画像を表示部に表示させる。
【0060】
このインタフェース提供方法であれば、上述した第1の構成に係るユーザインタフェース装置と同様の作用,効果を得ることができる。
なお、このインタフェース提供方法は、上述した第2〜第14のいずれかの構成に係るユーザインタフェース装置における各手段を手順として実現した方法としてもよく、この場合、上述した第2〜第14のいずれかの構成に係るユーザインタフェース装置と同様の作用,効果を得ることができる。
【0061】
また、上記課題を解決するためには、上述した第1〜第14のいずれかの構成に係る全ての手段として機能させるための各種処理手順をコンピュータシステムに実行させるためのプログラム(請求項16)としてもよい。
【0062】
このプログラムにより制御されるコンピュータシステムであれば、上記第1から第14のいずれかの構成に係るユーザインタフェース装置の一部を構成することができる。
なお、上述したプログラムは、コンピュータシステムによる処理に適した命令の順番付けられた列からなるものであって、各種記録媒体や通信回線を介してユーザインタフェース,情報処理装置や、これを利用するユーザ等に提供されるものである。
【発明を実施するための最良の形態】
【0063】
以下に本発明の実施形態を図面と共に説明する。
(0)全体構成
情報処理装置1は、周知のナビゲーション装置のユーザインタフェースを実現すべく、このナビゲーション装置に実装されたものであり、図1に示すように、CPU,ROM,RAMなどからなる制御部10と、入出力インタフェース(I/O)20と、からなる周知のコンピュータシステムであって、ナビゲーション装置のうち、各種情報を記憶する記憶部2,ユーザによる操作を受け付ける操作部3,各種情報を表示する表示部4,マイク5を介した音声の入力を制御する音声入力部6などが接続されている。
【0064】
これらのうち、制御部10は、ROMに記憶されたプログラムに従って各種処理を実行することで、音声入力部6を介した音声の入力レベル(音量)によってユーザの発話音声が含まれているか否かを検出する音声検出手段31,マイク5を介して入力される音声で示される選択項目(後述する)を推定する項目推定手段33,マイク5を介して入力される音声の内容を周知の音声認識により解析する音声認識手段35,音声認識手段35の解析結果に応じた処理を実施する処理実施手段37,項目推定手段33による項目推定結果に基づいて表示すべきメニューを遷移させるメニュー遷移手段38、表示部4によるメニューの表示を制御するメニュー表示手段39などとして機能する。これら機能によって、制御部10は、ナビゲーション装置のユーザインタフェースを実現している。
【0065】
このユーザインタフェースは、第1階層から第n階層(nは任意の数)までの階層構造をなす複数のメニューそれぞれが有する各選択項目をユーザに選択させることにより、その選択項目を有するメニューから別階層のメニューへと遷移するように構成されたものである。
【0066】
具体的には、ユーザがマイク5に向けて音声を発した以降、表示部4に第1階層のメニュー(トップメニュー)が表示され(図2の画面A参照)、その後、このメニューにて選択可能ないずれかの選択項目を発してなる音声をマイク5から入力すると、その選択項目が選択されたものとして、その選択項目の選択により遷移すべき別階層のメニューへと表示内容を変化させていく(図2の画面B,C参照)、といったユーザインタフェースである。そして、最下層のメニューにおいて選択された選択項目に対応する処理が実施されることとなる。
【0067】
以下、上記のような構成の情報処理装置1について、制御部10により実行される処理手順が異なる実施形態を順に説明する。
(1)第1実施形態
(1−1)指示受付処理
はじめに、情報処理装置1が起動された以降、制御部10のCPUがROMに格納されたプログラムに従って繰り返し実行する指示受付処理の処理手順を、図3に基づいて説明する。
【0068】
この指示受付処理が起動されると、まず、音声入力部6を介した音声の入力が開始されるまで待機状態となる(s110:NO)。ここでは、音声検出手段31により検出された音声のレベルが一定以上となった場合に、ユーザの発話が開始されたと判定される。
【0069】
その後、ユーザの発話が開始されたら(s110:YES)、後述する表示内容決定処理が行われる(s120)。
この表示内容決定処理では、その時点までにマイク5を介して入力された音声が、第i階層(1≦i<n)のメニューから第n階層のメニューへと遷移するまでに選択されうる選択項目それぞれの選択経路のうち、いずれの選択経路におけるいずれの選択項目に対応するかを推定し、その推定結果に応じて表示部4に表示させるべきメニューを決定する。
【0070】
次に、上記s120での決定事項に基づいて、表示部4にメニューを表示させるためのメニュー表示処理が行われる(s130)。ここでは、上記s120にて決定されたメニューが、メニュー表示手段39により表示部4に表示させられる。
【0071】
なお、上記s120にてメニューが決定されていない場合、メニュー表示手段39は、その時点で表示部4に表示されているメニューの表示を消去させる。ここでいう「メニューが決定されていない」とは、メニューの表示を消去させるべき旨が決定されていた場合や、表示させるべきメニューが存在していなかった場合などのことである。
【0072】
次に、音声認識手段35が、ユーザの音声に対する音声認識を終了すべき状況であるか否かをチェックする(s150)。ここでは、上述した音声検出手段31による音声入力の検出が所定期間以上なされていない場合に、音声認識を終了すべき状況であると判定される。
【0073】
このs150で音声認識を終了すべき状況ではないと判定された場合(s150:NO)、プロセスがs120へと戻り、以降、音声認識を終了すべき状況となるまで、上記s120〜s150が繰り返し行われる。
【0074】
そして、音声認識を終了すべき状況となったら、上記s150でその旨が判定され(s150:YES)、音声認識手段35が、その時点までにマイク5を介して入力され、CPUの内蔵メモリまたはRAMに格納された音声に対して、周知の音声認識を行うことにより、その音声で示される文字列が特定される(s152)。
【0075】
そして、処理実施手段37が、上記s152にて特定された文字列に対応する選択項目に基づき、その選択項目に割り当てられた所定の処理を実行した後(s160)、プロセスがs110へと戻る。
【0076】
このs160において、例えば、選択項目が第n階層のメニューにおける選択項目でないなど、選択項目に割り当てられた処理が存在していない場合には、現時点で表示されているメニュー及び現在時刻が履歴情報(カレント情報)としてメモリまたはRAMの所定領域に格納され(既に格納されている場合はその履歴情報が更新され)、プロセスがs110へと戻る。
【0077】
なお、本実施形態では、上記s110で音声の入力が開始されたと判定された以降、そうして入力される音声を示す情報がメモリまたはRAMに蓄積されていき、プロセスがs110へと戻るとそれまでに蓄積された音声の情報が削除されるように構成されている。
(1−2)表示内容決定処理
続いて、上記指示受付処理のs120である表示内容決定処理の処理手順を図4に基づいて説明する。
【0078】
この表示内容決定処理では、まず、音声認識手段35が後述する仮説情報を生成する(s210)。
ここでは、まず、この時点で蓄積されている情報で示される音声,つまりその時点までにマイク5を介して入力された音声を、予め保持している音響的・言語的確率モデル及び後述する発話パターン辞書と、周知の仮説探索によって比較し、その比較結果たる類似度が最も大きい発話パターンを示す仮説(図5の「1位」参照)について、発話パターン辞書上での位置(現在位置)、類似度、及び現在時刻を示す情報を仮説情報として生成する。この類似度としては、例えば、当該発話パターンの発話内容に対応する確率モデルの尤度や、尤度を仮説探索の処理時間で正規化した値などが利用できる。
【0079】
上述した発話パターン辞書は、選択項目或いは選択経路を選択するためにユーザがどのように発話するかを表す発話パターンを格納しており、本実施例では、図6に示すように、発話パターンを単語毎の接続関係で規定した有効グラフ状の形で表されている。
【0080】
なお、この発話パターン辞書では、想定される複数の発話パターンを単語単位に分解し、この単語を接続していくことにより、第i階層(1≦i<n)のメニューから第n階層のメニューへと遷移するまでに選択されうる選択項目の選択経路がそれぞれ形成される。
【0081】
次に、音声認識手段35は、上記s210にて生成された仮説情報をメモリにおける仮説情報用の記憶領域に記憶させる(s220)。
次に、項目推定手段33は、上記s220にて記憶させた仮説情報に基づき、以下の手順に従って上記発話パターン辞書における最終的な現在位置を確定する(s230)。
【0082】
ここでは、まず、最終的な現在位置の候補となる候補位置として、あらかじめ定められた初期位置が設定される(s310)。本実施形態では、第1階層のメニューとして定められたトップメニューに対応する位置として単語の存在しない位置が初期位置として定められており(図6「初期位置」参照)、この位置が候補位置に設定される。
【0083】
続いて、この時点でメモリまたはRAMに履歴情報(カレント情報)が記憶されているか否かがチェックされ(s320)、履歴情報が記憶されていれば(s320:YES)、この履歴情報で示される現在時刻と実際の現在時刻との差,つまり履歴情報が生成された以降の経過時間T0が、所定のしきい値THs以上である(THs≦To)か否かがチェックされる(s330)。
【0084】
なお、この「しきい値THs」とは、履歴情報が生成された以降、選択項目の選択が中断,中止された場合に到達しうる経過時間として定められたものである。
このs330で経過時間T0がしきい値THs未満である(T0<THs)と判定された場合には(s330:NO)、候補位置としてその履歴情報で示される現在位置が設定された後(s340)、プロセスが次の処理(s350)へと移行する。
【0085】
また、上記s320で履歴情報が記憶されていないと判定された場合(s320:NO),または,上記s330で経過時間T0がしきい値THs以上であると判定された場合(s330:YES)、上記s340が行われることなく、プロセスが次の処理(s350)へと移行する。
【0086】
次に、この時点でメモリに仮説情報が記憶されているか否かがチェックされ(s350)、仮説情報が記憶されていれば(s350:YES)、この仮説情報で示される類似度rが所定の最低値THaより大きい(THa<r)か否かがチェックされる(s360)。
【0087】
このs360で類似度rが最低値THaより大きいと判定された場合(s360:YES)、その仮説情報で示される現在位置の整合性がチェックされる(s370)。ここでは、仮説情報で示される現在位置が、この時点でメモリに記憶されている履歴情報で示される現在位置から発話パターン辞書を順方向に辿ることで到達できる位置にあることをもって、現在位置同士の整合性があると判定される。
【0088】
このs370で現在位置同士の整合性があると判定された場合(s370:YES)、候補位置としてその仮説情報で示される現在位置が設定された後(s380)、プロセスが次の処理(s400)へと移行する。
【0089】
また、上記s370で現在位置同士の整合性がないと判定された場合(s370:NO)、この仮説情報で示される類似度rが所定のしきい値THbより大きい(THb<r)か否かがチェックされる(s390)。なお、この「しきい値THb」は、しきい値THaよりも大きな値として定められたものである。
【0090】
このs390で類似度rがしきい値THbより大きいと判定された場合(s390:YES)、プロセスがs380へと移行し、候補位置としてその仮説情報で示される現在位置が設定される。
【0091】
また、上記s350で仮説情報が記憶されていないと判定された場合(s350:NO),上記s360で類似度rが最低値THa以下であると判定された場合(s360:NO),または,上記s390で類似度rがしきい値THb以下であると判定された場合(s390:NO)、上記s380が行われることなく、プロセスが次の処理(s400)へと移行する。
【0092】
そして、この時点における候補位置が最終的な現在位置として確定される(s400)。 こうして、s310〜s400にての発話パターン辞書における最終的な現在位置が確定された後、項目推定手段33は、その現在位置に基づいて表示部4に表示させるべきメニューを決定する(s240)。
【0093】
発話パターン辞書は、選択項目を選択するための予め想定された発話パターンを単語毎の接続関係で規定するものであることから、この発話パターン辞書における最終的な現在位置は、いずれかの選択経路に沿って辿り着いた選択項目を示すものとなる。
【0094】
そのため、このs240では、最終的な現在位置である単語に対応する選択項目が、ユーザにより選択された選択項目とみなされ、その選択項目が選択されることにより遷移させるべき別階層のメニューが存在していれば、そのメニューが表示部4に表示させるべきメニューとして決定される。
【0095】
なお、音声の入力が開始された直後などのように仮説情報が記憶されておらず、かつ履歴情報も記憶されていない場合は、候補位置には予め定められた初期位置が設定されているため、表示させるべきメニューとしては初期位置に対応する第1階層のメニューが選ばれることとなる。
【0096】
次に、メニュー遷移手段38が、その時点で表示させるべきメニューであるカレントメニューを、上記s240にて決定されたメニューに遷移させる(s250)。ここでは、カレントメニューおよび現在時刻がメモリまたはRAMの所定領域に格納され(既に格納されている場合はその内容が更新され)、これにより、カレントメニューが遷移する。
【0097】
次に、メニュー表示手段39は、過去の一定期間内にマイク5を介した音声の入力があったか否かをチェックする(s260)。ここでは、上述した音声検出手段31による音声入力の検出が一定期間内になされていれば、過去の一定期間内にマイク5を介した音声の入力があると判定される一方、音声入力の検出が一定期間内になされていなければ、過去の一定期間内にマイク5を介した音声の入力がないと判定される。
【0098】
なお、この「一定期間」とは、ユーザによる選択項目の選択が中断,中止された場合に到達しうる経過時間として定められたものである。
このs260で、過去の一定期間内にマイク5を介した音声の入力があると判定された場合には(s260:YES)、メニューを表示すべき旨の決定がなされた後(s270)、プロセスが上記指示受付処理へと戻る(s130へと移行する)。
【0099】
一方、上記s260で、過去の一定期間内にマイク5を介した音声の入力がないと判定された場合には(s260:NO)、メニューの表示を消去すべき旨の決定がなされた後(s280)、プロセスが上記指示受付処理へと戻る(s130へと移行する)。
(1−3)作用,効果
このように構成された情報処理装置1では、まず、ユーザの音声が、いずれの選択経路におけるいずれの選択項目に対応するかを推定し、そうして推定した選択項目をユーザが選択したものとみなしている(図4のs210)。このとき、「いずれの選択経路におけるいずれの選択項目に対応するか」は、周知の音声認識の結果に至るまでの発話パターンそれぞれで形成される仮説探索の仮説情報を用いて、外部から入力される音声が何と発話しようとしているのかを推定したうえで、最終的にいずれの選択経路におけるいずれの選択項目を選択しようとしているのかを推定している。
【0100】
そして、その選択項目が選択されることにより表示させるべき別階層のメニューへとカレントメニューを遷移させ(同図s230〜s250)、これを表示部4に表示させている(図3のs130)。このように、ユーザが実際に選択した項目に対応させて、メニューの表示を随時変更していくことができる。
【0101】
そのため、ユーザにとっては、表示部4に表示されるメニューを見ながら、その中の選択項目を任意に選んでその内容を順番に続けて発声していくだけで、そのメニューを該当する別メニューへと表示を変更させていくことができる結果(図2参照)、従来のように音声認識が終了してメニューが変更されるのを待った上で次の階層の項目を発声していくといった手間がかからない点で利便性が高い。
【0102】
また、上記実施形態では、外部から音声が入力されない期間が所定期間以上継続した場合に(図4のs260「NO」)、メニューの表示を消去させることができる(同図s280,図3のs130)。
【0103】
表示部4に表示させるカレントメニューは、一旦表示された以降、継続的に表示させておけばよいが、音声の入力がないまま一定期間が経過した場合は、ユーザによる選択項目の選択が中断,中止されているといえるため、表示部4における表示領域の視認性を向上させるなどの観点から、その一定期間の経過をもってメニューの表示を消去させることが望ましい。
【0104】
また、上記実施形態では、本情報処理装置1の起動直後のように、メニューが表示されていない状態の場合、ユーザが何らかの発話を行うことで(図3のs110:YES)、初期位置として定められたトップメニューを候補位置としてカレントメニューが決定される(図4のs310〜s400)。そのため、メニューが表示されていない状態の場合、ユーザが何らかの発話を行うことで、第1階層のトップメニューを表示させることができる。
【0105】
また、上記実施形態では、音声の入力が開始された直後などのように仮説情報が記憶されておらず、かつ履歴情報も記憶されていない場合は、候補位置には予め定められた初期位置が設定される結果、表示させるべきメニューとして初期位置に対応する第1階層のメニューが選ばれる(図4のs310〜s400)。
【0106】
つまり、外部から入力される音声に基づいてカレントメニューが遷移していたとしても、外部から音声が入力されない期間が所定期間以上継続した場合には(同図s260「NO」)、その後、カレントメニューが最上位階層(第1階層)のメニュー,つまりトップメニューに戻されるため、選択項目の選択を再度行うにあたってトップメニューから選択の項目を開始すればよいこととなる。
【0107】
これにより、ユーザが選択項目の選択を中断,中止したとしても、その選択の再開時、常にトップメニューから選択項目の選択を行えばよくなるため、選択項目の選択に際しての混乱を防止することができる結果、ユーザインタフェースとしての利便性を高めることができる。
【0108】
また、上記実施形態では、所定の記憶領域に格納されたカレント情報を更新することにより、カレントメニューを遷移させることができる(図4のs250)。
また、上記実施形態では、各メニューにおける選択項目のうち、所定の処理が割り当てられた選択項目が選択されたとみなされた場合に、その割り当てられた処理を実行することができる(図3のs160)。
【0109】
また、上記実施形態では、ユーザの音声がいずれの選択経路におけるいずれの選択項目に対応するかを推定する際に実施される音声認識の都度、その認識に際してしきい値以上の類似度となった発話パターンが複数種類認識されていたとしても、その中から最も類似度の大きな発話パターンに対応する選択項目それぞれからなる選択経路を推定することができる。
(1−4)変形例
以上、本発明の実施の形態について説明したが、本発明は、上記実施形態に何ら限定されることはなく、本発明の技術的範囲に属する限り種々の形態をとり得ることはいうまでもない。
【0110】
例えば、上記実施形態においては、カレントメニューが遷移させられる都度、その旨のメッセージを表示部4に表示させたり、スピーカーからメッセージ或いはビープ音を出力させることとしてもよい。この場合、カレントメニューが遷移させられた旨をその都度報知することができる。
【0111】
また、上記実施形態においては、本発明の情報処理装置が、ナビゲーション装置におけるユーザインタフェースを実現するための装置として実装された構成を例示した。しかし、本発明の情報処理装置は、ナビゲーション装置以外の装置におけるユーザインタフェースを実現するための装置として実装してもよい。
【0112】
また、上記実施形態では、カレントメニューが遷移した後、外部から音声が入力されない期間が所定期間以上継続した場合には、カレントメニューが直ちに最上位階層のメニュー,つまりトップメニューに戻されるように構成してもよい。
【0113】
このためには、図4におけるs260で、過去の一定期間内にマイク5を介した音声の入力がないと判定された場合に(s260:NO)、図7に示すように、カレントメニューを第1階層のメニューへと遷移させた後(s282)、s280へ移行してメニューの消去を決定する(図7(a)),または,s270へ移行してメニューの表示を決定する(図7(b)こととすればよい。
【0114】
このように、カレントメニューが最上位階層のトップメニューに戻される構成であれば、選択の中断,中止前のカレントメニューに拘わらず、その選択の再開時、常に第1階層のメニューから選択項目の選択を行えばよくなり、選択項目の選択に際しての混乱を防止することができる結果、ユーザインタフェースとしての利便性を高めることができる。
【0115】
また、上記実施形態においては、マイク5を介して入力される音声に基づいてメニューの遷移が実現されるように構成されたものを例示したが、このメニューの遷移を実現するための音声としては、ネットワークを介して音声を入力する経路を有している場合であれば、この経路を介して入力される音声を用いてもよい。
【0116】
また、上記実施形態におけるカレントメニューの遷移は、ユーザによる操作部3への操作を受けた場合に実施されるようにしてもよい。この場合、過去の一定期間内に音声の入力が検出されなかった場合でも、メニューの第1階層への遷移やメニュー表示の消去を行わないようにする、或いは、音声入力による遷移とは異なる一定期間を設けることが望ましい。
(2)第2実施形態
この実施形態においては、表示内容決定処理の一部処理内容が一部相違しているだけであるため、この相違点についてのみ説明する。
【0117】
この相違点とは、上記第1実施形態が、表示部4によるメニューの表示に際し、常に同じ表示態様にて表示させるのに対し、本実施形態が、周辺環境に応じてその表示態様を異ならせている点である。具体的には、外部からの入力音声が、選択経路に沿った内容の音声であるか否かにより、その表示態様を異ならせるように構成されている。
(2−1)表示内容決定処理
本実施形態における表示内容決定処理では、第1実施形態と同様にs210〜s250が行われた後、図8に示すように、その時点までにマイク5を介して入力された音声に基づいて、この音声が上述した選択経路に沿った内容の音声であることの信頼度が特定される(s251)。ここでは、その時点までにマイク5を介して入力され、CPUの内蔵メモリまたはRAMに格納された音声に基づいて、上述した特許文献3のように競合モデルを用意して音声認識処理を行い、上述した仮説情報の類似度(尤度)と競合モデルの現在時刻の仮説の類似度(尤度)との尤度比を算出することにより信頼度が特定される。
【0118】
なお、この信頼度の特定は、このs251ではなく、本表示内容決定処理とは独立した別の処理において実施することとしてもよく、この場合、このs251では、こうして特定された信頼度を別の処理から取得することとすればよい。
【0119】
こうして特定された信頼度が所定の第1しきい値TH1より大きければ(s252:YES)、通常の表示サイズによりメニューを表示すべき旨の決定がなされた後(s253)、プロセスが上記指示受付処理へと戻る(s130へと移行する)。
【0120】
上述したs252での判定基準となる「第1しきい値TH1」とは、その時点までにマイク5を介して入力された音声が選択経路に沿った内容の音声であると判定して問題ない程度の信頼度として定められた値である。そして、上記s253でいう「通常の表示サイズによりメニューを表示すべき旨」とは、表示部4においてメニューを表示させる際の表示領域を、第1実施形態と同様の表示領域とすべきことを意味する。
【0121】
こうして指示受付処理へと戻った後は、図3のs130にて通常の表示サイズによるメニューの表示がなされることとなる。
また、上記s251で特定された信頼度が、第1しきい値TH1より小さい値として定められた第2しきい値TH2より大きければ(s252:NO,s254:YES)、通常よりも小さい表示サイズによりメニューを表示すべき旨の決定がなされた後(s255)、プロセスが上記指示受付処理へと戻る(s130へと移行する)。
【0122】
上述したs254での判定基準となる「第2しきい値TH2」とは、その時点までにマイク5を介して入力された音声が選択経路に沿った内容の音声であると判定するのに十分ではない信頼度として定められた値である。そして、上記s255でいう「通常よりも小さい表示サイズによりメニューを表示すべき旨」とは、表示部4においてメニューを表示させる際の表示領域を、第1実施形態における表示領域よりも小さい表示領域とすべきことを意味する。
【0123】
こうして指示受付処理へと戻った後は、図3のs130にて通常よりも小さい表示サイズによるメニューの表示がなされることとなる。
また、上記s251で特定された信頼度が、第2しきい値TH2以下である場合(s254:NO)、s280へ移行し、メニューの表示を消去すべき旨の決定がなされた後で、プロセスが上記指示受付処理へと戻る(s130へと移行する)。
(2−2)作用,効果
このように構成された情報処理装置1によれば、第1実施形態と同様の構成から得られる作用,効果の他、以下に示すような作用,効果を得ることができる。
【0124】
例えば、上記実施形態においては、外部から入力される音声が、上述した選択経路に沿った内容の音声であることの信頼度に応じて、メニューを示す画像の表示態様を異ならせることができる。具体的には、外部からの入力音声における信頼度が高いほどメニューにおける表示領域を大きくすることができる。
【0125】
なお、この実施形態においては、表示態様として表示サイズを異ならせるように構成されているが、こうして異ならせる表示態様としては、表示サイズ以外の態様としてもよい。
(3)第3実施形態
この実施形態においては、表示内容決定処理の一部処理内容が一部相違しているだけであるため、この相違点についてのみ説明する。
【0126】
この相違点とは、上記第1実施形態が、表示部4によるメニューの表示に際し、常に同じ表示態様にて表示させるのに対し、本実施形態が、周辺環境に応じてその表示態様を異ならせている点である。具体的には、ユーザによる音声を入力して動作する所定装置7(図1参照)に対する音声の入力が行われているか否かにより、その表示態様を異ならせるように構成されている。なお、この所定装置7とは、例えば、情報処理装置1と通信可能に接続された情報端末(より具体的には携帯電話端末)などのことである。
(3−1)表示内容決定処理
本実施形態における表示内容決定処理では、第1実施形態と同様にs210〜s250が行われた後、図9に示すように、所定装置7との通信を経て、所定装置7が音声入力を受けて動作しているか否かがチェックされる(s410)。
【0127】
このs410で、所定装置7が音声入力を受けて動作していると判定された場合には(s410:YES)、プロセスがs280へと移行し、メニューの表示を消去すべき旨の決定がなされた後、プロセスが上記指示受付処理へと戻る(s130へと移行する)。
【0128】
一方、上記s410で、所定装置7が音声入力を受けて動作していないと判定された場合には(s410:NO)、プロセスがs270へと移行し、メニューを表示すべき旨の決定がなされた後、プロセスが上記指示受付処理へと戻る(s130へと移行する)。
(3−2)作用,効果
このように構成された情報処理装置1によれば、第1実施形態と同様の構成から得られる作用,効果の他、以下に示すような作用,効果を得ることができる。
【0129】
例えば、上記実施形態においては、ユーザによる音声を入力して動作する所定装置7が音声入力を受けて動作している場合に、メニューの表示が行われないようにすることができる。
【0130】
このように、所定装置7に対する音声入力が行われているということは、本情報処理装置1に対する音声入力とは無関係に発声が行われている可能性が高く、そのような無関係の音声を入力してその後の処理を行ってしまうと、ユーザの意図しないメニュー遷移が行われてしまう。
【0131】
そのため、上記のように、所定装置7が音声入力を受けて動作している場合にメニューの表示が行われないようにすることにより、ユーザの意図しないメニュー遷移が行われないようにすることができる。
(4)第4実施形態
この実施形態においては、表示内容決定処理の一部処理内容が一部相違しているだけであるため、この相違点についてのみ説明する。
【0132】
この相違点とは、上記第1実施形態が、表示部4によるメニューの表示に際し、常に同じ表示態様にて表示させるのに対し、本実施形態が、周辺環境に応じてその表示態様を異ならせている点である。具体的には、操作部3或いは当該情報処理装置1に接続されている所定装置7に対する操作が行われているか否かにより、その表示態様を異ならせるように構成されている。
(4−1)表示内容決定処理
本実施形態における表示内容決定処理では、第1実施形態と同様にs210〜s250が行われた後、図10に示すように、操作部3或いは情報処理装置1に接続されている所定装置7において操作が行われている最中であるか否かがチェックされる(s420)。
【0133】
このs420で、操作部3或いは情報処理装置1に接続されている所定装置7において操作が行われていると判定された場合には(s420:YES)、プロセスがs280へと移行し、メニューの表示を消去すべき旨の決定がなされた後、プロセスが上記指示受付処理へと戻る(s130へと移行する)。
【0134】
一方、上記s420で、操作部3或いは情報処理装置1に接続されている所定装置7において操作が行われていないと判定された場合には(s420:NO)、プロセスがs270へと移行し、メニューを表示すべき旨の決定がなされた後、プロセスが上記指示受付処理へと戻る(s130へと移行する)。
(4−2)作用,効果
このように構成された情報処理装置1によれば、第1実施形態と同様の構成から得られる作用,効果の他、以下に示すような作用,効果を得ることができる。
【0135】
例えば、上記実施形態においては、情報処理装置1の操作部或いは情報処理装置1に接続されている所定装置7が操作されている場合に、メニューの表示が行われないようにすることができる。
【0136】
このように、情報処理装置1の操作部3或いは情報処理装置1に接続されている所定装置7が操作されているということは、情報処理装置1のメニュー選択とは無関係に発声が行われている可能性が高く、そのような無関係の音声を入力してその後の処理を行ってしまうと、ユーザの意図しないメニュー遷移が行われてしまう。
【0137】
そのため、上記のように、操作部3に対する操作が行われている場合にメニューの遷移が行われないようにすることにより、ユーザの意図しないメニュー遷移が行われないようにすることができる。
(5)第5実施形態
この実施形態においては、表示内容決定処理の一部処理内容が一部相違しているだけであるため、この相違点についてのみ説明する。
【0138】
この相違点とは、上記第1実施形態が、表示部4によるメニューの表示に際し、常に同じ表示態様にて表示させるのに対し、本実施形態が、周辺環境に応じてその表示態様を異ならせている点である。具体的には、情報処理装置1周辺に位置しているユーザの数に応じて、その表示態様を異ならせるように構成されている。
(5−1)表示内容決定処理
本実施形態における表示内容決定処理は、第1実施形態と同様にs210〜s260が行われ、このs260で「YES」と判定された後、図11に示すように、情報処理装置1周辺に位置するユーザの数がチェックされる(s430)。
【0139】
この実施形態では、情報処理装置1周辺に位置しているユーザの数を検出すべく、その周辺においてユーザが位置しうる領域付近にセンサが配置されているため、このs430では、それらの検出結果に基づいてユーザの数を検出する。なお、ここでは、周辺においてユーザが位置しうる領域をカメラで撮影しておき、その映像に含まれるユーザを画像処理で特定することにより、ユーザの数を検出することとしてもよい。
【0140】
こうしてチェックされたユーザの数が「1」であれば(s430:YES)、通常の表示サイズによりメニューを表示すべき旨の決定がなされた後(s440)、プロセスが上記指示受付処理へと戻る(s130へと移行する)。
【0141】
また、上記s430にてチェックされたユーザの数が複数であれば(s430:NO)、通常よりも小さい表示サイズによりメニューを表示すべき旨の決定がなされた後(s450)、プロセスが上記指示受付処理へと戻る(s130へと移行する)。
(5−2)作用,効果
このように構成された情報処理装置1によれば、第1実施形態と同様の構成から得られる作用,効果の他、以下に示すような作用,効果を得ることができる。
【0142】
例えば、上記実施形態においては、情報処理装置1周辺に1人のユーザのみが位置していることが検出された場合には(図11のs430「YES」)、カレントメニューの表示領域を通常の大きさとするが(同図s440)、複数のユーザが位置していることが検出された場合には(同図s430「NO」)、カレントメニューの表示領域を通常よりも小さい表示領域とすることができる(同図s450)。
【0143】
このように、複数のユーザが周辺に位置している場合は、情報処理装置1を音声により操作する以外のユーザからすると、表示部4に表示されるメニューが必ずしも必要な情報ではない。そのため、上記構成のように、このような場合におけるメニューの表示領域を小さくすることで、そのような表示態様を異ならせない構成と比べて、他のユーザにとっての表示部4の視認性が低下することを防止することができる。
【0144】
なお、この実施形態においては、表示態様として表示サイズを異ならせるように構成されているが、こうして異ならせる表示態様としては、表示サイズ以外の態様としてもよい。
(6)本発明との対応関係
以上説明した実施形態において、図8のs310は本発明における信頼特定手段であり、同図s253,s255は本発明における第1の態様決定手段であり,図11のs440,s450は本発明における第2の態様決定手段であり、図9のs410は本発明における外部音声入力判定手段であり、図10のs420は本発明における操作検出手段であり、図11のs430は本発明におけるユーザ検出手段であり、図3のs160は本発明における処理実施手段である。
【図面の簡単な説明】
【0145】
【図1】情報処理装置の全体構成を示すブロック図
【図2】表示部に表示されるメニューが遷移していく様子を示す図
【図3】指示受付処理を示すフローチャート
【図4】表示内容決定処理を示すフローチャート
【図5】ユーザが選択した選択項目を推定する過程を示す図
【図6】発話パターン辞書の構成を示す図
【図7】別の実施形態における表示内容決定処理を示すフローチャート
【図8】第2実施形態における表示内容決定処理を示すフローチャート
【図9】第3実施形態における表示内容決定処理を示すフローチャート
【図10】第4実施形態における表示内容決定処理を示すフローチャート
【図11】第5実施形態における表示内容決定処理を示すフローチャート
【符号の説明】
【0146】
1…情報処理装置、2…記憶部、3…操作部、4…表示部、5…マイク、6…音声入力部、7…所定装置、10…制御部、20…入出力インタフェース、31…音声検出手段、33…項目推定手段、35…音声認識手段、37…処理実施手段、38…メニュー遷移手段、39…メニュー表示手段。
【特許請求の範囲】
【請求項1】
第1階層から第n階層(nは任意の数)までの階層構造をなす複数のメニューそれぞれが有する各選択項目をユーザに選択させることにより、その選択項目を有するメニューから別階層のメニューへと遷移するように構成されたユーザインタフェースを実装してなる情報処理装置であって、
複数のメニューそれぞれのうち、その時点で表示させるべきメニューであるカレントメニューを表示部に表示させるメニュー表示手段と、
外部から入力される音声が、第i階層(1≦i<n)のメニューから第n階層のメニューへと遷移するまでに選択されうる選択項目からなるそれぞれの選択経路のうち、いずれの選択経路におけるいずれの選択項目に対応するかを推定する項目推定手段と、
前記カレントメニューを、前記項目推定手段により推定された選択項目が選択されることにより表示させるべき別階層のメニューに遷移させるメニュー遷移手段と、を備えており、
前記メニュー表示手段は、前記メニュー遷移手段によりカレントメニューとして遷移させられたメニューを示す画像を表示部に表示させる
ことを特徴とする情報処理装置。
【請求項2】
前記メニュー表示手段は、メニューを示す画像を表示部に表示させた以降、外部からの音声の入力が所定期間以上なされていない場合に、メニューの前記表示部による表示を消去させる
ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記メニュー表示手段は、メニューが表示部に表示されていない状態において、外部から音声の入力がなされた場合に、前記カレントメニューを表示部に表示させる
ことを特徴とする請求項1または請求項2に記載の情報処理装置。
【請求項4】
前記メニュー遷移手段は、外部からの音声の入力が所定期間以上なされていない場合に、前記カレントメニューを第1階層のメニューへと遷移させる
ことを特徴とする請求項1から3のいずれかに記載の情報処理装置。
【請求項5】
外部から入力された音声を、前記選択項目を選択するためのユーザの発話パターンを格納した発話パターン辞書における各発話パターンと比較し、その比較結果たる類似度が所定のしきい値以上となった発話パターンを認識結果として出力する音声認識手段と、を備えており、
前記項目推定手段は、前記音声認識手段により順次認識された発話パターンに対応する選択項目それぞれからなる選択経路につき、該選択経路において最新の選択項目を推定結果として出力する
ことを特徴とする請求項1から3のいずれかに記載の情報処理装置。
【請求項6】
前記項目推定手段は、前記音声認識手段による認識の都度、該認識に際してしきい値以上の類似度となった発話パターンが複数種類認識された場合、最も類似度の高い発話パターンに対応する選択項目それぞれからなる選択経路につき、該選択経路において最新の選択項目を推定結果として出力する
ことを特徴とする請求項4に記載の情報処理装置。
【請求項7】
前記メニュー遷移手段は、前記カレントメニューを示すカレント情報を、前記項目推定手段にて推定された選択項目に基づいて遷移させるべき別階層のメニューを示すものに更新することでメニューを遷移させる
ことを特徴とする請求項1から6のいずれかに記載の情報処理装置。
【請求項8】
外部から入力される音声に基づき、該音声が前記選択経路に沿った内容の音声であることの信頼度を特定する信頼特定手段と、
前記メニュー遷移手段によりカレントメニューが遷移させられた以降、該メニューの表示態様を、前記信頼特定手段により特定された信頼度に応じて決定する第1の態様決定手段と、を備えており、
前記メニュー表示手段は、前記カレントメニューとして遷移させられたメニューを、該メニューについて前記第1の態様決定手段が決定した表示態様にて表示部に表示させる
ことを特徴とする請求項1から7のいずれかに記載の情報処理装置。
【請求項9】
前記第1の態様決定手段は、前記カレントメニューの表示領域における大きさを、前記信頼特定手段により特定された信頼度に応じて決定して、
前記メニュー表示手段は、前記カレントメニューとして遷移させられたメニューを、前記第1の態様決定手段により決定された表示領域に合わせた大きさにて表示部に表示させる
ことを特徴とする請求項8に記載の情報処理装置。
【請求項10】
前記メニュー遷移手段によりカレントメニューが遷移させられた以降、外部からの指令を受けて、該メニューの表示態様を決定する第2の態様決定手段、を備えており、
前記メニュー表示手段は、前記カレントメニューとして遷移させられたメニューを、該メニューについて前記第2の態様決定手段が決定した表示態様にて表示部に表示させる
ことを特徴とする請求項1から9のいずれかに記載の情報処理装置。
【請求項11】
ユーザによる音声を入力して動作する外部の所定装置(外部装置)との通信を経て、該所定装置が音声入力を受けて動作しているか否かを判定する外部音声入力判定手段,を備えており、
前記第2の態様決定手段は、前記外部音声入力判定手段により外部装置側で音声入力が行われていないと判定された場合に、前記カレントメニューを表示させるべき旨を決定する一方、外部装置側で音声入力が行われていると判定された場合に、前記カレントメニューを表示させない旨を決定する
ことを特徴とする請求項10に記載の情報処理装置。
【請求項12】
当該情報処理装置の操作部或いは当該情報処理装置に接続されている所定装置がユーザにより操作されているか否かを検出する操作検出手段,を備えており、
前記第2の態様決定手段は、前記操作検出手段により操作がなされていないと判定された場合に、前記カレントメニューを表示させるべき旨を決定する一方、前記操作検出手段により操作がなされていると判定された場合に、前記カレントメニューを表示させない旨を決定する
ことを特徴とする請求項10または請求項11に記載の情報処理装置。
【請求項13】
当該情報処理装置周辺に位置しているユーザの数を検出するユーザ検出手段,を備えており、
前記第2の態様決定手段は、前記ユーザ検出手段により1人のユーザのみが位置していることが検出された場合、前記カレントメニューの表示領域の大きさを通常の大きさに決定する一方、複数のユーザが位置していることが検出された場合、前記カレントメニューの表示領域の大きさを通常よりも小さくするように決定する
ことを特徴とする請求項10から12のいずれかに記載の情報処理装置。
【請求項14】
前記項目推定手段により推定された選択項目に割り当てられた所定の処理を実施する処理実施手段,を備えている
ことを特徴とする請求項1から13のいずれかに記載の情報処理装置。
【請求項15】
第1階層から第n階層(nは任意の数)までの階層構造をなす複数のメニューそれぞれが有する各選択項目をユーザに選択させることにより、その選択項目を有するメニューから別階層のメニューへと遷移するように構成されたユーザインタフェースを提供するためのユーザインタフェース提供方法であって、
複数のメニューそれぞれのうち、その時点で表示させるべきメニューであるカレントメニューを表示部に表示させるメニュー表示手順と、
外部から入力される音声が、第i階層(1≦i<n)のメニューから第n階層のメニューへと遷移するまでに選択されうる選択項目それぞれの選択経路のうち、いずれの選択経路におけるいずれの選択項目に対応するかを推定する項目推定手順と、
前記カレントメニューを、前記項目推定手順により推定した選択項目が選択されることにより表示させるべき別階層のメニューに遷移させるメニュー遷移手順と、を含み
前記メニュー表示手順では、前記メニュー遷移手順にて遷移させたメニューを示す画像を表示部に表示させる
ことを特徴とするユーザインタフェース提供方法。
【請求項16】
請求項1から14のいずれかに記載の全ての手段として機能させるための各種処理手順をコンピュータシステムに実行させるためのプログラム。
【請求項1】
第1階層から第n階層(nは任意の数)までの階層構造をなす複数のメニューそれぞれが有する各選択項目をユーザに選択させることにより、その選択項目を有するメニューから別階層のメニューへと遷移するように構成されたユーザインタフェースを実装してなる情報処理装置であって、
複数のメニューそれぞれのうち、その時点で表示させるべきメニューであるカレントメニューを表示部に表示させるメニュー表示手段と、
外部から入力される音声が、第i階層(1≦i<n)のメニューから第n階層のメニューへと遷移するまでに選択されうる選択項目からなるそれぞれの選択経路のうち、いずれの選択経路におけるいずれの選択項目に対応するかを推定する項目推定手段と、
前記カレントメニューを、前記項目推定手段により推定された選択項目が選択されることにより表示させるべき別階層のメニューに遷移させるメニュー遷移手段と、を備えており、
前記メニュー表示手段は、前記メニュー遷移手段によりカレントメニューとして遷移させられたメニューを示す画像を表示部に表示させる
ことを特徴とする情報処理装置。
【請求項2】
前記メニュー表示手段は、メニューを示す画像を表示部に表示させた以降、外部からの音声の入力が所定期間以上なされていない場合に、メニューの前記表示部による表示を消去させる
ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記メニュー表示手段は、メニューが表示部に表示されていない状態において、外部から音声の入力がなされた場合に、前記カレントメニューを表示部に表示させる
ことを特徴とする請求項1または請求項2に記載の情報処理装置。
【請求項4】
前記メニュー遷移手段は、外部からの音声の入力が所定期間以上なされていない場合に、前記カレントメニューを第1階層のメニューへと遷移させる
ことを特徴とする請求項1から3のいずれかに記載の情報処理装置。
【請求項5】
外部から入力された音声を、前記選択項目を選択するためのユーザの発話パターンを格納した発話パターン辞書における各発話パターンと比較し、その比較結果たる類似度が所定のしきい値以上となった発話パターンを認識結果として出力する音声認識手段と、を備えており、
前記項目推定手段は、前記音声認識手段により順次認識された発話パターンに対応する選択項目それぞれからなる選択経路につき、該選択経路において最新の選択項目を推定結果として出力する
ことを特徴とする請求項1から3のいずれかに記載の情報処理装置。
【請求項6】
前記項目推定手段は、前記音声認識手段による認識の都度、該認識に際してしきい値以上の類似度となった発話パターンが複数種類認識された場合、最も類似度の高い発話パターンに対応する選択項目それぞれからなる選択経路につき、該選択経路において最新の選択項目を推定結果として出力する
ことを特徴とする請求項4に記載の情報処理装置。
【請求項7】
前記メニュー遷移手段は、前記カレントメニューを示すカレント情報を、前記項目推定手段にて推定された選択項目に基づいて遷移させるべき別階層のメニューを示すものに更新することでメニューを遷移させる
ことを特徴とする請求項1から6のいずれかに記載の情報処理装置。
【請求項8】
外部から入力される音声に基づき、該音声が前記選択経路に沿った内容の音声であることの信頼度を特定する信頼特定手段と、
前記メニュー遷移手段によりカレントメニューが遷移させられた以降、該メニューの表示態様を、前記信頼特定手段により特定された信頼度に応じて決定する第1の態様決定手段と、を備えており、
前記メニュー表示手段は、前記カレントメニューとして遷移させられたメニューを、該メニューについて前記第1の態様決定手段が決定した表示態様にて表示部に表示させる
ことを特徴とする請求項1から7のいずれかに記載の情報処理装置。
【請求項9】
前記第1の態様決定手段は、前記カレントメニューの表示領域における大きさを、前記信頼特定手段により特定された信頼度に応じて決定して、
前記メニュー表示手段は、前記カレントメニューとして遷移させられたメニューを、前記第1の態様決定手段により決定された表示領域に合わせた大きさにて表示部に表示させる
ことを特徴とする請求項8に記載の情報処理装置。
【請求項10】
前記メニュー遷移手段によりカレントメニューが遷移させられた以降、外部からの指令を受けて、該メニューの表示態様を決定する第2の態様決定手段、を備えており、
前記メニュー表示手段は、前記カレントメニューとして遷移させられたメニューを、該メニューについて前記第2の態様決定手段が決定した表示態様にて表示部に表示させる
ことを特徴とする請求項1から9のいずれかに記載の情報処理装置。
【請求項11】
ユーザによる音声を入力して動作する外部の所定装置(外部装置)との通信を経て、該所定装置が音声入力を受けて動作しているか否かを判定する外部音声入力判定手段,を備えており、
前記第2の態様決定手段は、前記外部音声入力判定手段により外部装置側で音声入力が行われていないと判定された場合に、前記カレントメニューを表示させるべき旨を決定する一方、外部装置側で音声入力が行われていると判定された場合に、前記カレントメニューを表示させない旨を決定する
ことを特徴とする請求項10に記載の情報処理装置。
【請求項12】
当該情報処理装置の操作部或いは当該情報処理装置に接続されている所定装置がユーザにより操作されているか否かを検出する操作検出手段,を備えており、
前記第2の態様決定手段は、前記操作検出手段により操作がなされていないと判定された場合に、前記カレントメニューを表示させるべき旨を決定する一方、前記操作検出手段により操作がなされていると判定された場合に、前記カレントメニューを表示させない旨を決定する
ことを特徴とする請求項10または請求項11に記載の情報処理装置。
【請求項13】
当該情報処理装置周辺に位置しているユーザの数を検出するユーザ検出手段,を備えており、
前記第2の態様決定手段は、前記ユーザ検出手段により1人のユーザのみが位置していることが検出された場合、前記カレントメニューの表示領域の大きさを通常の大きさに決定する一方、複数のユーザが位置していることが検出された場合、前記カレントメニューの表示領域の大きさを通常よりも小さくするように決定する
ことを特徴とする請求項10から12のいずれかに記載の情報処理装置。
【請求項14】
前記項目推定手段により推定された選択項目に割り当てられた所定の処理を実施する処理実施手段,を備えている
ことを特徴とする請求項1から13のいずれかに記載の情報処理装置。
【請求項15】
第1階層から第n階層(nは任意の数)までの階層構造をなす複数のメニューそれぞれが有する各選択項目をユーザに選択させることにより、その選択項目を有するメニューから別階層のメニューへと遷移するように構成されたユーザインタフェースを提供するためのユーザインタフェース提供方法であって、
複数のメニューそれぞれのうち、その時点で表示させるべきメニューであるカレントメニューを表示部に表示させるメニュー表示手順と、
外部から入力される音声が、第i階層(1≦i<n)のメニューから第n階層のメニューへと遷移するまでに選択されうる選択項目それぞれの選択経路のうち、いずれの選択経路におけるいずれの選択項目に対応するかを推定する項目推定手順と、
前記カレントメニューを、前記項目推定手順により推定した選択項目が選択されることにより表示させるべき別階層のメニューに遷移させるメニュー遷移手順と、を含み
前記メニュー表示手順では、前記メニュー遷移手順にて遷移させたメニューを示す画像を表示部に表示させる
ことを特徴とするユーザインタフェース提供方法。
【請求項16】
請求項1から14のいずれかに記載の全ての手段として機能させるための各種処理手順をコンピュータシステムに実行させるためのプログラム。
【図1】
【図3】
【図4】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図2】
【図5】
【図3】
【図4】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図2】
【図5】
【公開番号】特開2010−91962(P2010−91962A)
【公開日】平成22年4月22日(2010.4.22)
【国際特許分類】
【出願番号】特願2008−264227(P2008−264227)
【出願日】平成20年10月10日(2008.10.10)
【出願人】(000004260)株式会社デンソー (27,639)
【Fターム(参考)】
【公開日】平成22年4月22日(2010.4.22)
【国際特許分類】
【出願日】平成20年10月10日(2008.10.10)
【出願人】(000004260)株式会社デンソー (27,639)
【Fターム(参考)】
[ Back to top ]