説明

情報処理装置、および情報処理方法、並びにプログラム

【課題】ユーザ状態やシステム状態に応じてユーザに対する情報の提供レベルや態様を変更して情報を提供する装置および方法を実現する。
【解決手段】カメラの撮影画像の解析処理を実行する画像解析部の解析結果と、マイクから入力する音声の解析処理を実行する音声解析部の解析結果を入力して、ユーザに対する情報の出力制御を実行するデータ処理部を有する。データ処理部は、画像解析結果または音声解析結果の少なくともいずれかの解析結果から得られるユーザ情報と、システム状態情報に基づいて、ユーザに提供する情報の出力態様を決定し、決定した出力態様でユーザに対して情報を出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、および情報処理方法、並びにプログラムに関する。特に、ユーザの発話等に基づいて様々な処理を実行する情報処理装置、および情報処理方法、並びにプログラムに関する。
【背景技術】
【0002】
PCや、テレビ、録画再生機、その他、様々な家電製品を操作する場合、ユーザは、各装置に備えられた入力部やあるいはリモコンなどを操作して、所望の処理を装置に実行させる。例えばPCを利用する場合にはキーボードやマウスを入力デバイスとして用いることが多い。また、テレビや録画再生機などに対してはリモコンを用いて、様々な処理、例えばチャンネルの切り替えや再生コンテンツの選択などを行うことが多い。
【0003】
このような様々な装置に対する指示を、ユーザの発話や動作によって実行するシステムについて、様々な研究がなされている。具体的には音声認識処理を用いてユーザの発話を認識するシステムや、画像処理を用いてユーザの行動やジェスチャーを認識するシステムなどである。
【0004】
リモコン、キーボート、マウス等の一般的な入力デバイスに加えて、音声認識や画像認識など、様々な複数のコミュニケーションモードを利用して、ユーザとのコミュニケーションを実行するインタフェースは、マルチモーダル・インタフェースと呼ばれる。マルチモーダル・インタフェースについて開示した従来技術として、例えば、特許文献1(US特許6988072号公報)がある。
【0005】
しかしながら、このようなマルチモーダル・インタフェース等において利用される音声認識装置や画像認識装置は処理能力に限界があり、理解できるユーザの発話や動作が限られてしまう。従って、ユーザの意思が正確にシステム側に伝わらない場合も多いというのが現状である。
【0006】
情報処理装置がユーザに対して情報を提供したり、ユーザ要求に対する応答を行う方法としては、表示部にメッセージを表示する処理や、スピーカを介して音声や効果音を出力するなど様々な方法がある。
【0007】
しかし、音声に基づく説明は、ユーザが冗長に感ずる場合もあり、聞き逃すといった場合もある。また、表示部に対して説明やヘルプ情報を提示する場合は、ユーザが表示部を見ていない場合には、役に立たないといった問題がある。
【0008】
システムの応答を制御する構成を開示した従来技術しては、例えば以下のような文献がある。
特許文献2(特開2004−333543号公報)は、音声対話システム及び音声対話方法を開示しており、ユーザの音声対話システム使用の習熟度に応じてシステム側音声の出力を変更可能にした音声対話システム及び音声対話方法を提供する構成について説明している。
また、特許文献3(特開2005−202076号公報)は、利用者とシステムとの間の距離に応じて、対話をより円滑にする技術を開示している。具体的には、ロボットと利用者との距離が離れている場合は、ロボットが発話する音声が利用者に聞こえない可能性が高いため、ロボットの音声の音量を上げることにより対話を円滑化する技術が提案されている。
しかし、これらの文献に記載の構成は、ユーザの習熟度、あるいは距離といつた特定のポイントのみに対する処理であり、様々な観点からの観察情報を利用する構成となっていない。
【0009】
さらに、特許文献4(特開2008−217444号公報)は、利用者と対話する装置、方法およびプログラムを開示している。具体的には、利用者の注視状況で応答を変更することにより、自然な対話を実現するものであり、ユーザの位置が遠い時,視線方向がテレビの方向を向いていない時に,ユーザからの要求に対する応答を音声をつかって行う赤外線や音波を利用することでユーザとの距離や視線の方向を検出する構成を開示している。しかし、この構成では、ユーザがデバイスを装着しなければならないという問題がある。
【先行技術文献】
【特許文献】
【0010】
【特許文献1】US特許第6,988,072号公報
【特許文献2】特開2004−333543号公報
【特許文献3】特開2005−202076号公報
【特許文献4】特開2008−217444号公報
【発明の概要】
【発明が解決しようとする課題】
【0011】
本発明は、例えば上記問題点に鑑みてなされたものであり、ユーザの状態を監視して、ユーザ状態に応じた最適な方法でユーザに対する装置からのメッセージやヘルプ情報を提供することを可能とした情報処理装置、および情報処理方法、並びにプログラムを提供することを目的とする。
【課題を解決するための手段】
【0012】
本発明の第1の側面は、
カメラの撮影画像の解析処理を実行する画像解析部と、
マイクから入力する音声の解析処理を実行する音声解析部と、
前記画像解析部の解析結果と、前記音声解析部の解析結果を入力して、ユーザに対して出力する情報の制御を実行するデータ処理部を有し、
前記データ処理部は、
画像解析結果または音声解析結果の少なくともいずれかの解析結果から得られるユーザ情報と、システム状態情報に基づいて、ユーザに提供する情報の出力態様を決定し、決定した出力態様でユーザに対して情報を出力する処理を行う情報処理装置にある。
【0013】
さらに、本発明の情報処理装置の一実施態様において、前記データ処理部は、前記画像解析部の解析結果に基づいて、ユーザが情報処理装置に注目しているか否かを判定し、ユーザが情報処理装置に注目していないと判定した場合は、音声または効果音を伴う情報出力を実行する。
【0014】
さらに、本発明の情報処理装置の一実施態様において、前記データ処理部は、前記画像解析部の解析結果に基づいて、ユーザが情報処理装置の前にいるか否かを判定し、ユーザが情報処理装置の前にいないと判定した場合は、音声または効果音を伴う情報出力を実行する。
【0015】
さらに、本発明の情報処理装置の一実施態様において、前記データ処理部は、前記システム状態情報に基づいて、情報処理装置が表示部へのコンテンツ再生を行っていると判定した場合は、表示部への情報出力を実行する。
【0016】
さらに、本発明の情報処理装置の一実施態様において、前記データ処理部は、前記システム状態情報に基づいて、情報処理装置がユーザに対する警告を出力する必要があるか否かを判定し、警告を出力する必要があると判定した場合は、音声または効果音を伴う情報出力を実行する。
【0017】
さらに、本発明の情報処理装置の一実施態様において、前記データ処理部は、ユーザが過去に発生したエラー情報に基づいて、ユーザに対して出力する情報のレベルを変更して出力する制御を行う。
【0018】
さらに、本発明の情報処理装置の一実施態様において、前記データ処理部は、同一ユーザが規定の期間内に、同じ種類のエラーを発生させた回数が規定閾値を超えている場合は詳細説明を出力する制御を行う。
【0019】
さらに、本発明の情報処理装置の一実施態様において、前記データ処理部は、同一ユーザが規定の期間内に、複数の異なる種類のエラーを連続的に発生させた回数が規定閾値を超えている場合は詳細説明を出力する制御を行う。
【0020】
さらに、本発明の情報処理装置の一実施態様において、前記データ処理部は、ユーザの過去の情報処理装置に対する操作履歴情報に基づいて、ユーザの情報処理装置に対する熟練度を判定し、ユーザが初心者でないと判定した場合は簡潔な説明を出力し、ユーザが初心者であると判定した場合は詳細または通常のレベルの説明を出力する制御を行う。
【0021】
さらに、本発明の第2の側面は、
情報処理装置において実行する情報処理方法であり、
画像解析部が、カメラの撮影画像の解析処理を実行する画像解析ステップと、
音声解析部が、マイクから入力する音声の解析処理を実行する音声解析ステップと、
データ処理部が、前記画像解析部の解析結果と、前記音声解析部の解析結果を入力して、ユーザに対して出力する情報の制御を実行するデータ処理ステップを実行し、
前記データ処理ステップは、
画像解析結果または音声解析結果の少なくともいずれかの解析結果から得られるユーザ情報と、システム状態情報に基づいて、ユーザに提供する情報の出力態様を決定し、決定した出力態様でユーザに対して情報を出力する処理を行うステップである情報処理方法にある。
【0022】
さらに、本発明の第3の側面は、
情報処理装置において情報処理を実行させるプログラムであり、
画像解析部に、カメラの撮影画像の解析処理を実行させる画像解析ステップと、
音声解析部に、マイクから入力する音声の解析処理を実行させる音声解析ステップと、
データ処理部に、前記画像解析部の解析結果と、前記音声解析部の解析結果を入力して、ユーザに対して出力する情報の制御を実行させるデータ処理ステップとを有し、
前記データ処理ステップは、
画像解析結果または音声解析結果の少なくともいずれかの解析結果から得られるユーザ情報と、システム状態情報に基づいて、ユーザに提供する情報の出力態様を決定し、決定した出力態様でユーザに対して情報を出力する処理を行わせるステップであるプログラムにある。
【0023】
なお、本発明のプログラムは、例えば、様々なプログラム・コードを実行可能な情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。
【0024】
本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
【発明の効果】
【0025】
本発明の一実施例の構成によれば、ユーザ状態やシステム状態に応じてユーザに対する情報の提供レベルや態様を変更して情報を提供する装置および方法が実現される。具体的には、カメラの撮影画像の解析処理を実行する画像解析部の解析結果と、マイクから入力する音声の解析処理を実行する音声解析部の解析結果を入力して、ユーザに対する情報の出力制御を実行するデータ処理部が、画像解析結果または音声解析結果の少なくともいずれかの解析結果から得られるユーザ情報と、システム状態情報に基づいて、ユーザに提供する情報の出力態様を決定し、決定した出力態様でユーザに対して情報を出力する。この処理により、ユーザの状況に応じて確実に情報を伝えることが可能となる。
【図面の簡単な説明】
【0026】
【図1】本発明の情報処理装置の利用例について説明する図である。
【図2】本発明の情報処理装置の構成例を示すブロック図である。
【図3】本発明の情報処理装置の詳細な構成例を示すブロック図である。
【図4】本発明の情報処理装置の実行する処理例について説明するフローチャートを示す図である。
【図5】本発明の情報処理装置の実行する処理例について説明する図である。
【図6】本発明の情報処理装置の実行する処理例について説明するフローチャートを示す図である。
【図7】本発明の情報処理装置のハードウェア構成例について説明する図である。
【発明を実施するための形態】
【0027】
以下、図面を参照しながら本発明の情報処理装置、および情報処理方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行う。
1.本発明の情報処理装置の実行する処理の概要について
2.本発明の情報処理装置の構成例について
3.ユーザに対する情報出力処理の具体例について
4.情報処理装置のハードウェア構成例について
【0028】
[1.本発明の情報処理装置の実行する処理の概要について]
まず、図1を参照して本発明の情報処理装置の実行する処理の概要について説明する。図1には、本発明に係る情報処理装置の例としてテレビを示している。情報処理装置100は、例えば、放送コンテンツの表示処理の他、内蔵する録画再生機器、例えばハードディスク、DVDやBlu−rayディスク等に記録されたコンテンツの再生処理や、録画再生機器に対する番組の録画処理などを実行する。
【0029】
情報処理装置100の前には、複数のユーザがいる。図に示す例では、ユーザa,11、ユーザb,12、ユーザc,13がいる。これらのユーザは、情報処理装置100に対して、様々な要求を行う。例えばチャンネルの切り替え、ボリュームの調整、録画処理の開始、あるいは記録コンテンツの一覧リストの表示、リストからのコンテンツの選択再生要求、再生の停止、早送りなどの要求である。
【0030】
ユーザは、これらの要求を音声、すなわち発話によって行う。情報処理装置100は、カメラ101、マイクとスピーカを備えた音声入出力部102を有する。ユーザa〜c,11〜13の発する言葉は、マイクとスピーカを備えた音声入出力部102を介して情報処理装置100内に入力される。また、ユーザa〜c,11〜13の画像は、カメラ101を介して情報処理装置100内に入力される。
【0031】
情報処理装置101は、これらの入力情報を解析して、装置が実行すべきアクションを決定し、実行する。ユーザの要求が理解できた場合は、その要求に応じた処理を実行する。例えばチャンネルの切り替えやコンテンツの選択再生処理などである。
【0032】
また、本発明の情報処理装置101は、ユーザの顔の向き、注視方向、エラー発生状況、システムの現在の状態等を解析し、この解析結果に応じてユーザに対する情報の提供レベルや提供態様を変更してユーザに対する情報の提供処理を行う。これらの具体的な処理については後段で説明する。
【0033】
[2.本発明の情報処理装置の構成例について]
次に、図2を参照して本発明の情報処理装置の構成例について説明する。図2に示す情報処理装置100は、例えば図1に示す情報処理装置100に対応する。なお、本発明の情報処理装置はテレビに限らず、PCや、録画再生機、その他、様々な家電製品として実現可能である。すなわち、ユーザ要求に応じて様々な処理を行う情報処理装置である。
【0034】
図2に示すように情報処理装置100は、画像入力部(カメラ)201、画像解析部202、音声入力部(マイク)203、音声解析部204、データ処理部205、音声出力部(スピーカ)206、画像出力部(表示部)207を有する。
【0035】
画像入力部(カメラ)201は、情報処理装置200の周囲の画像、例えばユーザの画像を入力する。画像入力部(カメラ)201の撮影した画像は画像解析部202に入力される。画像解析部202は、例えば、予め記憶部に格納済みのユーザの顔情報などの登録情報を用いて、撮影画像に含まれるユーザの識別処理を実行する。具体的には、ユーザの位置、ユーザが誰であるかなどの情報を解析する。この解析情報がデータ処理部205に入力される。
【0036】
音声入力部(マイク)203は、情報処理装置200の周囲の音声情報、例えばユーザの発話を入力する。音声入力部(マイク)203の入力した音声情報は音声解析部204に入力される。音声解析部204は、音声解析用の辞書を記憶部内に有しており、ユーザの発話した単語を、辞書を用いて解析し、解析情報をデータ処理部205に入力する。
【0037】
データ処理部205では、音声解析部204から音声解析情報を入力し、画像解析部202から画像解析情報を入力し、入力情報に従って、情報処理装置が実行する処理(アクション)を決定する。すなわち、前述したように、ユーザの要求が理解できた場合は、その要求に応じた処理を実行する。例えばチャンネルの切り替えやコンテンツの選択再生処理などである。
【0038】
さらに、データ処理部205は、例えばユーザの顔の向き、注視方向、エラー発生状況、システムの現在の状態等を解析し、この解析結果に応じてユーザに対する情報の提供レベルや提供態様を変更してユーザに対する情報の提供処理を行う。
【0039】
情報の出力処理は、音声出力部(スピーカ)206を介した音声出力、あるいは画像出力部(表示部)207を介した画像出力のいずれか、あるいはその組み合わせによって行われる。この具体的な内容については後段で説明する。
【0040】
図3は、図2に示した情報処理装置100の詳細構成を示す図である。
画像解析部202は、顔・顔方向認識部311と、人認識部312を有する。
音声解析部204は、音声検出部321と、意味検出部322を有する。
データ処理部205は、ユーザ情報管理部331と、ユーザインタラクション状態推定部322、システム状態制御部333、システム応答生成部334、およびシステム応答出力部335を有する。
【0041】
画像解析部202の、顔・顔方向認識部311と、人認識部312では、画像入力部(カメラ)201から入力する撮像画像から、予め規定したあるフレーム間隔毎のサンプルタイム毎に顔や人がフレーム画像中に存在するか、さらに存在している場合には、顔の属性(顔の角度,推定年齢,性別等)の推定、顔の方向の解析、顔認識などを行う。なお、これらの処理に必要な辞書データや顔画像情報は画像解析部202内のメモリに登録されている。例えば、顔認識処理等の処理は、画像入力部201を介して入力した画像から識別した人の顔に基づいて、予め登録した顔画像データとのマッチング処理を実行して行われる。
【0042】
音声解析部204の音声検出部321と、意味検出部322では、音声入力部(マイク)203から入力する音声データに基づいて音声源の方向推定、音声区間の検出、意味理解、信頼度付加などを行う。音声解析部204は、音声解析用の辞書を記憶部内に有しており、ユーザの発話した単語を、辞書を用いて解析し、解析情報をデータ処理部205に入力する。
【0043】
この音声解析処理に際しては、音声以外の音を棄却し、人の声のみを取得する処理が行われる。さらに取得した音声情報に基づく意味抽出処理が実行される。この処理は、例えば音声解析部204の保持する辞書データとのマッチング処理をベースとして行われる。この処理において、マッチする登録単語がない場合などには、無意味な発話としてデータが棄却される。さらに音声認識の信頼度が算出される。信頼度は、例えば音声解析部204の保持する辞書データとのマッチング率等に基づいて行われ、予め設定した閾値等との比較により信頼度が低いと判断された発話は棄却されることになる。
【0044】
データ処理部205は、図3に示すようにユーザ情報管理部331と、システム状態制御部333、システム応答生成部334、およびシステム応答出力部335を有する。
【0045】
ユーザ情報管理部331は、顔・顔方向認識部311と、人認識部312からの出力情報、例えば画像中に顔が含まれるか否か、さらに含まれる場合は顔の属性(顔の角度,推定年齢,性別等)の推定、顔の方向の解析、顔認識結果等の情報を入力する。さらに、音声解析部204の意味検出部322から、発話内容についての情報を入力する。ユーザ情報管理部331は、これらの入力情報をユーザ管理情報として保持、管理する。なお、これ等の情報は、時間経過に伴って、順次更新される情報であり、ユーザ情報管理部331は、各サンプリングタイム(t,t+1,t+2・・・)対応のユーザ情報として、これらの情報をメモリに記録して管理する。
【0046】
ユーザ情報管理部331の保持したユーザ情報は、システム状態制御部333に提供される。システム状態制御部333は、システム(情報処理装置)内部の状態遷移を取得して保持するとともに、ユーザ情報とシステム状態の双方を利用して、システム(情報処理装置100)からユーザに対する情報提供のレベル(詳細/通常/簡潔)および態様を決定する。
【0047】
具体的には、
(1)出力する情報のレベルとして、
(1a)簡潔な説明を出力
(1b)通常の説明を出力
(1c)詳細な説明を出力
上記(1a)、(1b)、(1c)のいずれのレベルの説明を出力するかを決定する。
さらに、(2)出力する態様として、
(2a)音声出力
(2b)テキスト表示出力
(2c)効果音とテキスト表示による出力
これらのいずれの態様、またはこれらを組み合わせた態様のいずれかでシステム応答をユーザに提供するかを決定する。
【0048】
システム応答生成部334は、システム状態制御部333の決定した応答レベルと、態様に従って、システムの応答を生成する。
システム応答出力部335は、システム応答生成部334の生成したシステム応答、例えばユーザ対するヘルプ情報等を出力する。出力は、音声出力部(スピーカ)206や、画像出力部(表示部)207を介して行われる。
【0049】
[3.ユーザに対する情報出力処理の具体例について]
次に、本発明の情報処理装置の実行する処理例として、ユーザに対する情報出力処理の具体例について説明する。
【0050】
先に説明したように、音声認識や画像認識を適用したマルチモーダル・インタフェースでは、利用される音声認識装置や画像認識装置の処理能力に限界があり、理解できるユーザの発話や動作が限られてしまう。従って、システム(情報処理装置100)からユーザに対してより効果的なレベルおよび態様でユーザに対して情報を提供することが重要となる。
【0051】
例えば、本発明の情報処理装置の実行する処理は、以下のような処理である。
以下のような状態であると判定された場合に、表示部にテキストなどの情報を表示するとともに、効果音や音声を併せて出力する。
*ユーザの応答を必要とする場合、
(例:信頼度の低い発話であると判定した場合など、ユーザに対する聞き返し「xxxですか?」を行う場合等)
*システムからの警告出力時、
(例:状態遷移として不可能な遷移を求める発話がなされた場合等)
*ユーザがシステムに注目していない時(システムのほうを向いていない時)
*システム前に発話を行った人がいないと推定した場合、
*一度出したシステムメッセージに対して応答が数秒〜数十秒の間にユーザからの応答が帰ってこなかった場合、
*ユーザがシステムの前にいた時に,システムからの応答(ユーザから応答が必要)をテキストで出しており、しばらく応答がなかった場合、
例えば、このような場合には、表示部にテキストなどの情報を表示するとともに、効果音や音声を併せて出力する。
【0052】
また、以前と同じ誤りのフィードバックを音声で返す時には、簡潔な言葉を利用とた情報提供を実行する。
また、コンテンツ再生中でユーザがシステム前にいると判断した場合には、音声を出さないでテキスト表示のみにする。
【0053】
このように、本発明の情報処理装置は、ユーザ状態とシステム状態に応じて最適な情報のレベル(詳細/通常/簡潔)と情報出力態様を決定し、決定したレベルと態様で情報出力を実行する。
【0054】
本発明の情報処理装置のデータ処理部205において実行するシステム応答の、
(a)レベル決定処理、
(b)態様決定処理、
これらの各処理について、それぞれ図4、図6に示すフローチャートを参照して説明する。
【0055】
まず、図4に示すフローチャートを参照して、データ処理部205において実行するシステム応答のレベル決定処理シーケンスについて説明する。
【0056】
まず、ステップS101において、同じユーザが同じ種類のエラーを過去(例えば同日)に起こしているか否かを判定する。
データ処理部205のシステム状態制御部333は、ユーザ情報管理部からのユーザ情報と、システムの実行した処理、発生したエラー等の情報をログ情報として記録している。具体的には識別されたユーザ単位で、システムの発生させた処理エラーについての内容を記録している。
【0057】
ステップS101では、新たなエラーの発生時に、ログ情報を参照し、過去に同じユーザが同じエラーを発生させているか否かを判定する。
ステップS101の判定がYesの場合、ステップS102に進み、Noの判定の場合はステップS103に進む。
【0058】
ステップS101の判定がYes、すなわち、過去(例えば同日)に同じユーザが同じエラーを発生させていると判定した場合は、ステップS102に進み、前回、システムがユーザに対して詳細説明を行ってからエラー頻度に関する特徴量が閾値を超えたか否かを判定する。
【0059】
例えば、閾値=3回とした設定である場合、今回の新たなエラーが4回目であれば、ステップS102の判定はYesとなる。また、今回の新たなエラーが2回目であれば、ステップS102の判定はNoとなる。
【0060】
ステップS102の判定がYesの場合は、ステップS111に進み、システムの出力する説明を詳細説明として出力を行う。
一方、ステップS102の判定がNoの場合は、ステップS112に進み、システムの出力する説明を簡潔な説明として出力を行う。
【0061】
また、ステップS101の判定がNo、すなわち、過去(例えば同日)に同じユーザが同じエラーを発生させていないと判定した場合は、ステップS103に進み、連続エラー発生に関する特徴量が規定の閾値を超えたか否かを判定する。
【0062】
この処理は、ユーザが同じエラーではないが、異なるエラーを連続的に発生させているか否かを判定するものである。すなわち、複数の異なる種類のエラーを連続的に発生させた回数が規定閾値を超えているか否かを判定する。例えばエラーA、エラーB、エラーCといった異なる複数のエラーを連続的に発生させているか否かの判定処理である。例えば閾値を3種類として設定した場合、4種類以上のエラーを連続的に発生させていると判定した場合は、ステップS103の判定はYesとなる。一方、3種類以下のエラーを連続的に発生させていると判定した場合は、ステップS103の判定はNoとなる。
【0063】
ステップS103において、Yesの判定がなされた場合、すなわち、連続エラー発生に関する特徴量が規定の閾値を超えたと判定した場合は、ステップS111に進み、システムの出力する説明を詳細説明として出力を行う。
一方、ステップS103の判定がNoの場合は、ステップS104に進む。
【0064】
ステップS104では、ユーザがシステム(情報処理装置100)の操作に不慣れな初心者であるか否かを判定する。この判定処理は、前述のログ情報に基づいて行われる。すなわち、ユーザの装置利用回数や、これまでのエラー発生回数、エラー発生内容等から判定する。
【0065】
ステップS104の判定がYes、すなわち、ユーザがシステム(情報処理装置100)の操作に不慣れな初心者であると判定した場合は、ステップS113に進み、通常の説明、または詳細説明を出力する。なお、通常の説明とは詳細説明よりは簡略化され、簡潔説明よりは詳しい説明である。
一方、ステップS104の判定がNo、すなわち、ユーザがシステム(情報処理装置100)の操作に不慣れな初心者でないと判定した場合は、ステップS112に進み、簡潔な説明を出力する。
【0066】
図5に、説明のレベルの例を示す。図5には、以下の(a)〜(c)の説明のレベルの例を示している。
(a)通常説明
(b)簡潔説明
(c)詳細説明
【0067】
(a)通常説明とは、例えば以下のような説明である。
「((原因がわかる時には)〜なので),xxxが使えます」
具体的には、
「サッカーは検索キーワードとして登録していないので,スポーツで検索してみてください」
「言葉が認識できなかったのでもう一回いってね」
「声が認識できなかったので少し大きな声でもう一回いってね」
このような説明である。
【0068】
(b)簡潔説明とは、例えば以下のような説明である。
「スポーツで検索してみてね」
「スポーツが使えるよ」
「少し大きな声でもう一回言ってね」
「もう一回いってね」
このような短い簡略化された説明である。
【0069】
(c)詳細説明とは、例えば以下のような説明である。
「利用可能なコマンドをガイドウィンドウに表示します」
「この画面では,映画,スポーツなどのジャンルや,NHH,東京テレビなどのチャンネル・・・・を指定できます」
「ジャンルは映画,スポーツ,アニメ,音楽,バラエティ,ドラマから選べるよ」
「「xxxにして」のように言ってみましょう」
【0070】
このように、本発明の情報処理装置は、ユーザによるエラー履歴や、ユーザレベルに基づいて、ユーザに提供する説明のレベルを変更して出力する。
【0071】
次に、図6に示すフローチャートを参照して、データ処理部205において実行するシステム応答の態様決定処理シーケンスについて説明する。
【0072】
まず、ステップS201においてシステム(情報処理装置100)がコンテンツを再生中であるか否かを判定する。
これはシステム状態制御部333のシステム監視情報を利用して行われる。コンテンツ再生中である場合は、ステップS201の判定はYesとなり、ステップS211に進み、説明を表示部にテキスト表示する。
これはユーサがコンテンツ再生の行われている表示部を見ている確率が高いとの判定に基づく処理である。
【0073】
一方、ステップS201の判定がNo、すなわちコンテンツの再生中でないと判定した場合は、ステップS202に進む。
【0074】
ステップS202では、システム(情報処理装置100)はユーザからの応答待ちか否かを判定する。具体的には、ユーザへのメッセージを出してからの時間が閾値以上か,あるいは聞き返しを行っている状態であるかを判定する。システム状態制御部333は、システムの実行した処理、さらに、処理時間や経過時間をログ情報として記録しており、このログ情報に基づいて判断する。
【0075】
ステップS202の判定がYes、すなわち、システム(情報処理装置100)がユーザからの応答待ちの状態であると判定した場合は、ステップS203に進む。
ステップS203では、ユーザがシステム(情報処理装置100)の前にいるか否かを判定する。この判定処理は、ユーザ情報管理部331が画像解析部202から取得した画像情報に基づいて行われる。
【0076】
ユーザがシステムの前にいると判定した場合は、ステップS203の判定はYesとなり、ステップS212に進む。
ステップS212では、システムからの説明を、音声、またはテキスト+効果音によって出力する。
この処理はユーザがシステム(情報処理装置100)の前にはいるが、必ずしも表示部を見ていると判断できないめ、音声や効果音によってユーザの注意を促すものである。
【0077】
一方、ユーザがシステムの前にいないと判定した場合は、ステップS203の判定はNoとなり、ステップS214に進む。この場合は、音声のみによる応答や説明を出力する。
この処理は、ユーザが表示部を見ている状態にないと判断し、音声のみでユーザに呼びかける処理を行うものである。
【0078】
次に、ステップS202の判定がNoの場合の処理について説明する。ステップS202の判定がNoの場合とは、システム(情報処理装置100)がユーザからの応答待ちの状態でないと判定した場合である。この場合は、ステップS204に進む。
【0079】
ステップS204では、ユーザがシステム(情報処理装置100)の前にいるか否かを判定する。この判定処理は、ユーザ情報管理部331が画像解析部202から取得した画像情報に基づいて行われる。
【0080】
ユーザがシステムの前にいると判定した場合は、ステップS204の判定はYesとなり、ステップS205に進む。
一方、ユーザがシステムの前にいないと判定した場合は、ステップS204の判定はNoとなり、ステップS214に進む。この場合は、音声のみによる応答や説明を出力する。
この処理は、ユーザが表示部を見ている状態にないと判断し、音声のみでユーザに呼びかける処理を行うものである。
【0081】
ステップS204の判定がYes、すなわち、ユーザがシステムの前にいると判定した場合は、ステップS205に進む。
ステップS205では、ユーザがシステム(情報処理装置100)に注目しているか否かを判定する。この判定処理も、ユーザ情報管理部331が画像解析部202から取得した画像情報に基づいて行われる。すなわち、画像会席部202の生成する顔の向き情報等を利用して判定処理が行われる。
【0082】
ステップS205において、ユーザがシステム(情報処理装置100)に注目していると判定した場合は、ステップS206に進む。
一方、ステップS205において、ユーザがシステム(情報処理装置100)に注目していないと判定した場合は、ステップS212に進む。
【0083】
ステップS212では、システムからの説明を、音声、またはテキスト+効果音によって出力する。
この処理はユーザがシステム(情報処理装置100)の前にはいるが、必ずしも表示部を見ていると判断できないめ、音声や効果音によってユーザの注意を促すものである。
【0084】
ステップS205において、ユーザがシステム(情報処理装置100)に注目していると判定した場合は、ステップS206において、システムからの警告を伝える処理が必要な状態であるか否かを判定する。これはシステム状態制御部333のシステム監視情報を利用して行われる。
【0085】
警告出力を行う必要がある場合は、ステップS206の判定はYesとなる。この場合は、ステップS212に進む。
ステップS212では、システムからの説明を、音声、またはテキスト+効果音によって出力する。
この処理はユーザがシステム(情報処理装置100)の前にはいるが、必ずしも表示部を見ていると判断できないめ、音声や効果音によってユーザの注意を促すものである。
【0086】
一方、ステップS206の判定がNo、すなわち、警告出力を行う必要がない場合は、ステップS213に進む。
ステップS213では、テキスト、または、音声、またはテキスト+効果音のいずれかの態様でのシステム応答や説明情報の出力がなされる。
この処理は、ユーザがシステムに注目していることは確認済みであるので、いずれの方法でシステム応答を出力してもユーザに伝えることがてきるとの判断に基づく処理である。
【0087】
このように、本発明の情報処理装置は、ユーザの状態やシステム状態に応じて、ユーザに対する眼応答や説明の出力態様を変更する制御を行う。
この処理により、ユーザがシステムからのメッセージを確実に受け取る可能性を高めることが可能となる。
【0088】
[4.情報処理装置のハードウェア構成例について]
最後に、図7を参照して、上述した処理を実行する情報処理装置のハードウェア構成例について説明する。CPU(Central Processing Unit)701は、ROM(Read Only Memory)702、または記憶部708に記憶されているプログラムに従って各種の処理を実行する。
【0089】
例えば、図2の情報処理装置の構成における音声解析部204、画像解析部202、データ処理部205の処理を実行する。RAM(Random Access Memory)703には、CPU701が実行するプログラムやデータなどが適宜記憶される。これらのCPU701、ROM702、およびRAM703は、バス704により相互に接続されている。
【0090】
CPU701はバス704を介して入出力インタフェース705に接続され、入出力インタフェース705には、カメラ、マイク、リモコン、キーボード、マウスなどの入力部706、ディスプレイ、スピーカなどよりなる出力部707が接続されている。CPU701は、入力部706から入力される情報に対応して各種の処理を実行し、処理結果を例えば出力部707に出力する。
【0091】
入出力インタフェース705に接続されている記憶部708は、例えばハードディスクからなり、CPU701が実行するプログラムや各種のデータを記憶する。
さらに、音声認識処理に必用となる各種の音声情報や辞書データ、さらには、ユーザ認識処理に必用となるユーザ画像データ等が記録されている。通信部709は、インターネットやローカルエリアネットワークなどのネットワークを介して外部の装置と通信する。
【0092】
入出力インタフェース705に接続されているドライブ710は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア711を駆動し、記録されているプログラムやデータなどを取得する。取得されたプログラムやデータは、必要に応じて記憶部708に転送され記憶される。
【0093】
以上、特定の実施例を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本発明の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
【0094】
また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、LAN(Local Area Network)、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
【0095】
なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
【産業上の利用可能性】
【0096】
以上、説明したように、本発明の一実施例の構成によれば、ユーザ状態やシステム状態に応じてユーザに対する情報の提供レベルや態様を変更して情報を提供する装置および方法が実現される。具体的には、カメラの撮影画像の解析処理を実行する画像解析部の解析結果と、マイクから入力する音声の解析処理を実行する音声解析部の解析結果を入力して、ユーザに対する情報の出力制御を実行するデータ処理部が、画像解析結果または音声解析結果の少なくともいずれかの解析結果から得られるユーザ情報と、システム状態情報に基づいて、ユーザに提供する情報の出力態様を決定し、決定した出力態様でユーザに対して情報を出力する。この処理により、ユーザの状況に応じて確実に情報を伝えることが可能となる。
【符号の説明】
【0097】
11〜13 ユーザ
100 情報処理装置
101 カメラ
102 音声入出力部
201 画像入力部
202 画像解析部
203 音声入力部
204 音声解析部
205 データ処理部
206 音声出力部
207 画像出力部
311 顔・顔方向認識部
312 人認識部
321 音声検出部
322 意味検出部
331 ユーザ情報管理部
333 システム状態制御部
334 システム応答生成部
335 システム応答出力部
701 CPU
702 ROM
703 RAM
704 バス
705 入出力インタフェース
706 入力部
707 出力部
708 記憶部
709 通信部
710 ドライブ
711 リムーバブルメディア

【特許請求の範囲】
【請求項1】
カメラの撮影画像の解析処理を実行する画像解析部と、
マイクから入力する音声の解析処理を実行する音声解析部と、
前記画像解析部の解析結果と、前記音声解析部の解析結果を入力して、ユーザに対して出力する情報の制御を実行するデータ処理部を有し、
前記データ処理部は、
画像解析結果または音声解析結果の少なくともいずれかの解析結果から得られるユーザ情報と、システム状態情報に基づいて、ユーザに提供する情報の出力態様を決定し、決定した出力態様でユーザに対して情報を出力する処理を行う情報処理装置。
【請求項2】
前記データ処理部は、
前記画像解析部の解析結果に基づいて、ユーザが情報処理装置に注目しているか否かを判定し、ユーザが情報処理装置に注目していないと判定した場合は、音声または効果音を伴う情報出力を実行する請求項1に記載の情報処理装置。
【請求項3】
前記データ処理部は、
前記画像解析部の解析結果に基づいて、ユーザが情報処理装置の前にいるか否かを判定し、ユーザが情報処理装置の前にいないと判定した場合は、音声または効果音を伴う情報出力を実行する請求項1に記載の情報処理装置。
【請求項4】
前記データ処理部は、
前記システム状態情報に基づいて、情報処理装置が表示部へのコンテンツ再生を行っていると判定した場合は、表示部への情報出力を実行する請求項1に記載の情報処理装置。
【請求項5】
前記データ処理部は、
前記システム状態情報に基づいて、情報処理装置がユーザに対する警告を出力する必要があるか否かを判定し、警告を出力する必要があると判定した場合は、音声または効果音を伴う情報出力を実行する請求項1に記載の情報処理装置。
【請求項6】
前記データ処理部は、
ユーザが過去に発生したエラー情報に基づいて、ユーザに対して出力する情報のレベルを変更して出力する制御を行う請求項1〜5いずれかに記載の情報処理装置。
【請求項7】
前記データ処理部は、
同一ユーザが規定の期間内に、同じ種類のエラーを発生させた回数が規定閾値を超えている場合は詳細説明を出力する制御を行う請求項6に記載の情報処理装置。
【請求項8】
前記データ処理部は、
同一ユーザが規定の期間内に、複数の異なる種類のエラーを連続的に発生させた回数が規定閾値を超えている場合は詳細説明を出力する制御を行う請求項6または7に記載の情報処理装置。
【請求項9】
前記データ処理部は、
ユーザの過去の情報処理装置に対する操作履歴情報に基づいて、ユーザの情報処理装置に対する熟練度を判定し、ユーザが初心者でないと判定した場合は簡潔な説明を出力し、ユーザが初心者であると判定した場合は詳細または通常のレベルの説明を出力する制御を行う請求項6〜8いずれかに記載の情報処理装置。
【請求項10】
情報処理装置において実行する情報処理方法であり、
画像解析部が、カメラの撮影画像の解析処理を実行する画像解析ステップと、
音声解析部が、マイクから入力する音声の解析処理を実行する音声解析ステップと、
データ処理部が、前記画像解析部の解析結果と、前記音声解析部の解析結果を入力して、ユーザに対して出力する情報の制御を実行するデータ処理ステップを実行し、
前記データ処理ステップは、
画像解析結果または音声解析結果の少なくともいずれかの解析結果から得られるユーザ情報と、システム状態情報に基づいて、ユーザに提供する情報の出力態様を決定し、決定した出力態様でユーザに対して情報を出力する処理を行うステップである情報処理方法。
【請求項11】
情報処理装置において情報処理を実行させるプログラムであり、
画像解析部に、カメラの撮影画像の解析処理を実行させる画像解析ステップと、
音声解析部に、マイクから入力する音声の解析処理を実行させる音声解析ステップと、
データ処理部に、前記画像解析部の解析結果と、前記音声解析部の解析結果を入力して、ユーザに対して出力する情報の制御を実行させるデータ処理ステップとを有し、
前記データ処理ステップは、
画像解析結果または音声解析結果の少なくともいずれかの解析結果から得られるユーザ情報と、システム状態情報に基づいて、ユーザに提供する情報の出力態様を決定し、決定した出力態様でユーザに対して情報を出力する処理を行わせるステップであるプログラム。

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図1】
image rotate


【公開番号】特開2011−253375(P2011−253375A)
【公開日】平成23年12月15日(2011.12.15)
【国際特許分類】
【出願番号】特願2010−127111(P2010−127111)
【出願日】平成22年6月2日(2010.6.2)
【出願人】(000002185)ソニー株式会社 (34,172)
【Fターム(参考)】