説明

対話型サービス提供システム、対話型サービス提供装置、動画像提供装置、対話型サービス提供方法、動画像提供プログラム

【課題】音声と動画像に不一致が生じた場合にも、ユーザに違和感を与えないように代替の動画像を再生し、サービスを円滑に提供することができる対話型サービス提供システムを提供する。
【解決手段】音声データを音声用端末103に送信すると共に、音声データの再生が音声用端末103において開始されるタイミングに合わせて動画像データを動画像用端末102に送信する通信部111を有する音声対話サーバ101、送信された動画像データを順次再生し、次回以降に再生される未再生動画像データが音声データの再生に同期して再生できる場合には未再生動画像データを再生し、音声データの再生に同期して再生できない場合には未再生動画像データに代えて蓄積されている代替動画像データを再生する動画像用端末102によって対話型サービス提供システムを構成する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、対話型のサービス提供システム、サービス提供装置、動画像提供装置、対話型サービス提供方法、動画提供プログラムに係り、特に、動画像中のオペレータがユーザと擬似的に対話してサービスを提供する対話型サービス提供システム、対話型サービス提供装置、動画像提供装置、対話型サービス提供方法、動画像提供プログラムに関する。
【背景技術】
【0002】
電話による多数の問合せがなされるサービスでは、コールセンターと呼ばれる拠点においてオペレータが電話に応答し、問合せに応えている。しかし、コールセンターの運営には、多くのオペレータを雇用し、教育することが必要になる。オペレータに係るコストを低減するため、現在では、多くのサービスにおいてオペレータに代わってコンピュータ等が自動的に音声をユーザに提供し、問合せを受け付けるシステムが採用されている。
【0003】
また、現在では、ユーザに動画像を提供し、問合せに応えるシステムも多く実用化されている。このようなシステムでは、オペレータの動画像をユーザに提供することにより、ユーザに対して現実に人間のオペレータと対話しているような臨場感を与えることができる。動画像を使ってユーザに応答するシステムの従来例としては、例えば、非特許文献1が挙げられる。従来の動画像を使ってユーザに応答するシステムでは、オペレータの動画像の他、漫画や所謂キャラクタと呼ばれるマスコットを使ったアニメーション等も多く利用されている。
【0004】
ただし、動画像を提供するサービスの多くは、文字やアイコンの選択等によってユーザが自身の意思を入力するようになっている。このため、操作に不慣れなユーザは、従来の電話による応答を好む傾向にある。
以上のことから、ユーザが動画像のオペレータと擬似的に対話してサービスの提供を受けることができるシステムが望まれていた。なお、このようなシステムを、本明細書では、以降、対話型サービス提供システムと記す。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】「ストリーミングサーバー・ホスティングサービスの動画像配信サービス」、[online]、株式会社イデア、[平成22年3月24日検索]、インターネット<URL:http://www.ideastream.co.jp/seen.html>
【発明の概要】
【発明が解決しようとする課題】
【0006】
動画像を提供できる装置には、音声による対話の機能を備えていないものも多い。このため、対話型サービスを実現するためには、動画像を取得、再生可能であって、かつ音声による対話ができる機能を備えた機器が必要になり、この点が対話型サービスの普及を阻害する一因になっていた。このような点を解消するためには、動画像と音声とを別の機器を使ってユーザに提供あるいはユーザから入力することが考えられる。動画像を提供する機器としては、コンピュータ等が考えられる。また、音声を提供または入力する機器としては、電話機が考えられる。
【0007】
ただし、動画像と音声とを別の機器からユーザに提供するシステムでは、動画像と音声との同期をとることが必要になる。すなわち、音声は携帯電話機の回線のような狭帯域ネットワークを使って提供されるが、動画像はインターネット等の広帯域のネットワーク回線を使って提供される。このため、音声に遅延等が生じることはないが、動画像の提供には回線の輻輳等によるパケットロス等によってデータ転送に遅延が生じ得る。動画像に遅延が生じると、ユーザに提供される動画像と音声との間に不一致が生じ、ユーザに違和感を与え、円滑なサービスの提供に支障を生じることになる。このため、このようなシステムでは、映像中の実写のオペレータの口の動きや所作を、ユーザに違和感を与えないものにすることが要求されている。
【0008】
本発明は、上記した点に鑑みてなされたものであって、対話型サービス提供の分野において、音声と動画像に不一致が生じた場合にも、ユーザに違和感を与えないように代替の動画像を再生し、サービスを円滑に提供することができる対話型サービス提供システム、対話型サービス提供装置、動画像提供装置、対話型サービス提供方法、動画像提供プログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
以上の課題を解決するため、本発明による対話型サービス提供システムは、音声に係る音声データと、動画像に係る動画像データとを、それぞれ異なる回線を介して送信する対話型サービス提供装置(例えば図1に示した音声対話サーバ101)と、当該対話型サービス提供装置から前記動画像データを受信する動画像提供装置(例えば動画像用端末102)と、を少なくとも含む対話型サービス提供システムであって、前記対話型サービス提供装置は、前記音声データを、当該音声データを受信して再生する音声提供装置に送信する音声送信手段(例えば図1に示した通信部111)と、前記音声データの再生が前記音声提供装置において開始されるタイミングに合わせて前記動画像データを前記動画像提供装置に送信する動画像送信手段(例えば図1に示した通信部111)と、を含み、前記動画像提供装置は、前記動画像データを再生する動画像再生手段と、(例えば図1に示した表示制御部125)と、前記動画像再生手段によって次回以降に再生される動画像データである未再生動画像データが前記音声データの再生に同期して再生できるか否か判断する同期判断手段(例えば図1に示した表示制御部125)と、を備え、前記動画像再生手段は、前記同期判断手段によって前記未再生動画像データが前記音声データに同期して再生できると判断された場合には、該未再生動画像データを再生し、前記同期判断手段によって前記未再生動画像データが前記音声データに同期して再生できないと判断された場合には、前記未再生動画像データに代えて、自装置内に蓄積されている動画像データ(例えば図5に示したシーン502〜504、または図7に示した代替コンテンツ701〜703)を代替動画像データとして再生することを特徴とする。
【0010】
このような発明によれば、動画像データと音声データとを、各々の再生機能を有する既存の機器に送信し、同期して再生することができる。このため、専用の機器を新たに設ける必要がなく、本発明の実現及び普及を簡易にすることができる。また、動画像と音声との違和感をユーザに与えることがなく、円滑なサービスを提供することができる対話型サービス提供システムを提供することができる。
【0011】
また、本発明による対話型サービス提供装置は、動画像に係る動画像データを動画像提供装置に所定の回線を介して送信し、音声に係る音声データを、前記回線と異なる他の回線を介して音声提供装置に送信する対話型サービス提供装置であって、前記音声データを、当該音声データを受信して再生する前記音声提供装置に送信する音声送信手段と、前記音声データの再生が前記音声提供装置において開始されるタイミングに合わせて前記動画像データを前記動画像提供装置に送信する動画像送信手段と、を含むことを特徴とする。
このような発明によれば、動画像データと音声データとを、各々の再生機能を有する既存の機器に送信し、同期して再生することができる。このため、専用の機器を新たに設ける必要がなく、本発明の実現及び普及を簡易にすることができる対話型サービス提供装置を提供することができる。
【0012】
上記の対話型サービス提供装置において、前記動画像送信手段が、前記動画像データを送信する以前に、送信される前記動画像データによって表される画像中の話者の発話に関する発話情報を前記動画像提供装置に送信することが望ましい。
このような発明によれば、動画像提供装置側から動画像データの発話にかかる情報をこの動画像データに先立って送信することができる。このため、発話情報の受信先では、未再生の動画像データ開始時刻通りに再生できるか否か判断することができる。
【0013】
上記の対話型サービス提供装置において、前記発話情報が、前記動画像データと同期して再生される前記音声データの再生開始時刻にかかる開始時刻(例えば図3に示した開始時刻)、前記音声データの再生にかかる音声再生時間(例えば図3に示した音声再生時間)の少なくとも一方を含むことが望ましい。
このような発明によれば、動画像提供装置側から動画像データが同期する音声データの再生開始時刻、再生にかかる時間を動画像データに先立って送信することができる。このため、発話情報の受信先では、未再生の動画像データに代わる代替動画像データとして、ユーザに与える違和感が小さい動画像データを選択することができる。
【0014】
上記の対話型サービス提供装置において、前記音声データ送信手段によって送信された音声データに対する応答として予め複数のユーザ発話と、当該ユーザ発話によってユーザが応答する確率を示す応答確率とが設定され、前記動画像データ送信手段は、複数のユーザ発話のうち、前記応答確率が高いユーザ発話に対応する前記動画像データを優先して送信することが望ましい。
このような発明によれば、再生される可能性の高い動画像データを優先的に送信し、音声の再生開始時間までに動画像データが再生できない確率を低減することができる。
【0015】
また、本発明の動画像提供装置は、音声に係る音声データと、動画像に係る動画像データとを、それぞれ異なる回線を介して送信する対話型サービス提供装置から前記動画像データを受信して再生する動画像提供装置であって、前記動画像データを再生する動画像再生手段と、前記動画像再生手段によって次回以降に再生される前記動画像データである未再生動画像データが前記音声データの再生に同期して再生できるか否か判断する同期判断手段と、を備え、前記動画像再生手段は、前記同期判断手段によって前記未再生動画像データが前記音声データに同期して再生できると判断された場合には、前記未再生動画像データを再生し、前記同期判断手段によって前記未再生動画像データが前記音声データに同期して再生できないと判断された場合には、前記未再生動画像データに代えて自装置内に蓄積されている動画像データを代替動画像データとして再生することを特徴とする。
このような発明によれば、動画像と音声との違和感をユーザに与えることがなく、円滑なサービスを提供できる動画像提供装置を提供することができる。
【0016】
上記の動画像提供装置において、前記代替動画像データとなり得る動画像データが格納される代替コンテンツ格納手段(例えば図1に示した代替コンテンツ格納部126、バッファリングコンテンツ格納部127)と、前記同期判断手段によって前記未再生動画像データが前記音声データに同期して再生できないと判断された場合、前記未再生動画像データによって表される動画像中の話者の発話に関する発話情報に基づいて、前記未再生動画像データに代えて再生される代替動画像データを前記代替コンテンツ格納手段から選択する代替動画像データ選択手段と、をさらに含むことが望ましい。
このような発明によれば、動画像と音声との不一致による違和感をユーザに与えることがない動画像データを発話情報に基づいて選択し、円滑なサービスを提供することができる。
【0017】
上記の動画像提供装置において、前記代替動画像データ選択手段が、前記代替動画像データとして、前記対話型サービス提供装置から既に受信され、前記代替コンテンツ格納手段に蓄積されている蓄積動画像データ(例えば図5に示したシーン502〜504)を選択することが望ましい。
このような発明によれば、既に受信され、前記代替コンテンツ格納手段に蓄積されている蓄積動画像データを使ってユーザに与えることがない、円滑なサービスを提供できる動画像提供装置を提供することができる。
【0018】
上記の動画像提供装置において、前記代替動画像データ選択手段は、前記代替コンテンツ格納手段から、話者の発話の状態が分からない、あるいは話者の発話の状態が分かり難い動画像を再生するための代替動画像データ(例えば図7に示した代替コンテンツ701〜703)を前記代替動画像データとして選択することが望ましい。
このような発明によれば、画像中のオペレータの口の動き等を考慮することなく、簡易に代替動画像データを選択することができる。
【0019】
上記動画像提供装置において、前記発話情報が、前記未再生動画像データと同期して再生される音声データの再生にかかる音声再生時間を含み、前記代替動画像データ選択手段は、前記蓄積動画像データ、または前記代替動画像データのうち、動画像中の話者の発話にかかる時間が前記音声再生時間により近いものを前記代替動画像データとして選択することが望ましい。
このような発明によれば、画像中のオペレータの口の動き等を考慮することなく、簡易に代替動画像データを選択することができる。
【0020】
また、本発明による対話型サービス提供方法は、動画像に係る動画像データを動画像提供装置に所定の回線を介して送信し、音声に係る音声データを、前記回線と異なる他の回線を介して音声提供装置に送信する対話型サービス提供装置であって、前記音声データを、当該音声データを受信して再生する前記音声提供装置に送信する音声送信工程(例えば図11に示した(i))と、前記音声データの再生が前記音声提供装置において開始されるタイミングに合わせて前記動画像データを前記動画像提供装置に送信する動画像送信工程(例えば図11に示した(g))と、を含むことを特徴とする。
このような発明によれば、動画像データと音声データとを、各々の再生機能を有する既存の機器に送信し、同期して再生することができる。このため、専用の機器を新たに設ける必要がなく、本発明の実現及び普及を簡易にすることができる対話型サービス提供方法を提供することができる。
【0021】
また、本発明による動画像提供プログラムは、音声に係る音声データと、動画像に係る動画像データとを、それぞれ異なる回線を介して送信する対話型サービス提供装置から前記動画像データを受信して再生する動画像提供装置において実行される動画像提供プログラムであって、コンピュータに、前記動画像データのうちの次回以降に再生される未再生動画像データが前記音声データの再生に同期して再生できるか否か判断する同期判断機能(例えば図11に示したステップS9)と、前記同期判断機能によって前記未再生動画像データが前記音声データに同期して再生できると判断された場合には前記未再生動画像データを再生し(例えば図11に示したステップS10)、前記同期判断機能によって前記未再生動画像データが前記音声データに同期して再生できないと判断された場合には、前記未再生動画像データに代えて、自装置内に蓄積されている動画像データを代替動画像データとして再生する再生機能(例えば図11に示したステップS14、S9、(h))と、を含むことを特徴とする。
このような発明によれば、動画像と音声との不一致による違和感をユーザに与えることがなく、円滑なサービスを提供できる動画像提供プログラムを提供することができる。
【発明の効果】
【0022】
本発明によれば、対話型サービス提供の分野において、音声と動画像とに不一致が生じた場合にも、不一致による違和感をユーザに与えないように代替えの動画像を再生し、サービスを円滑に提供することができる。
【図面の簡単な説明】
【0023】
【図1】本発明の一実施形態の対話型サービス提供システムのシステム構成及びシステムに含まれる装置の機能ブロックを説明するための図である。
【図2】本発明の一実施形態の対話シナリオについて説明するための図である。
【図3】図1に示したコンテンツ格納部に格納されている動画像データを説明するための図である。
【図4】図1に示した音声対話サーバのユーザ情報DBにおいて管理されているユーザ情報を説明するための図である。
【図5】本発明の一実施形態の既に受信されたシーンを代替動画像データとする場合の処理について説明するための図である。
【図6】本発明の一実施形態の、発話情報同士の比較を説明するための図である。
【図7】本発明の一実施形態の、代替動画像データとして使用される専用の代替コンテンツを説明するための図である。
【図8】図7と比較するために示した、シーンを再生して得られる画像である。
【図9】本発明の一実施形態の代替動画像データとなる代替コンテンツを選択する処理を説明するための図である。
【図10】本発明の一実施形態の、実オペレータによってなされる処理を説明するための図である。
【図11】本発明の一実施形態の対話型サービス提供方法を説明するためのタイミングチャートである。
【図12】本発明の一実施形態のユーザ登録のための処理を説明するためのタイミングチャートである。
【発明を実施するための形態】
【0024】
以下、本発明の対話型サービス提供システム、対話型サービス提供装置、動画像提供装置、対話型サービス提供方法の一実施形態について説明する。
なお、本実施形態において、あるいは音声(あるいは音声データ)と動画像(あるいは動画像データ)とが一致するとは、音声データに予め対応付けられている動画像データが、音声データの再生に同期して再生される状態をいい、これ以外の状態を音声と動画像とは不一致であるとする。本実施形態でいう不一致の具体的な形態としては、例えば、音声データに対応付けられている動画像データが、音声データの再生に同期せず、音声データの再生に遅延、または先行して再生される状態をいう。
【0025】
(システム構成)
図1は、本実施形態の対話型サービス提供システムのシステム構成及びシステムに含まれる装置の機能ブロックを説明するための図である。
対話型サービス提供システムは、動画像に係るデータ(以降、本実施形態では動画像データと記す)については広帯域のネットワーク回線N1を介して動画像用端末102に送信し、音声に係るデータ(以降、本実施形態では音声データと記す)については狭帯域のネットワーク回線N2を介して音声用端末103に送信する対話型サービス提供装置を含んでいる。
【0026】
本実施形態の対話型サービス提供装置は、ネットワーク回線N1、N2を介してユーザにサービスを提供するサーバ装置として構成されている。このため、本実施形態では、対話型サービス提供装置を音声対話サーバ101と記す。また、ネットワーク回線N1はインターネット回線であって、ネットワーク回線N2は携帯電話機の回線網(図中に携帯網と記す)である。動画像用端末102は汎用的なパーソナルコンピュータ(PC)、音声用端末103は一般的な携帯電話機とする。
さらに、本実施形態の対話型サービス提供システムは、バックヤード端末104を含んでいる。バックヤード端末104は、音声対話サーバ101の管理側の端末装置であって、例えば、音声対話サーバ101による応答の後、人間のオペレータ(以降、本実施形態では実オペレータと記す)がバックヤード端末104を使ってユーザの要求に対して応答する。
【0027】
次に、以上説明した対話型サービス提供システムに含まれる、各構成について説明する。
(1)音声対話サーバ
図1に示したように、音声対話サーバ101は、動画像用端末102、音声用端末103、バックヤード端末104と通信するための通信部111を備えている。通信部111は、音声データを、音声データを受信して再生する音声用端末103に送信する。動画像データは、音声データの再生が、音声用端末103において開始されるタイミングに合わせて動画像用端末102に送信される。なお、本実施形態でいう「動画像データを、音声データの再生が音声用端末において開始されるタイミングに合わせて動画像用端末に送信される」とは、動画像データの送信から動画像用端末102におけるバッファリング、再生の処理にかかる時間及びそのマージンを決定し、決定された時間を音声データの送信タイミングから逆算して得られるタイミングで動画像データを送信することをいうものとする。
【0028】
本実施形態の音声対話サーバ101は、送信された音声データにユーザが応答するためにユーザが発話した音声(以降、本実施形態では対話音声と記す)を認識する音声認識部112、音声認識部112による認識の結果に基づいて、ユーザの対話音声に応答するための対話シナリオを、予め設定されている対話シナリオから選択する対話シナリオ選択部114を備えている。また、対話シナリオ選択部114によって選択された対話シナリオを管理する対話シナリオ選択履歴管理部117を備えている。
【0029】
また、本実施形態の音声対話サーバ101では、複数のシーンを含む動画像データの1単位(以下、本実施形態ではコンテンツと記す)が、コンテンツ格納部116に蓄積されている。音声認識部112による認識の結果に基づいて、コンテンツが、コンテンツ格納部116から選択される。
さらに、音声対話サーバ101は、音声対話型サービス提供システムのユーザに関するユーザ情報が蓄積されるユーザ情報データベース(以下、DBと略記する)を備えている。音声対話サーバ101は、以上の構成を統括的に制御する制御部110を備えている。
【0030】
(i)対話シナリオの選択
以下、対話型サービス提供システムが携帯電話機の契約に関するサービスを提供するものとして、本実施形態の音声対話サーバ101において実行される対話シナリオの選択について説明する。
図2は、本実施形態の対話シナリオについて説明するための図である。図2においては、音声対話サーバ101から音声用端末103に送信される音声データを「システム発話」、システム発話に応答してユーザが発話した対話音声を「ユーザ発話」と記す。図2(a)は、ユーザが音声用端末103を使って音声対話サーバ101に電話をかけることにより、音声対話サーバ101から音声用端末103にランダムに送信されるシステム発話を示している。図2(b)は、図2(a)に示したシステム発話に応答するユーザ発話として考え得る対話音声を示している。図2(c)は、図2(b)に示した対話音声に応答する音声データに使用可能な複数の対話シナリオを示している。
【0031】
本実施形態では、音声対話サーバ101から音声用端末103に対し、例えば、「料金プランについてご説明致しましょうか?」の音声データが送信される。本実施形態では、図2(b)に示したように、ユーザの対話音声について「肯定」、「否定」、「不明応答」、「応答無し」の4つのグループが設定されている。そして、各グループにユーザの対話音声として予想される内容が予め登録されている。
図2に示した例では、「肯定」のグループ「U−011」には、「はい」、「うん」、「そう」等の複数の音声が登録されている。ユーザの対話音声がグループ「U−011」に登録されているいずれかの音声に該当すると、音声認識部112により、対話音声が「肯定」を示すものであると認識される。
【0032】
同様に、「否定」のグループ「U−012」には、「いいえ(いいや)」、「別に」、「必要ない」等の複数の音声が登録されている。ユーザの対話音声がグループ「U−012」に登録されているいずれかの音声に該当すると、音声認識部112により、対話音声が「否定」を示すものであると認識される。また、ユーザの対話音声がグループ「U−011」、「U−012」に登録されているいずれかの音声にも該当しない場合、音声認識部112により、対話音声が「不明応答」のグループ「U−013」に該当すると認識される。対話音声が所定の時間内に受信できない場合、音声認識部112により、対話音声が「応答無し」のグループ「U−014」に該当すると認識される。
【0033】
なお、図2(b)のグループ「U−011」〜グループ「U−013」の各々の下に記された「0.65」、「0.21」、「0.11」、「0.03」の数値は、対話音声の履歴によって統計的に算出された、対話音声が各グループに属する確率(以降、本実施形態では応答確率と記す)を示している。応答確率は、後述する動画像データ送信の優先順位の決定に用いられる。
なお、応答確率は、音声対話サーバ101が備える対話シナリオ選択履歴管理部117によって管理されている履歴から各ユーザ発話が選択された回数をカウントし、演算することによって得られた確率である。
【0034】
対話音声がグループ「U−011」に属する場合、対話シナリオ選択部114により、図2(c)に示した対話シナリオ「C−021」〜対話シナリオ「C−024」のいずれかがランダムに選択される。本実施形態において複数の対話シナリオがランダムに選択されるようにしたのは、ユーザに対して繰り返し同じ音声データが送信されることを避けるためである。
対話シナリオ選択部114によって選択されたシナリオは、音声データとして通信部111から音声用端末103に送信される。この結果、音声用端末103のスピーカからはシナリオにしたがった音声が出力される。
【0035】
(ii)コンテンツ格納部
図3は、コンテンツ格納部116に格納されているコンテンツを説明するための図である。本実施形態では、コンテンツがさらに小さな単位動画像データである「シーン」によって構成されるものとする。
図3(a)〜(c)はコンテンツ1に含まれる複数のシーン1〜シーン3を説明するための図である。すなわち、本実施形態のシーンは、オペレータOPが対話シナリオにしたがって発話している状態を示す動画像を、オペレータOPが発話した音声をテキストに置き換えて形成される文章の一文(句点「。」から「。」まで)ごとに区切って形成されている。したがって、テキストの一文は、複数のシーンのうちの少なくとも1つのシーンに対応付けられることになる。
【0036】
例えば、図3(a)に示したシーン1は、「いらっしゃいませ」の一文の音声データが再生される間に再生される動画像データである。コンテンツ格納部113には、シーン1が、表題(「コンテンツ1/シーン1」)、コンテンツ1の再生開始を起点とする音声データの再生開始時刻、音声データの再生にかかる時間が、オペレータOPの発話にかかる発話情報として付加された状態で格納される。
【0037】
図3(b)に示したシーン2は、「いつもありがとうございます」の一文の音声データが再生される間に再生される動画像データである。コンテンツ格納部113には、シーン2が、表題(「コンテンツ1/シーン2」)、コンテンツ1の再生開始を起点とする音声データの再生開始時刻、音声データの再生にかかる時間が発話情報として付加された状態で格納される。図3(c)に示したシーン3は、「何かお探しですか」の一文の音声データが再生される間に再生される動画像データである。コンテンツ格納部113には、シーン3が、表題(「コンテンツ1/シーン3」)、コンテンツ1の再生開始を起点とする音声データの開始時刻、音声データの再生にかかる音声再生時間が発話情報として付加された状態で格納される。発話情報は、図3(d)に示すように、コンテンツ管理テーブルによって管理されている。
【0038】
コンテンツ格納部116に格納されているシーンは、図3(a)に示したシステム発話が音声対話サーバ101によって音声用端末103に送信された時点から対話シナリオ選択部114によって選択される。そして、通信部111からネットワークN1を介して動画像用端末102に順次送信される。この送信は、送信されたシーンが動画像用端末102において再生されるとき、音声とオペレータOPの口の動きとが一致するように、音声データの音声再生開始時刻に合わせて行われる。
【0039】
このとき、音声選択部114は、前記した応答確率を参照し、応答確率の高いユーザ発話(図2に示した例ではU−011)に属するシナリオ(図2に示した例ではC−021〜C−024)のうちのランダムに選択された1つに対応するシーンが、他のユーザ発話に属するシナリオに対応するシーンよりも優先して送信する。そして、ユーザ発話が確定した場合、このユーザ発話に対応するシナリオが未だ送信されていなければ、確定したユーザ発話に応答するシーンも送信される。
このような構成によれば、動画像用端末102において再生される可能性の高いシーンを優先的に送信することができる。このため、再送すべきシーンのバッファリングが音声の再生開始までに完了する可能性を高めることができる。
【0040】
また、本実施形態では、音声対話サーバ101が、シーンの送信に先立って図3(d)に示した発話情報を送信する。発話情報を送信することにより、動画像用端末102において、これから受信され、次回以降に再生される未再生のシーンが音声データと同期して再生できない場合、どのように対処するかを判断することが可能になる。なお、発話情報は、動画像データと比較してデータ量がはるかに小さい。このため、ネットワーク回線N1の利用可能帯域が動画像データであるシーンを適正に送信できないほど狭い場合であっても、発話情報は遅延することなく動画像用端末102に送信される。
【0041】
(iii)ユーザ情報登録
図4は、図1に示した音声対話サーバ101の図1に示したユーザ情報DB115において管理されているユーザ情報を説明するための図である。本実施形態では、音声対話サーバ101が、動画像用端末を介してユーザにユーザ登録を促す。そして、ユーザから提供されたユーザ情報を、図4に示したユーザ情報管理テーブルとしてユーザ情報DB115に格納される。
本実施形態では、ユーザを特定するためのユーザID、ユーザのメールアドレス、電話番号、対話型サービス提供システムにアクセスしてきた者が、登録されているユーザであるか否かを確認するための識別ID及びパスワードをユーザ情報とする。ユーザ情報は、互いに対応付けられて、図4に示すように管理されている。
【0042】
(2)動画像用端末
図1に示した動画像用端末102は、ネットワーク回線N1を介して音声対話サーバ101から送信されたシーンを受信する通信部123、ネットワーク回線N1の輻輳状態を測定する帯域測定部124、通信部123によって受信されたシーンを順次再生し、再生に関する処理を統括的に制御する表示制御部125、表示制御部125の制御によって再生された動画像データが表示される表示部121、ユーザの操作によって情報が入力される入力部120を備えている。
【0043】
さらに、本実施形態の動画像用端末102は、バッファリングコンテンツ格納部127、代替コンテンツ格納部126を備えている。バッファリングコンテンツ格納部127は、音声対話サーバ101から受信されたコンテンツの少なくとも一部のシーンをバッファリングして蓄積するメモリである。代替コンテンツ格納部126は、本来再生すべきシーンの代替用として予め用意された専用の動画像データを代替コンテンツとして蓄積するメモリである。
【0044】
前記したように、本実施形態では動画像用端末に汎用的なPCを用いている。このため、表示部121はPCが備えるディスプレイであり、入力部120は、キーボードやタッチパネル等のユーザインターフェースである。
帯域測定部124は、ネットワーク回線N1においてシーンの受信に利用可能な帯域を測定する構成である。そして、測定された利用可能帯域を表示制御部125に通知する。表示制御部125は、通知された利用可能帯域を予め設定されている所定の閾値と比較し、以降に受信されるシーンが、このシーンに対応するシナリオにしたがう音声データの再生に同期して再生できるか否かを判断する。
【0045】
すなわち、利用可能帯域が前記した閾値よりも狭いということは、発話情報の受信に続いて受信されるべきシーンが、発話情報が示す再生開始時刻の直前までにバッファリングすることができないことを意味する。このため、本実施形態では、以降、利用可能帯域が閾値よりも狭いことを、「開始時刻の直前までにバッファリングできない」とも表現するものとする。
音声データとシーンとを同期して再生した場合、動画像中の図3に示したオペレータOPの口の動きがシナリオにしたがう音声と一致する。このことにより、本実施形態は、音声と動画像の不一致による違和感のない動画像をユーザに提供することができる。
【0046】
また、シーンがバッファリングできないことによって音声データに同期して再生できないと判断された場合、表示制御部125は、バッファリングできなかったシーンがバッファリングコンテンツ格納部127に格納されているか否か判断する。格納されている場合には、バッファリングできなかったシーンに代えて、バッファリングコンテンツ格納部127に蓄積されている、バッファリングできなかったシーンと同じシーンを再生する。
【0047】
(i)動画像データの差替え
また、本実施形態では、バッファリング出来なかったシーンと同じシーンがバッファリングコンテンツ格納部127に格納されていない場合、このシーンに代えて代替動画像データを音声データに同期して再生する。以下、この具体的な内容を説明する。
[先に受信されたシーンの動画像データを代替動画像データとする場合]
図5(a)、(b)は、既に受信されたシーンであって、バッファリングできなかったシーンと異なる他のシーンを代替動画像データとして利用する場合の処理について説明するための図である。図5(a)は、音声対話サーバ101から送信されるシーン(コンテンツ5/シーン1)501の発話情報501aを示す図である。図5(b)は、代替コンテンツ格納部126に格納されている代替動画像データを説明するための図である。
【0048】
図5(b)に示したように、音声対話サーバ101から送信されたシーンは、発話情報を付加されて順次バッファリングコンテンツ格納部127にバッファリングされる。図示した例では、コンテンツ1のシーン502、シーン503、シーン504が順次バッファリングされる。シーン502〜504には、それぞれ発話情報が付加されている(図中には発話情報503a、504aを示す)。
【0049】
図1に示した表示制御部125は、受信された発話情報501aと例えばシーン503、504の発話情報503a、504aとを比較する。そして、シーン503、504のうち、その発話情報がよりシーン501の発話情報に近いものが、シーン501の代替動画像データとして選択される。発話情報同士の比較は、音声再生時間の一致の程度に基づいて行われる。
【0050】
図6は、発話情報同士の比較を説明するための図であって、発話情報503a、504aのどちらが発話情報501aにより近いのかを、音声再生時間によって判定する例を示している。図6に示したように、シーン501の音声再生時間は1.28sである。一方、シーン503の音声再生時間は1.41s、シーン504の音声再生時間は1.31sである。シーン501の音声再生時間とシーン503の音声開始時間との差分は0.13s、シーン501の音声再生時間とシーン504の音声開始時間との差分は0.03sである。このとき、表示制御部125は、シーン504の方がシーン503よりもシーン501に近いと判定する。シーン504は、シーン501の代替動画像データに選択され、表示制御部125によって再生される。
このような本実施形態によれば、シーン501の代替動画像データとして、音声データの再生の終了と略同じ時刻に再生が終了するシーンを選択することができる。このため、音声データに対応するシーンとは別のシーンを再生したこと(つまり、音声と動画像との不一致)によってユーザに与える違和感を低減することができる。
【0051】
[代替専用のコンテンツを代替動画像データとする場合]
図7(a)、(b)は、代替動画像データとして使用される専用の代替コンテンツを説明するための図である。また、図8(a)、(b)は、図7と比較するため、シーンを再生して得られる画像を示した図である。
代替コンテンツは、ユーザが動画像を見た場合、動画像中のオペレータの発話状態が分からない、あるいはオペレータの発話状態が分かり難い動画像を再生するための動画像データである。「発話状態が分からない」とは、例えば、オペレータの口が見えない角度からオペレータを撮影した動画像データや、口が完全に隠れた状態の動画像データをいう。また、「オペレータの発話状態が分かり難い」とは、例えば、オペレータの口が見え隠れする等、口の開閉の状態が理解し難い状態の動画像データをいう。
【0052】
すなわち、図7(a)、(b)は、代替コンテンツを再生して得られる動画像を示している。図7(a)は、下を向いた状態のオペレータの動画像であり、このような動画像ではオペレータの口が完全に見えない状態になっている。図7(b)は、横を向いた状態のオペレータの動画像であり、このような動画像では、オペレータを横から撮影しているため、オペレータの口がマイクロホンと重なって見えて口の開閉の状態が見え難い状態になっている。
【0053】
図8(a)、(b)は、シーンを再生して得られる、オペレータの口が完全に見える状態の動画像である。このような動画像では、口の開閉に一致して音声が再生されるので、ユーザは実オペレータと対話しているような臨場感を得ることができる。しかし、図8(a)、(b)に示した動画像が、音声の再生開始と異なるタイミングで再生されると、オペレータの口の開閉と音声が一致せず、かえってユーザに違和感を与えることになる。
一方、本実施形態では、次に受信されるシーンが発話情報に含まれる開始時刻の直前までにバッファリングできない場合、例えば図7(a)、(b)に示した代替コンテンツをシーンの代替えとするので、音声と動画像との不一致による違和感を低減することができる。
【0054】
図9は、代替動画像データとなる代替コンテンツを選択する処理を説明するための図である。図9に示したように、代替コンテンツ格納部126には、複数の代替コンテンツ701、702、703が格納されている。代替コンテンツ701〜703には、代替コンテンツの再生にかかる音声再生時間が情報として付されている。本実施形態では、例えば、代替コンテンツ701〜703のうち、バッファリングされなかったシーンの音声再生時間に最も近い代替コンテンツが表示制御部125によって代替動画像データに選択される。
【0055】
また、本実施形態は、代替動画像データとして1つの代替コンテンツが選択されるものに限定されるものではない。例えば、バッファリングされなかったシーンの音声再生時間が1.7秒であった場合、図9に示した代替コンテンツ701と代替コンテンツ703とが選択される。代替コンテンツ701の再生時間である0.5秒と代替コンテンツ703の再生時間1.2秒とを足し合わせると、バッファリングされなかったシーンの音声再生時間1.7秒に一致する。
【0056】
このような場合、本実施形態では、代替コンテンツ701と代替コンテンツを連続して再生させることにより、バッファリングされなかったシーンの音声の再生が完了するタイミングに合わせて代替コンテンツを再生することができる。
なお、以上説明した代替動画像データをシーンの代替とする処理は、以降に受信されたシーンのいずれかが再生開始時刻の直前までにバッファリングが完了すると終了する。そして、バッファリングされたシーンが、その再生開始時刻に再生される。
【0057】
また、以上述べた実施形態では、動画像用端末102がネットワーク回線N1の利用可能帯域を測定してシーンの再生が可能か否かを判断する例について説明した。しかし、本実施形態は、このような例に限定されるものではなく、他の方法によってシーンが開始時刻までに再生できるか否か判断するものであってもよい。他の方法としては、例えば、動画像用端末の動画像の再生にかかる処理を実行するCPUの稼働率を使ってシーンが再生開始時刻に再生できるか否か判断する方法が考えられる。
【0058】
(3)音声用端末
音声用端末103は、ユーザが発話した対話音声を入力し、音声対話サーバ101から送信された音声データを再生した音声を出力する音声入出力部130、ユーザの操作によって情報が入力されるキー入力部131、ディスプレイ画面等の表示部121、音声対話サーバとの間で音声データを送受信する通信部133を備えている。このような構成は、一般的な携帯電話機が備える機能であるから、これ以上の説明を省く。
【0059】
(4)バックヤード端末
ここで、再び図1を参照し、バックヤード端末104について説明する。
バックヤード端末104は、音声対話サーバ101、あるいは音声対話サーバ101を介してユーザと通信するための通信部140、ディスプレイ画面等の表示部141、音声対話サーバ101において扱われるコンテンツが登録されるコンテンツ登録部142を備えている。バックヤード端末104としては、汎用的なPCを適用することも可能である。
【0060】
バックヤード端末104は、実オペレータによって操作され、音声対話サーバ101と連携し、音声対話サーバ101では対応できない問い合わせに応答する。音声対話サーバ101との連携とは、例えば、音声対話サーバ101によってユーザの問い合わせの内容を絞り込んだ後、この内容を担当する実オペレータに引き継ぐことが考えられる。
なお、実オペレータが対応を引き継いだ場合、音声対話サーバ101の対話シナリオ選択履歴格納部117からシナリオの履歴がバックヤード端末104に送信される。このような処理により、本実施形態では、ユーザは、音声対話サーバに応答して入力した情報を実オペレータに再度話す必要がなくなる。
また、音声対話サーバ101の対話シナリオ選択部114がユーザの発話した内容を認識できなかった、あるいは認識の精度が低かった場合、認識できなかった等の部分が表示部141に表示される。表示された部分の内容は、実オペレータによってユーザに確認される。
【0061】
図10は、ユーザが発話した内容の認識の精度が低い場合、実オペレータによってなされる処理を、通信販売における商品の注文を例にして説明するための図である。図10(a)は、音声対話サーバ101によって認識された内容を示す。また、図10(b)は、図10(a)に示した内容のうち、認識度が低い(例えば70%以下)の内容を実オペレータに対して表示する画面を示す。図10に示した例では、ユーザが「そうだなぁ、グウェーンにしようかな」と発話し、対話シナリオ選択部114が「グウェーン」を「グリーン」であると認識したものの、この認識率が低かったため実ユーザに確認を促したものである。
【0062】
(対話型サービス提供方法)
図11は、本実施形態の対話型サービス提供方法を説明するためのタイミングチャートであって、動画像用端末、音声対話サーバ、音声用端末間でわれる処理を説明するための図である。図11に示した処理は、前記した代替コンテンツを代替動画像データとする例を説明するための図である。
本実施形態のサービスの提供に先立って、動画像用端末は、webサイトにアクセスし(ステップS4)、対話型サービスの利用をユーザに促すためのコンテンツの取得を要求する(a)。音声対話サーバは、要求に応答した後(b)、対話型サービスの利用をユーザに促すための動画像コンテンツと音声コンテンツとを選択する(ステップS11)。そして、選択された動画像コンテンツと音声コンテンツとをコンテンツ格納部116から取得する(j)。
【0063】
選択された動画像コンテンツ及び音声コンテンツは、動画像用端末に送信される(c)。動画像端末は、送信された動画像コンテンツ及び音声コンテンツをバッファリングする(ステップS5)。そして、音声対話サーバからコンテンツを受信するのに利用可能な利用可能帯域を算出しておく(ステップS6)。
以上の処理の後、ユーザが音声用端末から音声対話サーバに電話をかけると(ステップS1)、ネットワーク回線N2を介してユーザが発話した音声が音声対話サーバに向けて送信される(d)。音声対話サーバは、電話の着信を動画像用端末に通知することにより(e)、対話型サービス提供の開始を通知する。
【0064】
動画像用端末は、音声対話サーバからの通知によって、ステップS5においてバッファリングされた動画像コンテンツ及び音声コンテンツの再生を開始する(ステップS7)。ステップS7で再生された動画像に応じてユーザが音声用端末から音声を入力する(ステップS2)。入力された音声は、音声対話サーバの図1に示した対話シナリオ選択部114によって認識される(ステップS12)。
対話シナリオ選択部114は、図2に示した手順でユーザの発話に応答するシナリオ(図2中に示したシステム発話)を選択する。そして、選択されたシナリオを参照し、シナリオに対応するコンテンツを選択する(ステップS13)。選択されたコンテンツは、コンテンツ格納部116から読み出される(k)。
【0065】
コンテンツ格納部116から読みだされたコンテンツは、シーンごとに、その応答確率が高いものから優先的に動画像用端末に順次送信される(g)。画像用端末は、送信されたシーンを受信し、バッファリングを開始する(ステップS8)。図1に示した帯域測定部124は、利用可能帯域を測定し、次に再生すべきシーン(ユーザ発話にしたがって確定したシーン)が開始時刻に再生できるか否か判断する(ステップS9)。本実施形態では、ステップS9の判断を、確定したシーンのバッファリングが開始時刻の直前までに完了するか否かによって行うものとする。
【0066】
ステップS9において、シーンが開始時刻に再生できないと判断された場合(ステップS9:No)、図1に示した表示制御部125は、先ず、バッファリングコンテンツ格納部127に、再生すべきシーンが格納されているか否か判断する(ステップS14)。そして、再生すべきシーンが格納されている場合、このシーンの再生を開始する(ステップS10)。
【0067】
一方、再生すべきシーンがバッファリングコンテンツ格納部127に格納されていない場合(ステップS14:No)、図1に示した表示制御部125は、代替コンテンツを選択する(ステップS15)。なお、代替コンテンツとしては、バッファリングできなかったシーンの音声の再生時間と再生時間が一致するように、1または複数の代替コンテンツが選択される。選択された代替コンテンツは、図1に示した代替コンテンツ格納部126から読み出される(h)。
【0068】
一方、ステップ9において、シーンが開始時刻までにバッファリングされて再生可能であると判断された場合(ステップS9:Yes)、表示制御部は、バッファリングされたシーンを取得する。そして、代替コンテンツまたはシーンの再生を開始する(ステップS10)。また、音声対話サーバからは、音声用端末に向けてシーンに対応する音声データが送信される(i)。音声用端末では、送信された音声データが再生される(ステップS3)。以上説明した処理のうち、図中に「B」で示した範囲の処理は、ユーザによる音声の入力が完了するまで繰返し行われる。このような本実施形態によれば、ユーザは、音声用端末で音声を聞きながら、この音声に対して違和感がない動画像を動画像用端末で見ることができる。
【0069】
図12は、本実施形態の対話型サービス提供システムにおいて実行される、ユーザ登録のための処理を説明するためのタイミングチャートである。このタイミングチャートは、図1に示した音声用端末103と音声対話サーバ101との間で行われる処理を説明するものである。また、図12に示した処理は、音声用端末が携帯電話機であって、メール機能及びwebブラウザの閲覧機能、電話機能を持っている場合に行われるものである。
【0070】
ユーザは、音声用端末を使って対話型サービス提供システムが提供するwebページのトップページにアクセスする(ステップS20)。アクセスにより、音声用端末と音声対話サーバとの間で情報の授受が可能な状態になる(l)。音声対話サーバは、アクセスに応答して対話型サービス提供システムへの登録ページにアクセスするURLをクリックするように要求する(m)。ユーザは、要求に応じて登録ページにアクセスする(ステップS21)。アクセスによって音声対話サーバにユーザ登録が要求される(n)。音声対話サーバは、要求に応じて空メールの送信を促すメッセージを音声用端末に送信する(o)。
【0071】
ユーザが音声用端末から音声対話サーバに空メールを送信すると(p)、空メールのメールアドレスが音声対話サーバの図1に示したユーザ情報DB115に登録される(ステップS26)。そして、一時的な識別子であるtemp−IDを発行し(ステップS27)、登録されたメールアドレスに対して送信する(ステップS28)。temp−IDの有効期間は30分程度とし、メールの本文にはtemp−ID用のURLが記載される。
【0072】
送信されたメールは、音声用端末に受信される(g)。ユーザがメール本文のURLをクリックすると(ステップS22)、音声対話サーバにtemp−IDと例えばi−mode(登録商標)IDのような音声端末を識別する識別子が送信される(r)。音声対話サーバでは、送信された識別子がユーザ情報DBに登録される。続いて、音声対話サーバは、音声端末に対してパスワードの入力画面を送信して応答する(s)。
【0073】
ユーザは、音声端末に受信されたパスワードが面から、音声端末の端末識別子及び任意に設定したパスワードを送信する(t)。音声対話サーバは、送信されたパスワードを受信してユーザ情報DB115に登録する(ステップS30)。パスワードの登録後、音声対話サーバから確認番号が発行される(ステップS31)。確認番号が音声用端末に送信される(u)。
【0074】
以上の処理の後、ユーザは音声対話サーバに対して電話をかける(ステップS24)。電話の着信に対しては(v)、音声対話サーバから音声、あるいは画像のガイダンスが応答する(w)。ユーザがガイダンスにしたがって確認番号をキー入力することにより(x)、ユーザの電話番号がユーザ情報DBに登録される(ステップS32)。
以上説明した処理によれば、PC等の動画像用端末と携帯電話機等の音声用端末を併用する本実施形態において、ユーザの電話番号を誤りなく登録することができる。
【産業上の利用可能性】
【0075】
本発明は、音声コンテンツと、この音声コンテンツに同期して再生される動画像コンテンツとによってユーザにサービスを提供するシステム全般に適用することができる。
【符号の説明】
【0076】
101 音声対話サーバ
102 動画像用端末
103 音声用端末
104 バックヤード端末
110 制御部
111 通信部
112 音声認識部
113 コンテンツ格納部
114 対話シナリオ選択部
116 コンテンツ格納部
117 対話シナリオ選択履歴管理部
120 入力部
121、132、141 表示部
123 通信部
124 帯域測定部
125 表示制御部
126 代替コンテンツ格納部
130 音声入出力部
131 キー入力部
133、140 通信部
142 コンテンツ登録部

【特許請求の範囲】
【請求項1】
音声に係る音声データと、動画像に係る動画像データとを、それぞれ異なる回線を介して送信する対話型サービス提供装置と、当該対話型サービス提供装置から前記動画像データを受信する動画像提供装置と、を少なくとも含む対話型サービス提供システムであって、
前記対話型サービス提供装置は、
前記音声データを、当該音声データを受信して再生する音声提供装置に送信する音声送信手段と、
前記音声データの再生が前記音声提供装置において開始されるタイミングに合わせて前記動画像データを前記動画像提供装置に送信する動画像送信手段と、を含み、
前記動画像提供装置は、
前記動画像データを再生する動画像再生手段と、
前記動画像再生手段によって次回以降に再生される動画像データである未再生動画像データが前記音声データの再生に同期して再生できるか否か判断する同期判断手段と、を備え、
前記動画像再生手段は、
前記同期判断手段によって前記未再生動画像データが前記音声データに同期して再生できると判断された場合には該未再生動画像データを再生し、前記同期判断手段によって前記未再生動画像データが前記音声データに同期して再生できないと判断された場合には、前記未再生動画像データに代えて、自装置内に蓄積されている動画像データを代替動画像データとして再生することを特徴とする対話型サービス提供システム。
【請求項2】
動画像に係る動画像データを動画像提供装置に所定の回線を介して送信し、音声に係る音声データを、前記回線と異なる他の回線を介して音声提供装置に送信する対話型サービス提供装置であって、
前記音声データを、当該音声データを受信して再生する前記音声提供装置に送信する音声送信手段と、
前記音声データの再生が前記音声提供装置において開始されるタイミングに合わせて前記動画像データを前記動画像提供装置に送信する動画像送信手段と、
を含むことを特徴とする対話型サービス提供装置。
【請求項3】
前記動画像送信手段は、前記動画像データを送信する以前に、送信される前記動画像データによって表される画像中の話者の発話に関する発話情報を前記動画像提供装置に送信することを特徴とする請求項2に記載の対話型サービス提供装置。
【請求項4】
前記発話情報が、前記動画像データと同期して再生される前記音声データの再生開始時刻にかかる開始時刻、前記音声データの再生にかかる音声再生時間の少なくとも一方を含むことを特徴とする請求項3に記載の対話型サービス提供装置。
【請求項5】
前記音声データ送信手段によって送信された音声データに対する応答として予め複数のユーザ発話と、当該ユーザ発話によってユーザが応答する確率を示す応答確率とが設定され、
前記動画像データ送信手段は、複数のユーザ発話のうち、前記応答確率が高いユーザ発話に対応する前記動画像データを優先して送信することを特徴とする請求項2又は3に記載の対話型サービス提供装置。
【請求項6】
音声に係る音声データと、動画像に係る動画像データとを、それぞれ異なる回線を介して送信する対話型サービス提供装置から前記動画像データを受信して再生する動画像提供装置であって、
前記動画像データを再生する動画像再生手段と、
前記動画像再生手段によって次回以降に再生される前記動画像データである未再生動画像データが前記音声データの再生に同期して再生できるか否か判断する同期判断手段と、
を備え、
前記動画像再生手段は、
前記同期判断手段によって前記未再生動画像データが前記音声データに同期して再生できると判断された場合には、前記未再生動画像データを再生し、前記同期判断手段によって前記未再生動画像データが前記音声データに同期して再生できないと判断された場合には、前記未再生動画像データに代えて自装置内に蓄積されている動画像データを代替動画像データとして再生することを特徴とする動画像提供装置。
【請求項7】
前記代替動画像データとなり得る動画像データが格納される代替コンテンツ格納手段と、
前記同期判断手段によって前記未再生動画像データが前記音声データに同期して再生できないと判断された場合、前記未再生動画像データによって表される動画像中の話者の発話に関する発話情報に基づいて、前記未再生動画像データに代えて再生される代替動画像データを前記代替コンテンツ格納手段から選択する代替動画像データ選択手段と、
をさらに含むことを特徴とする請求項6に記載の動画像提供装置。
【請求項8】
前記代替動画像データ選択手段は、前記代替動画像データとして、前記対話型サービス提供装置から既に受信され、前記代替コンテンツ格納手段に蓄積されている蓄積動画像データを選択することを特徴とする請求項7に記載の動画像提供装置。
【請求項9】
前記代替動画像データ選択手段は、前記代替コンテンツ格納手段から、話者の発話の状態が分からない、あるいは話者の発話の状態が分かり難い動画像を再生するための代替動画像データを前記代替動画像データとして選択することを特徴とする請求項6に記載の動画像提供装置。
【請求項10】
前記発話情報が、前記未再生動画像データと同期して再生される音声データの再生にかかる音声再生時間を含み、
前記代替動画像データ選択手段は、前記蓄積動画像データ、または前記代替動画像データのうち、動画像中の話者の発話にかかる時間が前記音声再生時間により近いものを前記代替動画像データとして選択することを特徴とする請求項6から8のいずれか1項に記載の動画像提供装置。
【請求項11】
動画像に係る動画像データを動画像提供装置に所定の回線を介して送信し、音声に係る音声データを、前記回線と異なる他の回線を介して音声提供装置に送信する対話型サービス提供装置であって、
前記音声データを、当該音声データを受信して再生する前記音声提供装置に送信する音声送信工程と、
前記音声データの再生が前記音声提供装置において開始されるタイミングに合わせて前記動画像データを前記動画像提供装置に送信する動画像送信工程と、
を含むことを特徴とする対話型サービス提供方法。
【請求項12】
音声に係る音声データと、動画像に係る動画像データとを、それぞれ異なる回線を介して送信する対話型サービス提供装置から前記動画像データを受信して再生する動画像提供装置において実行される動画像提供プログラムであって、
コンピュータに、
前記動画像データのうちの次回以降に再生される未再生動画像データが前記音声データの再生に同期して再生できるか否かを判断する同期判断機能と、
前記同期判断機能によって前記未再生動画像データが前記音声データに同期して再生できると判断された場合には前記未再生動画像データを再生し、前記同期判断機能によって前記未再生動画像データが前記音声データに同期して再生できないと判断された場合には、前記未再生動画像データに代えて、自装置内に蓄積されている動画像データを代替動画像データとして再生する再生機能と、
を実現させることを特徴とする動画像提供プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate


【公開番号】特開2011−223323(P2011−223323A)
【公開日】平成23年11月4日(2011.11.4)
【国際特許分類】
【出願番号】特願2010−90604(P2010−90604)
【出願日】平成22年4月9日(2010.4.9)
【出願人】(392026693)株式会社エヌ・ティ・ティ・ドコモ (5,876)
【Fターム(参考)】