対話型サービス提供システム、対話型サービス提供装置、動画像提供装置、対話型サービス提供方法、動画像提供プログラム

【課題】音声と動画像に不一致が生じた場合にも、ユーザに違和感を与えないように代替の動画像を再生し、サービスを円滑に提供することができる対話型サービス提供システムを提供する。
【解決手段】音声データを音声用端末１０３に送信すると共に、音声データの再生が音声用端末１０３において開始されるタイミングに合わせて動画像データを動画像用端末１０２に送信する通信部１１１を有する音声対話サーバ１０１、送信された動画像データを順次再生し、次回以降に再生される未再生動画像データが音声データの再生に同期して再生できる場合には未再生動画像データを再生し、音声データの再生に同期して再生できない場合には未再生動画像データに代えて蓄積されている代替動画像データを再生する動画像用端末１０２によって対話型サービス提供システムを構成する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、対話型のサービス提供システム、サービス提供装置、動画像提供装置、対話型サービス提供方法、動画提供プログラムに係り、特に、動画像中のオペレータがユーザと擬似的に対話してサービスを提供する対話型サービス提供システム、対話型サービス提供装置、動画像提供装置、対話型サービス提供方法、動画像提供プログラムに関する。
【背景技術】
【０００２】
電話による多数の問合せがなされるサービスでは、コールセンターと呼ばれる拠点においてオペレータが電話に応答し、問合せに応えている。しかし、コールセンターの運営には、多くのオペレータを雇用し、教育することが必要になる。オペレータに係るコストを低減するため、現在では、多くのサービスにおいてオペレータに代わってコンピュータ等が自動的に音声をユーザに提供し、問合せを受け付けるシステムが採用されている。
【０００３】
また、現在では、ユーザに動画像を提供し、問合せに応えるシステムも多く実用化されている。このようなシステムでは、オペレータの動画像をユーザに提供することにより、ユーザに対して現実に人間のオペレータと対話しているような臨場感を与えることができる。動画像を使ってユーザに応答するシステムの従来例としては、例えば、非特許文献１が挙げられる。従来の動画像を使ってユーザに応答するシステムでは、オペレータの動画像の他、漫画や所謂キャラクタと呼ばれるマスコットを使ったアニメーション等も多く利用されている。
【０００４】
ただし、動画像を提供するサービスの多くは、文字やアイコンの選択等によってユーザが自身の意思を入力するようになっている。このため、操作に不慣れなユーザは、従来の電話による応答を好む傾向にある。
以上のことから、ユーザが動画像のオペレータと擬似的に対話してサービスの提供を受けることができるシステムが望まれていた。なお、このようなシステムを、本明細書では、以降、対話型サービス提供システムと記す。
【先行技術文献】
【非特許文献】
【０００５】
【非特許文献１】「ストリーミングサーバー・ホスティングサービスの動画像配信サービス」、［ｏｎｌｉｎｅ］、株式会社イデア、［平成２２年３月２４日検索］、インターネット＜ＵＲＬ：http://www.ideastream.co.jp/seen.html＞
【発明の概要】
【発明が解決しようとする課題】
【０００６】
動画像を提供できる装置には、音声による対話の機能を備えていないものも多い。このため、対話型サービスを実現するためには、動画像を取得、再生可能であって、かつ音声による対話ができる機能を備えた機器が必要になり、この点が対話型サービスの普及を阻害する一因になっていた。このような点を解消するためには、動画像と音声とを別の機器を使ってユーザに提供あるいはユーザから入力することが考えられる。動画像を提供する機器としては、コンピュータ等が考えられる。また、音声を提供または入力する機器としては、電話機が考えられる。
【０００７】
ただし、動画像と音声とを別の機器からユーザに提供するシステムでは、動画像と音声との同期をとることが必要になる。すなわち、音声は携帯電話機の回線のような狭帯域ネットワークを使って提供されるが、動画像はインターネット等の広帯域のネットワーク回線を使って提供される。このため、音声に遅延等が生じることはないが、動画像の提供には回線の輻輳等によるパケットロス等によってデータ転送に遅延が生じ得る。動画像に遅延が生じると、ユーザに提供される動画像と音声との間に不一致が生じ、ユーザに違和感を与え、円滑なサービスの提供に支障を生じることになる。このため、このようなシステムでは、映像中の実写のオペレータの口の動きや所作を、ユーザに違和感を与えないものにすることが要求されている。
【０００８】
本発明は、上記した点に鑑みてなされたものであって、対話型サービス提供の分野において、音声と動画像に不一致が生じた場合にも、ユーザに違和感を与えないように代替の動画像を再生し、サービスを円滑に提供することができる対話型サービス提供システム、対話型サービス提供装置、動画像提供装置、対話型サービス提供方法、動画像提供プログラムを提供することを目的とする。
【課題を解決するための手段】
【０００９】
以上の課題を解決するため、本発明による対話型サービス提供システムは、音声に係る音声データと、動画像に係る動画像データとを、それぞれ異なる回線を介して送信する対話型サービス提供装置（例えば図１に示した音声対話サーバ１０１）と、当該対話型サービス提供装置から前記動画像データを受信する動画像提供装置（例えば動画像用端末１０２）と、を少なくとも含む対話型サービス提供システムであって、前記対話型サービス提供装置は、前記音声データを、当該音声データを受信して再生する音声提供装置に送信する音声送信手段（例えば図１に示した通信部１１１）と、前記音声データの再生が前記音声提供装置において開始されるタイミングに合わせて前記動画像データを前記動画像提供装置に送信する動画像送信手段（例えば図１に示した通信部１１１）と、を含み、前記動画像提供装置は、前記動画像データを再生する動画像再生手段と、（例えば図１に示した表示制御部１２５）と、前記動画像再生手段によって次回以降に再生される動画像データである未再生動画像データが前記音声データの再生に同期して再生できるか否か判断する同期判断手段（例えば図１に示した表示制御部１２５）と、を備え、前記動画像再生手段は、前記同期判断手段によって前記未再生動画像データが前記音声データに同期して再生できると判断された場合には、該未再生動画像データを再生し、前記同期判断手段によって前記未再生動画像データが前記音声データに同期して再生できないと判断された場合には、前記未再生動画像データに代えて、自装置内に蓄積されている動画像データ（例えば図５に示したシーン５０２〜５０４、または図７に示した代替コンテンツ７０１〜７０３）を代替動画像データとして再生することを特徴とする。
【００１０】
このような発明によれば、動画像データと音声データとを、各々の再生機能を有する既存の機器に送信し、同期して再生することができる。このため、専用の機器を新たに設ける必要がなく、本発明の実現及び普及を簡易にすることができる。また、動画像と音声との違和感をユーザに与えることがなく、円滑なサービスを提供することができる対話型サービス提供システムを提供することができる。
【００１１】
また、本発明による対話型サービス提供装置は、動画像に係る動画像データを動画像提供装置に所定の回線を介して送信し、音声に係る音声データを、前記回線と異なる他の回線を介して音声提供装置に送信する対話型サービス提供装置であって、前記音声データを、当該音声データを受信して再生する前記音声提供装置に送信する音声送信手段と、前記音声データの再生が前記音声提供装置において開始されるタイミングに合わせて前記動画像データを前記動画像提供装置に送信する動画像送信手段と、を含むことを特徴とする。
このような発明によれば、動画像データと音声データとを、各々の再生機能を有する既存の機器に送信し、同期して再生することができる。このため、専用の機器を新たに設ける必要がなく、本発明の実現及び普及を簡易にすることができる対話型サービス提供装置を提供することができる。
【００１２】
上記の対話型サービス提供装置において、前記動画像送信手段が、前記動画像データを送信する以前に、送信される前記動画像データによって表される画像中の話者の発話に関する発話情報を前記動画像提供装置に送信することが望ましい。
このような発明によれば、動画像提供装置側から動画像データの発話にかかる情報をこの動画像データに先立って送信することができる。このため、発話情報の受信先では、未再生の動画像データ開始時刻通りに再生できるか否か判断することができる。
【００１３】
上記の対話型サービス提供装置において、前記発話情報が、前記動画像データと同期して再生される前記音声データの再生開始時刻にかかる開始時刻（例えば図３に示した開始時刻）、前記音声データの再生にかかる音声再生時間（例えば図３に示した音声再生時間）の少なくとも一方を含むことが望ましい。
このような発明によれば、動画像提供装置側から動画像データが同期する音声データの再生開始時刻、再生にかかる時間を動画像データに先立って送信することができる。このため、発話情報の受信先では、未再生の動画像データに代わる代替動画像データとして、ユーザに与える違和感が小さい動画像データを選択することができる。
【００１４】
上記の対話型サービス提供装置において、前記音声データ送信手段によって送信された音声データに対する応答として予め複数のユーザ発話と、当該ユーザ発話によってユーザが応答する確率を示す応答確率とが設定され、前記動画像データ送信手段は、複数のユーザ発話のうち、前記応答確率が高いユーザ発話に対応する前記動画像データを優先して送信することが望ましい。
このような発明によれば、再生される可能性の高い動画像データを優先的に送信し、音声の再生開始時間までに動画像データが再生できない確率を低減することができる。
【００１５】
また、本発明の動画像提供装置は、音声に係る音声データと、動画像に係る動画像データとを、それぞれ異なる回線を介して送信する対話型サービス提供装置から前記動画像データを受信して再生する動画像提供装置であって、前記動画像データを再生する動画像再生手段と、前記動画像再生手段によって次回以降に再生される前記動画像データである未再生動画像データが前記音声データの再生に同期して再生できるか否か判断する同期判断手段と、を備え、前記動画像再生手段は、前記同期判断手段によって前記未再生動画像データが前記音声データに同期して再生できると判断された場合には、前記未再生動画像データを再生し、前記同期判断手段によって前記未再生動画像データが前記音声データに同期して再生できないと判断された場合には、前記未再生動画像データに代えて自装置内に蓄積されている動画像データを代替動画像データとして再生することを特徴とする。
このような発明によれば、動画像と音声との違和感をユーザに与えることがなく、円滑なサービスを提供できる動画像提供装置を提供することができる。
【００１６】
上記の動画像提供装置において、前記代替動画像データとなり得る動画像データが格納される代替コンテンツ格納手段（例えば図１に示した代替コンテンツ格納部１２６、バッファリングコンテンツ格納部１２７）と、前記同期判断手段によって前記未再生動画像データが前記音声データに同期して再生できないと判断された場合、前記未再生動画像データによって表される動画像中の話者の発話に関する発話情報に基づいて、前記未再生動画像データに代えて再生される代替動画像データを前記代替コンテンツ格納手段から選択する代替動画像データ選択手段と、をさらに含むことが望ましい。
このような発明によれば、動画像と音声との不一致による違和感をユーザに与えることがない動画像データを発話情報に基づいて選択し、円滑なサービスを提供することができる。
【００１７】
上記の動画像提供装置において、前記代替動画像データ選択手段が、前記代替動画像データとして、前記対話型サービス提供装置から既に受信され、前記代替コンテンツ格納手段に蓄積されている蓄積動画像データ（例えば図５に示したシーン５０２〜５０４）を選択することが望ましい。
このような発明によれば、既に受信され、前記代替コンテンツ格納手段に蓄積されている蓄積動画像データを使ってユーザに与えることがない、円滑なサービスを提供できる動画像提供装置を提供することができる。
【００１８】
上記の動画像提供装置において、前記代替動画像データ選択手段は、前記代替コンテンツ格納手段から、話者の発話の状態が分からない、あるいは話者の発話の状態が分かり難い動画像を再生するための代替動画像データ（例えば図７に示した代替コンテンツ７０１〜７０３）を前記代替動画像データとして選択することが望ましい。
このような発明によれば、画像中のオペレータの口の動き等を考慮することなく、簡易に代替動画像データを選択することができる。
【００１９】
上記動画像提供装置において、前記発話情報が、前記未再生動画像データと同期して再生される音声データの再生にかかる音声再生時間を含み、前記代替動画像データ選択手段は、前記蓄積動画像データ、または前記代替動画像データのうち、動画像中の話者の発話にかかる時間が前記音声再生時間により近いものを前記代替動画像データとして選択することが望ましい。
このような発明によれば、画像中のオペレータの口の動き等を考慮することなく、簡易に代替動画像データを選択することができる。
【００２０】
また、本発明による対話型サービス提供方法は、動画像に係る動画像データを動画像提供装置に所定の回線を介して送信し、音声に係る音声データを、前記回線と異なる他の回線を介して音声提供装置に送信する対話型サービス提供装置であって、前記音声データを、当該音声データを受信して再生する前記音声提供装置に送信する音声送信工程（例えば図１１に示した（ｉ））と、前記音声データの再生が前記音声提供装置において開始されるタイミングに合わせて前記動画像データを前記動画像提供装置に送信する動画像送信工程（例えば図１１に示した（ｇ））と、を含むことを特徴とする。
このような発明によれば、動画像データと音声データとを、各々の再生機能を有する既存の機器に送信し、同期して再生することができる。このため、専用の機器を新たに設ける必要がなく、本発明の実現及び普及を簡易にすることができる対話型サービス提供方法を提供することができる。
【００２１】
また、本発明による動画像提供プログラムは、音声に係る音声データと、動画像に係る動画像データとを、それぞれ異なる回線を介して送信する対話型サービス提供装置から前記動画像データを受信して再生する動画像提供装置において実行される動画像提供プログラムであって、コンピュータに、前記動画像データのうちの次回以降に再生される未再生動画像データが前記音声データの再生に同期して再生できるか否か判断する同期判断機能（例えば図１１に示したステップＳ９）と、前記同期判断機能によって前記未再生動画像データが前記音声データに同期して再生できると判断された場合には前記未再生動画像データを再生し（例えば図１１に示したステップＳ１０）、前記同期判断機能によって前記未再生動画像データが前記音声データに同期して再生できないと判断された場合には、前記未再生動画像データに代えて、自装置内に蓄積されている動画像データを代替動画像データとして再生する再生機能（例えば図１１に示したステップＳ１４、Ｓ９、（ｈ））と、を含むことを特徴とする。
このような発明によれば、動画像と音声との不一致による違和感をユーザに与えることがなく、円滑なサービスを提供できる動画像提供プログラムを提供することができる。
【発明の効果】
【００２２】
本発明によれば、対話型サービス提供の分野において、音声と動画像とに不一致が生じた場合にも、不一致による違和感をユーザに与えないように代替えの動画像を再生し、サービスを円滑に提供することができる。
【図面の簡単な説明】
【００２３】
【図１】本発明の一実施形態の対話型サービス提供システムのシステム構成及びシステムに含まれる装置の機能ブロックを説明するための図である。
【図２】本発明の一実施形態の対話シナリオについて説明するための図である。
【図３】図１に示したコンテンツ格納部に格納されている動画像データを説明するための図である。
【図４】図１に示した音声対話サーバのユーザ情報ＤＢにおいて管理されているユーザ情報を説明するための図である。
【図５】本発明の一実施形態の既に受信されたシーンを代替動画像データとする場合の処理について説明するための図である。
【図６】本発明の一実施形態の、発話情報同士の比較を説明するための図である。
【図７】本発明の一実施形態の、代替動画像データとして使用される専用の代替コンテンツを説明するための図である。
【図８】図７と比較するために示した、シーンを再生して得られる画像である。
【図９】本発明の一実施形態の代替動画像データとなる代替コンテンツを選択する処理を説明するための図である。
【図１０】本発明の一実施形態の、実オペレータによってなされる処理を説明するための図である。
【図１１】本発明の一実施形態の対話型サービス提供方法を説明するためのタイミングチャートである。
【図１２】本発明の一実施形態のユーザ登録のための処理を説明するためのタイミングチャートである。
【発明を実施するための形態】
【００２４】
以下、本発明の対話型サービス提供システム、対話型サービス提供装置、動画像提供装置、対話型サービス提供方法の一実施形態について説明する。
なお、本実施形態において、あるいは音声（あるいは音声データ）と動画像（あるいは動画像データ）とが一致するとは、音声データに予め対応付けられている動画像データが、音声データの再生に同期して再生される状態をいい、これ以外の状態を音声と動画像とは不一致であるとする。本実施形態でいう不一致の具体的な形態としては、例えば、音声データに対応付けられている動画像データが、音声データの再生に同期せず、音声データの再生に遅延、または先行して再生される状態をいう。
【００２５】
（システム構成）
図１は、本実施形態の対話型サービス提供システムのシステム構成及びシステムに含まれる装置の機能ブロックを説明するための図である。
対話型サービス提供システムは、動画像に係るデータ（以降、本実施形態では動画像データと記す）については広帯域のネットワーク回線Ｎ1を介して動画像用端末１０２に送信し、音声に係るデータ（以降、本実施形態では音声データと記す）については狭帯域のネットワーク回線Ｎ2を介して音声用端末１０３に送信する対話型サービス提供装置を含んでいる。
【００２６】
本実施形態の対話型サービス提供装置は、ネットワーク回線Ｎ1、Ｎ2を介してユーザにサービスを提供するサーバ装置として構成されている。このため、本実施形態では、対話型サービス提供装置を音声対話サーバ１０１と記す。また、ネットワーク回線Ｎ1はインターネット回線であって、ネットワーク回線Ｎ2は携帯電話機の回線網（図中に携帯網と記す）である。動画像用端末１０２は汎用的なパーソナルコンピュータ（ＰＣ）、音声用端末１０３は一般的な携帯電話機とする。
さらに、本実施形態の対話型サービス提供システムは、バックヤード端末１０４を含んでいる。バックヤード端末１０４は、音声対話サーバ１０１の管理側の端末装置であって、例えば、音声対話サーバ１０１による応答の後、人間のオペレータ（以降、本実施形態では実オペレータと記す）がバックヤード端末１０４を使ってユーザの要求に対して応答する。
【００２７】
次に、以上説明した対話型サービス提供システムに含まれる、各構成について説明する。
（１）音声対話サーバ
図１に示したように、音声対話サーバ１０１は、動画像用端末１０２、音声用端末１０３、バックヤード端末１０４と通信するための通信部１１１を備えている。通信部１１１は、音声データを、音声データを受信して再生する音声用端末１０３に送信する。動画像データは、音声データの再生が、音声用端末１０３において開始されるタイミングに合わせて動画像用端末１０２に送信される。なお、本実施形態でいう「動画像データを、音声データの再生が音声用端末において開始されるタイミングに合わせて動画像用端末に送信される」とは、動画像データの送信から動画像用端末１０２におけるバッファリング、再生の処理にかかる時間及びそのマージンを決定し、決定された時間を音声データの送信タイミングから逆算して得られるタイミングで動画像データを送信することをいうものとする。
【００２８】
本実施形態の音声対話サーバ１０１は、送信された音声データにユーザが応答するためにユーザが発話した音声（以降、本実施形態では対話音声と記す）を認識する音声認識部１１２、音声認識部１１２による認識の結果に基づいて、ユーザの対話音声に応答するための対話シナリオを、予め設定されている対話シナリオから選択する対話シナリオ選択部１１４を備えている。また、対話シナリオ選択部１１４によって選択された対話シナリオを管理する対話シナリオ選択履歴管理部１１７を備えている。
【００２９】
また、本実施形態の音声対話サーバ１０１では、複数のシーンを含む動画像データの１単位（以下、本実施形態ではコンテンツと記す）が、コンテンツ格納部１１６に蓄積されている。音声認識部１１２による認識の結果に基づいて、コンテンツが、コンテンツ格納部１１６から選択される。
さらに、音声対話サーバ１０１は、音声対話型サービス提供システムのユーザに関するユーザ情報が蓄積されるユーザ情報データベース（以下、ＤＢと略記する）を備えている。音声対話サーバ１０１は、以上の構成を統括的に制御する制御部１１０を備えている。
【００３０】
（ｉ）対話シナリオの選択
以下、対話型サービス提供システムが携帯電話機の契約に関するサービスを提供するものとして、本実施形態の音声対話サーバ１０１において実行される対話シナリオの選択について説明する。
図２は、本実施形態の対話シナリオについて説明するための図である。図２においては、音声対話サーバ１０１から音声用端末１０３に送信される音声データを「システム発話」、システム発話に応答してユーザが発話した対話音声を「ユーザ発話」と記す。図２（ａ）は、ユーザが音声用端末１０３を使って音声対話サーバ１０１に電話をかけることにより、音声対話サーバ１０１から音声用端末１０３にランダムに送信されるシステム発話を示している。図２（ｂ）は、図２（ａ）に示したシステム発話に応答するユーザ発話として考え得る対話音声を示している。図２（ｃ）は、図２（ｂ）に示した対話音声に応答する音声データに使用可能な複数の対話シナリオを示している。
【００３１】
本実施形態では、音声対話サーバ１０１から音声用端末１０３に対し、例えば、「料金プランについてご説明致しましょうか？」の音声データが送信される。本実施形態では、図２（ｂ）に示したように、ユーザの対話音声について「肯定」、「否定」、「不明応答」、「応答無し」の４つのグループが設定されている。そして、各グループにユーザの対話音声として予想される内容が予め登録されている。
図２に示した例では、「肯定」のグループ「Ｕ−０１１」には、「はい」、「うん」、「そう」等の複数の音声が登録されている。ユーザの対話音声がグループ「Ｕ−０１１」に登録されているいずれかの音声に該当すると、音声認識部１１２により、対話音声が「肯定」を示すものであると認識される。
【００３２】
同様に、「否定」のグループ「Ｕ−０１２」には、「いいえ（いいや）」、「別に」、「必要ない」等の複数の音声が登録されている。ユーザの対話音声がグループ「Ｕ−０１２」に登録されているいずれかの音声に該当すると、音声認識部１１２により、対話音声が「否定」を示すものであると認識される。また、ユーザの対話音声がグループ「Ｕ−０１１」、「Ｕ−０１２」に登録されているいずれかの音声にも該当しない場合、音声認識部１１２により、対話音声が「不明応答」のグループ「Ｕ−０１３」に該当すると認識される。対話音声が所定の時間内に受信できない場合、音声認識部１１２により、対話音声が「応答無し」のグループ「Ｕ−０１４」に該当すると認識される。
【００３３】
なお、図２（ｂ）のグループ「Ｕ−０１１」〜グループ「Ｕ−０１３」の各々の下に記された「０．６５」、「０．２１」、「０．１１」、「０．０３」の数値は、対話音声の履歴によって統計的に算出された、対話音声が各グループに属する確率（以降、本実施形態では応答確率と記す）を示している。応答確率は、後述する動画像データ送信の優先順位の決定に用いられる。
なお、応答確率は、音声対話サーバ１０１が備える対話シナリオ選択履歴管理部１１７によって管理されている履歴から各ユーザ発話が選択された回数をカウントし、演算することによって得られた確率である。
【００３４】
対話音声がグループ「Ｕ−０１１」に属する場合、対話シナリオ選択部１１４により、図２（ｃ）に示した対話シナリオ「Ｃ−０２１」〜対話シナリオ「Ｃ−０２４」のいずれかがランダムに選択される。本実施形態において複数の対話シナリオがランダムに選択されるようにしたのは、ユーザに対して繰り返し同じ音声データが送信されることを避けるためである。
対話シナリオ選択部１１４によって選択されたシナリオは、音声データとして通信部１１１から音声用端末１０３に送信される。この結果、音声用端末１０３のスピーカからはシナリオにしたがった音声が出力される。
【００３５】
（ｉｉ）コンテンツ格納部
図３は、コンテンツ格納部１１６に格納されているコンテンツを説明するための図である。本実施形態では、コンテンツがさらに小さな単位動画像データである「シーン」によって構成されるものとする。
図３（ａ）〜（ｃ）はコンテンツ１に含まれる複数のシーン１〜シーン３を説明するための図である。すなわち、本実施形態のシーンは、オペレータＯＰが対話シナリオにしたがって発話している状態を示す動画像を、オペレータＯＰが発話した音声をテキストに置き換えて形成される文章の一文（句点「。」から「。」まで）ごとに区切って形成されている。したがって、テキストの一文は、複数のシーンのうちの少なくとも１つのシーンに対応付けられることになる。
【００３６】
例えば、図３（ａ）に示したシーン１は、「いらっしゃいませ」の一文の音声データが再生される間に再生される動画像データである。コンテンツ格納部１１３には、シーン１が、表題（「コンテンツ１／シーン１」）、コンテンツ１の再生開始を起点とする音声データの再生開始時刻、音声データの再生にかかる時間が、オペレータＯＰの発話にかかる発話情報として付加された状態で格納される。
【００３７】
図３（ｂ）に示したシーン２は、「いつもありがとうございます」の一文の音声データが再生される間に再生される動画像データである。コンテンツ格納部１１３には、シーン２が、表題（「コンテンツ１／シーン２」）、コンテンツ１の再生開始を起点とする音声データの再生開始時刻、音声データの再生にかかる時間が発話情報として付加された状態で格納される。図３（ｃ）に示したシーン３は、「何かお探しですか」の一文の音声データが再生される間に再生される動画像データである。コンテンツ格納部１１３には、シーン３が、表題（「コンテンツ１／シーン３」）、コンテンツ１の再生開始を起点とする音声データの開始時刻、音声データの再生にかかる音声再生時間が発話情報として付加された状態で格納される。発話情報は、図３（ｄ）に示すように、コンテンツ管理テーブルによって管理されている。
【００３８】
コンテンツ格納部１１６に格納されているシーンは、図３（ａ）に示したシステム発話が音声対話サーバ１０１によって音声用端末１０３に送信された時点から対話シナリオ選択部１１４によって選択される。そして、通信部１１１からネットワークＮ1を介して動画像用端末１０２に順次送信される。この送信は、送信されたシーンが動画像用端末１０２において再生されるとき、音声とオペレータＯＰの口の動きとが一致するように、音声データの音声再生開始時刻に合わせて行われる。
【００３９】
このとき、音声選択部１１４は、前記した応答確率を参照し、応答確率の高いユーザ発話（図２に示した例ではＵ−０１１）に属するシナリオ（図２に示した例ではＣ−０２１〜Ｃ−０２４）のうちのランダムに選択された１つに対応するシーンが、他のユーザ発話に属するシナリオに対応するシーンよりも優先して送信する。そして、ユーザ発話が確定した場合、このユーザ発話に対応するシナリオが未だ送信されていなければ、確定したユーザ発話に応答するシーンも送信される。
このような構成によれば、動画像用端末１０２において再生される可能性の高いシーンを優先的に送信することができる。このため、再送すべきシーンのバッファリングが音声の再生開始までに完了する可能性を高めることができる。
【００４０】
また、本実施形態では、音声対話サーバ１０１が、シーンの送信に先立って図３（ｄ）に示した発話情報を送信する。発話情報を送信することにより、動画像用端末１０２において、これから受信され、次回以降に再生される未再生のシーンが音声データと同期して再生できない場合、どのように対処するかを判断することが可能になる。なお、発話情報は、動画像データと比較してデータ量がはるかに小さい。このため、ネットワーク回線Ｎ1の利用可能帯域が動画像データであるシーンを適正に送信できないほど狭い場合であっても、発話情報は遅延することなく動画像用端末１０２に送信される。
【００４１】
（ｉｉｉ）ユーザ情報登録
図４は、図１に示した音声対話サーバ１０１の図１に示したユーザ情報ＤＢ１１５において管理されているユーザ情報を説明するための図である。本実施形態では、音声対話サーバ１０１が、動画像用端末を介してユーザにユーザ登録を促す。そして、ユーザから提供されたユーザ情報を、図４に示したユーザ情報管理テーブルとしてユーザ情報ＤＢ１１５に格納される。
本実施形態では、ユーザを特定するためのユーザＩＤ、ユーザのメールアドレス、電話番号、対話型サービス提供システムにアクセスしてきた者が、登録されているユーザであるか否かを確認するための識別ＩＤ及びパスワードをユーザ情報とする。ユーザ情報は、互いに対応付けられて、図４に示すように管理されている。
【００４２】
（２）動画像用端末
図１に示した動画像用端末１０２は、ネットワーク回線Ｎ1を介して音声対話サーバ１０１から送信されたシーンを受信する通信部１２３、ネットワーク回線Ｎ1の輻輳状態を測定する帯域測定部１２４、通信部１２３によって受信されたシーンを順次再生し、再生に関する処理を統括的に制御する表示制御部１２５、表示制御部１２５の制御によって再生された動画像データが表示される表示部１２１、ユーザの操作によって情報が入力される入力部１２０を備えている。
【００４３】
さらに、本実施形態の動画像用端末１０２は、バッファリングコンテンツ格納部１２７、代替コンテンツ格納部１２６を備えている。バッファリングコンテンツ格納部１２７は、音声対話サーバ１０１から受信されたコンテンツの少なくとも一部のシーンをバッファリングして蓄積するメモリである。代替コンテンツ格納部１２６は、本来再生すべきシーンの代替用として予め用意された専用の動画像データを代替コンテンツとして蓄積するメモリである。
【００４４】
前記したように、本実施形態では動画像用端末に汎用的なＰＣを用いている。このため、表示部１２１はＰＣが備えるディスプレイであり、入力部１２０は、キーボードやタッチパネル等のユーザインターフェースである。
帯域測定部１２４は、ネットワーク回線Ｎ1においてシーンの受信に利用可能な帯域を測定する構成である。そして、測定された利用可能帯域を表示制御部１２５に通知する。表示制御部１２５は、通知された利用可能帯域を予め設定されている所定の閾値と比較し、以降に受信されるシーンが、このシーンに対応するシナリオにしたがう音声データの再生に同期して再生できるか否かを判断する。
【００４５】
すなわち、利用可能帯域が前記した閾値よりも狭いということは、発話情報の受信に続いて受信されるべきシーンが、発話情報が示す再生開始時刻の直前までにバッファリングすることができないことを意味する。このため、本実施形態では、以降、利用可能帯域が閾値よりも狭いことを、「開始時刻の直前までにバッファリングできない」とも表現するものとする。
音声データとシーンとを同期して再生した場合、動画像中の図３に示したオペレータＯＰの口の動きがシナリオにしたがう音声と一致する。このことにより、本実施形態は、音声と動画像の不一致による違和感のない動画像をユーザに提供することができる。
【００４６】
また、シーンがバッファリングできないことによって音声データに同期して再生できないと判断された場合、表示制御部１２５は、バッファリングできなかったシーンがバッファリングコンテンツ格納部１２７に格納されているか否か判断する。格納されている場合には、バッファリングできなかったシーンに代えて、バッファリングコンテンツ格納部１２７に蓄積されている、バッファリングできなかったシーンと同じシーンを再生する。
【００４７】
（ｉ）動画像データの差替え
また、本実施形態では、バッファリング出来なかったシーンと同じシーンがバッファリングコンテンツ格納部１２７に格納されていない場合、このシーンに代えて代替動画像データを音声データに同期して再生する。以下、この具体的な内容を説明する。
[先に受信されたシーンの動画像データを代替動画像データとする場合]
図５（ａ）、（ｂ）は、既に受信されたシーンであって、バッファリングできなかったシーンと異なる他のシーンを代替動画像データとして利用する場合の処理について説明するための図である。図５（ａ）は、音声対話サーバ１０１から送信されるシーン（コンテンツ５／シーン１）５０１の発話情報５０１ａを示す図である。図５（ｂ）は、代替コンテンツ格納部１２６に格納されている代替動画像データを説明するための図である。
【００４８】
図５（ｂ）に示したように、音声対話サーバ１０１から送信されたシーンは、発話情報を付加されて順次バッファリングコンテンツ格納部１２７にバッファリングされる。図示した例では、コンテンツ１のシーン５０２、シーン５０３、シーン５０４が順次バッファリングされる。シーン５０２〜５０４には、それぞれ発話情報が付加されている（図中には発話情報５０３ａ、５０４ａを示す）。
【００４９】
図１に示した表示制御部１２５は、受信された発話情報５０１ａと例えばシーン５０３、５０４の発話情報５０３ａ、５０４ａとを比較する。そして、シーン５０３、５０４のうち、その発話情報がよりシーン５０１の発話情報に近いものが、シーン５０１の代替動画像データとして選択される。発話情報同士の比較は、音声再生時間の一致の程度に基づいて行われる。
【００５０】
図６は、発話情報同士の比較を説明するための図であって、発話情報５０３ａ、５０４ａのどちらが発話情報５０１ａにより近いのかを、音声再生時間によって判定する例を示している。図６に示したように、シーン５０１の音声再生時間は１．２８ｓである。一方、シーン５０３の音声再生時間は１．４１ｓ、シーン５０４の音声再生時間は１．３１ｓである。シーン５０１の音声再生時間とシーン５０３の音声開始時間との差分は０．１３ｓ、シーン５０１の音声再生時間とシーン５０４の音声開始時間との差分は０．０３ｓである。このとき、表示制御部１２５は、シーン５０４の方がシーン５０３よりもシーン５０１に近いと判定する。シーン５０４は、シーン５０１の代替動画像データに選択され、表示制御部１２５によって再生される。
このような本実施形態によれば、シーン５０１の代替動画像データとして、音声データの再生の終了と略同じ時刻に再生が終了するシーンを選択することができる。このため、音声データに対応するシーンとは別のシーンを再生したこと（つまり、音声と動画像との不一致）によってユーザに与える違和感を低減することができる。
【００５１】
[代替専用のコンテンツを代替動画像データとする場合]
図７（ａ）、（ｂ）は、代替動画像データとして使用される専用の代替コンテンツを説明するための図である。また、図８（ａ）、（ｂ）は、図７と比較するため、シーンを再生して得られる画像を示した図である。
代替コンテンツは、ユーザが動画像を見た場合、動画像中のオペレータの発話状態が分からない、あるいはオペレータの発話状態が分かり難い動画像を再生するための動画像データである。「発話状態が分からない」とは、例えば、オペレータの口が見えない角度からオペレータを撮影した動画像データや、口が完全に隠れた状態の動画像データをいう。また、「オペレータの発話状態が分かり難い」とは、例えば、オペレータの口が見え隠れする等、口の開閉の状態が理解し難い状態の動画像データをいう。
【００５２】
すなわち、図７（ａ）、（ｂ）は、代替コンテンツを再生して得られる動画像を示している。図７（ａ）は、下を向いた状態のオペレータの動画像であり、このような動画像ではオペレータの口が完全に見えない状態になっている。図７（ｂ）は、横を向いた状態のオペレータの動画像であり、このような動画像では、オペレータを横から撮影しているため、オペレータの口がマイクロホンと重なって見えて口の開閉の状態が見え難い状態になっている。
【００５３】
図８（ａ）、（ｂ）は、シーンを再生して得られる、オペレータの口が完全に見える状態の動画像である。このような動画像では、口の開閉に一致して音声が再生されるので、ユーザは実オペレータと対話しているような臨場感を得ることができる。しかし、図８（ａ）、（ｂ）に示した動画像が、音声の再生開始と異なるタイミングで再生されると、オペレータの口の開閉と音声が一致せず、かえってユーザに違和感を与えることになる。
一方、本実施形態では、次に受信されるシーンが発話情報に含まれる開始時刻の直前までにバッファリングできない場合、例えば図７（ａ）、（ｂ）に示した代替コンテンツをシーンの代替えとするので、音声と動画像との不一致による違和感を低減することができる。
【００５４】
図９は、代替動画像データとなる代替コンテンツを選択する処理を説明するための図である。図９に示したように、代替コンテンツ格納部１２６には、複数の代替コンテンツ７０１、７０２、７０３が格納されている。代替コンテンツ７０１〜７０３には、代替コンテンツの再生にかかる音声再生時間が情報として付されている。本実施形態では、例えば、代替コンテンツ７０１〜７０３のうち、バッファリングされなかったシーンの音声再生時間に最も近い代替コンテンツが表示制御部１２５によって代替動画像データに選択される。
【００５５】
また、本実施形態は、代替動画像データとして１つの代替コンテンツが選択されるものに限定されるものではない。例えば、バッファリングされなかったシーンの音声再生時間が１．７秒であった場合、図９に示した代替コンテンツ７０１と代替コンテンツ７０３とが選択される。代替コンテンツ７０１の再生時間である０．５秒と代替コンテンツ７０３の再生時間１．２秒とを足し合わせると、バッファリングされなかったシーンの音声再生時間１．７秒に一致する。
【００５６】
このような場合、本実施形態では、代替コンテンツ７０１と代替コンテンツを連続して再生させることにより、バッファリングされなかったシーンの音声の再生が完了するタイミングに合わせて代替コンテンツを再生することができる。
なお、以上説明した代替動画像データをシーンの代替とする処理は、以降に受信されたシーンのいずれかが再生開始時刻の直前までにバッファリングが完了すると終了する。そして、バッファリングされたシーンが、その再生開始時刻に再生される。
【００５７】
また、以上述べた実施形態では、動画像用端末１０２がネットワーク回線Ｎ1の利用可能帯域を測定してシーンの再生が可能か否かを判断する例について説明した。しかし、本実施形態は、このような例に限定されるものではなく、他の方法によってシーンが開始時刻までに再生できるか否か判断するものであってもよい。他の方法としては、例えば、動画像用端末の動画像の再生にかかる処理を実行するＣＰＵの稼働率を使ってシーンが再生開始時刻に再生できるか否か判断する方法が考えられる。
【００５８】
（３）音声用端末
音声用端末１０３は、ユーザが発話した対話音声を入力し、音声対話サーバ１０１から送信された音声データを再生した音声を出力する音声入出力部１３０、ユーザの操作によって情報が入力されるキー入力部１３１、ディスプレイ画面等の表示部１２１、音声対話サーバとの間で音声データを送受信する通信部１３３を備えている。このような構成は、一般的な携帯電話機が備える機能であるから、これ以上の説明を省く。
【００５９】
（４）バックヤード端末
ここで、再び図１を参照し、バックヤード端末１０４について説明する。
バックヤード端末１０４は、音声対話サーバ１０１、あるいは音声対話サーバ１０１を介してユーザと通信するための通信部１４０、ディスプレイ画面等の表示部１４１、音声対話サーバ１０１において扱われるコンテンツが登録されるコンテンツ登録部１４２を備えている。バックヤード端末１０４としては、汎用的なＰＣを適用することも可能である。
【００６０】
バックヤード端末１０４は、実オペレータによって操作され、音声対話サーバ１０１と連携し、音声対話サーバ１０１では対応できない問い合わせに応答する。音声対話サーバ１０１との連携とは、例えば、音声対話サーバ１０１によってユーザの問い合わせの内容を絞り込んだ後、この内容を担当する実オペレータに引き継ぐことが考えられる。
なお、実オペレータが対応を引き継いだ場合、音声対話サーバ１０１の対話シナリオ選択履歴格納部１１７からシナリオの履歴がバックヤード端末１０４に送信される。このような処理により、本実施形態では、ユーザは、音声対話サーバに応答して入力した情報を実オペレータに再度話す必要がなくなる。
また、音声対話サーバ１０１の対話シナリオ選択部１１４がユーザの発話した内容を認識できなかった、あるいは認識の精度が低かった場合、認識できなかった等の部分が表示部１４１に表示される。表示された部分の内容は、実オペレータによってユーザに確認される。
【００６１】
図１０は、ユーザが発話した内容の認識の精度が低い場合、実オペレータによってなされる処理を、通信販売における商品の注文を例にして説明するための図である。図１０（ａ）は、音声対話サーバ１０１によって認識された内容を示す。また、図１０（ｂ）は、図１０（ａ）に示した内容のうち、認識度が低い（例えば７０％以下）の内容を実オペレータに対して表示する画面を示す。図１０に示した例では、ユーザが「そうだなぁ、グウェーンにしようかな」と発話し、対話シナリオ選択部１１４が「グウェーン」を「グリーン」であると認識したものの、この認識率が低かったため実ユーザに確認を促したものである。
【００６２】
（対話型サービス提供方法）
図１１は、本実施形態の対話型サービス提供方法を説明するためのタイミングチャートであって、動画像用端末、音声対話サーバ、音声用端末間でわれる処理を説明するための図である。図１１に示した処理は、前記した代替コンテンツを代替動画像データとする例を説明するための図である。
本実施形態のサービスの提供に先立って、動画像用端末は、ｗｅｂサイトにアクセスし（ステップＳ４）、対話型サービスの利用をユーザに促すためのコンテンツの取得を要求する（ａ）。音声対話サーバは、要求に応答した後（ｂ）、対話型サービスの利用をユーザに促すための動画像コンテンツと音声コンテンツとを選択する（ステップＳ１１）。そして、選択された動画像コンテンツと音声コンテンツとをコンテンツ格納部１１６から取得する（ｊ）。
【００６３】
選択された動画像コンテンツ及び音声コンテンツは、動画像用端末に送信される（ｃ）。動画像端末は、送信された動画像コンテンツ及び音声コンテンツをバッファリングする（ステップＳ５）。そして、音声対話サーバからコンテンツを受信するのに利用可能な利用可能帯域を算出しておく（ステップＳ６）。
以上の処理の後、ユーザが音声用端末から音声対話サーバに電話をかけると（ステップＳ１）、ネットワーク回線Ｎ2を介してユーザが発話した音声が音声対話サーバに向けて送信される（ｄ）。音声対話サーバは、電話の着信を動画像用端末に通知することにより（ｅ）、対話型サービス提供の開始を通知する。
【００６４】
動画像用端末は、音声対話サーバからの通知によって、ステップＳ５においてバッファリングされた動画像コンテンツ及び音声コンテンツの再生を開始する（ステップＳ７）。ステップＳ７で再生された動画像に応じてユーザが音声用端末から音声を入力する（ステップＳ２）。入力された音声は、音声対話サーバの図１に示した対話シナリオ選択部１１４によって認識される（ステップＳ１２）。
対話シナリオ選択部１１４は、図２に示した手順でユーザの発話に応答するシナリオ（図２中に示したシステム発話）を選択する。そして、選択されたシナリオを参照し、シナリオに対応するコンテンツを選択する（ステップＳ１３）。選択されたコンテンツは、コンテンツ格納部１１６から読み出される（ｋ）。
【００６５】
コンテンツ格納部１１６から読みだされたコンテンツは、シーンごとに、その応答確率が高いものから優先的に動画像用端末に順次送信される（ｇ）。画像用端末は、送信されたシーンを受信し、バッファリングを開始する（ステップＳ８）。図１に示した帯域測定部１２４は、利用可能帯域を測定し、次に再生すべきシーン（ユーザ発話にしたがって確定したシーン）が開始時刻に再生できるか否か判断する（ステップＳ９）。本実施形態では、ステップＳ９の判断を、確定したシーンのバッファリングが開始時刻の直前までに完了するか否かによって行うものとする。
【００６６】
ステップＳ９において、シーンが開始時刻に再生できないと判断された場合（ステップＳ９：Ｎｏ）、図１に示した表示制御部１２５は、先ず、バッファリングコンテンツ格納部１２７に、再生すべきシーンが格納されているか否か判断する（ステップＳ１４）。そして、再生すべきシーンが格納されている場合、このシーンの再生を開始する（ステップＳ１０）。
【００６７】
一方、再生すべきシーンがバッファリングコンテンツ格納部１２７に格納されていない場合（ステップＳ１４：Ｎｏ）、図１に示した表示制御部１２５は、代替コンテンツを選択する（ステップＳ１５）。なお、代替コンテンツとしては、バッファリングできなかったシーンの音声の再生時間と再生時間が一致するように、１または複数の代替コンテンツが選択される。選択された代替コンテンツは、図１に示した代替コンテンツ格納部１２６から読み出される（ｈ）。
【００６８】
一方、ステップ９において、シーンが開始時刻までにバッファリングされて再生可能であると判断された場合（ステップＳ９：Ｙｅｓ）、表示制御部は、バッファリングされたシーンを取得する。そして、代替コンテンツまたはシーンの再生を開始する（ステップＳ１０）。また、音声対話サーバからは、音声用端末に向けてシーンに対応する音声データが送信される（ｉ）。音声用端末では、送信された音声データが再生される（ステップＳ３）。以上説明した処理のうち、図中に「Ｂ」で示した範囲の処理は、ユーザによる音声の入力が完了するまで繰返し行われる。このような本実施形態によれば、ユーザは、音声用端末で音声を聞きながら、この音声に対して違和感がない動画像を動画像用端末で見ることができる。
【００６９】
図１２は、本実施形態の対話型サービス提供システムにおいて実行される、ユーザ登録のための処理を説明するためのタイミングチャートである。このタイミングチャートは、図１に示した音声用端末１０３と音声対話サーバ１０１との間で行われる処理を説明するものである。また、図１２に示した処理は、音声用端末が携帯電話機であって、メール機能及びｗｅｂブラウザの閲覧機能、電話機能を持っている場合に行われるものである。
【００７０】
ユーザは、音声用端末を使って対話型サービス提供システムが提供するｗｅｂページのトップページにアクセスする（ステップＳ２０）。アクセスにより、音声用端末と音声対話サーバとの間で情報の授受が可能な状態になる（ｌ）。音声対話サーバは、アクセスに応答して対話型サービス提供システムへの登録ページにアクセスするＵＲＬをクリックするように要求する（ｍ）。ユーザは、要求に応じて登録ページにアクセスする（ステップＳ２1）。アクセスによって音声対話サーバにユーザ登録が要求される（ｎ）。音声対話サーバは、要求に応じて空メールの送信を促すメッセージを音声用端末に送信する（ｏ）。
【００７１】
ユーザが音声用端末から音声対話サーバに空メールを送信すると（ｐ）、空メールのメールアドレスが音声対話サーバの図１に示したユーザ情報ＤＢ１１５に登録される（ステップＳ２６）。そして、一時的な識別子であるｔｅｍｐ−ＩＤを発行し（ステップＳ２７）、登録されたメールアドレスに対して送信する（ステップＳ２８）。ｔｅｍｐ−ＩＤの有効期間は３０分程度とし、メールの本文にはｔｅｍｐ−ＩＤ用のＵＲＬが記載される。
【００７２】
送信されたメールは、音声用端末に受信される（ｇ）。ユーザがメール本文のＵＲＬをクリックすると（ステップＳ２２）、音声対話サーバにｔｅｍｐ−ＩＤと例えばｉ−ｍｏｄｅ（登録商標）ＩＤのような音声端末を識別する識別子が送信される（ｒ）。音声対話サーバでは、送信された識別子がユーザ情報ＤＢに登録される。続いて、音声対話サーバは、音声端末に対してパスワードの入力画面を送信して応答する（ｓ）。
【００７３】
ユーザは、音声端末に受信されたパスワードが面から、音声端末の端末識別子及び任意に設定したパスワードを送信する（ｔ）。音声対話サーバは、送信されたパスワードを受信してユーザ情報ＤＢ１１５に登録する（ステップＳ３０）。パスワードの登録後、音声対話サーバから確認番号が発行される（ステップＳ３１）。確認番号が音声用端末に送信される（ｕ）。
【００７４】
以上の処理の後、ユーザは音声対話サーバに対して電話をかける（ステップＳ２４）。電話の着信に対しては（ｖ）、音声対話サーバから音声、あるいは画像のガイダンスが応答する（ｗ）。ユーザがガイダンスにしたがって確認番号をキー入力することにより（ｘ）、ユーザの電話番号がユーザ情報ＤＢに登録される（ステップＳ３２）。
以上説明した処理によれば、ＰＣ等の動画像用端末と携帯電話機等の音声用端末を併用する本実施形態において、ユーザの電話番号を誤りなく登録することができる。
【産業上の利用可能性】
【００７５】
本発明は、音声コンテンツと、この音声コンテンツに同期して再生される動画像コンテンツとによってユーザにサービスを提供するシステム全般に適用することができる。
【符号の説明】
【００７６】
１０１音声対話サーバ
１０２動画像用端末
１０３音声用端末
１０４バックヤード端末
１１０制御部
１１１通信部
１１２音声認識部
１１３コンテンツ格納部
１１４対話シナリオ選択部
１１６コンテンツ格納部
１１７対話シナリオ選択履歴管理部
１２０入力部
１２１、１３２、１４１表示部
１２３通信部
１２４帯域測定部
１２５表示制御部
１２６代替コンテンツ格納部
１３０音声入出力部
１３１キー入力部
１３３、１４０通信部
１４２コンテンツ登録部

【特許請求の範囲】
【請求項１】
音声に係る音声データと、動画像に係る動画像データとを、それぞれ異なる回線を介して送信する対話型サービス提供装置と、当該対話型サービス提供装置から前記動画像データを受信する動画像提供装置と、を少なくとも含む対話型サービス提供システムであって、
前記対話型サービス提供装置は、
前記音声データを、当該音声データを受信して再生する音声提供装置に送信する音声送信手段と、
前記音声データの再生が前記音声提供装置において開始されるタイミングに合わせて前記動画像データを前記動画像提供装置に送信する動画像送信手段と、を含み、
前記動画像提供装置は、
前記動画像データを再生する動画像再生手段と、
前記動画像再生手段によって次回以降に再生される動画像データである未再生動画像データが前記音声データの再生に同期して再生できるか否か判断する同期判断手段と、を備え、
前記動画像再生手段は、
前記同期判断手段によって前記未再生動画像データが前記音声データに同期して再生できると判断された場合には該未再生動画像データを再生し、前記同期判断手段によって前記未再生動画像データが前記音声データに同期して再生できないと判断された場合には、前記未再生動画像データに代えて、自装置内に蓄積されている動画像データを代替動画像データとして再生することを特徴とする対話型サービス提供システム。
【請求項２】
動画像に係る動画像データを動画像提供装置に所定の回線を介して送信し、音声に係る音声データを、前記回線と異なる他の回線を介して音声提供装置に送信する対話型サービス提供装置であって、
前記音声データを、当該音声データを受信して再生する前記音声提供装置に送信する音声送信手段と、
前記音声データの再生が前記音声提供装置において開始されるタイミングに合わせて前記動画像データを前記動画像提供装置に送信する動画像送信手段と、
を含むことを特徴とする対話型サービス提供装置。
【請求項３】
前記動画像送信手段は、前記動画像データを送信する以前に、送信される前記動画像データによって表される画像中の話者の発話に関する発話情報を前記動画像提供装置に送信することを特徴とする請求項２に記載の対話型サービス提供装置。
【請求項４】
前記発話情報が、前記動画像データと同期して再生される前記音声データの再生開始時刻にかかる開始時刻、前記音声データの再生にかかる音声再生時間の少なくとも一方を含むことを特徴とする請求項３に記載の対話型サービス提供装置。
【請求項５】
前記音声データ送信手段によって送信された音声データに対する応答として予め複数のユーザ発話と、当該ユーザ発話によってユーザが応答する確率を示す応答確率とが設定され、
前記動画像データ送信手段は、複数のユーザ発話のうち、前記応答確率が高いユーザ発話に対応する前記動画像データを優先して送信することを特徴とする請求項２又は３に記載の対話型サービス提供装置。
【請求項６】
音声に係る音声データと、動画像に係る動画像データとを、それぞれ異なる回線を介して送信する対話型サービス提供装置から前記動画像データを受信して再生する動画像提供装置であって、
前記動画像データを再生する動画像再生手段と、
前記動画像再生手段によって次回以降に再生される前記動画像データである未再生動画像データが前記音声データの再生に同期して再生できるか否か判断する同期判断手段と、
を備え、
前記動画像再生手段は、
前記同期判断手段によって前記未再生動画像データが前記音声データに同期して再生できると判断された場合には、前記未再生動画像データを再生し、前記同期判断手段によって前記未再生動画像データが前記音声データに同期して再生できないと判断された場合には、前記未再生動画像データに代えて自装置内に蓄積されている動画像データを代替動画像データとして再生することを特徴とする動画像提供装置。
【請求項７】
前記代替動画像データとなり得る動画像データが格納される代替コンテンツ格納手段と、
前記同期判断手段によって前記未再生動画像データが前記音声データに同期して再生できないと判断された場合、前記未再生動画像データによって表される動画像中の話者の発話に関する発話情報に基づいて、前記未再生動画像データに代えて再生される代替動画像データを前記代替コンテンツ格納手段から選択する代替動画像データ選択手段と、
をさらに含むことを特徴とする請求項６に記載の動画像提供装置。
【請求項８】
前記代替動画像データ選択手段は、前記代替動画像データとして、前記対話型サービス提供装置から既に受信され、前記代替コンテンツ格納手段に蓄積されている蓄積動画像データを選択することを特徴とする請求項７に記載の動画像提供装置。
【請求項９】
前記代替動画像データ選択手段は、前記代替コンテンツ格納手段から、話者の発話の状態が分からない、あるいは話者の発話の状態が分かり難い動画像を再生するための代替動画像データを前記代替動画像データとして選択することを特徴とする請求項６に記載の動画像提供装置。
【請求項１０】
前記発話情報が、前記未再生動画像データと同期して再生される音声データの再生にかかる音声再生時間を含み、
前記代替動画像データ選択手段は、前記蓄積動画像データ、または前記代替動画像データのうち、動画像中の話者の発話にかかる時間が前記音声再生時間により近いものを前記代替動画像データとして選択することを特徴とする請求項６から８のいずれか１項に記載の動画像提供装置。
【請求項１１】
動画像に係る動画像データを動画像提供装置に所定の回線を介して送信し、音声に係る音声データを、前記回線と異なる他の回線を介して音声提供装置に送信する対話型サービス提供装置であって、
前記音声データを、当該音声データを受信して再生する前記音声提供装置に送信する音声送信工程と、
前記音声データの再生が前記音声提供装置において開始されるタイミングに合わせて前記動画像データを前記動画像提供装置に送信する動画像送信工程と、
を含むことを特徴とする対話型サービス提供方法。
【請求項１２】
音声に係る音声データと、動画像に係る動画像データとを、それぞれ異なる回線を介して送信する対話型サービス提供装置から前記動画像データを受信して再生する動画像提供装置において実行される動画像提供プログラムであって、
コンピュータに、
前記動画像データのうちの次回以降に再生される未再生動画像データが前記音声データの再生に同期して再生できるか否かを判断する同期判断機能と、
前記同期判断機能によって前記未再生動画像データが前記音声データに同期して再生できると判断された場合には前記未再生動画像データを再生し、前記同期判断機能によって前記未再生動画像データが前記音声データに同期して再生できないと判断された場合には、前記未再生動画像データに代えて、自装置内に蓄積されている動画像データを代替動画像データとして再生する再生機能と、
を実現させることを特徴とする動画像提供プログラム。

【図１】