インターアクティブ・ビデオシステム

【課題】ユーザー（視聴者）が映像（動画）とインターアクト（対話）することで、映像（動画）のストーリーが進行・変化する新しい映像（動画）技術を提供することにある。
【解決手段】ユーザーが動画と対話するインターアクティブ・ビデオシステムにあって、ユーザーに対して、所定又は選択肢のある音声入力を促す音声受音機能と、受音されたユーザーの音声を音声認識手段によって認識・評価する音声認識評価機能と、評価された評価結果に基づいて、これと関連付けられた動画を出力する動画出力機能とを備えたことを特徴とする。

【発明の詳細な説明】
【技術分野】
【０００１】
本願発明は、音声認識技術などを使用して、ユーザーが映像（動画）とインターアクト（対話・交流）することで、映像（動画）のストーリーが進行・変化する新しい映像（動画）技術の提供に関するものである。
【背景技術】
【０００２】
テレビの地上デジタル放送が始まり、視聴者が参加できる（リモコンのボタンを押して答えが選べる）双方向可能なクイズ番組をよく見かけるようになったが、答えを声で言えたら楽しいのではないか？さらにクイズ番組に限らず、映画やドラマなど映像（動画）に話しかけられたら楽しいのではないか？その声に映像（動画）が反応すると、もっと楽しいのではないか？このように考えるうちに、ユーザー（視聴者）が映像（動画）とインターアクト（対話）することで、映像（動画）のストーリーが進行・変化する新しい映像（動画）のアイディアを思いつく。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特開平７−２９５４６６号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
そこで、本願発明者は、ユーザー（視聴者）が映像（動画）とインターアクト（対話）することで、映像（動画）のストーリーが進行・変化する新しい映像（動画）技術を提供すべく、鋭意研究・開発の結果、本願発明を完成するに至った。
【課題を解決するための手段】
【０００５】
本願発明の第１の発明（再生モード）は、ユーザーが動画と対話するインターアクティブ・ビデオシステムにあって、ユーザーに対して、動画の出力中に選択肢を提示する選択肢提示機能と、ユーザーによって選択された選択肢に基づいて、これと関連付けられた動画を出力する動画出力機能とを備えたことを特徴とするものである。
第２の発明（挑戦モード：その１）は、ユーザーに対して、所定又は選択肢のある音声入力を促す音声受音機能と、受音されたユーザーの音声を音声認識手段によって認識・評価する音声認識評価機能と、評価された評価結果に基づいて、これと関連付けられた動画を出力する動画出力機能とを備えたことを特徴とする同インターアクティブ・ビデオシステムである。
第３の発明（挑戦モード：その２）は、音声認識評価機能による評価結果を換算する評価結果換算機能と、評価結果換算機能によって換算された成績を出力する成績出力機能とを備えたことを特徴とする同インターアクティブ・ビデオシステムである。
第４の発明（練習モード：その１）は、ユーザーに対して、所定又は選択肢のある音声入力を促す音声受音機能と、受音されたユーザーの音声を音声認識手段によって認識・評価する音声認識評価機能と、評価された評価結果が所定の合格基準に達していない場合には、再度その音声入力を促す音声練習機能とを備えたことを特徴とする同インターアクティブ・ビデオシステムである
第５の発明（練習モード：その２）は、音声受音機能は、ユーザーに対して所定又は選択肢のある音声入力を促す前に、模範となる音声を出力することを特徴とする同インターアクティブ・ビデオシステムである。
【発明の効果】
【０００６】
本願発明によれば、以下のような効果を有する。
（１）ユーザーによって選択された選択肢或いはユーザーの発した音声（発音）によって、動画（映像）の流れ（例えば、ストーリー）が変化する。すなわち、ユーザーの行為に動画（映像）が反応し、ユーザー（視聴者）と動画（映像）のインターアクト（対話）を実現できる。
（２）ユーザーの音声（発音）の評価結果を換算し、成績結果を出力することで、ユーザー自身が客観的に自分の成績を把握できる。それとともに、その成績（点数）は記録として残り、他ユーザーと比較できるランキングに登録可能となる。また、そのランキングはコミュニティー（例、ＳＮＳサービス）で共有され、ユーザー同士、コメントをし合うことができる。
（３）評価された評価結果が所定の合格基準に達していない場合には、再度その音声入力を促す音声練習機能を備えることで、不合格の場所を練習することができる。また、音声練習する際に模範となる音声を出力することで、効果的な音声練習を行える。
【図面の簡単な説明】
【０００７】
【図１】本願発明に係るインターアクティブ・ビデオの再生モードを示す説明図。
【図２】本願発明に係るインターアクティブ・ビデオの挑戦モードを示す説明図。
【図３】本願発明に係るインターアクティブ・ビデオの練習モードを示す説明図。
【図４】本願発明に係るインターアクティブ・ビデオの特徴を示す説明図（１）。
【図５】本願発明に係るインターアクティブ・ビデオの特徴を示す説明図（２）。
【図６】本願発明に係るインターアクティブ・ビデオの特徴を示す説明図（３）。
【図７】本願発明に係るインターアクティブ・ビデオの特徴を示す説明図（４）。
【図８】本願発明に係るインターアクティブ・ビデオの特徴を示す説明図（５）。
【図９】本願発明に係るインターアクティブ・ビデオの特徴を示す説明図（６）。
【発明を実施するための形態】
【０００８】
本願発明の実施形態を図面に基づいて説明する。
図１〜図３は、本願発明に係るインターアクティブ・ビデオシステムの機能を示す説明図である。インターアクティブ・ビデオシステムは、図１に示す再生モードと、図２に示す挑戦モードと、図３に示す練習モードからなる。
【０００９】
まず、図１の再生モードについて説明する。
ユーザー（ユーザー端末）は、まずサーバーにアクセスして「プレイヤー」をダウンロードする。この時、プレイヤーのプログラムに音声認識ＳＤＫが組み込まれている。また、インターアクトしたい映像（ストーリー）をダウンロードする。例えば、映像は３分前後の短編エピソードとして、定期的に新エピソードをサーバーへアップするとよい。次に、ダウンロードしたプレイヤーを起動して、ダウンロードした映像を再生すると、まず単純に映像が再生される。映像で話されているセリフ（外国語）とその翻訳（日本語）が字幕として表示される。ここで、いずれか又は両方を隠すこともできる。再生されるスピードの調整が出来る。再生されている位置を調整（巻き戻し、早送り）できる。そして、所々に「選択分岐」と呼ばれる分岐があり、表示されるセリフの選択肢から好きなものを選ぶ（クリック）ことができる。選んだセリフによって、ストーリーが変化・分岐することが特徴である。ここで、映像（ストーリー）は実写に限らず、アニメーションやＣＧ（コンピュータグラフィックス）、スライドショーも含まれる。
【００１０】
次に、図２の挑戦モードについて説明する。
図１（再生モード）のプレイヤープログラム及びストーリーのダウンロードまでは一緒である。そして、図１の再生モードと同じストーリーが流れるが、映像は選んだ俳優の目線からのものになる。よって、相手の俳優がユーザーに（ユーザーの目を見て）話しかけているように見える。選んだ俳優のセリフの順番になると、入力待ちになる。マイクを使って、字幕にあるセリフ（外国語）を音声入力する（字幕を隠している場合は、記憶していないといけない）。音声入力した発音に対して、どれだけネイティブの発音に近いか音声認識され、内部的に数字が返ってくる。その数字の高い・低いで、合格・不合格を決める。合格の場合は合格マークと音が鳴り、そのままストーリーが「再生」と同じように進む。不合格の場合は不合格マークと音が鳴り、聞き返すセリフ（例、「なんて言ったの？」）が流れ、再度入力待ちになる。或いは、ストーリーの展開が変わる。なお、数秒（例えば、５秒）待っても声入力がないと入力を促す映像が流れ（例えば、手を耳に当て聞き返すジェスチャー）、再度入力待ちになるか、ストーリーの展開が変わる。ストーリーの展開は、不合格の場合徐々にネガティブとなり、最終的にはゲームオーバーになる（例、相手が怒って帰ってしまう）。「選択分岐」では、選択肢から好きなセリフを音声入力し、ストーリーを変化・分岐して、進めることができる。ストーリーの最後まで行くと、それまでの合格・不合格（数字）を換算して、総合得点（１００点満点中）が冠（金、銀、銅）付きで表示される（成績の出力）。その点数は記録として残り、他ユーザーと比較できるランキングに登録される。また、そのランキングはコミュニティー（例、ＳＮＳサービス）で共有され、ユーザー同士、コメントをし合うことができるようにしてもよい。再度挑戦して、よりよい得点を出した場合は、記録されている最高得点やランキングが更新される。なお、コミュニティーで共有されるものに、録音されたユーザーの音声もある。映像と一緒にユーザーの音声を再生でき、上位ランキングの音声を参考に視聴できる。
【００１１】
また、図３の練習モードについて説明する。
練習モードは、不合格の箇所を「練習」することができるものである。図２（挑戦モード）と同じく、映像は選んだ俳優の目線からのものになる。選んだ俳優のセリフの順番になると、セリフ（正解の発音）が再生され、入力待ちになる。練習したい位置を調整（巻き戻し、早送り）できる。また、セリフ（正解の発音）は何度でも再生できる。音声入力（発音）が合格の場合は合格マークと音が鳴り、そのままストーリーが進む。不合格の場合は不合格マークと音が鳴り、再度セリフが再生され、入力待ちになる。この時、セリフの字幕（外国語）上、発音の悪い箇所に色が付く。合格になるまで「セリフの再生を聞き、音声入力（発音）する」を繰り返す。直前の声入力は録音されていて、何度でも聞き返すことが出来る。また、不合格マークをクリックすると、セリフの字幕（外国語）にカタカナで発音方法が表示される。なお、発音がカタカナ英語にならないように工夫されている。例えば、玉ねぎ→アニアン（オニオンではない）。強く発音する箇所に色が付いている。カタカナにない音は２つのカタカナを同時に発声させる表示を使う。例えば、「あ」と「え」の中間音は「（あえ）」と表示する。抑揚とリズムを強調した発音の再生が繰り返し聞ける。抑揚とリズムはＣＧの波で表示され、発音の強弱が視覚的にも分かる。字幕のカタカナを参考に、表示される波と聞こえる発音（抑揚とリズム）に合わせて（重ねて）声入力をする。音声入力の波は自動的に描かれ、正しい発音の波と重なって表示される自分の声入力の波を視覚的に比較できる。特に発音が難しい単語やフレーズはクリックすると俳優がゆっくり発音する口元のアップが動画で流れる。合格になると合格マークと音が鳴り、ストーリーが進む。
【００１２】
図４〜図６は、インターアクティブ・ビデオシステムの最大の特徴である「ストーリー展開の変化」について説明したものである（挑戦モード・練習モード）。
図４は、喫茶店での初デートをストーリーにしている（ユーザーの選択は男性）。
（ａ）「I want some coffee with my cake.」（ケーキと一緒にコーヒーが飲みたいわ）と女性に言われ、
（ｂ）店員に対して「Can we get some coffee?」（コーヒーもらえますか？）のセリフを言う。
（ｃ−１）正しく発音できると、コーヒーを持ってこられ、「Thank you. I'm having a great time!」（ありがとう。とても楽しいわ！）とストーリーが良い方向に展開される。
（ｃ−２）正しく発音できないと、コーラを２本持って来られ、「Cake with cola? You have bad taste.」（ケーキとコーラ？悪趣味ね）と初デートなのに印象が悪くなる。
【００１３】
図５は、図４の続きである。
（ｄ）再度、店員に「I meant two coffee.」（コーヒー2つのつもりでした）と正しく発音できると、
（ｅ）店員に「I'm sorry. Here you go.」（すみません、どうぞ）と、正しくコーヒーを持って来てもらえ、ストーリーが良い方向に展開する。また、店員に対して「Can you take the cola away?」（コーラをさげてもらえますか？）のセリフを言う。
（ｆ−１）正しく発音できると、コーラをさげてもらえ、「Yes, coffee goes well withcakes.」（やっぱりケーキにはコーヒーね。）とストーリーが良い方向に展開される。
（ｃ−２）正しく発音できないと、全部を下げられ、「I was still eating!」（まだ食べていたのに！）とストーリーが悪い方向に展開される。
【００１４】
図５は、ビジネス会議での新製品のデザイン提案をストーリーにしている（ユーザーの選択は依頼者）。
（ａ）取引先（先方）から「What do you think?」（どう思われますか？）と問いかけられ、「This is not what we are looking for.」（弊社が求めているものではありません）と正しく発音できないと、
（ｂ）「You like it, right?」（お好きですよね？）と強引に賛同を求められ、「This is not what we are looking for.」（弊社が求めているものではありません）ともう一度発音しても、
（ｃ）再度、発音が悪いと、「Okay, let's go with this design!」（では、このデザインで行きましょう！）と会議が悪い方向へ進む。
【００１５】
図７〜図９は、図４〜図６に図示した「ストーリー展開の変化」を再生モードの場合で説明したものである。図４〜図６の挑戦・練習モード（音声入力がある）は、選んだ俳優目線になるので、モニターには自分の選択した俳優は表示されない。これに対して、図７〜図９の再生モード（音声入力がない）は、会話している当事者同士が表示される。その他は、図４〜図６の説明と同様であるので、その説明を省略する。
【００１６】
また、図４〜図９では、ユーザー（視聴者）と動画（映像）とのやり取りが「音声」であるが、その他に入力方法のバリエーションとして以下のようなものが考えられる。
（１）画面上をクリック。例えば、
・パーソナルコンピュータ（ＰＣ）：画面上のアイテムにカーソルを当て、クリックする。
・家庭用コンピュータゲーム機：コントローラの方向キーで、画面上のアイテムを選び、○ボタンで決定。
・タブレット型ＰＣ：画面上のアイテムをタッチ。
等が考えられる。
（２）カメラから画像を入力。例えば、パーソナルコンピュータの上部に（ユーザーに向けて）装着したカメラでユーザーの動作（例、手を振る）を撮り、画像認識する。
（３）その他
【産業上の利用可能性】
【００１７】
本願発明は、以下の用途に使用できるものである。なお、（３）〜（５）については、日本人が海外に行く場合や外国人が日本に来る場合などの事前準備として便利である。
（１）語学学習
（２）企業研修、新人研修
（３）旅行、日常会話シミュレーション
（４）バーチャル旅行
（５）ハウツー・マニュアル
（６）お見合いゲーム
（７）育成ゲーム
（８）その他

【特許請求の範囲】
【請求項１】
ユーザーが動画と対話するインターアクティブ・ビデオシステムであって、
ユーザーに対して、動画の出力中に選択肢を提示する選択肢提示機能と、
ユーザーによって選択された選択肢に基づいて、これと関連付けられた動画を出力する動画出力機能とを備えたことを特徴とするインターアクティブ・ビデオシステム。
【請求項２】
ユーザーに対して、所定又は選択肢のある音声入力を促す音声受音機能と、
受音されたユーザーの音声を音声認識手段によって認識・評価する音声認識評価機能と、
評価された評価結果に基づいて、これと関連付けられた動画を出力する動画出力機能とを備えたことを特徴とする請求項１記載のインターアクティブ・ビデオシステム。
【請求項３】
音声認識評価機能による評価結果を換算する評価結果換算機能と、
評価結果換算機能によって換算された成績を出力する成績出力機能とを備えたことを特徴とする請求項２記載のインターアクティブ・ビデオシステム。
【請求項４】
ユーザーに対して、所定又は選択肢のある音声入力を促す音声受音機能と、
受音されたユーザーの音声を音声認識手段によって認識・評価する音声認識評価機能と、
評価された評価結果が所定の合格基準に達していない場合には、再度その音声入力を促す音声練習機能とを備えたことを特徴とする請求項１記載のインターアクティブ・ビデオシステム。
【請求項５】
音声受音機能は、ユーザーに対して所定又は選択肢のある音声入力を促す前に、模範となる音声を出力することを特徴とする請求項４記載のインターアクティブ・ビデオシステム。

【図１】