説明

ヘッドマウントディスプレイ

【課題】撮影映像とテキスト情報とを容易に同期させて表示できるヘッドマウントディスプレイを提供する。
【解決手段】ヘッドマウントディスプレイ200のカメラ7は、使用者3〜5が視認する説明者6を撮影することができる。ヘッドマウントディスプレイ200のマイクは、説明者6の発話音声を収録できる。マイクによって収録された発話音声は音声認識され、発話内容を示す音声テキストが作成される。作成された音声テキストは、カメラ7によって撮影された撮影映像に重ねられ、表示映像が作成される。音声テキストの開始時点と、撮影映像の開始時点とをそろえることで、音声テキストと撮影映像とは同期付けられる。表示映像は、使用者3〜5が視認可能なように表示される。使用者3〜5は、表示映像を視認することで、説明者6の映像と音声テキストとを関連付けて認識できる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明はヘッドマウントディスプレイに関する。より詳細には、映像にテキスト情報を付加して表示するヘッドマウントディスプレイに関する。
【背景技術】
【0002】
従来、撮影映像や視野映像に音声のテキスト情報を付加して表示するヘッドマウントディスプレイが知られている。利用者は、撮影映像や視野映像とテキスト情報とを同時に視認することで、撮影映像や視野映像とテキスト情報とを関連付けて認識できる。
【0003】
例えば、特許文献1に記載のヘッドマウントディスプレイでは、撮影映像に対応したせりふ情報が表示される。利用者は、大型ディスプレイやスクリーン等の画面に表示される撮影映像と、ヘッドマウントディスプレイに表示されるせりふ情報とを同時に視認できる。それ故利用者は、せりふの吹き替え作業を、台本と映像とを交互に見ることなく行うことができる。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2002−351385号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら上述のヘッドマウントディスプレイでは、せりふ情報などのテキスト情報が予め準備されていない場合、音声認識等によってテキスト情報を作成しながら、作成されたテキスト情報を撮影映像に対応付ける必要がある。この場合、テキスト情報の作成には時間を要するので、撮影映像の進行にテキスト情報の作成が追い付かず、撮影映像とテキスト情報とを容易に同期させることができないという問題点がある。
【0006】
本開示の目的は、撮影映像とテキスト情報とを容易に同期させて表示できるヘッドマウントディスプレイを提供することにある。
【課題を解決するための手段】
【0007】
本発明の第一態様に係るヘッドマウントディスプレイは、映像を撮影する撮影手段と、前記撮影手段による撮影の開始時点を特定する第一特定手段と、前記第一特定手段によって特定された前記開始時点から、前記撮影手段による撮影を開始する開始手段と、前記第一特定手段によって特定された前記開始時点以後、前記撮影手段の撮影対象から発せられる音声をテキスト化した音声テキストを取得する第一取得手段と、前記開始手段によって撮影が開始されてから、前記第一取得手段によって前記音声テキストが取得されるまでの間に撮影された撮影映像を、記憶手段に記憶する記憶制御手段と、前記第一取得手段によって前記音声テキストが取得された場合に、前記記憶手段に記憶した前記撮影映像の開始時点と、前記音声テキストの開始時点とが揃うように前記音声テキストを前記撮影映像に重ねることで、前記撮影映像と前記音声テキストとが同期した表示映像を作成する第一作成手段と、前記第一作成手段によって作成された前記表示映像を表示手段に表示する表示制御手段とを備えている。
【0008】
本発明の第一態様に係るヘッドマウントディスプレイでは、撮影手段によって撮影された撮影映像は、記憶手段に記憶される。音声の内容を示す音声テキストを取得した場合、記憶手段に記憶した撮影映像に、取得された音声テキストを重ねることで、表示映像が作成される。撮影映像は一旦記憶手段に記憶されるので、音声テキストの取得に時間を要する場合であっても、撮影映像と音声テキストを同期させて表示映像を作成できる。また、記憶された撮影映像と音声テキストとは、開始時点が一致するように重ねられる。撮影映像と音声テキストとを容易に同期させることができる。
【0009】
また、第一態様において、前記第一特定手段は、前記表示制御手段によって前記表示映像が前記表示手段に表示されている状態で、新たな前記開始時点である新規開始時点を特定し、前記第一取得手段は、前記表示制御手段によって前記表示映像が前記表示手段に表示されている状態で、新たな前記音声テキストである新規音声テキストを取得し、前記記憶制御手段は、前記第一特定手段によって前記新規開始時点が特定されてから、前記第一取得手段によって前記新規音声テキストが取得されるまでの間に撮影された撮影映像である新規撮影映像を、前記記憶手段に記憶し、前記第一作成手段は、前記記憶手段に記憶した前記新規撮影映像に、前記新規音声テキストを重ねた表示映像である新規表示映像を作成し、前記表示制御手段は、前記表示映像の表示中に前記新規表示映像が作成された場合には、表示中の前記表示映像の表示を中止し、前記新規表示映像を前記表示手段に表示してもよい。表示映像の表示中に、新規表示映像が作成された場合には、表示中の表示映像の表示を中止し、代わりに新規表示映像を表示する。新規表示映像を遅滞なく表示することで、表示遅延の累積を防止できる。使用者は、遅滞なく表示映像を視認できる。
【0010】
また、第一態様において、前記表示制御手段は、前記第一取得手段によって取得した前記音声テキストの文字量に応じて、前記表示映像の表示速度を変更してもよい。音声テキストの文字量が大きい場合、利用者が音声テキストを認識するために時間を要するので、表示速度を遅くする。一方、音声テキストの文字量が少ない場合、利用者は音声テキストを素早く認識できるので、表示速度を速くする。これによって、使用者による音声テキストの認識を妨げることなく、表示時間を極力短くできる。従って、表示映像の表示遅延を極力小さくできる。
【0011】
また、第一態様において、前記音声テキストの音量を取得する第二取得手段を備え、前記第一作成手段は、前記第二取得手段によって取得した前記音量に応じて前記音声テキストの大きさを変更し、大きさを変更した音声テキストを前記撮影映像に重ねた表示映像を作成してもよい。例えば、音量が大きい場合には、表示する音声テキストの大きさを大きくし、音量が小さい場合には、表示する音声テキストの大きさを小さくする。これによって使用者は、音声テキストを視認することで、表示される音声テキストの音量を認識できる。
【0012】
また、第一態様において、音声が入力される入力手段と、前記入力手段によって入力された前記音声を認識し、音声テキストを作成する第二作成手段とを備え、前記第一取得手段は、前記第二作成手段によって前記音声テキストが作成された場合に、作成された前記音声テキストを取得してもよい。音声は音声認識され、音声テキストが作成される。作成された音声テキストは、撮影映像に重ねられ、表示映像が作成される。音声認識によって作成した音声テキストに基づいて、表示映像を作成できる。予め音声テキストが用意されていない場合であっても、撮影映像と音声テキストとを重ねた表示映像を作成できる。
【0013】
また、第一態様において、前記第一特定手段は、前記入力手段によって入力された音声の音量が、所定未満から所定以上となった時点を前記開始時点として特定してもよい。これによって、撮影対象からの発話音声の発声が開始された時点を、撮影開始時点とすることができる。音声テキストの開始時点と、撮影映像の開始時点とを一致させることができるので、撮影映像と音声テキストとの開始時点が同期した表示映像を容易に作成できる。また、発話音声を漏れなく取得し、撮影映像に音声テキストを重ねた表示映像を作成できる。
【0014】
また、第一態様において、前記入力手段によって入力される音声の音量が所定以上から所定未満となった時点を、終了時点として特定する第二特定手段を備え、前記第一作成手段は、前記開始時点から、前記第二特定手段によって特定された前記終了時点までの間に、前記入力手段によって入力された前記音声を認識し、音声テキストを作成してもよい。これによって、撮影対象からの発話音声の発声が終了された時点で音声テキストが作成され、この時点で同時に撮影が終了される。撮影映像と音声テキストとの終了時点を揃えることができるので、撮影映像と音声テキストとの終了時点が同期した表示映像を容易に作成できる。また、発話音声が発生されていない場合には音声テキストは作成されないので、発話音声のみを確実に取得して音声テキストを作成することができる。
【0015】
また、第一態様において、前記第一取得手段は、前記音声テキストを受信することで取得する第一受信手段を備えていてもよい。これによって、音声テキストを受信し、受信したテキストと撮影映像とから表示映像を作成できる。ヘッドマウントディスプレイ自身が音声テキストを作成せずに済むので、ヘッドマウントディスプレイの処理負荷を軽減できる。
【0016】
また、第一態様において、所定の時点を指示する指示信号を受信する第二受信手段を備え、前記第一特定手段は、前記第二受信手段によって前記指示信号を受信した時点を前記開始時点として特定してもよい。これによって、指示信号を受信した時点を開始時点として特定できる。指示信号を送信する外部機器が、撮影の開始時点を制御できる。該外部機器によって作成された音声テキストの開始時点と、ヘッドマウントディスプレイによって撮影された撮影映像の開始時点とを一致させることができる。音声テキストを撮影映像に重ねることで、開始時点が一致する表示映像を容易に作成できる。
【図面の簡単な説明】
【0017】
【図1】HMD200を含むシステム構成の概要を示す模式図である。
【図2】HMD200の概要を示す模式図である。
【図3】HMD200の電気的構成を示すブロック図である。
【図4】認識処理を示すフローチャートである。
【図5】撮影処理を示すフローチャートである。
【図6】表示処理を示すフローチャートである。
【図7】表示映像15を示す図である。
【図8】音声テキスト取得処理を示すフローチャートである。
【発明を実施するための形態】
【0018】
以下、本発明の一実施形態に係るヘッドマウントディスプレイ(以下「HMD」という。)200について、図面を参照して説明する。図面は、本発明が採用し得る技術的特徴を説明する為に用いる。図面に記載している装置の構成、各種処理のフローチャート等は、単なる説明例であり、本発明を限定するものではない。
【0019】
図1を参照し、HMD200及びHMD200を含むシステム構成の概要について説明する。使用者3〜5は、其々HMD200を装着している。使用者3〜5は、説明者6の説明を視聴しており、使用者3〜5の視野方向は、説明者6の方向に向けられている。HMD200は、使用者3〜5の視野方向を撮影可能なカメラ7を備えている。従って使用者3〜5が装着するHMD200のカメラ7は、説明者6を撮影可能な状態となっている。HMD200は、マイク8(図3参照)を備えている。マイク8は、説明者6が発話した音声を収録できる。
【0020】
本実施形態では、説明者6の発話した音声は、HMD200のマイク8によって収録され、音声認識される。音声認識によって、発話内容を示すテキスト情報が作成される(以下、作成されたテキスト情報を「音声テキスト」という。)。また説明者6は、HMD200のカメラ7によって撮影される。HMD200では、音声認識の結果作成された音声テキストの開始時点と、カメラ7において撮影された映像(以下「撮影映像」という。)の開始時点とが揃うように、撮影映像に音声テキストが重ねられる。結果、撮影映像と音声テキストとが同期した映像(以下、「表示映像」という。)が作成される。HMD200は、作成された表示映像を使用者3〜5に視認させることができる。使用者3〜5は、表示映像を視認することで、説明者6の撮影映像と音声テキストとを関連付けて認識できる。これによって例えば、説明者6がホワイトボード9を指し示しながら説明を行った場合であっても、表示映像では、説明者がホワイトボード9を指し示すタイミングと、音声テキストの内容とが同期する。これによって使用者3〜5は、説明者6の説明を十分理解することができる。
【0021】
なお上述では、HMD200は音声認識によって発話内容を示す音声テキストが作成されたが、本発明はこの方法に限定されない。例えば、説明者6の発話言語を使用者3〜5が理解できない場合には、音声認識の結果得られるテキスト情報を、使用者3〜5の其々が理解可能な言語に翻訳することで、音声テキストを作成してもよい。作成された音声テキストに基づく表示映像を使用者3〜5が視認することで、説明者6の発話言語を理解できない場合であっても、使用者3〜5は説明者6の発話内容を理解することができる。
【0022】
図2を参照し、HMD200の構成について説明する。HMD200は、所謂網膜走査型ディスプレイである。網膜走査型ディスプレイは、画像信号に応じた光束を2次元方向に走査し、走査した光を眼に導き網膜上に表示画像を形成する。なおHMD200は、網膜走査型ディスプレイに限定されない。例えばHMD200は、液晶ディスプレイ、有機EL(ElectroLuminesence)ディスプレイ等、他の画像表示装置を備えていてもよい。
【0023】
図2に示すように、HMD200は、画像信号に応じて変調されたレーザ光(以下「映像光11」という。)を走査して、使用者の少なくとも一方の眼の網膜に出射する。これによりHMD200は、使用者の網膜に画像を直接投影し、映像を視認させることができる。HMD200は、出射装置100と、プリズム150と、カメラ7とを少なくとも備えている。
【0024】
出射装置100は、使用者に視認させるための映像の信号(以下「映像信号」という。)に応じた映像光11を、プリズム150に対し出射する。プリズム150は、出射装置100に対して固定的な位置にある。プリズム150は、出射装置100から出射した映像光11を、使用者の眼に向かって反射させる。プリズム150は、図示しないビームスプリッタ部を備える。プリズム150は、外界からの外光10を透過させ、使用者の眼に導く。プリズム150は、使用者3の側方から入射した映像光11を使用者の眼に入射させる。プリズム150は、外界からの外光10を使用者の眼に入射させる。これにより使用者は、実際の視界と、出射装置100から出射した映像光11に基づく映像とを視認可能となる。カメラ7は、使用者の視野方向の映像を撮影できる。
【0025】
図3を参照し、HMD200の電気的構成について説明する。図3に示すように、HMD200は、表示部40、入力部41、通信部43、フラッシュメモリ49、制御部46、カメラ7、マイク8、及び電源部47を備えている。
【0026】
表示部40は、使用者に映像を視認させる。表示部40は、映像信号処理部70、レーザ群72、及び、レーザドライバ群71を備えている。映像信号処理部70は、制御部46と電気的に接続している。映像信号処理部70は、制御部46から映像信号を受信できる。映像信号処理部70は、受信した映像信号を、使用者の網膜に直接投影するために必要な各信号に変換する。レーザ群72は、青色出力レーザ(Bレーザ)721、緑色出力レーザ(Gレーザ)722、赤色出力レーザ(Rレーザ)723を含む。レーザ群72は、青色、緑色及び赤色のレーザ光を出力する。レーザドライバ群71は、レーザ群72からレーザ光を出力させるための制御を行う。映像信号処理部70はレーザドライバ群71と電気的に接続している。レーザドライバ群71は、Bレーザ721、Gレーザ722、及びRレーザ723と其々電気的に接続している。映像信号処理部70は、所望のレーザ光を所望のタイミングで出力させることが可能である。
【0027】
表示部40は、垂直走査ミラー812、垂直走査制御回路811、水平走査ミラー792、及び水平走査制御回路791を備えている。垂直走査ミラー812は、レーザ群72より出力されたレーザ光を垂直方向に反射させることによって走査を行う。垂直走査制御回路811は、垂直走査ミラー812の駆動制御を行う。水平走査ミラー792は、レーザ群72より出力されたレーザ光を水平方向に反射させることによって走査を行う。水平走査制御回路791は、水平走査ミラー792の駆動制御を行う。映像信号処理部70は、垂直走査制御回路811及び水平走査制御回路791と其々電気的に接続している。垂直走査制御回路811は垂直走査ミラー812と電気的に接続している。水平走査制御回路791は水平走査ミラー792と電気的に接続している。映像信号処理部70は、垂直走査制御回路811を介して垂直走査ミラー812を制御する。映像信号処理部70は、水平走査制御回路791を介して及び水平走査ミラー792を制御する。これによって、所望の方向にレーザ光を反射させることができる。
【0028】
入力部41は、各種操作や設定情報の入力を行う。入力部41は、操作ボタン群50、及び入力制御回路51を備えている。操作ボタン群50は、各種機能キーなどを備えている。入力制御回路51は、操作ボタン群50のキーが操作されたことを検出し、制御部46に通知する。操作ボタン群50は入力制御回路51と電気的に接続している。入力制御回路51は制御部46と電気的に接続している。制御部46は、操作ボタン群50のキーに入力された情報を認識できる。
【0029】
通信部43は、必要に応じて音声テキストを外部機器(PC等)から受信することができる。通信部43は、通信モジュール57と、通信制御回路58とを備えている。通信モジュール57は、無線電波を使用し、音声テキストの受信を行う。通信制御回路58は、通信モジュール57を制御する。制御部46は通信制御回路58と電気的に接続している。通信モジュール57は通信制御回路58と電気的に接続している。制御部46は、通信部43を介して音声テキストを受信できる。なお、通信モジュール57の通信方式としては特に限定されず、従来周知の無線通信方式が使用可能である。例えば、Bluetooth(登録商標)、UWB(Ultra Wide Band)規格、無線LAN(IEEE802.11b,11g,11nなど)規格、WirelessUSB規格などに準拠した無線通信方式が使用可能である。また、赤外線を利用したIrDA(Infrared Data Association)規格に準拠した無線通信方式も使用可能である。
【0030】
カメラ7は、使用者の視野方向の映像を撮影する。カメラ7は、制御部46と電気的に接続している。制御部46は、カメラ7にて撮影された撮影映像を取得できる。マイク8は、制御部46と電気的に接続している。制御部46は、マイク8にて収録された音声を取得できる。
【0031】
電源部47は、電池59及び充電制御回路60を備えている。電池59は、HMD200を駆動する電源となる。電池59は充電可能な二次電池である。充電制御回路60は、電池59の電力をHMD200に供給する。充電制御回路60は、充電用アダプタ(図示せず)から供給される電力を電池59へ供給して電池59の充電を行う。
【0032】
フラッシュメモリ49には、HMD200に対する各種設定情報や、カメラ7において撮影された撮影映像、音声テキスト等が記憶される。フラッシュメモリ49は、制御部46と電気的に接続している。制御部46は、フラッシュメモリ49に記憶された情報を参照することができる。
【0033】
制御部46は、HMD200全体を制御する。制御部46は、例えば、所望の映像を表示部40に表示させる。制御部46は、CPU61、ROM62、及びRAM48を少なくとも備えている。ROM62は、各種プログラムを格納する。RAM48は、各種データを一時的に記憶する。制御部46では、ROM62に格納された各種プログラムをCPU61が読み出すことにより、各処理が実行される。RAM48は、CPU61が各処理を実行する場合に必要な各種フラグ(第一フラグ〜第三フラグ)やタイマ等の記憶領域を提供する。第一フラグは、音声の収録が開始されているか否かを示す。第二フラグは、音声テキストの作成が終了したか否かを示す。第三フラグは、表示映像が作成されたか否かを示す(詳細は後述する)。
【0034】
図4〜図6を参照し、HMD200のCPU61において実行される各種処理(認識処理、撮影処理、表示処理)について説明する。認識処理(図4参照)では、マイク8にて収録された音声に基づいて音声認識が実行され、音声テキストが作成される。撮影処理(図5参照)では、カメラ7を介して撮影映像が撮影されると共に、表示映像が作成される。表示処理(図6)では、作成された表示映像が表示される。これらの処理は、HMD200の電源が投入された場合において、CPU61において起動され実行される。またこれらの処理は、OSが所定の周期で順次切り替えながら実行される(タイムスライス方式)。従って認識処理、撮影処理、及び表示処理は、並列して実行される。なおCPU61は、所謂イベントドリブン方式によって各処理を切り替えてもよい。なおRAM48に記憶された第一フラグ〜第三フラグは、HMD200の起動時にOFFされ、初期化される。
【0035】
図4を参照し、認識処理について説明する。認識処理が起動されると、マイク8にて収録された音声の音量が所定の閾値以上であるかが判断される(S11)。音声の音量が所定の閾値未満である場合(S11:NO)、音量が小さく発話が開始されていないことになるので、S11の処理に戻り、継続して音声の音量が監視される。音声の音量が所定の閾値以上となった場合(S11:YES)、発話が開始されたことになるので、音声の収録が開始されたことを示すために、RAM48に記憶した第一フラグがONされる(S13)。
【0036】
マイク8にて収録された音声の音声認識が開始される(S15)。音声認識の結果、発話内容が特定される(S17)。収録された音声の音量が特定される(S19)。特定された音量が所定の閾値未満となったかが判断される(S21)。特定された音量が継続して所定の閾値以上である場合(S21:NO)、S17の処理に戻り、継続して発話内容の特定が実行される。このように、音声認識によって発話内容が特定されるので、予め音声テキストが準備されていない場合であっても、後述する処理によって表示映像を作成できる。
【0037】
S19の処理によって特定された音量が所定の閾値未満となった場合(S21:YES)、発話が終了したことになるので、S15の処理によって開始された音声認識処理が終了される(S23)。このように、音声の音量が所定の閾値以上である場合に、音声を収録して音声認識を行うので、発話音声を漏れなく取得できる。S17の処理によって特定された発話内容から音声テキストが作成され、フラッシュメモリ49に記憶される(S25)。音声テキストの文字数が特定され、RAM48に記憶される(S27)。S19において特定された音量のうち最大の音量(以下「最大音量」という。)が、RAM48に記憶される(S29)。音声テキストの作成が終了したことを示すために、RAM48に記憶した第二フラグがONされる(S31)。そしてS11の処理に戻る。
【0038】
図5を参照し、撮影処理について説明する。撮影処理が起動されると、RAM48に記憶した第一フラグがONであるかが判断される(S41)。第一フラグがOFFである場合(S41:NO)、発話が開始されておらず発話音声が収録されていない状態であるので、S41の処理に戻る。継続して第一フラグが監視される。
【0039】
第一フラグがONである場合(S41:YES)、発話が開始され、発話音声の収録及び音声認識が開始されている(S13、S15、図4参照)。第一フラグがOFFされる(S43)。カメラ7による撮影が開始される(S45)。カメラ7による撮影の結果取得される撮影映像は、フラッシュメモリ49に記憶される(S47)。これによって、音声テキストの開始時点と、撮影映像の開始時点とを一致させている。
【0040】
第二フラグがONであるかが判断される(S49)。第二フラグがOFFである場合(S49:NO)、発話音声は収録中であり、音声認識が継続して実行中であるので、S47の処理に戻る。カメラ7による撮影が継続され、撮影映像はフラッシュメモリ49に記憶される。第二フラグがONである場合(S49:YES)、発話が終了し、音声テキストが作成されたことになる(S31、図4参照)。カメラ7による撮影が終了される(S50)。これによって、音声テキストの終了時点と、撮影映像の終了時点とを一致させている。第二フラグがOFFされる(S51)。S29(図4参照)の処理でRAM48に記憶された最大音量が取得される。取得された最大音量に基づいて、表示映像を作成する場合に撮影映像に重ねられる音声テキストの大きさが設定される(S53)。例えば、最大音量が大きいほど、撮影映像に重ねられる音声テキストの大きさは大きく設定される。これによって、表示される音声テキストの音量を使用者に認識させる。
【0041】
撮影映像の開始時点と、音声テキストの開始時点とが揃うように、音声テキストは撮影映像に重ねられる。音声テキストは、S53において設定された大きさで、撮影映像に重ねられる。これによって、撮影映像と音声テキストとが同期した表示映像が作成される(S55)。表示映像が作成されたことを示すために、RAM48に記憶した第三フラグがONされる(S57)。そしてS41の処理に戻る。
【0042】
図6を参照し、表示処理について説明する。表示処理が起動されると、RAM48に記憶した第三フラグがONであるかが判断される(S71)。第三フラグがOFFである場合(S71:NO)、表示映像は未だ作成されていない状態であるので、S71の処理に戻る。継続して第三フラグが監視される。
【0043】
第三フラグがONである場合(S71:YES)、表示映像の作成が完了していることになる(S57、図5参照)。第三フラグがOFFされる(S73)。S27(図4参照)の処理でRAM48に記憶された文字数が取得される。取得された文字数に基づいて、表示映像を表示する場合の表示速度が設定される(S75)。例えば、文字数が大きいほど、表示映像の表示速度は速く設定される。これによって、使用者による音声テキストの認識を妨げることなく、表示映像の表示時間を極力短くしている。
【0044】
なお本実施の形態では、取得された文字数に基づいて、表示映像を表示する場合の表示速度が設定されていた。しかしながら本発明はこの方法に限定されない。例えば音声テキストの文字量(データサイズやワード数など)に基づいて表示速度を設定してもよい。
【0045】
S75において設定された表示速度に基づき、表示映像を表示する処理が開始される(S77)。使用者は、表示映像を視認可能となる。表示映像では、撮影映像と音声テキストとが同期している(撮影映像と音声テキストとで開始時点及び終了時点が揃っている)ので、使用者は撮影映像と音声テキストとを関連付けて認識できる。
【0046】
図7を参照し、表示映像の一例である表示映像15について説明する。表示映像15には、説明者の映像13と、ホワイトボードの映像14とが含まれている。説明者は、ホワイトボードを指し示しながら説明を行っている。説明者の発話音声がテキスト化された音声テキスト12が表示される。HMD200の使用者は、説明者の発話音声を、音声テキスト12を視認することで認識できる。音声テキスト12の表示タイミングは、説明者の発話のタイミングと同期している。それ故、HMD200の使用者は、説明者がホワイトボードを指し示すタイミングと、音声テキストの内容とを関連付けて認識できる。HMD200の使用者は、説明者の説明を十分理解することができる。
【0047】
図6に示すように、作成された表示映像をすべて表示し、表示が終了したかが判断される(S79)。表示映像をすべて表示し、表示が終了した場合(S79:YES)、表示を終了させるための終了処理(表示部40の初期化等)が実行され(S83)、S71の処理に戻る。一方、表示されていない表示映像が残存する場合(S79:NO)、第三フラグがONであるかが判断される(S81)。認識処理(図4参照)において、新たに所定の閾値以上の音量の音声が検出されて音声テキスト(新規音声テキスト)が作成され(S25、図4参照)、撮影処理(図5参照)において、新たに撮影映像(新規撮影映像)が取得されて(S47、図5参照)表示映像(新規表示映像)が作成された(S55、図5参照)場合、第三フラグがONされる(S57、図5参照)。第三フラグがONである場合(S81:YES)、新規表示映像が作成されたことを示しているので、表示中の表示映像を、新規表示映像に切り替える必要がある。表示映像の表示を終了させるために、S83の処理に進む。表示映像の表示が終了され(S83)、S71の処理に戻る。ここで第三フラグはONであるので(S71:YES)、第三フラグがOFFされ(S73)、表示速度が設定された(S75)後、撮影処理(図5参照)において新規表示映像の表示が開始される(S77)。これによって、新規表示映像を遅滞なく表示することができるので、表示遅延の累積を防止できる。使用者は、遅滞なく表示映像を視認できる。
【0048】
一方、第三フラグがOFFである場合(S81:NO)、新たな表示映像は作成されていないので、継続して表示映像を表示させるためにS79の処理に戻る。
【0049】
以上説明したように、HMD200では、音声認識によって作成された音声テキストが、カメラ7によって撮影された撮影映像に重ねられ、表示映像が作成される。撮影映像は一旦フラッシュメモリ49に記憶されるので、音声テキストの作成に時間を要する場合であっても、撮影映像と音声テキストとが同期した表示映像を作成できる。また、表示映像における撮影映像と音声テキストとは、開始時点及び終了時点を一致させることで容易に同期させることができる。これによって使用者は、撮影映像と音声テキストとを関連付けて認識できる。
【0050】
なお、本発明は上記実施の形態に限定されるものではなく、種々の変更が可能である。上述の実施の形態では、HMD200のマイク8にて収録された音声を音声認識することによって発話内容が特定され、音声テキストが作成されていた。しかしながら本発明はこの方法に限定されない。例えば音声テキストは、オペレータ等が発話音声を聞き、外部機器(PC等)に発話内容をテキスト入力することで作成されてもよい。HMD200では、通信部43を介して外部機器(PC等)から音声テキストを受信し、受信した音声テキストを撮影映像に重ねることによって、表示映像が作成されてもよい。以下、本実施の形態の変形例について説明する。
【0051】
図8を参照し、本実施の形態の変形例における音声テキスト取得処理について説明する。音声テキスト取得処理では、外部機器から音声テキストを受信する処理が実行される。音声テキスト取得処理は、HMD200の電源が投入された場合において、CPU61において起動され実行される。音声テキスト取得処理は、上述した実施の形態における認識処理に代わって処理を行う。撮影処理及び表示処理は、上述した実施の形態と同様であるので、以下では説明を省略している。
【0052】
図8に示すように、音声テキスト取得処理が起動されると、外部機器から通信部43を介して、カメラ7による撮影を開始する指示を受信したかが判断される(S91)。通信部43を介して何ら指示が受信されない状態では(S91:NO)、S91の処理に戻る。継続して開始指示の受信が監視される。
【0053】
外部機器は、オペレータ等による外部機器へのテキスト入力が開始され、音声テキストの作成が開始されたタイミングで、HMD200に対してカメラ7による撮影の開始指示を送信する。カメラ7による撮影の開始指示が受信された場合(S91:YES)、カメラ7による撮影を開始させるために、RAM48に記憶した第一フラグがONされる(S93)。マイク8にて収録された音声の音量が特定される(S95)。なお撮影処理(図5参照)では、第一フラグがONとなった場合(S41:YES、図5参照)、カメラ7による撮影が開始される(S45、図5参照)。撮影された撮影映像は、フラッシュメモリ49に記憶される(S47、図5参照)。
【0054】
通信部43を介し、外部機器から音声テキストを受信したかが判断される(S97)。外部機器から音声テキストを受信していない場合(S97:NO)、S97の処理に戻る。継続して音声テキストの受信が監視される。
【0055】
オペレータによる発話内容のテキスト入力が終了した場合、外部機器は、テキスト入力によって作成された音声テキストを、HMD200に対して送信する。HMD200は、外部機器から音声テキストが送信された場合、通信部43を介して該音声テキストを受信する(S97:YES)。
【0056】
外部機器から送信された音声テキストを受信した場合、受信した音声テキストはフラッシュメモリ49に記憶される(S99)。音声テキストの文字数が特定され、RAM48に記憶される(S101)。S95において特定された音量に基づいて最大音量が特定され、RAM48に記憶される(S103)。音声テキストの作成が終了したことを示すために、RAM48に記憶した第二フラグがONされる(S105)。そしてS91の処理に戻る。
【0057】
以上説明したように、本変形例では、外部機器から音声テキストを受信し、受信した音声テキストと撮影映像とから表示映像を作成できる。音声認識によって音声テキストを作成する処理が不要となるので、HMD200の処理負荷を軽減できる。また、外部機器からHMD200に対して開始指示が送信される。HMD200では、開始指示を受信した時点を、カメラ7による撮影開始時点として特定する。このように、外部機器が、HMD200による撮影の開始タイミングを制御できるので、外部機器において作成される音声テキストと、HMD200において撮影取得される撮影映像との開始時期を一致させることができる。音声テキストと撮影映像とを容易に同期させることができる。
【0058】
なお、図2のカメラ7が本発明の「撮影手段」に相当する。図3のマイク8が本発明の「入力手段」に相当する。図4のS11の処理を行うCPU61が本発明の「第一特定手段」に相当する。図5のS45の処理を行うCPU61が本発明の「開始手段」に相当する。図4のS25、図8のS97の処理を行うCPU61が本発明の「第一取得手段」に相当する。図5のS47の処理を行うCPU61が本発明の「記憶制御手段」に相当し、S53において決定した音声テキストの大きさに基づき、S55において音声テキストを撮影映像に重ねる処理を行うCPU61が、本発明の「第一作成手段」に相当する。図6のS75において設定した表示速度に基づいて、S77において表示処理を行うCPU61が本発明の「表示制御手段」に相当する。図4のS19の処理を行うCPU61が本発明の「第二取得手段」に相当する。図4のS25の処理を行うCPU61が本発明の「第二作成手段」に相当する。図4のS21の処理を行うCPU61が本発明の「第二特定手段」に相当する。図8のS97の処理を行うCPU61が本発明の「第一受信手段」に相当し、S91の処理を行うCPU61が本発明の「第二受信手段」に相当する。
【0059】
なお、本発明は上記実施の形態に限定されるものではなく、種々の変更が可能である。上述の実施の形態では、開始時点と終了時点とを定めた音声テキスト及び撮影映像に基づいて、表示映像が作成されていた。しかしながら本発明はこの方法に限定されない。例えば、音声テキスト及び撮影映像に、開始時点と終了時点とを示すタイムスタンプを記憶させてもよい。表示映像は、タイムスタンプが揃うように、音声テキストと撮影映像とを重ねることによって作成されてもよい。
【0060】
上述の実施の形態では、HMD200のカメラ7によって撮影された撮影映像に音声テキストが重ねられて表示映像が作成されていたが、本発明はこの方法に限定されない。別のカメラによって撮影された撮影された撮影映像を通信部43を介して受信し、受信した撮影映像に、作成された音声テキストを重ねることで、表示映像を作成してもよい。
【0061】
上述の実施の形態では、収録された音声の音量に応じて音声テキストの文字の大きさを変化させていたが、本発明はこの方法に限定されない。例えば、収録された音声の音量に応じて音声テキストの色を変化させてもよい。また例えば、音声の音量を示す映像を別途作成して表示させてもよい。
【0062】
上述の実施の形態では、収録される音声の音量が所定の閾値以上となった場合に音声認識処理を開始し、音量が所定の閾値未満となった場合に音声認識処理を終了させていた。しかしながら本発明はこの方法に限定されない。例えば、音量が所定の閾値以上である状態が所定時間以上継続した場合に音声認識処理を開始させてもよい。音量が所定の閾値未満である状態が所定時間以上継続した場合に音声認識処理を終了させてもよい。
【符号の説明】
【0063】
7 カメラ
8 マイク
49 フラッシュメモリ
61 CPU
200 HMD

【特許請求の範囲】
【請求項1】
映像を撮影する撮影手段と、
前記撮影手段による撮影の開始時点を特定する第一特定手段と、
前記第一特定手段によって特定された前記開始時点から、前記撮影手段による撮影を開始する開始手段と、
前記第一特定手段によって特定された前記開始時点以後、前記撮影手段の撮影対象から発せられる音声をテキスト化した音声テキストを取得する第一取得手段と、
前記開始手段によって撮影が開始されてから、前記第一取得手段によって前記音声テキストが取得されるまでの間に撮影された撮影映像を、記憶手段に記憶する記憶制御手段と、
前記第一取得手段によって前記音声テキストが取得された場合に、前記記憶手段に記憶した前記撮影映像の開始時点と、前記音声テキストの開始時点とが揃うように前記音声テキストを前記撮影映像に重ねることで、前記撮影映像と前記音声テキストとが同期した表示映像を作成する第一作成手段と、
前記第一作成手段によって作成された前記表示映像を表示手段に表示する表示制御手段と
を備えたことを特徴とするヘッドマウントディスプレイ。
【請求項2】
前記第一特定手段は、
前記表示制御手段によって前記表示映像が前記表示手段に表示されている状態で、新たな前記開始時点である新規開始時点を特定し、
前記第一取得手段は、
前記表示制御手段によって前記表示映像が前記表示手段に表示されている状態で、新たな前記音声テキストである新規音声テキストを取得し、
前記記憶制御手段は、
前記第一特定手段によって前記新規開始時点が特定されてから、前記第一取得手段によって前記新規音声テキストが取得されるまでの間に撮影された撮影映像である新規撮影映像を、前記記憶手段に記憶し、
前記第一作成手段は、
前記記憶手段に記憶した前記新規撮影映像に、前記新規音声テキストを重ねた表示映像である新規表示映像を作成し、
前記表示制御手段は、
前記表示映像の表示中に前記新規表示映像が作成された場合には、表示中の前記表示映像の表示を中止し、前記新規表示映像を前記表示手段に表示することを特徴とする請求項1に記載のヘッドマウントディスプレイ。
【請求項3】
前記表示制御手段は、
前記第一取得手段によって取得した前記音声テキストの文字量に応じて、前記表示映像の表示速度を変更することを特徴とする請求項1又は2に記載のヘッドマウントディスプレイ。
【請求項4】
前記音声テキストの音量を取得する第二取得手段を備え、
前記第一作成手段は、
前記第二取得手段によって取得した前記音量に応じて前記音声テキストの大きさを変更し、大きさを変更した音声テキストを前記撮影映像に重ねた表示映像を作成することを特徴とする請求項1から3のいずれかに記載のヘッドマウントディスプレイ。
【請求項5】
音声が入力される入力手段と、
前記入力手段によって入力された前記音声を認識し、音声テキストを作成する第二作成手段と
を備え、
前記第一取得手段は、
前記第二作成手段によって前記音声テキストが作成された場合に、作成された前記音声テキストを取得することを特徴とする請求項1から4のいずれかに記載のヘッドマウントディスプレイ。
【請求項6】
前記第一特定手段は、
前記入力手段によって入力された音声の音量が、所定未満から所定以上となった時点を前記開始時点として特定することを特徴とする請求項5に記載のヘッドマウントディスプレイ。
【請求項7】
前記入力手段によって入力される音声の音量が所定以上から所定未満となった時点を、終了時点として特定する第二特定手段を備え、
前記第一作成手段は、
前記開始時点から、前記第二特定手段によって特定された前記終了時点までの間に、前記入力手段によって入力された前記音声を認識し、音声テキストを作成することを特徴とする請求項5又は6に記載のヘッドマウントディスプレイ。
【請求項8】
前記第一取得手段は、
前記音声テキストを受信することで取得する第一受信手段を備えたことを特徴とする請求項1から4のいずれかに記載のヘッドマウントディスプレイ。
【請求項9】
所定の時点を指示する指示信号を受信する第二受信手段を備え、
前記第一特定手段は、
前記第二受信手段によって前記指示信号を受信した時点を前記開始時点として特定することを特徴とする8に記載のヘッドマウントディスプレイ。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2011−139227(P2011−139227A)
【公開日】平成23年7月14日(2011.7.14)
【国際特許分類】
【出願番号】特願2009−297133(P2009−297133)
【出願日】平成21年12月28日(2009.12.28)
【出願人】(000005267)ブラザー工業株式会社 (13,856)
【Fターム(参考)】