眼鏡型表示装置
【課題】周囲の雑音による影響を受け難く、特定の話者の音声を精度よく翻訳して表示できる眼鏡型表示装置を提供する。
【解決手段】周囲の音を受音して音信号に変換し視界を撮像する眼鏡型表示装置1は、撮像された視界の画像データから話者の顔画像データ及び顔特徴データの少なくとも一方を抽出し、その顔画像データ及び顔特徴データ並びに周囲の音の音信号の少なくとも一つに基づいて、話者の音声信号を特定して抽出する。また、前記話者の音声信号をテキストデータに変換し、そのテキストデータを、そのテキストデータの言語とは異なる他の言語のテキストデータに変換する。他の言語に翻訳されたテキストデータは視界内に重ねて表示される。
【解決手段】周囲の音を受音して音信号に変換し視界を撮像する眼鏡型表示装置1は、撮像された視界の画像データから話者の顔画像データ及び顔特徴データの少なくとも一方を抽出し、その顔画像データ及び顔特徴データ並びに周囲の音の音信号の少なくとも一つに基づいて、話者の音声信号を特定して抽出する。また、前記話者の音声信号をテキストデータに変換し、そのテキストデータを、そのテキストデータの言語とは異なる他の言語のテキストデータに変換する。他の言語に翻訳されたテキストデータは視界内に重ねて表示される。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声の翻訳結果を表示可能な眼鏡型表示装置に関するものである。
【背景技術】
【0002】
従来、この種の眼鏡型表示装置として、音声認識機能付ヘッドアップディスプレイ装置が知られている(特許文献1参照)。この音声認識機能付ヘッドアップディスプレイ装置は、集音装置(マイク)で集音した音声信号を音声認識装置でテキストデータに変換してそのテキストデータを自動翻訳装置により他国語のテキストデータに変換し、そのテキストデータを画像に変換する装置により実時間で画像に変換し表示する。この音声認識機能付ヘッドアップディスプレイ装置によれば、自動翻訳装置を組み込むことにより外国語の音声を母国語の文字データに変換して表示するいわゆる実時間字幕表示機能が実現できるので、本人の声や周囲の音を聞きながら、且つ前面の風景を見ながら翻訳された文字を読むことができる。
【発明の概要】
【発明が解決しようとする課題】
【0003】
しかしながら、上記音声認識機能付ヘッドアップディスプレイ装置では、翻訳の精度が悪く、実用上使用することができない場合があった。特に、複数の外国人を相手に会話をする場合には、複数の相手をそれぞれ識別することができず、翻訳の精度がさらに悪化するという問題があった。また、通常の眼鏡と同様にウェアラブルに装着して使用可能な眼鏡型表示装置は、装着したまま外出することができるが、パソコンや専用機器などで構成され室内に設置された自動翻訳装置に比べて、周囲の雑音を拾いやすく、正確な翻訳が妨げられるおそれもある。
【0004】
本発明は以上の問題点に鑑みなされたものであり、その目的は、周囲の雑音による影響を受け難く、特定の話者の音声を精度よく翻訳して表示できる眼鏡型表示装置を提供することである。
【課題を解決するための手段】
【0005】
本発明に係る眼鏡型表示装置は、周囲の音を受音して音信号に変換する受音手段と、視界を撮像する視界撮像手段と、視界内に情報を重ねて表示可能な表示手段とを備えた眼鏡型表示装置であって、前記視界撮像手段で撮像された視界の画像データから話者の顔画像データ及び顔特徴データの少なくとも一方を抽出する顔関連データ抽出手段と、前記顔関連データ抽出手段で抽出された前記話者の顔画像データ及び顔特徴データ並びに前記受音手段から出力される音信号の少なくとも一つに基づいて、前記話者の音声信号を特定して抽出する音声信号抽出手段と、前記音声信号抽出手段で抽出された前記話者の音声信号をテキストデータに変換する音声認識手段と、前記音声認識手段で認識された前記話者の音声のテキストデータを、そのテキストデータの言語とは異なる他の言語のテキストデータに変換する翻訳手段と、前記翻訳手段で翻訳された前記他の言語のテキストデータを前記視界内に重ねて表示するように前記表示手段を制御する表示制御手段とを備える。
この眼鏡型表示装置によれば、顔関連データ抽出手段で抽出された話者の顔画像データ及び顔特徴データの少なくとも一方に基づいて当該話者の方向を特定することができ、受音手段から出力される音信号が周囲の雑音を含んでいても、その音信号から、前記特定した話者の方向からの音声信号のみを特定して抽出することができる。このように周囲の雑音を含む音信号から特定の話者からの音声信号のみを抽出してテキストデータに変換し、その話者の音声のテキストデータを他の言語のテキストデータに変換し、視界内に重ねて表示することができる。
なお、前記話者の音声信号を特定して抽出する音声信号抽出手段は、前記受音手段で変換された音信号に含まれる音声信号を抽出し、その抽出した音声信号と前記話者の顔画像データ及び顔特徴データの少なくとも一方とに基づいて、前記話者の音声信号を特定するように構成してもよい。
【0006】
前記眼鏡型表示装置において、前記音声信号抽出手段で抽出された前記話者の音声信号に基づいて前記話者に固有の音声特徴データを抽出する音声特徴データ抽出手段と、前記話者に固有の音声特徴データの有無をデータベースに照会する音声特徴データ照会手段と、前記音声特徴データ照会手段の照会結果に基づき、前記話者に固有の音声特徴データが前記データベースに保存されていない場合は、前記音声特徴データ抽出手段で抽出された前記話者に固有の音声特徴データを、前記顔関連データ抽出手段で抽出された前記話者の顔画像データ及び顔特徴データの少なくとも一方と前記話者を識別可能な識別データとに関連付けて前記データベースに保存する音声特徴データ保存手段と、を更に備え、前記話者に固有の音声特徴データが前記データベースに保存されている場合は、前記データベースに保存されている前記話者に固有の音声特徴データを用いて、前記音声信号特定抽出手段による前記話者の音声信号の抽出及び前記音声認識手段による前記テキストデータへの変換の少なくとも一方を行ってもよい。
この眼鏡型表示装置によれば、データベースに保存されている話者に固有の音声特徴データを用いて、話者の音声信号の抽出及びテキストデータへの変換の少なくとも一方を行うことにより、周囲の音情報からの特定の話者の音声信号の抽出の精度や、その音信号からテキストデータへ変換する音声認識の精度を更に高めることができる。
また、前記話者に固有の音声特徴データがデータベースに保存されていない場合に、前記音声特徴データ抽出手段で抽出された前記話者に固有の音声特徴データを、その話者の顔画像データ及び顔特徴データの少なくとも一方と話者を識別可能な識別データとに関連付けてデータベースに追加して保存することにより、当該話者について、その後に行う音声信号の抽出の精度や音声認識の精度を更に高めることができる。
なお、前記話者に固有の音声特徴データが前記データベースに既に保存されている場合は、その既に保存されている話者に固有の音声特徴データを更新したり、前記音声特徴データ抽出手段で抽出された前記話者に固有の音声特徴データをデータベースに追加したりしてもよい。また、前記話者に固有の音声特徴データが前記データベースに既に保存されている場合は、前記音声特徴データ抽出手段で抽出された音声特徴データの保存を行わないようにしてもよい。
【0007】
また、前記眼鏡型表示装置において、前記音声認識手段で認識された前記話者の音声のテキストデータに基づいて前記話者に固有の言語表現データを抽出する言語表現データ抽出手段と、前記話者に固有の言語表現データの有無をデータベースに照会する言語表現データ照会手段と、前記言語表現データ照会手段の照会結果に基づき、前記話者に固有の言語表現データが前記データベースに保存されていない場合は、前記言語表現データ抽出手段で抽出された前記話者に固有の言語表現データを、前記顔関連データ抽出手段で抽出された前記話者の顔画像データ及び顔特徴データの少なくとも一方と前記話者を識別可能な識別データと関連付けて前記データベースに保存する言語表現データ保存手段と、を更に備え、前記翻訳手段は、前記話者に固有の言語表現データが前記データベースに既に保存されている場合は、前記データベースに保存されている前記話者の言語表現データを用いて、前記他の言語のテキストデータへの変換を行ってもよい。
この眼鏡型表示装置によれば、データベースに保存されている話者に固有の言語表現データを、話者の音声のテキストデータを他の言語のテキストデータへ変換する翻訳に用いることにより、翻訳の精度を更に高めることができる。
また、話者に固有の言語表現データがデータベースに保存されていない場合に、言語表現データ抽出手段で抽出された話者に固有の言語表現データを、その話者の顔画像データ及び顔特徴データの少なくとも一方と話者を識別可能な識別データとに関連付けてデータベースに保存することにより、当該話者について、その後に行う翻訳の精度を更に高めることができる。
なお、前記話者に固有の言語表現データが前記データベースに既に保存されている場合は、その既に保存されている話者に固有の言語表現データを更新したり、前記言語表現データ抽出手段で抽出された前記話者に固有の言語表現データをデータベースに追加したりしてもよい。また、前記話者に固有の言語表現データが前記データベースに既に保存されている場合は、前記言語表現データの保存を行わないようにしてもよい。
【0008】
また、前記眼鏡型表示装置において、前記顔関連データ抽出手段で抽出された前記話者の顔画像データ及び顔特徴データの少なくとも一方に基づいて、前記話者の表情を判断する表情判断手段を、更に備え、前記翻訳手段は、前記表情判断手段で判断した前記話者の表情の情報を用いて、前記他の言語のテキストデータへの変換を行うものであってもよい。
この眼鏡型表示装置によれば、話者の顔画像データ及び顔特徴データの少なくとも一方に基づいて判断した当該話者の表情の情報を、話者の音声のテキストデータを他の言語のテキストデータへ変換する翻訳に用いることにより、翻訳の精度を更に高めることができる。
【0009】
また、前記眼鏡型表示装置において、前記音声認識手段による音声信号のテキストデータへの変換と、前記翻訳手段による前記他の言語のテキストデータへの変換とを、複数の話者それぞれについて同時に行ってもよい。
この眼鏡型表示装置によれば、視界の中に複数の話者がいる場合に、任意のタイミングで話者を切り換えて翻訳結果を表示したり、複数の話者の翻訳結果を同時に表示したりすることができる。
【0010】
また、前記眼鏡型表示装置において、前記翻訳手段で前記他の言語のテキストデータに変換された翻訳結果に問題が無かったか否かを検証する翻訳結果検証手段と、前記翻訳結果検証手段で前記翻訳結果に問題がないと判断した場合に、前記話者に固有の辞書データとして、該翻訳結果を前記話者の識別データと関連付けて前記データベースに保存する辞書データ保存手段と、を更に備えてもよい。
この眼鏡型表示装置によれば、前記他の言語のテキストデータに変換された翻訳結果に問題がないと判断した場合に、その翻訳結果を当該利用者に固有の辞書データとしてデータベースに保存することにより、当該話者について、その後に行う翻訳の精度を更に高めることができる。
【0011】
また、前記眼鏡型表示装置において、前記翻訳結果に問題があったことを前記話者に知らせるメッセージ及び問題があった翻訳結果の部分を該話者に聞き直すメッセージの少なくとも一方を該話者に対して出力するメッセージ出力手段を更に備え、前記翻訳結果検証手段で前記翻訳結果に問題があると判断した場合に、前記翻訳手段による前記他の言語のテキストデータへの変換のやり直し、又は、前記メッセージ出力手段による前記メッセージの出力を行ってもよい。
この眼鏡型表示装置によれば、前記翻訳結果に問題があると判断した場合に、前記他の言語のテキストデータへの変換のやり直しを行うことにより、誤った翻訳に基づいて話者との会話が進んでしまうのを回避することができる。また、前記翻訳結果に問題があると判断したときに、翻訳結果に問題があったことを話者に知らせるメッセージ及び問題があった翻訳結果の部分を話者に聞き直すメッセージの少なくとも一方を出力する場合、翻訳結果に問題があった部分を話者に対して聞き直すことができる。従って、この場合も、誤った翻訳に基づいて話者との会話が進んでしまうのを回避することができる。
【0012】
また、前記眼鏡型表示装置において、前記眼鏡型表示装置を装着した利用者の眼を撮像する利用者撮像手段と、前記利用者の音声を受音して音声信号に変換する利用者音声受音手段と、前記利用者音声受音手段から出力される前記利用者の音声信号をテキストデータに変換する利用者音声認識手段と、を更に備え、前記翻訳結果検証手段は、前記利用者撮像手段で撮像した前記利用者の眼の表情や動き、前記利用者音声受音手段で受音した前記利用者の音声信号、及び前記利用者音声認識手段から出力される前記利用者の音声のテキストデータの少なくとも一つに基づいて、前記翻訳結果を検証してもよい。
この眼鏡型表示装置によれば、話者に対面して話者からの音声を聞いている利用者の眼の表情や動き、音声信号及びその音声信号から変換したテキストデータの少なくとも一つに基づいて、前記翻訳結果を検証することにより、翻訳結果の検証の精度を高めることができる。
【0013】
また、前記眼鏡型表示装置において、複数の話者について該話者に固有の顔画像データ、顔特徴データ、音声特徴データ、言語表現データ及び辞書データの少なくとも一つのデータが保存されているデータベースが設けられたサーバ装置との間で、通信ネットワークを介して通信するための通信手段を、更に備えてもよい。
本発明に係る翻訳システムは、前記通信手段を備えた眼鏡型表示装置と、前記データベースが設けられたサーバとを備える。
これらの眼鏡型表示装置及び翻訳システムによれば、眼鏡型表示装置のようなハードウェアなどの構成の制約が少ない外部のサーバに前記データベースを設けることにより、多数の話者について保存された話者に固有の顔画像データ、顔特徴データ、音声特徴データ、言語表現データ及び辞書データの少なくとも一つのデータを、多数の眼鏡型表示装置からアクセスして共有することができる。
前記翻訳システムにおいて、前記顔関連データ抽出手段、前記音声信号抽出手段、前記音声認識手段及び前記翻訳手段の少なくとも一つを、前記眼鏡型表示装置に備える代わりに前記サーバ装置に備えるように構成してもよい。
【0014】
また、前記眼鏡型表示装置において、前記視界における利用者の視線方向を検出する視線方向検出手段と、当該眼鏡型表示装置の姿勢変化を検出する姿勢変化検出手段と、前記視界撮像手段で撮像された前記視界の画像情報と、前記視線方向検出手段で検出された視線方向の検出結果と、前記姿勢変化検出手段で検出された前記眼鏡型表示装置の姿勢変化の検出結果とに基づいて、前記視界内において前記利用者が注視している話者を特定する注視対象話者特定手段と、を更に備えてもよい。
この眼鏡型表示装置によれば、前記視線方向検出手段で前記利用者の視線方向を検出するとともに、姿勢変化検出手段で検出された眼鏡型表示装置の姿勢変化の検出結果に基づいて、上記利用者の視線方向を速やかに補正することができる。これにより、視界撮像手段で撮像された視界画像内で利用者が注視している話者を特定するときの精度を高めることができる。
なお、前記眼鏡型表示装置において、前記視線方向検出手段は、前記利用者の眼を撮像する利用者撮像手段を有し、前記利用者撮像手段で撮像された前記利用者の眼の画像に基づいて前記利用者の視線方向を検出するものであってもよい。
また、前記眼鏡型表示装置において、前記視界撮像手段を前記視線方向検出手段として兼用してもよい。この場合は、前記視界撮像手段で撮像された画像内の所定位置(例えば、撮像画像の中心位置)の方向を前記視界における利用者の視線方向と推定される。
また、前記眼鏡型表示装置において、前記受音手段で受音された音声の音源方向を検出する音源方向検出手段を更に備えてもよい。この場合は、前記音源方向検出手段で検出された音声の音源方向に基づいて、話者をより精度よく特定することができる。
【発明の効果】
【0015】
本発明によれば、周囲の雑音を含む音信号から特定の話者からの音声信号のみを抽出してテキストデータに変換し、その話者の音声のテキストデータを他の言語のテキストデータに変換し、視界内に重ねて表示することができる。よって、周囲の雑音の影響を受けにくく特定の話者の音声を識別して精度よく翻訳して表示することができるという効果を奏する。
【図面の簡単な説明】
【0016】
【図1】本発明の実施形態に係る眼鏡型表示装置を含む翻訳システムの全体構成を示す説明図。
【図2】(a)は同眼鏡型表示装置の上面図。(b)は他の構成例に係る眼鏡型表示装置の上面図。
【図3】眼鏡型表示装置のハードウェアの一構成例を示すブロック図。
【図4】(a)は視線検知部の一構成例を示す概略構成図。(b)は眼球の各位置に対応するイメージセンサの水平走査出力信号の模式図。
【図5】画像生成部、画像投影表示部及び焦点距離調整部の一例を示す概略構成図。
【図6】眼鏡型表示装置及び翻訳サーバの一構成例を示す機能ブロック図。
【図7】眼鏡型表示装置の音源分離部における音源の分離を説明するための説明図。
【図8】眼鏡型表示装置の顔認識部における顔認識の処理手順の一例を説明するためのフローチャート。
【図9】翻訳サーバの一例を示す機能ブロック図。
【図10】眼鏡型表示装置の右側のメガネレンズを通して見える前方視界に、視線方向の話者の翻訳文を重ね合わせて表示した一例の説明図。
【図11】話者の表現方法や言い回し方を学習して翻訳精度を高め、学習結果を個人辞書データに登録する手順の一例を説明するためのフローチャート。
【図12】周辺環境情報を用いた翻訳の概念図。
【図13】複数の話者について同時に翻訳し同時に翻訳文を表示した例を示す説明図。
【発明を実施するための形態】
【0017】
以下、図面に基づいて本発明の実施形態を説明する。
図1は、本発明の実施形態に係る眼鏡型表示装置1を含む翻訳システムの全体構成を示す説明図である。眼鏡型表示装置1は、利用者の両眼の前方を覆うように頭に装着することにより、利用者に話しかけた外国人の声と画像とを、通信ネットワーク40を介して翻訳サーバ50に送信し、翻訳サーバ50で翻訳したテキストデータを受信して、翻訳文を利用者が視認できるように前方視界に重ね合わせて表示することができる。
【0018】
眼鏡型表示装置1のフレームは、リム2を備えている。このリム2の左右両サイドに、ツルとも呼ばれる一対のテンプル3R,3Lが、それぞれ蝶番4R,4L(4Lは不図示)により約90度開閉可能に保持されている。また、一対のメガネレンズ5R,5L、一対の鼻パッド6R,6L、一対のテンプル3R,3Lの蝶番4R,4Lが設けられた側と反対側の端部にそれぞれ先セル7R,7Lを備えている。
【0019】
また、眼鏡型表示装置1は、右側のテンプル3Rの内側に電源をON/OFFするための電源スイッチ8と、リム2の中央上部のフロント側に設けられた利用者の視線の方向における前方視界の画像を撮像する視界撮像手段としての視界同調カメラ9と、リム2の右側のレンズ5Rの下部側に設けられた視線方向検出手段としての視線検知部10と、周囲の音を受音して音信号に変換する受音手段としての4個のマイク11RF,RR,LF,LRとを備えている。更に、眼鏡型表示装置1は、リム2の右側端部にメガネレンズ5Rを通して見える前方視界に重ね合わせて利用者が視認できるように翻訳文を表示する表示手段としての画像表示部12とを備えている。
【0020】
上記前方視界に重ね合わせて利用者が視認できるように情報を表示する画像表示方式としては、網膜に直接走査するものやコンバイナ光学系を用いたもの等、各種の画像表示方式を用いることができる。
【0021】
図2(a)は、網膜走査型の画像表示方式を採用した眼鏡型表示装置1の構成例を示している。この網膜走査型の眼鏡型表示装置1では、走査用の光学系124が右レンズ5Rの前方に配設されている。また、図2(b)は、コンバイナ光学系125を用いた画像表示方式を採用した眼鏡型表示装置1の構成例を示している。コンバイナ光学系125は、例えば内部に偏光ビームスプリッタと1/4波長板と主反射面と有する平板状の透明基板で構成され、右レンズ5Rの中に埋め込むように設けられる。コンバイナ光学系125は、右側のテンプル3Rの内側にある光源の画像表示面から出射した表示光束を使用者の眼の方向に導くように構成されている。
【0022】
図3は、眼鏡型表示装置のハードウェアの一構成例を示すブロック図である。
眼鏡型表示装置1のリム2又はテンプル3R,3Lの内部には、画像表示部12を構成する構成要素の少なくとも一部と、CPUやROM等で構成された制御手段としての制御部14と、記憶手段としてのメモリ15と、電源手段としてのバッテリ16と、装着検知部17とが格納されている。また、眼鏡型表示装置1は、通信部18と、姿勢変化検出部19とを更に備えている。
【0023】
制御部14で実行されるプログラムや制御部14等で用いられる各種データは、メモリ15に保存されている。制御部14に所定のプログラムやデータが読み出されて実行されることにより、後述の各種制御やデータ処理が実行される。
【0024】
制御部14は、視界同調カメラ9の視界の画像情報及び視線方向の検出結果と、姿勢変化検出部19で検出された眼鏡型表示装置1の姿勢変化の検出結果とに基づいて、制御部14内でデータ処理したり通信ネットワーク上のサーバの支援を受けたりすることにより、視界内において利用者が注視している話者を特定する話者特定手段としても機能する。
【0025】
通信部18は、例えばWiFi等の公衆無線LANのアクセスポイントを介して、又は、携帯電話機等の移動体通信網の基地局を介して、通信ネットワーク40上の翻訳サーバ50や他の各種サーバと通信するための通信手段として機能する。移動体通信網の基地局との間の通信は、基地局と直接通信してもよいし、携帯電話機等の携帯通信端末を介して基地局と通信するようにしてもよい。携帯電話機等の携帯通信端末との通信は、例えばBluetooth(登録商標)や赤外線等の近距離無線通信で行うようにしてもよいし、通信ケーブルを介した近距離有線通信で行うようにしてもよい。また、通信部18は、(1)移動体通信網用のアンテナ及び無線通信処理部部、(2)無線LAN用のアンテナ及び無線通信処理部、及び(3)Bluetooth(登録商標)や赤外線等の近距離通信用のアンテナ及び無線通信処理部のすべて備えるように構成してもよいし、上記(1)乃至(3)の構成のうち通信ネットワーク40上のサーバとの通信に用いられるものだけを備えるように構成してもよい。
また、通信部18は、制御部14と連携することにより、前記特定された話者の画像データやマイク11で集音した音声データを翻訳サーバ50に送信するデータ送信手段として機能するとともに、翻訳サーバ50で翻訳した翻訳文のテキストデータを受信する翻訳データ受信手段としても機能する。
【0026】
姿勢変化検出部19は、例えば1軸、2軸又は3軸の加速度センサで構成され、眼鏡型表示装置1に作用する加速度を検知することにより、利用者の頭部の姿勢変化に伴う眼鏡型表示装置の姿勢変化を検出する姿勢変化検出手段として機能する。姿勢変化検出部19を構成する加速度センサは、重力方向を検知可能なもの(絶対加速度を検知可能なもの)を用いてもよい。姿勢変化検出部19は、例えば、所定のタイミングに検出した眼鏡型表示装置1の姿勢を基準姿勢とし、その利用者の頭部の基準姿勢からの姿勢変化(例えば、基準姿勢からのロール角、ピッチ角及びヨー角それぞれの角度変化分の値、又は、眼鏡型表示装置1の姿勢変化に起因して発生した加速度の値)を、検出結果として出力する。上記基準姿勢を検出タイミングは、例えば、眼鏡型表示装置1の利用を開始したタイミングや所定操作を行ったタイミングでもよいし、利用者が注視している注視対象を特定したタイミングであってもよい。
なお、姿勢変化検出部19は、加速度センサとともに又は加速度センサに代えて地磁気センサを備え、眼鏡型表示装置1に定義された座標を基準にして磁気センサで検出される方位情報を用いてに基づいて眼鏡型表示装置1の姿勢変化の検出するように構成してもよい。
【0027】
また、姿勢変化検出部19によって検出された眼鏡型表示装置1の姿勢変化の検出結果は、視界内において利用者が注視している話者を特定するときに、例えば次の(1)〜(3)を含む様々な制御に用いることができる。
【0028】
(1)利用者の頭部及び視線のぶれ防止制御:
利用者が注視しようとしている話者が同じであるにもかかわらず、何らかの理由により、眼鏡型表示装置1を装着している利用者の頭部に振動やふらつき等のぶれが発生する場合がある。利用者の頭部にぶれが発生すると、その頭部に装着した眼鏡型表示装置1の視界同調カメラ9で撮像される視界の画像における視線方向もぶれてしまうため、その撮像画像や視線方向に基づいて特定する利用者の話者の特定精度が低下するおそれがある。そこで、姿勢変化検出部19によって検出された眼鏡型表示装置の姿勢変化の検出結果に基づいて、視界同調カメラ9で撮像される視界の画像における視線方向を補正する制御を行うことにより、注視対象の特定精度を向上させることができる。
【0029】
(2)注視対象の特定処理の軽減制御:
視界同調カメラ9で撮像した視界の画像の撮像及び視線方向の検出結果に基づく注視対象の特定処理を頻繁に実行すると、眼鏡型表示装置1における処理の負荷が大きくなってしまうおそれがある。そこで、眼鏡型表示装置1の姿勢が大きく変化したときに、その眼鏡型表示装置1を装着した利用者が注視している話者が変わった可能性が高い点に着目し、眼鏡型表示装置1の姿勢変化の検出結果(姿勢変化量)が、予め設定した閾値の範囲よりも大きくなったときに、視界同調カメラ9による視界の画像の撮像処理及び視線方向の検出処理を行うとともに、それらの視界の画像及び視線方向の検出結果に基づく話者の特定処理を行うように制御する。これにより、眼鏡型表示装置1における処理の負荷の増大を回避しつつ、利用者が注視している話者を特定できるようになる。
【0030】
(3)話者の特定処理の補完制御:
視界同調カメラ9による視界の画像の撮像処理や視線方向の検出処理が、眼鏡型表示装置1の姿勢変化(利用者の頭部の姿勢変化)に追従できない場合がある。この場合は、視界の撮像画像や視線方向に基づいて利用者の注視している話者をリアルタイムに特定することができなかったり、特定する利用者の注視している話者の特定精度が低下したりするおそれがある。そこで、視界同調カメラ9による視界の画像の撮像処理や視線方向の検出処理に必要な処理時間に基づいて、その撮像処理及び視線方向の検出処理を行うインターバルを予め設定しておく。そして、視界の撮像画像や視線方向に基づいて利用者の注視シテイル話者を特定した後、その後に到来する次の撮像・視線検出タイミングまでは、眼鏡型表示装置1の姿勢変化の検出結果に基づいて、直近の撮像済みの視界の画像及び検出済みの視線方向を補完することにより、話者を特定するように制御する。この制御により、話者の特定精度が低下することなく、利用者の注視している話者をリアルタイムに特定することができる。
【0031】
電源スイッチ8は、眼鏡型表示装置1の電源をON/OFFするための例えば3Pトグルスイッチであり、電源OFF、AUTO及び電源ONの3つのポジションを取り得る。ここで、AUTOポジションは、一対のテンプル3R,3Lを開いた状態で一対の先セル7R,7Lに弱電圧を印加しておき、利用者が眼鏡型表示装置1を頭に装着したときに、一対の先セル7R,7L間に流れる微弱電流を、タッチセンサ等で構成された装着検知部17が検知することにより、翻訳機能等の動作を開始するように制御される。一方、利用者が眼鏡型表示装置1を外したときには、翻訳機能等の動作を停止するように制御される。また、電源ONポジションでは、電源がONされて翻訳機能等が動作するが、利用者が眼鏡型表示装置1を外した状態で所定時間経過すると自動的に電源がOFFする省電力制御がなされる。なお、電源スイッチ8を設けずに、常に前記AUTOポジションでの電源動作と同様に眼鏡型表示装置1の電源が自動でON/OFFされるように構成してもよい。
【0032】
視界同調カメラ9は、例えばCCDカメラやCMOSカメラ等の固体撮像素子で構成され、眼鏡型表示装置1のリム2の中央上部に配設され、利用者が見ている前方視界を撮像する。この視界同調カメラ9により、前方視界の画像の画像データを取得し、注視している話者の特定や各種分析に使用することができる。
【0033】
図4は、視界における利用者の視線方向を検出する視線方向検出手段としての視線検知部10を説明するための図であって、図4(a)は、視線検知部10の一構成例を示す概略構成説明図であり、図4(b)は眼球の各位置に対応するイメージセンサの水平走査出力信号の模式図である。
【0034】
図4(a)において、視線検知部10は、赤外光を放射する発光ダイオード等の光源116と、投光レンズ117と、受光レンズ118と、CCD又はCMOS等の固体撮像素子等からなる撮像手段としてのイメージセンサ119と、視線演算手段120とを備えている。
【0035】
視線検知部10において、光源116より射出した赤外光は投光レンズ117を通過した後、略平行光となって眼球100Rの角膜を照射する。そして、角膜を通過した赤外光は虹彩を照射する。角膜の表面で拡散反射した赤外光は、受光レンズ118を介してイメージセンサ119上に導光され、角膜像を結像する。同様に、虹彩の表面で拡散反射した赤外光は、受光レンズ118を介してイメージセンサ119上に導光され、虹彩像を結像する。イメージセンサ119からの出力は、図4(b)に示すように、角膜像が結像された角膜反射像スポット位置が他に比べて著しく電位が高くなる。視線演算手段120は、この角膜反射像スポット位置に基づいて、眼球100Rが真っ直ぐ前を向いているときの眼球の中心線からの回転角を算出する。そして、算出した回転角に基づいて、眼球100Rの視軸を求め、前方視界における利用者の相対的な視線方向を検出する。そして、このとき得られた前方視界における相対的な視線方向により、メガネレンズ5Rを通して見える前方視界における利用者が注視している注視点の人物、すなわち前方視界のうち利用者が見ている話者を特定することができる。
【0036】
上記視線検知部10を設けることにより、前方視界内の利用者の視線方向をより正確に検知でき、利用者が注視している話者をより正確に特定することができる。これにより、前方視界における話者について利用者が注視している話者とは別の話者を特定してしまうという誤動作を防ぐことができる。
【0037】
なお、図4に示したように利用者が見ている前方視界の中で利用者が注視している視線方向をより正確に検出する視線検知部10を設けた場合、その視線検知部10で検知された利用者の視線方向に視界同調カメラ9の撮像方向が向くように構成してもよい。より具体的には、視界同調カメラ9の撮像方向を変化させる撮像方向可変手段としてカメラ駆動機構と、視線検知部10の検出結果に基づいて、利用者の視線方向に視界同調カメラ9の撮像方向が向くようにカメラ駆動機構を制御する撮像制御手段とを設ける。上記カメラ駆動機構は、例えば、撮像方向を変化できるように視界同調カメラ9を回転可能に保持するカメラ保持部と、オン/オフ制御及び正/逆回転制御が可能なマイクロモータと、マイクロモータの回転を視界同調カメラ9のカメラ保持部の回転に変換する駆動伝達部とを用いて構成することができる。このように視線検知部10で検知された利用者の視線方向に視界同調カメラ9の撮像方向が向くように構成することにより、利用者が注視している話者方向を中心にして視界の画像を撮像することができ、その撮像した画像の中央に話者が位置することになる。また、話者を特定しやすくなるように撮像した画像を拡大する場合でも、その拡大した画像から注視対象がはみ出にくくなる。従って、注視対象をより精度よく特定することができる。
【0038】
なお、視線方向検出手段として、図4を用いて説明した視線検知部10に限らず、上記視界同調カメラ9を、視界における利用者の視線方向を検出する簡易型の視線方向検出手段として用いてもよい。本構成例の視界同調カメラ9は、撮像画像の中心が利用者の視界の略中央に位置するように設けられ、その視界同調カメラ9で撮像した撮像画像の中心(利用者の視界の略中央)に向かう方向が利用者の視線方向であると推定することにより、利用者の視線方向を検出する。ここで、利用者が頭部の姿勢を変えて視線方向を変化させると、その視線方向の変化に応じて、利用者の頭部に装着されている眼鏡型表示装置1の視界同調カメラ9の撮像方向が変化し、その視界同調カメラ9で撮像した撮像画像の中心(利用者の視界の略中央)に向かう方向が、利用者の視線方向であると推定することができる。
【0039】
図5は、図2(a)で示した網膜走査型の画像表示方式を採用した場合の画像表示部12、及び画像表示部12で用いる画像信号を生成する画像生成部26(図6参照)の一構成例を示す概略構成説明図である。
図5において、制御部14から供給される画像信号を処理するための光源ユニット部110が設けられている。光源ユニット部110には、制御部14から翻訳文テキストデータの画像信号が入力され、それに基づいて画像を生成するための画像信号を発生する画像信号供給部111が設けられ、この画像信号供給部111から画像信号112、垂直同期信号113及び水平同期信号114が出力される。また、光源ユニット部110には、画像信号供給部111から伝達される画像信号112をもとに強度変調されたレーザ光を出射する光源としてのレーザ発振部115が設けられている。なお、前方視界に重ね合わせて表示する翻訳文の画像の形成位置を、利用者が注視している話者を見ているときの焦点位置に合わせるように、網膜に走査する像の焦点を調整する焦点距離調整手段を設けてもよい。
【0040】
また、光源ユニット部110側から導かれたレーザ光をガルバノミラー121aを利用して垂直方向に走査する走査光学系としての垂直走査系121と、垂直走査系121によって走査されたレーザ光を後述する水平走査系122に導く第1リレー光学系123と、垂直走査系121に走査され、第1リレー光学系123を介して入射されたレーザ光を、ガルバノミラー122aを利用して水平方向に走査する走査光学系としての水平走査系122と、水平走査系122によって走査されたレーザ光を利用者の右眼眼球100Rの瞳孔に入射させる第2リレー光学系124とが設けられている。
【0041】
垂直走査系121は、表示すべき画像の1走査線ごとに、レーザビームを垂直方向に垂直走査する垂直走査を行う光学系である。また、垂直走査系121は、レーザビームを垂直方向に走査する光学部材としてのガルバノミラー121aと、そのガルバノミラー121aの駆動制御を行う垂直走査制御部121bとを備えている。
【0042】
これに対し、水平走査系122は、表示すべき画像の1フレームごとに、レーザビームを最初の走査線から最後の走査線に向かって水平に走査する水平走査を行う光学系である。また、水平走査系122は、水平走査する光学部材としてのガルバノミラー122aと、そのガルバノミラー122aの駆動制御を行う水平走査制御部122bとを備えている。
【0043】
また、垂直走査系121、水平走査系122は、図5に示すように、各々画像信号供給部111に接続され、画像信号供給部111より出力される垂直同期信号113、水平同期信号114にそれぞれ同期してレーザ光を走査するように構成されている。
【0044】
上記構成の走査光学系によって利用者の網膜上に翻訳文の画像を表示する処理は、例えば次のように行われる。図5に示すように、本実施形態の眼鏡型表示装置1では、光源ユニット部110に設けられた画像信号供給部111が制御部14から翻訳文テキストデータの画像信号の供給を受けると、画像信号供給部111は、例えば白色レーザ光を出力させるための画像信号112と、垂直同期信号113と、水平同期信号114とを出力する。画像信号112に基づいて、レーザ発振器115はそれぞれ強度変調されたレーザ光を発生し、垂直走査系121に出力する。垂直走査系121のガルバノミラー121aに入射したレーザ光は、垂直同期信号113に同期して垂直方向に走査されて第1リレー光学系123を介し、水平走査系122のガルバノミラー122aに入射する。ガルバノミラー122aは、ガルバノミラー121aが垂直同期信号に同期すると同様に水平同期信号114に同期して、入射光を水平方向に反射するように往復振動をしており、このガルバノミラー122aによってレーザ光は水平方向に走査される。垂直走査系121及び水平走査系122によって垂直方向及び水平方向に2次元に走査されたレーザ光は、第2リレー光学系124により利用者の右眼眼球へ入射され、網膜上に投影される。利用者はこのように2次元走査されて網膜上に投影されたレーザ光による翻訳文の画像を認識することができる。
【0045】
図6は、眼鏡型表示装置1及び翻訳サーバ50の機能ブロック図である。
図6において、眼鏡型表示装置1には、視線同調カメラ9、視線検知部10、マイク11の他に、話者特定部20と音源分離部21とが設けられている。また、翻訳サーバ50には、音源分離部21で分離した音源の中から話者特定部20で特定した話者の音声を抽出する音声信号抽出手段としての特定音源抽出部22と、特定した話者の顔を認識する顔関連データ抽出手段としての顔認識部23と、特定した話者の音声を認識して話者の言語のテキストデータを作成する音声認識手段としての音声認識部24と、認識されたテキストデータを利用者の母国語に翻訳して翻訳文テキストデータを作成する翻訳手段としての自動翻訳部25とが設けられている。
【0046】
更に、眼鏡型表示装置1には、上記構成に加えて、翻訳サーバ50で作成された翻訳文テキストデータの画像信号を生成する画像生成部26と、視界同調カメラ9で撮像された視界の画像情報及び視線方向の検出結果、並びに姿勢変化検出部19の検出結果の少なくとも一つに基づいて、視界における注視している話者の位置と翻訳文の表示位置とが所定の位置関係になるように翻訳文の表示位置を制御する表示制御手段としての表示制御部27と、前述の画像表示部12とが設けられている。
【0047】
話者特定部20は、視界同調カメラ9で撮像した前方視界の画像の中から、視線検知部10で得られた前方視界における利用者の眼の相対的な視線方向に基づいて、メガネレンズ5Rを通して見える前方視界における利用者が注視している注視点の人物の顔、すなわち前方視界のうち利用者が見ている話者の顔を検出して特定する。人物の顔の検出は、視界同調カメラ9で撮像した前方視界の画像を解析することにより、人の顔の部分(顔の位置と大きさ)を抽出し、抽出された人の顔の部分の画像すなわち「顔画像」を検出する。例えば、全身像が撮影されているような画像など、顔の画像だけでない場合もあるが、そのような画像から、人の顔の領域を判断し、人の顔の部分に対応する画像を抽出する。このようにして検出された、特定された話者の顔画像データは、視線方向のデータとともに移動ネットワーク40を介して翻訳サーバ50に送られる。なお、上記顔画像データに基づいて、その顔の特徴点を抽出した顔特徴データを生成し、その顔特徴データを、顔画像データとともに又は顔画像データの代わりに翻訳サーバ50に送るようにしてもよい。
【0048】
図7は、眼鏡型表示装置1の音源分離部21の音源の分離の一例を説明するための説明図である。図7において、眼鏡型表示装置1を装着した利用者の前方左側にAさん、前方中央にBさん、前方右側にCさんがいて、それぞれ利用者に向かって同時に「Morning!」、「Hello!」、「Bye!」と話し掛けると、これらの音声は合成された音として4個のマイク11RF,RR,LF,LRで集音される。4個のマイク11RF,RR,LF,LRで集音された音声は音源分離部21で、各マイクへの音声の到達時間の差や、マイク11RF,RR,LF,LRごとの音声の強度や音域等の分析を行って、合成された音を分離し、「Morning」、「Hello」、「Bye」の音声データを得る。音源の方向は各マイクへの音声の到達時間の差から算出することができる。また、各話者の音声について声紋分析や音域分析を行いこれらの分析結果に基づいて音源分離を行ってもよい。そして、音源ごとに分離された音声データと各音源の方向データとが、移動ネットワーク40を介して翻訳サーバ50に送られる。
【0049】
翻訳サーバ50は、話者特定部20から特定された話者の顔画像データと、視線方向のデータとを受信するとともに、略同じタイミングで、音源分離部21から音源ごとに分離された音声データと音源の方向データとを受信する。そして、特定音源抽出部22において、上記特定された話者の視線方向データと、上記音源の方向データとに基づいて、上記音源ごとに分離された音声データの中から、利用者が注視していた特定された話者の音声データのみを抽出する。例えば、図7において、利用者が、前方視界中央のBさんを見て注視していたときは、Bさんの発した音声である「Hello」の音声データを抽出する。なお、注視していなかったAさんとCさんの発した音声については、後述する音声認識用データベースに蓄積しておいてもよいし、雑音として破棄してもよい。
【0050】
図8は、顔認識部23における、上記特定された話者の顔画像データを分析して認識する顔認識の処理手順の一例を説明するためのフローチャートである。図8において、顔画像データが入力されると(ステップS1)、まず、その顔の特徴点検出を行う(ステップS2)。この特徴点検出は、例えば、目、鼻、口といった人の顔の中でも特徴となる「パーツ」、すなわち顔特徴部分であっても良いし、顔特徴部分のみならず、さらに詳細に部分分けして特徴点を検出するようにしても良い。例えば、AAM(Active Appearance Models)などの方法などを適用して、特徴位置を検出することが可能である。そして、上記特徴点に基づいて顔画像の正規化を行って、特徴量の算出を行う(ステップS3,S4)。この算出された特徴量に基づいて後述する画像分析用データベースに蓄積された顔画像データと照合し顔識別を行う(ステップS5)。画像分析用データベースに蓄積された顔画像データと照合して顔識別できたときは、識別された顔の顔画像情報IDに対応する対象話者IDを、音声認識部24へ送信する(ステップS6でYes,S7)。一方、データベースに蓄積された顔画像データと照合して顔識別できないときは、画像分析用データベースにその顔画像データが蓄積されていないものとして、新規の顔として顔画像情報IDが付加されて画像分析用データベースに登録される(ステップS6でNo,S8)。
【0051】
図6において、音声認識部24では、特定音源抽出部22から受信した音声データについて、言語を認識し、その言語のテキストデータを作成する。作成された話者の音声のテキストデータは、自動翻訳部25で、利用者の母国語に翻訳され、翻訳文テキストデータが作成される。翻訳文テキストデータの作成にあたり、顔認識部23から対象話者IDを取得できた場合には、その対象話者IDに対応する個人辞書データを後述する翻訳用データベースから読み出す。翻訳用データベースには、話者個人ごとの特有の言い回しや方言などの言語表現データに対応する話者固有の個人辞書データが蓄積されているため、共通辞書データのみを用いて翻訳する場合に比べて、翻訳の精度が高まる。
【0052】
眼鏡型表示装置1の画像生成部26では、自動翻訳部25で作成された翻訳文テキストデータに基づいて、翻訳文テキストの画像データが作成される。翻訳文テキストの画像データは、表示制御部27で制御信号が付加され、画像表示部12からレーザ光として出射されて利用者の右眼眼球へ入射され、網膜上に投影される。これにより、利用者は注視した話者が話した音声について、母国語に翻訳されたテキスト画像を認識することができる。
【0053】
なお、図6〜8は、特定音源抽出部22、顔認識部23、音声認識部24及び自動翻訳部25をすべて翻訳サーバ50に設けた例について示しているが、これらの特定音源抽出部22、顔認識部23、音声認識部24及び自動翻訳部25の少なくとも一つを、眼鏡型表示装置1に設けてもよい。また、眼鏡型表示装置1が携帯電話機等の携帯通信端末を介して翻訳サーバ50と通信する場合は、特定音源抽出部22、顔認識部23、音声認識部24及び自動翻訳部25の少なくとも一つを上記携帯通信端末に設けてもよい。
【0054】
図9は、翻訳サーバ50における画像分析、音声認識及び翻訳の機能ブロック図である。
図9において、翻訳サーバ50は、各部を制御する主制御部51と、顔画像を分析する画像分析エンジン52と、音声認識を行う音声認識エンジン53と、翻訳処理を行う翻訳エンジン54と、顔画像データ及び顔特徴データの少なくとも一方のデータを蓄積しておく画像分析用データベース55と、各国の言語に対応したテキストデータや個人ごとの声紋データを蓄積しておく音声識別用データベース56と、翻訳のための一般辞書データや個人辞書データを蓄積しておく翻訳用データベース57と、翻訳の対象となった話者ごとの対象話者ID等を蓄積しておく対象話者データベース58とを備えている。
【0055】
画像分析エンジン52は、顔認識プログラムと顔認識基本データとを有している。画像分析エンジン52は、眼鏡型表示装置1から受信した対象話者固有の顔画像データ及び顔特徴データの少なくとも一方のデータに基づいて、画像分析用データベース55及び対象話者データベース58に照会し、上記図8を用いて説明した顔認識を行い、対象話者IDを特定する。また、画像分析用データベース55は、登録された話者ごとの顔画像情報ID、顔画像データ、顔特徴データ等を蓄積しており、新規の顔については、新規の顔画像情報IDに関連付けて顔画像データ及び顔特徴データの少なくとも一方のデータを新たに登録して蓄積する。この顔画像情報IDと対象話者IDとの対応関係を示す情報は、対象話者データベース58に保存される。
なお、対象話者IDに関連付けて保存されている顔画像の特徴が変化している場合は、顔画像データや顔特徴データを更新するようにしてもよい。
【0056】
音声認識エンジン53は、音声認識プログラムと音声認識基本データとを有している。音声認識エンジン53は、眼鏡型表示装置1から受信した音源分離された複数の音声データを用いるとともに、画像分析エンジン52で特定された対象話者IDに基づいて音声識別用データベース56及び対象話者データベース58に照会して取得した対象話者IDに対応する声紋データ等の音声特徴データを用いることにより、特定の対象話者の音声を抽出する。更に、音声認識エンジン53は、抽出した話者の音声データを解析して話者が何語を話したかを認識し、音声認識基本データや音声識別用データベース56から読み出した対象話者固有の音声特徴データ等を参照しながら、対象話者が話した言語でテキストデータを作成する。このテキストデータは翻訳エンジン54に送信される。また、音声認識用データベース56は、登録された音声情報IDごとに、声紋データ等の音声特徴データを蓄積しており、新規の音声については、新規の音声情報IDに関連付けて音声特徴データを新たに登録して蓄積する。この音声情報IDと対象話者IDとの対応関係を示す情報は、対象話者データベース58に保存される。
【0057】
翻訳エンジン54は、翻訳プログラムと、一般標準辞書データを含む翻訳基本データとを有している。翻訳エンジン54は、音声認識エンジン53から受信したテキストデータを、眼鏡型表示装置1を使用している利用者の母国語である他の言語に翻訳し、翻訳テキストデータを作成する。翻訳にあたって、上記対象話者IDに基づいて、翻訳用データベース57及び対象話者データベース58に照会し、対象話者IDに対応する個人辞書データを選択して読み出す。個人辞書データは、例えば、会話情報IDに関連付けて保存されている方言データや会話特徴データなどの言語表現データが含まれる。翻訳エンジン54における翻訳方式としては、原言語を解析して一旦中間言語に変換処理し、さらにこの中間言語から目標言語を生成する中間言語方式や、原言語の構文解析や意味解析を行って解析結果を目標言語に変換し、目標言語の文字列を生成するトランスファー方式や、大量のテキストデータから統計モデル(翻訳モデル、言語モデル)を学習し、自動的に機械翻訳する統計的機械翻訳方式など、適宜の翻訳方式を用いることができる。
【0058】
また、翻訳用データベース57は、登録された会話情報IDごとに、方言データ、会話特徴データ等の言語表現データを蓄積しており、新規の会話情報については、新規の会話情報IDに関連付けて言語表現データを新たに登録して蓄積する。この会話情報IDと対象話者IDとの対応関係を示す情報は、対象話者データベース58に保存される。
【0059】
対象話者データベース58は、登録された対象話者ごとの対象話者ID、顔画像情報ID、音声情報ID、会話情報ID等の個人識別情報を蓄積しており、各エンジン52,53,54からの照会に応じて対応する対象話者IDを提供することができる。
【0060】
上述したように、データベースに話者の個人辞書データ等を蓄積しておくことにより、利用者が初めて会った人であっても、登録されている話者であれば、認識でき、その話者の個人辞書データ等を利用して精度の高い翻訳をすることができる。
【0061】
上記構成の眼鏡型表示装置1を用いて、利用者は視線方向の話者を特定して、特定した話者の音声のみを翻訳することができる。
【0062】
なお、図9は、画像分析エンジン52、音声認識エンジン53及び翻訳エンジン54をすべて翻訳サーバ50に設けた例について示しているが、画像分析エンジン52、音声認識エンジン53及び翻訳エンジン54の少なくとも一つを、眼鏡型表示装置1に設けてもよい。また、眼鏡型表示装置1が携帯電話機等の携帯通信端末を介して翻訳サーバ50と通信する場合は、画像分析エンジン52、音声認識エンジン53及び翻訳エンジン54の少なくとも一つ上記携帯通信端末に設けてもよい。この場合は、眼鏡型表示装置1や携帯通信端末から必要に応じて、通信ネットワークを介して、画像分析用データベース55、音声識別用データベース56、翻訳用データベース57及び対象話者データベース58にアクセスして照会し、対象話者の顔特徴データ、音声特徴データ、言語表現データ等の読み出して取得する。
【0063】
図10は、眼鏡型表示装置1の右側のメガネレンズ5Rを通して見える前方視界に、視線方向の話者の翻訳文を重ね合わせて表示した一例の説明図である。図示の例では、利用者の視線方向に視線マーク61が表示され、この視線マーク61から吹き出し62が出ていて、吹き出し62内の上段に翻訳文が表示され、下段に原言語文が表示される。なお、少なくとも翻訳文が表示されていればよく、原言語文は表示しなくてもよい。
【0064】
なお、同じ発音でも複数の意味を持つ場合がある。例えば、英語の「Come on!」の場合、通常は「さあ、行こう」という意味に解されるが、「ちょっとよしてよ」、「いい加減にして」、「もういいよ」、「さあやりましょう」といった意味もある。これらを精度よく翻訳するためには、話者の表情や抑揚、更に服装を認識して、翻訳に反映させることが望ましい。例えば、話者の画像と音声とを分析して怒っていると判断した場合には、「ちょっとよしてよ」と翻訳する。また、話者がかなり怒っていると判断した場合には、「いい加減にして」と翻訳する。また、話者が落ち込んでいると判断した場合には、「もういいよ」と翻訳する。更に、話者の服装を認識してビジネスライクであると判断した場合には、「さあやりましょう」と翻訳する。このように、画像や音声を分析し、話者の表情や抑揚、更に服装の認識結果を翻訳に反映させることで、翻訳精度をより高めることができる。
【0065】
また、話者によって、それぞれ表現方法や言い回し方が異なる場合がる。このため、話者ごとの表現方法や言い回し方を個人辞書データに登録しておくことが望ましい。
【0066】
図11は、翻訳結果に問題が無かったか否かを検証し、話者の表現方法や言い回し方を学習して翻訳精度を高め、学習結果を個人辞書データに登録する手順を説明するためのフローチャートである。
図11において、利用者が外国人と会話しているときに自動翻訳がなされ、眼鏡型表示装置1には翻訳文が表示されている(ステップS1,S2)。相手方の話者との会話中に意味がわからない翻訳文が表示されたときに、利用者が、「Cannot understand.」という発言や、「ん?」という疑問的な声を発したときに、眼鏡型表示装置1は翻訳が不適切であり問題があると認識する(ステップS3でYes)。そして、直前の話者の発音を再度翻訳し、別の意味に翻訳し直した修正翻訳文を表示する(スッテプS4,S5)。利用者が再度疑問的な声を発しなければ(ステップS6でNo)、後の翻訳が正しいものとして、その修正パターンを検出し、話者の個人辞書データに、登録する(ステップS7,S8)。一方、利用者が再度疑問的な声を発した場合(ステップS6でYes)、再度翻訳を行い別の意味の翻訳文を表示する。ステップ8で修正パターンを登録した後、会話が続行しているか否かを判断し、会話が続行している場合(ステップS9でYes)、自動翻訳を続行する。会話が続行していない場合には終了となる。同様にステップS3で、利用者が疑問的な声を発しない場合も、会話が続行しているか否かを確認する(ステップS10)。
例えば、話者が「Catch you later.」と発音し、「あとであなたをつかまえろ」という翻訳がなされた場合に、利用者は意味がわからずに「ん?」と発したときに、「Catch you later.」を再度翻訳し、「またあとで」という別の意味に翻訳し直して表示する。利用者は意味が通じたので、会話を再開する。この翻訳し直した修正後の翻訳結果(修正パターン)は翻訳用データベース57の個人辞書データに蓄積される。
【0067】
上記図11において、眼鏡型表示装置1を装着した利用者の音声を受音して音声信号に変換する利用者音声受音手段としてはマイク11RF,RR,LF,LRを使用し、利用者の音声信号をテキストデータに変換する利用者音声認識手段としては音声認識部24を使用することができる。
また、利用者が疑問的な声を発したときに、話者が別の言い回し方に言い換えてくれた音声を翻訳して表示し、修正パターンとして個人辞書データに蓄積してもよい。
【0068】
なお、上記図11では、翻訳に問題が無かったか否かの検証を、眼鏡型表示装置1を装着している利用者の音声のテキストデータに基づいて行う例を示したが、眼鏡型表示装置1を装着した利用者の眼を撮像し、その利用者の眼の表情や動きに基づいて、翻訳に問題が無かったか否かの検証してもよい。例えば、眼鏡型表示装置1で表示した翻訳文(翻訳後のテキストデータ)の同じ箇所を所定回数だけ何度も読み返すような眼の動きをしている場合や、意味のわからない翻訳文を凝視している場合に、翻訳に問題があると判断してもよい。
【0069】
また、上記図11では、翻訳に問題があった場合に翻訳をやり直す例について示したが、翻訳に問題があった場合に翻訳結果に問題があったことを話者に知らせるメッセージを、及び問題があった翻訳結果の部分を該話者に聞き直すメッセージの少なくとも一方を該話者に対して出力する
【0070】
図12は、利用者の周辺環境情報を用いた翻訳の概念図である。図12において、眼鏡型表示装置1は現在位置取得手段としてのGPS装置70を更に備え、翻訳サーバ50は方言ライブラリ59を更に備えている。GPS装置70により、眼鏡型表示装置1を装着した利用者の存在する国における詳細な場所を検出し、その場所に特有な方言を方言ライブラリ59から読み出して、翻訳に利用する。方言ライブラリを用いることで、翻訳精度をより向上させることができる。
【0071】
なお、上記実施形態では、視線方向で特定した話者の発音のみを翻訳して表示する構成について説明したが、前方視界の複数の話者について同時に翻訳し同時に翻訳文を表示するようにしてもよい。
図13は、複数の話者について同時に翻訳し同時に翻訳文を表示した一例の説明図である。図13において、3人の話者が発した音声が同時に翻訳されて、同時に表示される。なお、少なくとも翻訳文が表示されていればよく、原言語文は表示しなくてもよい。
【0072】
以上、本実施形態によれば、周囲の雑音を含む音信号から特定の話者からの音声信号のみを抽出してテキストデータに変換し、その話者の音声のテキストデータを他の言語のテキストデータに変換し、視界内に重ねて表示することができる。よって、周囲の雑音の影響を受けにくく特定の話者の音声を識別して精度よく翻訳して表示することができる。
【0073】
なお、上記実施形態では、網膜走査型の画像表示方式やコンバイナ光学系を用いた画像表示方式の構成について説明したが、この方式に限られるものではなく、他の画像表示方式を採用してもよい。
【符号の説明】
【0074】
1 眼鏡型表示装置
2 リム
8 電源スイッチ
9 視界同調カメラ
10 視線検知部
11 マイク
12 画像表示部
14 制御部
15 メモリ
16 バッテリ
18 通信部
19 姿勢変化検出部
26 画像生成部
27 表示制御部
40 通信ネットワーク
50 翻訳サーバ
【先行技術文献】
【特許文献】
【0075】
【特許文献1】特開平10−123450号公報
【技術分野】
【0001】
本発明は、音声の翻訳結果を表示可能な眼鏡型表示装置に関するものである。
【背景技術】
【0002】
従来、この種の眼鏡型表示装置として、音声認識機能付ヘッドアップディスプレイ装置が知られている(特許文献1参照)。この音声認識機能付ヘッドアップディスプレイ装置は、集音装置(マイク)で集音した音声信号を音声認識装置でテキストデータに変換してそのテキストデータを自動翻訳装置により他国語のテキストデータに変換し、そのテキストデータを画像に変換する装置により実時間で画像に変換し表示する。この音声認識機能付ヘッドアップディスプレイ装置によれば、自動翻訳装置を組み込むことにより外国語の音声を母国語の文字データに変換して表示するいわゆる実時間字幕表示機能が実現できるので、本人の声や周囲の音を聞きながら、且つ前面の風景を見ながら翻訳された文字を読むことができる。
【発明の概要】
【発明が解決しようとする課題】
【0003】
しかしながら、上記音声認識機能付ヘッドアップディスプレイ装置では、翻訳の精度が悪く、実用上使用することができない場合があった。特に、複数の外国人を相手に会話をする場合には、複数の相手をそれぞれ識別することができず、翻訳の精度がさらに悪化するという問題があった。また、通常の眼鏡と同様にウェアラブルに装着して使用可能な眼鏡型表示装置は、装着したまま外出することができるが、パソコンや専用機器などで構成され室内に設置された自動翻訳装置に比べて、周囲の雑音を拾いやすく、正確な翻訳が妨げられるおそれもある。
【0004】
本発明は以上の問題点に鑑みなされたものであり、その目的は、周囲の雑音による影響を受け難く、特定の話者の音声を精度よく翻訳して表示できる眼鏡型表示装置を提供することである。
【課題を解決するための手段】
【0005】
本発明に係る眼鏡型表示装置は、周囲の音を受音して音信号に変換する受音手段と、視界を撮像する視界撮像手段と、視界内に情報を重ねて表示可能な表示手段とを備えた眼鏡型表示装置であって、前記視界撮像手段で撮像された視界の画像データから話者の顔画像データ及び顔特徴データの少なくとも一方を抽出する顔関連データ抽出手段と、前記顔関連データ抽出手段で抽出された前記話者の顔画像データ及び顔特徴データ並びに前記受音手段から出力される音信号の少なくとも一つに基づいて、前記話者の音声信号を特定して抽出する音声信号抽出手段と、前記音声信号抽出手段で抽出された前記話者の音声信号をテキストデータに変換する音声認識手段と、前記音声認識手段で認識された前記話者の音声のテキストデータを、そのテキストデータの言語とは異なる他の言語のテキストデータに変換する翻訳手段と、前記翻訳手段で翻訳された前記他の言語のテキストデータを前記視界内に重ねて表示するように前記表示手段を制御する表示制御手段とを備える。
この眼鏡型表示装置によれば、顔関連データ抽出手段で抽出された話者の顔画像データ及び顔特徴データの少なくとも一方に基づいて当該話者の方向を特定することができ、受音手段から出力される音信号が周囲の雑音を含んでいても、その音信号から、前記特定した話者の方向からの音声信号のみを特定して抽出することができる。このように周囲の雑音を含む音信号から特定の話者からの音声信号のみを抽出してテキストデータに変換し、その話者の音声のテキストデータを他の言語のテキストデータに変換し、視界内に重ねて表示することができる。
なお、前記話者の音声信号を特定して抽出する音声信号抽出手段は、前記受音手段で変換された音信号に含まれる音声信号を抽出し、その抽出した音声信号と前記話者の顔画像データ及び顔特徴データの少なくとも一方とに基づいて、前記話者の音声信号を特定するように構成してもよい。
【0006】
前記眼鏡型表示装置において、前記音声信号抽出手段で抽出された前記話者の音声信号に基づいて前記話者に固有の音声特徴データを抽出する音声特徴データ抽出手段と、前記話者に固有の音声特徴データの有無をデータベースに照会する音声特徴データ照会手段と、前記音声特徴データ照会手段の照会結果に基づき、前記話者に固有の音声特徴データが前記データベースに保存されていない場合は、前記音声特徴データ抽出手段で抽出された前記話者に固有の音声特徴データを、前記顔関連データ抽出手段で抽出された前記話者の顔画像データ及び顔特徴データの少なくとも一方と前記話者を識別可能な識別データとに関連付けて前記データベースに保存する音声特徴データ保存手段と、を更に備え、前記話者に固有の音声特徴データが前記データベースに保存されている場合は、前記データベースに保存されている前記話者に固有の音声特徴データを用いて、前記音声信号特定抽出手段による前記話者の音声信号の抽出及び前記音声認識手段による前記テキストデータへの変換の少なくとも一方を行ってもよい。
この眼鏡型表示装置によれば、データベースに保存されている話者に固有の音声特徴データを用いて、話者の音声信号の抽出及びテキストデータへの変換の少なくとも一方を行うことにより、周囲の音情報からの特定の話者の音声信号の抽出の精度や、その音信号からテキストデータへ変換する音声認識の精度を更に高めることができる。
また、前記話者に固有の音声特徴データがデータベースに保存されていない場合に、前記音声特徴データ抽出手段で抽出された前記話者に固有の音声特徴データを、その話者の顔画像データ及び顔特徴データの少なくとも一方と話者を識別可能な識別データとに関連付けてデータベースに追加して保存することにより、当該話者について、その後に行う音声信号の抽出の精度や音声認識の精度を更に高めることができる。
なお、前記話者に固有の音声特徴データが前記データベースに既に保存されている場合は、その既に保存されている話者に固有の音声特徴データを更新したり、前記音声特徴データ抽出手段で抽出された前記話者に固有の音声特徴データをデータベースに追加したりしてもよい。また、前記話者に固有の音声特徴データが前記データベースに既に保存されている場合は、前記音声特徴データ抽出手段で抽出された音声特徴データの保存を行わないようにしてもよい。
【0007】
また、前記眼鏡型表示装置において、前記音声認識手段で認識された前記話者の音声のテキストデータに基づいて前記話者に固有の言語表現データを抽出する言語表現データ抽出手段と、前記話者に固有の言語表現データの有無をデータベースに照会する言語表現データ照会手段と、前記言語表現データ照会手段の照会結果に基づき、前記話者に固有の言語表現データが前記データベースに保存されていない場合は、前記言語表現データ抽出手段で抽出された前記話者に固有の言語表現データを、前記顔関連データ抽出手段で抽出された前記話者の顔画像データ及び顔特徴データの少なくとも一方と前記話者を識別可能な識別データと関連付けて前記データベースに保存する言語表現データ保存手段と、を更に備え、前記翻訳手段は、前記話者に固有の言語表現データが前記データベースに既に保存されている場合は、前記データベースに保存されている前記話者の言語表現データを用いて、前記他の言語のテキストデータへの変換を行ってもよい。
この眼鏡型表示装置によれば、データベースに保存されている話者に固有の言語表現データを、話者の音声のテキストデータを他の言語のテキストデータへ変換する翻訳に用いることにより、翻訳の精度を更に高めることができる。
また、話者に固有の言語表現データがデータベースに保存されていない場合に、言語表現データ抽出手段で抽出された話者に固有の言語表現データを、その話者の顔画像データ及び顔特徴データの少なくとも一方と話者を識別可能な識別データとに関連付けてデータベースに保存することにより、当該話者について、その後に行う翻訳の精度を更に高めることができる。
なお、前記話者に固有の言語表現データが前記データベースに既に保存されている場合は、その既に保存されている話者に固有の言語表現データを更新したり、前記言語表現データ抽出手段で抽出された前記話者に固有の言語表現データをデータベースに追加したりしてもよい。また、前記話者に固有の言語表現データが前記データベースに既に保存されている場合は、前記言語表現データの保存を行わないようにしてもよい。
【0008】
また、前記眼鏡型表示装置において、前記顔関連データ抽出手段で抽出された前記話者の顔画像データ及び顔特徴データの少なくとも一方に基づいて、前記話者の表情を判断する表情判断手段を、更に備え、前記翻訳手段は、前記表情判断手段で判断した前記話者の表情の情報を用いて、前記他の言語のテキストデータへの変換を行うものであってもよい。
この眼鏡型表示装置によれば、話者の顔画像データ及び顔特徴データの少なくとも一方に基づいて判断した当該話者の表情の情報を、話者の音声のテキストデータを他の言語のテキストデータへ変換する翻訳に用いることにより、翻訳の精度を更に高めることができる。
【0009】
また、前記眼鏡型表示装置において、前記音声認識手段による音声信号のテキストデータへの変換と、前記翻訳手段による前記他の言語のテキストデータへの変換とを、複数の話者それぞれについて同時に行ってもよい。
この眼鏡型表示装置によれば、視界の中に複数の話者がいる場合に、任意のタイミングで話者を切り換えて翻訳結果を表示したり、複数の話者の翻訳結果を同時に表示したりすることができる。
【0010】
また、前記眼鏡型表示装置において、前記翻訳手段で前記他の言語のテキストデータに変換された翻訳結果に問題が無かったか否かを検証する翻訳結果検証手段と、前記翻訳結果検証手段で前記翻訳結果に問題がないと判断した場合に、前記話者に固有の辞書データとして、該翻訳結果を前記話者の識別データと関連付けて前記データベースに保存する辞書データ保存手段と、を更に備えてもよい。
この眼鏡型表示装置によれば、前記他の言語のテキストデータに変換された翻訳結果に問題がないと判断した場合に、その翻訳結果を当該利用者に固有の辞書データとしてデータベースに保存することにより、当該話者について、その後に行う翻訳の精度を更に高めることができる。
【0011】
また、前記眼鏡型表示装置において、前記翻訳結果に問題があったことを前記話者に知らせるメッセージ及び問題があった翻訳結果の部分を該話者に聞き直すメッセージの少なくとも一方を該話者に対して出力するメッセージ出力手段を更に備え、前記翻訳結果検証手段で前記翻訳結果に問題があると判断した場合に、前記翻訳手段による前記他の言語のテキストデータへの変換のやり直し、又は、前記メッセージ出力手段による前記メッセージの出力を行ってもよい。
この眼鏡型表示装置によれば、前記翻訳結果に問題があると判断した場合に、前記他の言語のテキストデータへの変換のやり直しを行うことにより、誤った翻訳に基づいて話者との会話が進んでしまうのを回避することができる。また、前記翻訳結果に問題があると判断したときに、翻訳結果に問題があったことを話者に知らせるメッセージ及び問題があった翻訳結果の部分を話者に聞き直すメッセージの少なくとも一方を出力する場合、翻訳結果に問題があった部分を話者に対して聞き直すことができる。従って、この場合も、誤った翻訳に基づいて話者との会話が進んでしまうのを回避することができる。
【0012】
また、前記眼鏡型表示装置において、前記眼鏡型表示装置を装着した利用者の眼を撮像する利用者撮像手段と、前記利用者の音声を受音して音声信号に変換する利用者音声受音手段と、前記利用者音声受音手段から出力される前記利用者の音声信号をテキストデータに変換する利用者音声認識手段と、を更に備え、前記翻訳結果検証手段は、前記利用者撮像手段で撮像した前記利用者の眼の表情や動き、前記利用者音声受音手段で受音した前記利用者の音声信号、及び前記利用者音声認識手段から出力される前記利用者の音声のテキストデータの少なくとも一つに基づいて、前記翻訳結果を検証してもよい。
この眼鏡型表示装置によれば、話者に対面して話者からの音声を聞いている利用者の眼の表情や動き、音声信号及びその音声信号から変換したテキストデータの少なくとも一つに基づいて、前記翻訳結果を検証することにより、翻訳結果の検証の精度を高めることができる。
【0013】
また、前記眼鏡型表示装置において、複数の話者について該話者に固有の顔画像データ、顔特徴データ、音声特徴データ、言語表現データ及び辞書データの少なくとも一つのデータが保存されているデータベースが設けられたサーバ装置との間で、通信ネットワークを介して通信するための通信手段を、更に備えてもよい。
本発明に係る翻訳システムは、前記通信手段を備えた眼鏡型表示装置と、前記データベースが設けられたサーバとを備える。
これらの眼鏡型表示装置及び翻訳システムによれば、眼鏡型表示装置のようなハードウェアなどの構成の制約が少ない外部のサーバに前記データベースを設けることにより、多数の話者について保存された話者に固有の顔画像データ、顔特徴データ、音声特徴データ、言語表現データ及び辞書データの少なくとも一つのデータを、多数の眼鏡型表示装置からアクセスして共有することができる。
前記翻訳システムにおいて、前記顔関連データ抽出手段、前記音声信号抽出手段、前記音声認識手段及び前記翻訳手段の少なくとも一つを、前記眼鏡型表示装置に備える代わりに前記サーバ装置に備えるように構成してもよい。
【0014】
また、前記眼鏡型表示装置において、前記視界における利用者の視線方向を検出する視線方向検出手段と、当該眼鏡型表示装置の姿勢変化を検出する姿勢変化検出手段と、前記視界撮像手段で撮像された前記視界の画像情報と、前記視線方向検出手段で検出された視線方向の検出結果と、前記姿勢変化検出手段で検出された前記眼鏡型表示装置の姿勢変化の検出結果とに基づいて、前記視界内において前記利用者が注視している話者を特定する注視対象話者特定手段と、を更に備えてもよい。
この眼鏡型表示装置によれば、前記視線方向検出手段で前記利用者の視線方向を検出するとともに、姿勢変化検出手段で検出された眼鏡型表示装置の姿勢変化の検出結果に基づいて、上記利用者の視線方向を速やかに補正することができる。これにより、視界撮像手段で撮像された視界画像内で利用者が注視している話者を特定するときの精度を高めることができる。
なお、前記眼鏡型表示装置において、前記視線方向検出手段は、前記利用者の眼を撮像する利用者撮像手段を有し、前記利用者撮像手段で撮像された前記利用者の眼の画像に基づいて前記利用者の視線方向を検出するものであってもよい。
また、前記眼鏡型表示装置において、前記視界撮像手段を前記視線方向検出手段として兼用してもよい。この場合は、前記視界撮像手段で撮像された画像内の所定位置(例えば、撮像画像の中心位置)の方向を前記視界における利用者の視線方向と推定される。
また、前記眼鏡型表示装置において、前記受音手段で受音された音声の音源方向を検出する音源方向検出手段を更に備えてもよい。この場合は、前記音源方向検出手段で検出された音声の音源方向に基づいて、話者をより精度よく特定することができる。
【発明の効果】
【0015】
本発明によれば、周囲の雑音を含む音信号から特定の話者からの音声信号のみを抽出してテキストデータに変換し、その話者の音声のテキストデータを他の言語のテキストデータに変換し、視界内に重ねて表示することができる。よって、周囲の雑音の影響を受けにくく特定の話者の音声を識別して精度よく翻訳して表示することができるという効果を奏する。
【図面の簡単な説明】
【0016】
【図1】本発明の実施形態に係る眼鏡型表示装置を含む翻訳システムの全体構成を示す説明図。
【図2】(a)は同眼鏡型表示装置の上面図。(b)は他の構成例に係る眼鏡型表示装置の上面図。
【図3】眼鏡型表示装置のハードウェアの一構成例を示すブロック図。
【図4】(a)は視線検知部の一構成例を示す概略構成図。(b)は眼球の各位置に対応するイメージセンサの水平走査出力信号の模式図。
【図5】画像生成部、画像投影表示部及び焦点距離調整部の一例を示す概略構成図。
【図6】眼鏡型表示装置及び翻訳サーバの一構成例を示す機能ブロック図。
【図7】眼鏡型表示装置の音源分離部における音源の分離を説明するための説明図。
【図8】眼鏡型表示装置の顔認識部における顔認識の処理手順の一例を説明するためのフローチャート。
【図9】翻訳サーバの一例を示す機能ブロック図。
【図10】眼鏡型表示装置の右側のメガネレンズを通して見える前方視界に、視線方向の話者の翻訳文を重ね合わせて表示した一例の説明図。
【図11】話者の表現方法や言い回し方を学習して翻訳精度を高め、学習結果を個人辞書データに登録する手順の一例を説明するためのフローチャート。
【図12】周辺環境情報を用いた翻訳の概念図。
【図13】複数の話者について同時に翻訳し同時に翻訳文を表示した例を示す説明図。
【発明を実施するための形態】
【0017】
以下、図面に基づいて本発明の実施形態を説明する。
図1は、本発明の実施形態に係る眼鏡型表示装置1を含む翻訳システムの全体構成を示す説明図である。眼鏡型表示装置1は、利用者の両眼の前方を覆うように頭に装着することにより、利用者に話しかけた外国人の声と画像とを、通信ネットワーク40を介して翻訳サーバ50に送信し、翻訳サーバ50で翻訳したテキストデータを受信して、翻訳文を利用者が視認できるように前方視界に重ね合わせて表示することができる。
【0018】
眼鏡型表示装置1のフレームは、リム2を備えている。このリム2の左右両サイドに、ツルとも呼ばれる一対のテンプル3R,3Lが、それぞれ蝶番4R,4L(4Lは不図示)により約90度開閉可能に保持されている。また、一対のメガネレンズ5R,5L、一対の鼻パッド6R,6L、一対のテンプル3R,3Lの蝶番4R,4Lが設けられた側と反対側の端部にそれぞれ先セル7R,7Lを備えている。
【0019】
また、眼鏡型表示装置1は、右側のテンプル3Rの内側に電源をON/OFFするための電源スイッチ8と、リム2の中央上部のフロント側に設けられた利用者の視線の方向における前方視界の画像を撮像する視界撮像手段としての視界同調カメラ9と、リム2の右側のレンズ5Rの下部側に設けられた視線方向検出手段としての視線検知部10と、周囲の音を受音して音信号に変換する受音手段としての4個のマイク11RF,RR,LF,LRとを備えている。更に、眼鏡型表示装置1は、リム2の右側端部にメガネレンズ5Rを通して見える前方視界に重ね合わせて利用者が視認できるように翻訳文を表示する表示手段としての画像表示部12とを備えている。
【0020】
上記前方視界に重ね合わせて利用者が視認できるように情報を表示する画像表示方式としては、網膜に直接走査するものやコンバイナ光学系を用いたもの等、各種の画像表示方式を用いることができる。
【0021】
図2(a)は、網膜走査型の画像表示方式を採用した眼鏡型表示装置1の構成例を示している。この網膜走査型の眼鏡型表示装置1では、走査用の光学系124が右レンズ5Rの前方に配設されている。また、図2(b)は、コンバイナ光学系125を用いた画像表示方式を採用した眼鏡型表示装置1の構成例を示している。コンバイナ光学系125は、例えば内部に偏光ビームスプリッタと1/4波長板と主反射面と有する平板状の透明基板で構成され、右レンズ5Rの中に埋め込むように設けられる。コンバイナ光学系125は、右側のテンプル3Rの内側にある光源の画像表示面から出射した表示光束を使用者の眼の方向に導くように構成されている。
【0022】
図3は、眼鏡型表示装置のハードウェアの一構成例を示すブロック図である。
眼鏡型表示装置1のリム2又はテンプル3R,3Lの内部には、画像表示部12を構成する構成要素の少なくとも一部と、CPUやROM等で構成された制御手段としての制御部14と、記憶手段としてのメモリ15と、電源手段としてのバッテリ16と、装着検知部17とが格納されている。また、眼鏡型表示装置1は、通信部18と、姿勢変化検出部19とを更に備えている。
【0023】
制御部14で実行されるプログラムや制御部14等で用いられる各種データは、メモリ15に保存されている。制御部14に所定のプログラムやデータが読み出されて実行されることにより、後述の各種制御やデータ処理が実行される。
【0024】
制御部14は、視界同調カメラ9の視界の画像情報及び視線方向の検出結果と、姿勢変化検出部19で検出された眼鏡型表示装置1の姿勢変化の検出結果とに基づいて、制御部14内でデータ処理したり通信ネットワーク上のサーバの支援を受けたりすることにより、視界内において利用者が注視している話者を特定する話者特定手段としても機能する。
【0025】
通信部18は、例えばWiFi等の公衆無線LANのアクセスポイントを介して、又は、携帯電話機等の移動体通信網の基地局を介して、通信ネットワーク40上の翻訳サーバ50や他の各種サーバと通信するための通信手段として機能する。移動体通信網の基地局との間の通信は、基地局と直接通信してもよいし、携帯電話機等の携帯通信端末を介して基地局と通信するようにしてもよい。携帯電話機等の携帯通信端末との通信は、例えばBluetooth(登録商標)や赤外線等の近距離無線通信で行うようにしてもよいし、通信ケーブルを介した近距離有線通信で行うようにしてもよい。また、通信部18は、(1)移動体通信網用のアンテナ及び無線通信処理部部、(2)無線LAN用のアンテナ及び無線通信処理部、及び(3)Bluetooth(登録商標)や赤外線等の近距離通信用のアンテナ及び無線通信処理部のすべて備えるように構成してもよいし、上記(1)乃至(3)の構成のうち通信ネットワーク40上のサーバとの通信に用いられるものだけを備えるように構成してもよい。
また、通信部18は、制御部14と連携することにより、前記特定された話者の画像データやマイク11で集音した音声データを翻訳サーバ50に送信するデータ送信手段として機能するとともに、翻訳サーバ50で翻訳した翻訳文のテキストデータを受信する翻訳データ受信手段としても機能する。
【0026】
姿勢変化検出部19は、例えば1軸、2軸又は3軸の加速度センサで構成され、眼鏡型表示装置1に作用する加速度を検知することにより、利用者の頭部の姿勢変化に伴う眼鏡型表示装置の姿勢変化を検出する姿勢変化検出手段として機能する。姿勢変化検出部19を構成する加速度センサは、重力方向を検知可能なもの(絶対加速度を検知可能なもの)を用いてもよい。姿勢変化検出部19は、例えば、所定のタイミングに検出した眼鏡型表示装置1の姿勢を基準姿勢とし、その利用者の頭部の基準姿勢からの姿勢変化(例えば、基準姿勢からのロール角、ピッチ角及びヨー角それぞれの角度変化分の値、又は、眼鏡型表示装置1の姿勢変化に起因して発生した加速度の値)を、検出結果として出力する。上記基準姿勢を検出タイミングは、例えば、眼鏡型表示装置1の利用を開始したタイミングや所定操作を行ったタイミングでもよいし、利用者が注視している注視対象を特定したタイミングであってもよい。
なお、姿勢変化検出部19は、加速度センサとともに又は加速度センサに代えて地磁気センサを備え、眼鏡型表示装置1に定義された座標を基準にして磁気センサで検出される方位情報を用いてに基づいて眼鏡型表示装置1の姿勢変化の検出するように構成してもよい。
【0027】
また、姿勢変化検出部19によって検出された眼鏡型表示装置1の姿勢変化の検出結果は、視界内において利用者が注視している話者を特定するときに、例えば次の(1)〜(3)を含む様々な制御に用いることができる。
【0028】
(1)利用者の頭部及び視線のぶれ防止制御:
利用者が注視しようとしている話者が同じであるにもかかわらず、何らかの理由により、眼鏡型表示装置1を装着している利用者の頭部に振動やふらつき等のぶれが発生する場合がある。利用者の頭部にぶれが発生すると、その頭部に装着した眼鏡型表示装置1の視界同調カメラ9で撮像される視界の画像における視線方向もぶれてしまうため、その撮像画像や視線方向に基づいて特定する利用者の話者の特定精度が低下するおそれがある。そこで、姿勢変化検出部19によって検出された眼鏡型表示装置の姿勢変化の検出結果に基づいて、視界同調カメラ9で撮像される視界の画像における視線方向を補正する制御を行うことにより、注視対象の特定精度を向上させることができる。
【0029】
(2)注視対象の特定処理の軽減制御:
視界同調カメラ9で撮像した視界の画像の撮像及び視線方向の検出結果に基づく注視対象の特定処理を頻繁に実行すると、眼鏡型表示装置1における処理の負荷が大きくなってしまうおそれがある。そこで、眼鏡型表示装置1の姿勢が大きく変化したときに、その眼鏡型表示装置1を装着した利用者が注視している話者が変わった可能性が高い点に着目し、眼鏡型表示装置1の姿勢変化の検出結果(姿勢変化量)が、予め設定した閾値の範囲よりも大きくなったときに、視界同調カメラ9による視界の画像の撮像処理及び視線方向の検出処理を行うとともに、それらの視界の画像及び視線方向の検出結果に基づく話者の特定処理を行うように制御する。これにより、眼鏡型表示装置1における処理の負荷の増大を回避しつつ、利用者が注視している話者を特定できるようになる。
【0030】
(3)話者の特定処理の補完制御:
視界同調カメラ9による視界の画像の撮像処理や視線方向の検出処理が、眼鏡型表示装置1の姿勢変化(利用者の頭部の姿勢変化)に追従できない場合がある。この場合は、視界の撮像画像や視線方向に基づいて利用者の注視している話者をリアルタイムに特定することができなかったり、特定する利用者の注視している話者の特定精度が低下したりするおそれがある。そこで、視界同調カメラ9による視界の画像の撮像処理や視線方向の検出処理に必要な処理時間に基づいて、その撮像処理及び視線方向の検出処理を行うインターバルを予め設定しておく。そして、視界の撮像画像や視線方向に基づいて利用者の注視シテイル話者を特定した後、その後に到来する次の撮像・視線検出タイミングまでは、眼鏡型表示装置1の姿勢変化の検出結果に基づいて、直近の撮像済みの視界の画像及び検出済みの視線方向を補完することにより、話者を特定するように制御する。この制御により、話者の特定精度が低下することなく、利用者の注視している話者をリアルタイムに特定することができる。
【0031】
電源スイッチ8は、眼鏡型表示装置1の電源をON/OFFするための例えば3Pトグルスイッチであり、電源OFF、AUTO及び電源ONの3つのポジションを取り得る。ここで、AUTOポジションは、一対のテンプル3R,3Lを開いた状態で一対の先セル7R,7Lに弱電圧を印加しておき、利用者が眼鏡型表示装置1を頭に装着したときに、一対の先セル7R,7L間に流れる微弱電流を、タッチセンサ等で構成された装着検知部17が検知することにより、翻訳機能等の動作を開始するように制御される。一方、利用者が眼鏡型表示装置1を外したときには、翻訳機能等の動作を停止するように制御される。また、電源ONポジションでは、電源がONされて翻訳機能等が動作するが、利用者が眼鏡型表示装置1を外した状態で所定時間経過すると自動的に電源がOFFする省電力制御がなされる。なお、電源スイッチ8を設けずに、常に前記AUTOポジションでの電源動作と同様に眼鏡型表示装置1の電源が自動でON/OFFされるように構成してもよい。
【0032】
視界同調カメラ9は、例えばCCDカメラやCMOSカメラ等の固体撮像素子で構成され、眼鏡型表示装置1のリム2の中央上部に配設され、利用者が見ている前方視界を撮像する。この視界同調カメラ9により、前方視界の画像の画像データを取得し、注視している話者の特定や各種分析に使用することができる。
【0033】
図4は、視界における利用者の視線方向を検出する視線方向検出手段としての視線検知部10を説明するための図であって、図4(a)は、視線検知部10の一構成例を示す概略構成説明図であり、図4(b)は眼球の各位置に対応するイメージセンサの水平走査出力信号の模式図である。
【0034】
図4(a)において、視線検知部10は、赤外光を放射する発光ダイオード等の光源116と、投光レンズ117と、受光レンズ118と、CCD又はCMOS等の固体撮像素子等からなる撮像手段としてのイメージセンサ119と、視線演算手段120とを備えている。
【0035】
視線検知部10において、光源116より射出した赤外光は投光レンズ117を通過した後、略平行光となって眼球100Rの角膜を照射する。そして、角膜を通過した赤外光は虹彩を照射する。角膜の表面で拡散反射した赤外光は、受光レンズ118を介してイメージセンサ119上に導光され、角膜像を結像する。同様に、虹彩の表面で拡散反射した赤外光は、受光レンズ118を介してイメージセンサ119上に導光され、虹彩像を結像する。イメージセンサ119からの出力は、図4(b)に示すように、角膜像が結像された角膜反射像スポット位置が他に比べて著しく電位が高くなる。視線演算手段120は、この角膜反射像スポット位置に基づいて、眼球100Rが真っ直ぐ前を向いているときの眼球の中心線からの回転角を算出する。そして、算出した回転角に基づいて、眼球100Rの視軸を求め、前方視界における利用者の相対的な視線方向を検出する。そして、このとき得られた前方視界における相対的な視線方向により、メガネレンズ5Rを通して見える前方視界における利用者が注視している注視点の人物、すなわち前方視界のうち利用者が見ている話者を特定することができる。
【0036】
上記視線検知部10を設けることにより、前方視界内の利用者の視線方向をより正確に検知でき、利用者が注視している話者をより正確に特定することができる。これにより、前方視界における話者について利用者が注視している話者とは別の話者を特定してしまうという誤動作を防ぐことができる。
【0037】
なお、図4に示したように利用者が見ている前方視界の中で利用者が注視している視線方向をより正確に検出する視線検知部10を設けた場合、その視線検知部10で検知された利用者の視線方向に視界同調カメラ9の撮像方向が向くように構成してもよい。より具体的には、視界同調カメラ9の撮像方向を変化させる撮像方向可変手段としてカメラ駆動機構と、視線検知部10の検出結果に基づいて、利用者の視線方向に視界同調カメラ9の撮像方向が向くようにカメラ駆動機構を制御する撮像制御手段とを設ける。上記カメラ駆動機構は、例えば、撮像方向を変化できるように視界同調カメラ9を回転可能に保持するカメラ保持部と、オン/オフ制御及び正/逆回転制御が可能なマイクロモータと、マイクロモータの回転を視界同調カメラ9のカメラ保持部の回転に変換する駆動伝達部とを用いて構成することができる。このように視線検知部10で検知された利用者の視線方向に視界同調カメラ9の撮像方向が向くように構成することにより、利用者が注視している話者方向を中心にして視界の画像を撮像することができ、その撮像した画像の中央に話者が位置することになる。また、話者を特定しやすくなるように撮像した画像を拡大する場合でも、その拡大した画像から注視対象がはみ出にくくなる。従って、注視対象をより精度よく特定することができる。
【0038】
なお、視線方向検出手段として、図4を用いて説明した視線検知部10に限らず、上記視界同調カメラ9を、視界における利用者の視線方向を検出する簡易型の視線方向検出手段として用いてもよい。本構成例の視界同調カメラ9は、撮像画像の中心が利用者の視界の略中央に位置するように設けられ、その視界同調カメラ9で撮像した撮像画像の中心(利用者の視界の略中央)に向かう方向が利用者の視線方向であると推定することにより、利用者の視線方向を検出する。ここで、利用者が頭部の姿勢を変えて視線方向を変化させると、その視線方向の変化に応じて、利用者の頭部に装着されている眼鏡型表示装置1の視界同調カメラ9の撮像方向が変化し、その視界同調カメラ9で撮像した撮像画像の中心(利用者の視界の略中央)に向かう方向が、利用者の視線方向であると推定することができる。
【0039】
図5は、図2(a)で示した網膜走査型の画像表示方式を採用した場合の画像表示部12、及び画像表示部12で用いる画像信号を生成する画像生成部26(図6参照)の一構成例を示す概略構成説明図である。
図5において、制御部14から供給される画像信号を処理するための光源ユニット部110が設けられている。光源ユニット部110には、制御部14から翻訳文テキストデータの画像信号が入力され、それに基づいて画像を生成するための画像信号を発生する画像信号供給部111が設けられ、この画像信号供給部111から画像信号112、垂直同期信号113及び水平同期信号114が出力される。また、光源ユニット部110には、画像信号供給部111から伝達される画像信号112をもとに強度変調されたレーザ光を出射する光源としてのレーザ発振部115が設けられている。なお、前方視界に重ね合わせて表示する翻訳文の画像の形成位置を、利用者が注視している話者を見ているときの焦点位置に合わせるように、網膜に走査する像の焦点を調整する焦点距離調整手段を設けてもよい。
【0040】
また、光源ユニット部110側から導かれたレーザ光をガルバノミラー121aを利用して垂直方向に走査する走査光学系としての垂直走査系121と、垂直走査系121によって走査されたレーザ光を後述する水平走査系122に導く第1リレー光学系123と、垂直走査系121に走査され、第1リレー光学系123を介して入射されたレーザ光を、ガルバノミラー122aを利用して水平方向に走査する走査光学系としての水平走査系122と、水平走査系122によって走査されたレーザ光を利用者の右眼眼球100Rの瞳孔に入射させる第2リレー光学系124とが設けられている。
【0041】
垂直走査系121は、表示すべき画像の1走査線ごとに、レーザビームを垂直方向に垂直走査する垂直走査を行う光学系である。また、垂直走査系121は、レーザビームを垂直方向に走査する光学部材としてのガルバノミラー121aと、そのガルバノミラー121aの駆動制御を行う垂直走査制御部121bとを備えている。
【0042】
これに対し、水平走査系122は、表示すべき画像の1フレームごとに、レーザビームを最初の走査線から最後の走査線に向かって水平に走査する水平走査を行う光学系である。また、水平走査系122は、水平走査する光学部材としてのガルバノミラー122aと、そのガルバノミラー122aの駆動制御を行う水平走査制御部122bとを備えている。
【0043】
また、垂直走査系121、水平走査系122は、図5に示すように、各々画像信号供給部111に接続され、画像信号供給部111より出力される垂直同期信号113、水平同期信号114にそれぞれ同期してレーザ光を走査するように構成されている。
【0044】
上記構成の走査光学系によって利用者の網膜上に翻訳文の画像を表示する処理は、例えば次のように行われる。図5に示すように、本実施形態の眼鏡型表示装置1では、光源ユニット部110に設けられた画像信号供給部111が制御部14から翻訳文テキストデータの画像信号の供給を受けると、画像信号供給部111は、例えば白色レーザ光を出力させるための画像信号112と、垂直同期信号113と、水平同期信号114とを出力する。画像信号112に基づいて、レーザ発振器115はそれぞれ強度変調されたレーザ光を発生し、垂直走査系121に出力する。垂直走査系121のガルバノミラー121aに入射したレーザ光は、垂直同期信号113に同期して垂直方向に走査されて第1リレー光学系123を介し、水平走査系122のガルバノミラー122aに入射する。ガルバノミラー122aは、ガルバノミラー121aが垂直同期信号に同期すると同様に水平同期信号114に同期して、入射光を水平方向に反射するように往復振動をしており、このガルバノミラー122aによってレーザ光は水平方向に走査される。垂直走査系121及び水平走査系122によって垂直方向及び水平方向に2次元に走査されたレーザ光は、第2リレー光学系124により利用者の右眼眼球へ入射され、網膜上に投影される。利用者はこのように2次元走査されて網膜上に投影されたレーザ光による翻訳文の画像を認識することができる。
【0045】
図6は、眼鏡型表示装置1及び翻訳サーバ50の機能ブロック図である。
図6において、眼鏡型表示装置1には、視線同調カメラ9、視線検知部10、マイク11の他に、話者特定部20と音源分離部21とが設けられている。また、翻訳サーバ50には、音源分離部21で分離した音源の中から話者特定部20で特定した話者の音声を抽出する音声信号抽出手段としての特定音源抽出部22と、特定した話者の顔を認識する顔関連データ抽出手段としての顔認識部23と、特定した話者の音声を認識して話者の言語のテキストデータを作成する音声認識手段としての音声認識部24と、認識されたテキストデータを利用者の母国語に翻訳して翻訳文テキストデータを作成する翻訳手段としての自動翻訳部25とが設けられている。
【0046】
更に、眼鏡型表示装置1には、上記構成に加えて、翻訳サーバ50で作成された翻訳文テキストデータの画像信号を生成する画像生成部26と、視界同調カメラ9で撮像された視界の画像情報及び視線方向の検出結果、並びに姿勢変化検出部19の検出結果の少なくとも一つに基づいて、視界における注視している話者の位置と翻訳文の表示位置とが所定の位置関係になるように翻訳文の表示位置を制御する表示制御手段としての表示制御部27と、前述の画像表示部12とが設けられている。
【0047】
話者特定部20は、視界同調カメラ9で撮像した前方視界の画像の中から、視線検知部10で得られた前方視界における利用者の眼の相対的な視線方向に基づいて、メガネレンズ5Rを通して見える前方視界における利用者が注視している注視点の人物の顔、すなわち前方視界のうち利用者が見ている話者の顔を検出して特定する。人物の顔の検出は、視界同調カメラ9で撮像した前方視界の画像を解析することにより、人の顔の部分(顔の位置と大きさ)を抽出し、抽出された人の顔の部分の画像すなわち「顔画像」を検出する。例えば、全身像が撮影されているような画像など、顔の画像だけでない場合もあるが、そのような画像から、人の顔の領域を判断し、人の顔の部分に対応する画像を抽出する。このようにして検出された、特定された話者の顔画像データは、視線方向のデータとともに移動ネットワーク40を介して翻訳サーバ50に送られる。なお、上記顔画像データに基づいて、その顔の特徴点を抽出した顔特徴データを生成し、その顔特徴データを、顔画像データとともに又は顔画像データの代わりに翻訳サーバ50に送るようにしてもよい。
【0048】
図7は、眼鏡型表示装置1の音源分離部21の音源の分離の一例を説明するための説明図である。図7において、眼鏡型表示装置1を装着した利用者の前方左側にAさん、前方中央にBさん、前方右側にCさんがいて、それぞれ利用者に向かって同時に「Morning!」、「Hello!」、「Bye!」と話し掛けると、これらの音声は合成された音として4個のマイク11RF,RR,LF,LRで集音される。4個のマイク11RF,RR,LF,LRで集音された音声は音源分離部21で、各マイクへの音声の到達時間の差や、マイク11RF,RR,LF,LRごとの音声の強度や音域等の分析を行って、合成された音を分離し、「Morning」、「Hello」、「Bye」の音声データを得る。音源の方向は各マイクへの音声の到達時間の差から算出することができる。また、各話者の音声について声紋分析や音域分析を行いこれらの分析結果に基づいて音源分離を行ってもよい。そして、音源ごとに分離された音声データと各音源の方向データとが、移動ネットワーク40を介して翻訳サーバ50に送られる。
【0049】
翻訳サーバ50は、話者特定部20から特定された話者の顔画像データと、視線方向のデータとを受信するとともに、略同じタイミングで、音源分離部21から音源ごとに分離された音声データと音源の方向データとを受信する。そして、特定音源抽出部22において、上記特定された話者の視線方向データと、上記音源の方向データとに基づいて、上記音源ごとに分離された音声データの中から、利用者が注視していた特定された話者の音声データのみを抽出する。例えば、図7において、利用者が、前方視界中央のBさんを見て注視していたときは、Bさんの発した音声である「Hello」の音声データを抽出する。なお、注視していなかったAさんとCさんの発した音声については、後述する音声認識用データベースに蓄積しておいてもよいし、雑音として破棄してもよい。
【0050】
図8は、顔認識部23における、上記特定された話者の顔画像データを分析して認識する顔認識の処理手順の一例を説明するためのフローチャートである。図8において、顔画像データが入力されると(ステップS1)、まず、その顔の特徴点検出を行う(ステップS2)。この特徴点検出は、例えば、目、鼻、口といった人の顔の中でも特徴となる「パーツ」、すなわち顔特徴部分であっても良いし、顔特徴部分のみならず、さらに詳細に部分分けして特徴点を検出するようにしても良い。例えば、AAM(Active Appearance Models)などの方法などを適用して、特徴位置を検出することが可能である。そして、上記特徴点に基づいて顔画像の正規化を行って、特徴量の算出を行う(ステップS3,S4)。この算出された特徴量に基づいて後述する画像分析用データベースに蓄積された顔画像データと照合し顔識別を行う(ステップS5)。画像分析用データベースに蓄積された顔画像データと照合して顔識別できたときは、識別された顔の顔画像情報IDに対応する対象話者IDを、音声認識部24へ送信する(ステップS6でYes,S7)。一方、データベースに蓄積された顔画像データと照合して顔識別できないときは、画像分析用データベースにその顔画像データが蓄積されていないものとして、新規の顔として顔画像情報IDが付加されて画像分析用データベースに登録される(ステップS6でNo,S8)。
【0051】
図6において、音声認識部24では、特定音源抽出部22から受信した音声データについて、言語を認識し、その言語のテキストデータを作成する。作成された話者の音声のテキストデータは、自動翻訳部25で、利用者の母国語に翻訳され、翻訳文テキストデータが作成される。翻訳文テキストデータの作成にあたり、顔認識部23から対象話者IDを取得できた場合には、その対象話者IDに対応する個人辞書データを後述する翻訳用データベースから読み出す。翻訳用データベースには、話者個人ごとの特有の言い回しや方言などの言語表現データに対応する話者固有の個人辞書データが蓄積されているため、共通辞書データのみを用いて翻訳する場合に比べて、翻訳の精度が高まる。
【0052】
眼鏡型表示装置1の画像生成部26では、自動翻訳部25で作成された翻訳文テキストデータに基づいて、翻訳文テキストの画像データが作成される。翻訳文テキストの画像データは、表示制御部27で制御信号が付加され、画像表示部12からレーザ光として出射されて利用者の右眼眼球へ入射され、網膜上に投影される。これにより、利用者は注視した話者が話した音声について、母国語に翻訳されたテキスト画像を認識することができる。
【0053】
なお、図6〜8は、特定音源抽出部22、顔認識部23、音声認識部24及び自動翻訳部25をすべて翻訳サーバ50に設けた例について示しているが、これらの特定音源抽出部22、顔認識部23、音声認識部24及び自動翻訳部25の少なくとも一つを、眼鏡型表示装置1に設けてもよい。また、眼鏡型表示装置1が携帯電話機等の携帯通信端末を介して翻訳サーバ50と通信する場合は、特定音源抽出部22、顔認識部23、音声認識部24及び自動翻訳部25の少なくとも一つを上記携帯通信端末に設けてもよい。
【0054】
図9は、翻訳サーバ50における画像分析、音声認識及び翻訳の機能ブロック図である。
図9において、翻訳サーバ50は、各部を制御する主制御部51と、顔画像を分析する画像分析エンジン52と、音声認識を行う音声認識エンジン53と、翻訳処理を行う翻訳エンジン54と、顔画像データ及び顔特徴データの少なくとも一方のデータを蓄積しておく画像分析用データベース55と、各国の言語に対応したテキストデータや個人ごとの声紋データを蓄積しておく音声識別用データベース56と、翻訳のための一般辞書データや個人辞書データを蓄積しておく翻訳用データベース57と、翻訳の対象となった話者ごとの対象話者ID等を蓄積しておく対象話者データベース58とを備えている。
【0055】
画像分析エンジン52は、顔認識プログラムと顔認識基本データとを有している。画像分析エンジン52は、眼鏡型表示装置1から受信した対象話者固有の顔画像データ及び顔特徴データの少なくとも一方のデータに基づいて、画像分析用データベース55及び対象話者データベース58に照会し、上記図8を用いて説明した顔認識を行い、対象話者IDを特定する。また、画像分析用データベース55は、登録された話者ごとの顔画像情報ID、顔画像データ、顔特徴データ等を蓄積しており、新規の顔については、新規の顔画像情報IDに関連付けて顔画像データ及び顔特徴データの少なくとも一方のデータを新たに登録して蓄積する。この顔画像情報IDと対象話者IDとの対応関係を示す情報は、対象話者データベース58に保存される。
なお、対象話者IDに関連付けて保存されている顔画像の特徴が変化している場合は、顔画像データや顔特徴データを更新するようにしてもよい。
【0056】
音声認識エンジン53は、音声認識プログラムと音声認識基本データとを有している。音声認識エンジン53は、眼鏡型表示装置1から受信した音源分離された複数の音声データを用いるとともに、画像分析エンジン52で特定された対象話者IDに基づいて音声識別用データベース56及び対象話者データベース58に照会して取得した対象話者IDに対応する声紋データ等の音声特徴データを用いることにより、特定の対象話者の音声を抽出する。更に、音声認識エンジン53は、抽出した話者の音声データを解析して話者が何語を話したかを認識し、音声認識基本データや音声識別用データベース56から読み出した対象話者固有の音声特徴データ等を参照しながら、対象話者が話した言語でテキストデータを作成する。このテキストデータは翻訳エンジン54に送信される。また、音声認識用データベース56は、登録された音声情報IDごとに、声紋データ等の音声特徴データを蓄積しており、新規の音声については、新規の音声情報IDに関連付けて音声特徴データを新たに登録して蓄積する。この音声情報IDと対象話者IDとの対応関係を示す情報は、対象話者データベース58に保存される。
【0057】
翻訳エンジン54は、翻訳プログラムと、一般標準辞書データを含む翻訳基本データとを有している。翻訳エンジン54は、音声認識エンジン53から受信したテキストデータを、眼鏡型表示装置1を使用している利用者の母国語である他の言語に翻訳し、翻訳テキストデータを作成する。翻訳にあたって、上記対象話者IDに基づいて、翻訳用データベース57及び対象話者データベース58に照会し、対象話者IDに対応する個人辞書データを選択して読み出す。個人辞書データは、例えば、会話情報IDに関連付けて保存されている方言データや会話特徴データなどの言語表現データが含まれる。翻訳エンジン54における翻訳方式としては、原言語を解析して一旦中間言語に変換処理し、さらにこの中間言語から目標言語を生成する中間言語方式や、原言語の構文解析や意味解析を行って解析結果を目標言語に変換し、目標言語の文字列を生成するトランスファー方式や、大量のテキストデータから統計モデル(翻訳モデル、言語モデル)を学習し、自動的に機械翻訳する統計的機械翻訳方式など、適宜の翻訳方式を用いることができる。
【0058】
また、翻訳用データベース57は、登録された会話情報IDごとに、方言データ、会話特徴データ等の言語表現データを蓄積しており、新規の会話情報については、新規の会話情報IDに関連付けて言語表現データを新たに登録して蓄積する。この会話情報IDと対象話者IDとの対応関係を示す情報は、対象話者データベース58に保存される。
【0059】
対象話者データベース58は、登録された対象話者ごとの対象話者ID、顔画像情報ID、音声情報ID、会話情報ID等の個人識別情報を蓄積しており、各エンジン52,53,54からの照会に応じて対応する対象話者IDを提供することができる。
【0060】
上述したように、データベースに話者の個人辞書データ等を蓄積しておくことにより、利用者が初めて会った人であっても、登録されている話者であれば、認識でき、その話者の個人辞書データ等を利用して精度の高い翻訳をすることができる。
【0061】
上記構成の眼鏡型表示装置1を用いて、利用者は視線方向の話者を特定して、特定した話者の音声のみを翻訳することができる。
【0062】
なお、図9は、画像分析エンジン52、音声認識エンジン53及び翻訳エンジン54をすべて翻訳サーバ50に設けた例について示しているが、画像分析エンジン52、音声認識エンジン53及び翻訳エンジン54の少なくとも一つを、眼鏡型表示装置1に設けてもよい。また、眼鏡型表示装置1が携帯電話機等の携帯通信端末を介して翻訳サーバ50と通信する場合は、画像分析エンジン52、音声認識エンジン53及び翻訳エンジン54の少なくとも一つ上記携帯通信端末に設けてもよい。この場合は、眼鏡型表示装置1や携帯通信端末から必要に応じて、通信ネットワークを介して、画像分析用データベース55、音声識別用データベース56、翻訳用データベース57及び対象話者データベース58にアクセスして照会し、対象話者の顔特徴データ、音声特徴データ、言語表現データ等の読み出して取得する。
【0063】
図10は、眼鏡型表示装置1の右側のメガネレンズ5Rを通して見える前方視界に、視線方向の話者の翻訳文を重ね合わせて表示した一例の説明図である。図示の例では、利用者の視線方向に視線マーク61が表示され、この視線マーク61から吹き出し62が出ていて、吹き出し62内の上段に翻訳文が表示され、下段に原言語文が表示される。なお、少なくとも翻訳文が表示されていればよく、原言語文は表示しなくてもよい。
【0064】
なお、同じ発音でも複数の意味を持つ場合がある。例えば、英語の「Come on!」の場合、通常は「さあ、行こう」という意味に解されるが、「ちょっとよしてよ」、「いい加減にして」、「もういいよ」、「さあやりましょう」といった意味もある。これらを精度よく翻訳するためには、話者の表情や抑揚、更に服装を認識して、翻訳に反映させることが望ましい。例えば、話者の画像と音声とを分析して怒っていると判断した場合には、「ちょっとよしてよ」と翻訳する。また、話者がかなり怒っていると判断した場合には、「いい加減にして」と翻訳する。また、話者が落ち込んでいると判断した場合には、「もういいよ」と翻訳する。更に、話者の服装を認識してビジネスライクであると判断した場合には、「さあやりましょう」と翻訳する。このように、画像や音声を分析し、話者の表情や抑揚、更に服装の認識結果を翻訳に反映させることで、翻訳精度をより高めることができる。
【0065】
また、話者によって、それぞれ表現方法や言い回し方が異なる場合がる。このため、話者ごとの表現方法や言い回し方を個人辞書データに登録しておくことが望ましい。
【0066】
図11は、翻訳結果に問題が無かったか否かを検証し、話者の表現方法や言い回し方を学習して翻訳精度を高め、学習結果を個人辞書データに登録する手順を説明するためのフローチャートである。
図11において、利用者が外国人と会話しているときに自動翻訳がなされ、眼鏡型表示装置1には翻訳文が表示されている(ステップS1,S2)。相手方の話者との会話中に意味がわからない翻訳文が表示されたときに、利用者が、「Cannot understand.」という発言や、「ん?」という疑問的な声を発したときに、眼鏡型表示装置1は翻訳が不適切であり問題があると認識する(ステップS3でYes)。そして、直前の話者の発音を再度翻訳し、別の意味に翻訳し直した修正翻訳文を表示する(スッテプS4,S5)。利用者が再度疑問的な声を発しなければ(ステップS6でNo)、後の翻訳が正しいものとして、その修正パターンを検出し、話者の個人辞書データに、登録する(ステップS7,S8)。一方、利用者が再度疑問的な声を発した場合(ステップS6でYes)、再度翻訳を行い別の意味の翻訳文を表示する。ステップ8で修正パターンを登録した後、会話が続行しているか否かを判断し、会話が続行している場合(ステップS9でYes)、自動翻訳を続行する。会話が続行していない場合には終了となる。同様にステップS3で、利用者が疑問的な声を発しない場合も、会話が続行しているか否かを確認する(ステップS10)。
例えば、話者が「Catch you later.」と発音し、「あとであなたをつかまえろ」という翻訳がなされた場合に、利用者は意味がわからずに「ん?」と発したときに、「Catch you later.」を再度翻訳し、「またあとで」という別の意味に翻訳し直して表示する。利用者は意味が通じたので、会話を再開する。この翻訳し直した修正後の翻訳結果(修正パターン)は翻訳用データベース57の個人辞書データに蓄積される。
【0067】
上記図11において、眼鏡型表示装置1を装着した利用者の音声を受音して音声信号に変換する利用者音声受音手段としてはマイク11RF,RR,LF,LRを使用し、利用者の音声信号をテキストデータに変換する利用者音声認識手段としては音声認識部24を使用することができる。
また、利用者が疑問的な声を発したときに、話者が別の言い回し方に言い換えてくれた音声を翻訳して表示し、修正パターンとして個人辞書データに蓄積してもよい。
【0068】
なお、上記図11では、翻訳に問題が無かったか否かの検証を、眼鏡型表示装置1を装着している利用者の音声のテキストデータに基づいて行う例を示したが、眼鏡型表示装置1を装着した利用者の眼を撮像し、その利用者の眼の表情や動きに基づいて、翻訳に問題が無かったか否かの検証してもよい。例えば、眼鏡型表示装置1で表示した翻訳文(翻訳後のテキストデータ)の同じ箇所を所定回数だけ何度も読み返すような眼の動きをしている場合や、意味のわからない翻訳文を凝視している場合に、翻訳に問題があると判断してもよい。
【0069】
また、上記図11では、翻訳に問題があった場合に翻訳をやり直す例について示したが、翻訳に問題があった場合に翻訳結果に問題があったことを話者に知らせるメッセージを、及び問題があった翻訳結果の部分を該話者に聞き直すメッセージの少なくとも一方を該話者に対して出力する
【0070】
図12は、利用者の周辺環境情報を用いた翻訳の概念図である。図12において、眼鏡型表示装置1は現在位置取得手段としてのGPS装置70を更に備え、翻訳サーバ50は方言ライブラリ59を更に備えている。GPS装置70により、眼鏡型表示装置1を装着した利用者の存在する国における詳細な場所を検出し、その場所に特有な方言を方言ライブラリ59から読み出して、翻訳に利用する。方言ライブラリを用いることで、翻訳精度をより向上させることができる。
【0071】
なお、上記実施形態では、視線方向で特定した話者の発音のみを翻訳して表示する構成について説明したが、前方視界の複数の話者について同時に翻訳し同時に翻訳文を表示するようにしてもよい。
図13は、複数の話者について同時に翻訳し同時に翻訳文を表示した一例の説明図である。図13において、3人の話者が発した音声が同時に翻訳されて、同時に表示される。なお、少なくとも翻訳文が表示されていればよく、原言語文は表示しなくてもよい。
【0072】
以上、本実施形態によれば、周囲の雑音を含む音信号から特定の話者からの音声信号のみを抽出してテキストデータに変換し、その話者の音声のテキストデータを他の言語のテキストデータに変換し、視界内に重ねて表示することができる。よって、周囲の雑音の影響を受けにくく特定の話者の音声を識別して精度よく翻訳して表示することができる。
【0073】
なお、上記実施形態では、網膜走査型の画像表示方式やコンバイナ光学系を用いた画像表示方式の構成について説明したが、この方式に限られるものではなく、他の画像表示方式を採用してもよい。
【符号の説明】
【0074】
1 眼鏡型表示装置
2 リム
8 電源スイッチ
9 視界同調カメラ
10 視線検知部
11 マイク
12 画像表示部
14 制御部
15 メモリ
16 バッテリ
18 通信部
19 姿勢変化検出部
26 画像生成部
27 表示制御部
40 通信ネットワーク
50 翻訳サーバ
【先行技術文献】
【特許文献】
【0075】
【特許文献1】特開平10−123450号公報
【特許請求の範囲】
【請求項1】
周囲の音を受音して音信号に変換する受音手段と、視界を撮像する視界撮像手段と、視界内に情報を重ねて表示可能な表示手段とを備えた眼鏡型表示装置であって、
前記視界撮像手段で撮像された視界の画像データから話者の顔画像データ及び顔特徴データの少なくとも一方を抽出する顔関連データ抽出手段と、
前記顔関連データ抽出手段で抽出された前記話者の顔画像データ及び顔特徴データ並びに前記受音手段から出力される音信号の少なくとも一つに基づいて、前記話者の音声信号を特定して抽出する音声信号抽出手段と、
前記音声信号抽出手段で抽出された前記話者の音声信号をテキストデータに変換する音声認識手段と、
前記音声認識手段で認識された前記話者の音声のテキストデータを、そのテキストデータの言語とは異なる他の言語のテキストデータに変換する翻訳手段と、
前記翻訳手段で翻訳された前記他の言語のテキストデータを前記視界内に重ねて表示するように前記表示手段を制御する表示制御手段と、
を備えたことを特徴とする眼鏡型表示装置。
【請求項2】
請求項1の眼鏡型表示装置において、
前記音声信号抽出手段で抽出された前記話者の音声信号に基づいて前記話者に固有の音声特徴データを抽出する音声特徴データ抽出手段と、
前記話者に固有の音声特徴データの有無をデータベースに照会する音声特徴データ照会手段と、
前記音声特徴データ照会手段の照会結果に基づき、前記話者に固有の音声特徴データが前記データベースに保存されていない場合は、前記音声特徴データ抽出手段で抽出された前記話者に固有の音声特徴データを、前記顔関連データ抽出手段で抽出された前記話者の顔関連データと前記話者を識別可能な識別データとに関連付けて前記データベースに保存する音声特徴データ保存手段と、を更に備え、
前記話者に固有の音声特徴データが前記データベースに保存されている場合は、前記データベースに保存されている前記話者に固有の音声特徴データを用いて、前記音声信号特定抽出手段による前記話者の音声信号の抽出及び前記音声認識手段による前記テキストデータへの変換の少なくとも一方を行うことを特徴とする眼鏡型表示装置。
【請求項3】
請求項1又は2の眼鏡型表示装置において、
前記音声認識手段で認識された前記話者の音声のテキストデータに基づいて前記話者に固有の言語表現データを抽出する言語表現データ抽出手段と、
前記話者に固有の言語表現データの有無をデータベースに照会する言語表現データ照会手段と、
前記言語表現データ照会手段の照会結果に基づき、前記話者に固有の言語表現データが前記データベースに保存されていない場合は、前記言語表現データ抽出手段で抽出された前記話者に固有の言語表現データを、前記顔関連データ抽出手段で抽出された前記話者の顔関連データと前記話者を識別可能な識別データと関連付けて前記データベースに保存する言語表現データ保存手段と、を更に備え、
前記翻訳手段は、前記話者に固有の言語表現データが前記データベースに既に保存されている場合は、前記データベースに保存されている前記話者の言語表現データを用いて、前記他の言語のテキストデータへの変換を行うことを特徴とする眼鏡型表示装置。
【請求項4】
請求項1乃至3のいずれかの眼鏡型表示装置において、
前記顔関連データ抽出手段で抽出された前記話者の顔画像データ及び顔特徴データの少なくとも一方に基づいて、前記話者の表情を判断する表情判断手段を、更に備え、
前記翻訳手段は、前記表情判断手段で判断した前記話者の表情の情報を用いて、前記他の言語のテキストデータへの変換を行うことを特徴とする眼鏡型表示装置。
【請求項5】
請求項1乃至4のいずれかの眼鏡型表示装置において、
前記音声認識手段による音声信号のテキストデータへの変換と、前記翻訳手段による前記他の言語のテキストデータへの変換とを、複数の話者それぞれについて同時に行うことを特徴とする眼鏡型表示装置。
【請求項6】
請求項2又は3の眼鏡型表示装置において、
前記翻訳手段で前記他の言語のテキストデータに変換された翻訳結果に問題が無かったか否かを検証する翻訳結果検証手段と、
前記翻訳結果検証手段で前記翻訳結果に問題がないと判断した場合は、前記話者に固有の辞書データとして、前記翻訳結果を前記話者の識別データと関連付けて前記データベースに保存する辞書データ保存手段と、を更に備えたことを特徴とする眼鏡型表示装置。
【請求項7】
請求項6の眼鏡型表示装置において、
前記翻訳結果に問題があったことを前記話者に知らせるメッセージ及び問題があった翻訳結果の部分を前記話者に聞き直すメッセージの少なくとも一方を前記話者に対して出力するメッセージ出力手段を更に備え、
前記翻訳結果検証手段で前記翻訳結果に問題があると判断した場合に、前記翻訳手段による前記他の言語のテキストデータへの変換のやり直し、又は、前記メッセージ出力手段による前記メッセージの出力を行うことを特徴とする眼鏡型表示装置。
【請求項8】
請求項6又は7の眼鏡型表示装置において、
前記眼鏡型表示装置を装着した利用者の眼を撮像する利用者撮像手段と、前記利用者の音声を受音して音声信号に変換する利用者音声受音手段と、前記利用者音声受音手段から出力される前記利用者の音声信号をテキストデータに変換する利用者音声認識手段と、を更に備え、
前記翻訳結果検証手段は、前記利用者撮像手段で撮像した前記利用者の眼の表情や動き、前記利用者音声受音手段で受音した前記利用者の音声信号、及び前記利用者音声認識手段から出力される前記利用者の音声のテキストデータの少なくとも一つに基づいて、前記翻訳結果を検証することを特徴とする眼鏡型表示装置。
【請求項9】
請求項1乃至8のいずれかの眼鏡型表示装置において、
複数の話者について該話者に固有の顔画像データ、顔特徴データ、音声特徴データ、言語表現データ及び辞書データの少なくとも一つのデータが保存されているデータベースが設けられたサーバ装置との間で、通信ネットワークを介して通信するための通信手段を、更に備えたことを特徴とする眼鏡型表示装置。
【請求項10】
請求項9の眼鏡型表示装置と、前記データベースが設けられたサーバ装置とを備えたことを特徴とする翻訳システム。
【請求項11】
請求項10の翻訳システムにおいて、
前記顔関連データ抽出手段、前記音声信号抽出手段、前記音声認識手段及び前記翻訳手段の少なくとも一つを、前記眼鏡型表示装置に備える代わりに前記サーバ装置に備えるように構成したことを特徴とする翻訳システム。
【請求項1】
周囲の音を受音して音信号に変換する受音手段と、視界を撮像する視界撮像手段と、視界内に情報を重ねて表示可能な表示手段とを備えた眼鏡型表示装置であって、
前記視界撮像手段で撮像された視界の画像データから話者の顔画像データ及び顔特徴データの少なくとも一方を抽出する顔関連データ抽出手段と、
前記顔関連データ抽出手段で抽出された前記話者の顔画像データ及び顔特徴データ並びに前記受音手段から出力される音信号の少なくとも一つに基づいて、前記話者の音声信号を特定して抽出する音声信号抽出手段と、
前記音声信号抽出手段で抽出された前記話者の音声信号をテキストデータに変換する音声認識手段と、
前記音声認識手段で認識された前記話者の音声のテキストデータを、そのテキストデータの言語とは異なる他の言語のテキストデータに変換する翻訳手段と、
前記翻訳手段で翻訳された前記他の言語のテキストデータを前記視界内に重ねて表示するように前記表示手段を制御する表示制御手段と、
を備えたことを特徴とする眼鏡型表示装置。
【請求項2】
請求項1の眼鏡型表示装置において、
前記音声信号抽出手段で抽出された前記話者の音声信号に基づいて前記話者に固有の音声特徴データを抽出する音声特徴データ抽出手段と、
前記話者に固有の音声特徴データの有無をデータベースに照会する音声特徴データ照会手段と、
前記音声特徴データ照会手段の照会結果に基づき、前記話者に固有の音声特徴データが前記データベースに保存されていない場合は、前記音声特徴データ抽出手段で抽出された前記話者に固有の音声特徴データを、前記顔関連データ抽出手段で抽出された前記話者の顔関連データと前記話者を識別可能な識別データとに関連付けて前記データベースに保存する音声特徴データ保存手段と、を更に備え、
前記話者に固有の音声特徴データが前記データベースに保存されている場合は、前記データベースに保存されている前記話者に固有の音声特徴データを用いて、前記音声信号特定抽出手段による前記話者の音声信号の抽出及び前記音声認識手段による前記テキストデータへの変換の少なくとも一方を行うことを特徴とする眼鏡型表示装置。
【請求項3】
請求項1又は2の眼鏡型表示装置において、
前記音声認識手段で認識された前記話者の音声のテキストデータに基づいて前記話者に固有の言語表現データを抽出する言語表現データ抽出手段と、
前記話者に固有の言語表現データの有無をデータベースに照会する言語表現データ照会手段と、
前記言語表現データ照会手段の照会結果に基づき、前記話者に固有の言語表現データが前記データベースに保存されていない場合は、前記言語表現データ抽出手段で抽出された前記話者に固有の言語表現データを、前記顔関連データ抽出手段で抽出された前記話者の顔関連データと前記話者を識別可能な識別データと関連付けて前記データベースに保存する言語表現データ保存手段と、を更に備え、
前記翻訳手段は、前記話者に固有の言語表現データが前記データベースに既に保存されている場合は、前記データベースに保存されている前記話者の言語表現データを用いて、前記他の言語のテキストデータへの変換を行うことを特徴とする眼鏡型表示装置。
【請求項4】
請求項1乃至3のいずれかの眼鏡型表示装置において、
前記顔関連データ抽出手段で抽出された前記話者の顔画像データ及び顔特徴データの少なくとも一方に基づいて、前記話者の表情を判断する表情判断手段を、更に備え、
前記翻訳手段は、前記表情判断手段で判断した前記話者の表情の情報を用いて、前記他の言語のテキストデータへの変換を行うことを特徴とする眼鏡型表示装置。
【請求項5】
請求項1乃至4のいずれかの眼鏡型表示装置において、
前記音声認識手段による音声信号のテキストデータへの変換と、前記翻訳手段による前記他の言語のテキストデータへの変換とを、複数の話者それぞれについて同時に行うことを特徴とする眼鏡型表示装置。
【請求項6】
請求項2又は3の眼鏡型表示装置において、
前記翻訳手段で前記他の言語のテキストデータに変換された翻訳結果に問題が無かったか否かを検証する翻訳結果検証手段と、
前記翻訳結果検証手段で前記翻訳結果に問題がないと判断した場合は、前記話者に固有の辞書データとして、前記翻訳結果を前記話者の識別データと関連付けて前記データベースに保存する辞書データ保存手段と、を更に備えたことを特徴とする眼鏡型表示装置。
【請求項7】
請求項6の眼鏡型表示装置において、
前記翻訳結果に問題があったことを前記話者に知らせるメッセージ及び問題があった翻訳結果の部分を前記話者に聞き直すメッセージの少なくとも一方を前記話者に対して出力するメッセージ出力手段を更に備え、
前記翻訳結果検証手段で前記翻訳結果に問題があると判断した場合に、前記翻訳手段による前記他の言語のテキストデータへの変換のやり直し、又は、前記メッセージ出力手段による前記メッセージの出力を行うことを特徴とする眼鏡型表示装置。
【請求項8】
請求項6又は7の眼鏡型表示装置において、
前記眼鏡型表示装置を装着した利用者の眼を撮像する利用者撮像手段と、前記利用者の音声を受音して音声信号に変換する利用者音声受音手段と、前記利用者音声受音手段から出力される前記利用者の音声信号をテキストデータに変換する利用者音声認識手段と、を更に備え、
前記翻訳結果検証手段は、前記利用者撮像手段で撮像した前記利用者の眼の表情や動き、前記利用者音声受音手段で受音した前記利用者の音声信号、及び前記利用者音声認識手段から出力される前記利用者の音声のテキストデータの少なくとも一つに基づいて、前記翻訳結果を検証することを特徴とする眼鏡型表示装置。
【請求項9】
請求項1乃至8のいずれかの眼鏡型表示装置において、
複数の話者について該話者に固有の顔画像データ、顔特徴データ、音声特徴データ、言語表現データ及び辞書データの少なくとも一つのデータが保存されているデータベースが設けられたサーバ装置との間で、通信ネットワークを介して通信するための通信手段を、更に備えたことを特徴とする眼鏡型表示装置。
【請求項10】
請求項9の眼鏡型表示装置と、前記データベースが設けられたサーバ装置とを備えたことを特徴とする翻訳システム。
【請求項11】
請求項10の翻訳システムにおいて、
前記顔関連データ抽出手段、前記音声信号抽出手段、前記音声認識手段及び前記翻訳手段の少なくとも一つを、前記眼鏡型表示装置に備える代わりに前記サーバ装置に備えるように構成したことを特徴とする翻訳システム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図7】
【図2】
【図3】
【図4】
【図5】
【図6】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図7】
【公開番号】特開2012−59121(P2012−59121A)
【公開日】平成24年3月22日(2012.3.22)
【国際特許分類】
【出願番号】特願2010−203125(P2010−203125)
【出願日】平成22年9月10日(2010.9.10)
【出願人】(501440684)ソフトバンクモバイル株式会社 (654)
【Fターム(参考)】
【公開日】平成24年3月22日(2012.3.22)
【国際特許分類】
【出願日】平成22年9月10日(2010.9.10)
【出願人】(501440684)ソフトバンクモバイル株式会社 (654)
【Fターム(参考)】
[ Back to top ]