情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム
【課題】受聴者が発話状況を容易に把握できる情報処理装置、情報処理システム、情報処理方法又は情報処理プログラムを提供する
【解決手段】表示データ生成部は、発話の内容を表す文字と、当該文字を囲んで一方向を示す標識を表す表示データを生成し、画像合成部は、前記発話に係る音源を表す画像の表示位置に基づいて、前記音声が放射される放射方向に前記一方向を向けて前記表示データを合成する。
【解決手段】表示データ生成部は、発話の内容を表す文字と、当該文字を囲んで一方向を示す標識を表す表示データを生成し、画像合成部は、前記発話に係る音源を表す画像の表示位置に基づいて、前記音声が放射される放射方向に前記一方向を向けて前記表示データを合成する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理システム、情報処理方法及び情報処理プログラムに関する。
【背景技術】
【0002】
音声処理技術の発達により、発話内容とともに音環境を記録又は遠隔地に伝達することが試みられている。一般に、ある発話者の音声には、他人の音声や機器の動作音等、複数の音源から到来した音が混在している。視聴者はこれらを識別したうえで発話内容等を把握する。そこで、音源毎の音データを分離し、分離した音データが示す情報を受聴者に表示する技術が提案されていた。
例えば、特許文献1に記載の音データ記録再生装置では、音データを取得し、音源が存在する方向を特定し、音源毎の音データを分離し、音源毎の時系列の音データを格納し、所定の時間において所定の音源の方向を示す音に関するストリームデータを作成し、ストリームデータを視聴者に表示する。表示されたストリームデータが視聴者により選択されると、当該音データ記録再生装置は、選択されたストリームデータに関する音データを再生する。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2008−197650号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1に記載の音データ記録再生装置は、音声を再生する際に、その音声に係る音源の方向と、音データの内容を別個に表示する。例えば複数人の発話者が発話した音声が再生される場合、視聴者はどの音声がどのような発話内容を示すか、などの発話状況を直感的に把握することが困難であった。
【0005】
本発明は上記の点に鑑みてなされたものであり、視聴者が発話状況を容易に把握できる情報処理装置、情報処理システム、情報処理方法又は情報処理プログラムを提供する。
【課題を解決するための手段】
【0006】
(1)本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、発話の内容を表す文字と、当該文字を囲んで一方向を示す標識を表す表示データを生成する表示データ生成部と、前記発話に係る音源を表す画像の表示位置に基づいて、前記音声が放射される放射方向に前記一方向を向けて前記表示データを合成する画像合成部と、を備えることを特徴とする情報処理装置である。
【0007】
(2)本発明の他の態様は、上述の情報処理装置であって、前記音源を表す画像を取得する画像取得部と、前記画像を観察する位置である視点を入力するデータ入力部と、を備え、前記画像合成部は、前記表示データ生成部が生成した表示データに対して、前記データ入力部から入力された視点に基づいて視点を変換し、視点が変換された表示データを前記画像取得部が取得した画像に合成することを特徴とする。
【0008】
(3)本発明の他の態様は、上述の情報処理装置であって、自部の位置を検出する位置検出部を備え、前記データ入力部は、前記位置検出部が検出前記データ入力部は、自部の位置を検出し、前記検出した位置を前記視点として入力することを特徴とする。
【0009】
(4)本発明の他の態様は、上述の情報処理装置であって、前記発話内容に係る音声を発声した話者の感情を推定する感情推定部を備え、前記表示データ生成部は、前記感情推定部が推定した感情に基づいて、前記標識の表示態様を変化させることを特徴とする。
【0010】
(5)本発明の他の態様は、上述の情報処理装置であって、前記表示データ生成部は、前記発話の内容を表す文字の大きさを、前記視点から前記音源の位置までの間の距離に基づいて定めることを特徴とする。
【0011】
(6)本発明の他の態様は、上述の情報処理装置であって、前記表示データ生成部は、
前記表示データに含まれる文字数に基づいて前記標識を表示する時間を定めることを特徴とする。
【0012】
(7)本発明の他の態様は、音源の位置を推定する音源位置推定部と、前記音源が音波を放射する放射方向を推定する放射方向推定部と、前記音源の発話の内容を認識する音声認識部と、前記音声認識部が認識した発話の内容を表す文字と、当該文字を囲んで一方向を示す標識を表す表示データを生成する表示データ生成部と、前記発話に係る音源を表す画像の表示位置に基づいて、前記音声が放射される放射方向に前記一方向を向けて前記表示データを合成する画像合成部を備えることを特徴とする情報処理システムである。
【0013】
(8)本発明の他の態様は、上述の情報処理システムであって、前記発話に係る音源を表す画像を撮影する撮影部、を備えることを特徴とする。
【0014】
(9)本発明の他の態様は、情報処理装置における情報表示方法であって、前記情報処理装置は、発話の内容を表す文字と、当該文字を囲んで一方向を示す標識を表す表示データを生成する過程と、前記情報処理装置は、前記発話に係る音源を表す画像の表示位置に基づいて、前記音声が放射される放射方向に前記一方向を向けて前記表示データを合成する過程と、を有することを特徴とする情報処理方法である。
【0015】
(10)本発明の他の態様は、情報処理装置のコンピュータに、発話の内容を表す文字と、当該文字を囲んで一方向を示す標識を表す表示データを生成する手順、前記発話に係る音源を表す画像の表示位置に基づいて、前記音声が放射される放射方向に前記一方向を向けて前記表示データを合成する手順、を実行させるための情報処理プログラムである。
【発明の効果】
【0016】
上述の態様(1)、(7)、(9)、及び(10)によれば、視聴者が発話状況を容易に把握することができる。
上述の態様(2)によれば、視聴者は、さらに、取得された画像が表す物体である音源の発話状況を直感的に把握することができる。
上述の態様(3)によれば、視聴者は、さらに、検出した視点に応じた音源の位置及び音声の放射方向を把握することができる。
上述の態様(4)によれば、視聴者は、さらに、音源である話者の感情を視認して把握することができる。
上述の態様(5)によれば、視聴者は、さらに、視点からの音源までの距離を直感的に把握することができる。
上述の態様(6)によれば、視聴者には、さらに、発話内容を表す文字の数に応じて発話内容を理解するために十分な時間が与えられる。
上述の態様(8)によれば、視聴者は、さらに、音源である話者の画像を視聴して、その状況をより容易に把握することができる。
【図面の簡単な説明】
【0017】
【図1】本発明の第1の実施形態に係る情報表示システムの概略図である。
【図2】本実施形態に係る収音部及び撮影部の配置例を示す概念図である。
【図3】本実施形態に係る矢印の画像の一例を示す図である。
【図4】本実施形態に係る吹き出しの画像の一例を示す図である。
【図5】本実施形態に係る情報表示処理を表すフローチャートである。
【図6】画像表示部に表示される画像の一例を示す。
【図7】本実施形態の一変形例に係る情報表示システムの構成を表す概略図である。
【図8】本実施形態の他の変形例に係る情報表示システムの構成を表す概略図である。
【図9】本実施形態の他の変形例に係る情報表示システムの構成を表す概略図である。
【図10】本変形例における矢印の画像における形状の一例を示す図である。
【図11】本変形例における矢印の画像における形状の他の例を示す図である。
【図12】本実施形態の他の変形例に係る情報表示システムの構成を表す概略図 である。
【図13】本発明の第2の実施形態に係る情報表示システムの構成を表す概念図 である。
【図14】画像表示部に表示される画像の一例を示す。
【図15】本実施形態の一変形例に係る情報表示システムの構成を表す概略図である。
【発明を実施するための形態】
【0018】
(第1の実施形態)
以下、図面を参照しながら本発明の実施形態について詳しく説明する。
図1は、本発明の第1の実施形態に係る情報表示システム(情報処理システム)1の概略図である。
情報表示システム1は、収音部11、12、撮影部(画像取得部)13及び情報表示装置14を含んで構成される。
【0019】
収音部11、12は、それぞれm、nチャネルの音響信号を情報表示装置14に出力する。m、nは、それぞれ1よりも大きい整数である。収音部11、12は、チャネル毎に到達した音波の振動を示す電気信号である音響信号に変換するマイクロホンを備える。各マイクロホンは、例えば、無指向性(omnidirectional)のマイクロホンである。収音部11は、例えば、ロボットの頭部に設置されたマイクロホンアレイであってもよい。当該マイクロホンアレイにおいて、各マイクロホンは、隣接するマイクロホンとの間隔が等しくなるようにロボットの頭頂部を中心とする円周上に配列されている。収音部12は、例えば、ある部屋の内壁の表面に設置されたマイクロホンアレイである。当該マイクロホンアレイにおいて、各マイクロホンが隣接するマイクロホンとの間隔が等しく、かつ床面からの高さが等しくなるように、その部屋の水平面を覆うように配列されている。マイクロホンの配置例については後述する。
【0020】
撮影部13は、撮影した画像を表す画像信号をフレーム毎に生成し、生成した画像信号を情報表示装置14に出力する。撮影部13は、例えば、CCD(Charge−Coupled Device、電荷結合素子)カメラ、CMOS(Complementary Metal Oxide Semiconductor、相補性金属酸化膜半導体)カメラである。撮影部13は、複数(例えば、2個)の光学系を備えるステレオカメラ装置であってもよい。このステレオカメラ装置は、各光学系が一定の間隔だけ離れた位置に設置され、各光学系の光軸が互いに平行である。各光学系は、それぞれの視点の画像を表す画像信号、例えば左画像信号又は右画像信号を生成する。撮影部13は、生成した左画像信号及び右画像信号を情報表示装置14に出力する。
【0021】
情報表示装置14は、音源推定部140、音声認識部143、情報処理部144、データ入力部151、画像表示部152及び音響再生部153を含んで構成される。
【0022】
音源推定部140は、入力された複数のチャネルの音響信号に基づいて音源毎の方向、該音源が音を放射方向、及び当該音響信号のうち該音源が寄与する成分を推定する。音源が寄与する成分とは、その音源のみから到来した音波が示す音響信号、つまり、その他の音源から到来した音波がないと仮定したときに観測される音響信号である。
図1に示す例では、音源推定部140は、音源方向推定部141及び放射方向推定部142を備える。
音源方向推定部141は、収音部11から入力されたmチャネルの音響信号に基づいて各音源の方向(音源方向)を推定する。音源方向推定部141が推定する音源方向は、例えば、収音部11が備えるm個のマイクロホンの位置の重心点から、当該m個のマイクロホンのうち予め定めた1個のマイクロホンへの方向を基準とした、水平面内の方向である。
また、音源方向推定部141は、mチャネルの音響信号から各音源が寄与する成分を示す音響信号を分離する。以下では、音源毎に分離された音響信号、つまり各音源が寄与する成分を示す音響信号を、音源別信号と呼ぶ。
音源方向推定部141は、音源方向を推定する際、例えば、MUSIC(Multiple Signal Classification;多信号分類)法、WDS−BF(Weighted Delay and Sum Beam Forming;重み付け遅延和ビームフォーミング)法、等の音源方向推定方式を用いる。
音源方向推定部141は、音源別信号を分離する際、例えば、特開2012−42953号公報に記載の音源分離方法等、既知の音源分離方法を用いる。
音源方向推定部141は、各音源の方向を示す音源方向情報を生成し、生成した音源方向情報を情報処理部144に出力する。音源方向推定部141は、各音源の音源別信号を音声認識部143及び情報処理部144に出力する。音源方向情報が表す方向は、予め定めた基準位置、例えば、収音部11が備えるm個のマイクロホンの位置の重心点を基準とした方向である。
【0023】
放射方向推定部142は、収音部12から入力されたnチャネルの音響信号に基づいて各音源の放射方向(orientation)と位置を推定する。放射方向とは、音源から放射される音波のパワーが最も大きい方向である。即ち、放射方向は、音源の指向性(directivity)の1つの指標である。放射方向推定部142は、各音源の放射方向と位置を推定する際、例えば、国際公開2007/013525号公報に記載の音源特性推定装置が実行する放射方向(当該公報では、「音源の方向」と記載されている)及び音源位置の推定方法等、既知の推定方法を用いる。
放射方向推定部142は、例えば、nチャネルの音響信号をチャネルの毎の重み付け関数を用いて重み付け加算した信号を出力するビームフォーマを複数備える。ビームフォーマは、それぞれ空間内のある位置からある1方向に対応する単位指向特性(放射特性)を有する重みづけ関数を用い、その方向への出力値を算出する。放射方向推定部142は、複数のビームフォーマのうち出力値が極大となるビームフォーマに対応する放射方向及び位置を定める。
【0024】
放射方向推定部142は、また、音源の放射方向の推定の可否を判断する。推定に失敗する(推定不可)場合とは、例えば、予め定めた度合いよりも音源の指向性が少ない場合である。推定不可とは、具体的には、その音源について音波のパワー(方向別パワー)を方向毎に検知し、方向別パワーの最大値の、方向別パワーの平均値に対する比(最大パワー比)が、予め定めた値(例えば、3dB)より小さい場合である。これに対して、放射方向推定部142は、最大パワー比が、予め定めた値と等しい場合か、その値よりも大きい場合には、推定に成功した(推定可)と判断する。
放射方向推定部142は、各音源について放射方向の推定の可否及び推定された放射方向を表す放射方向情報を生成し、各音源について推定した位置を表す位置情報を生成する。放射方向推定部142は、生成した放射方向情報と位置情報を情報処理部144に出力する。生成された位置情報が表す位置は、予め定めた基準位置、例えば、収音部12が備えるn個のマイクロホンが配置された部屋(以下、収音室と呼ぶ)の一端を基準とした座標系で示される。
【0025】
音声認識部143は、音源方向推定部141から入力された音源毎の音源別信号が表す発話内容を既知の音声認識方式を用いて認識する。
ここで、音声認識部143は、予め設定された時間(例えば、1秒)よりも長い時間、予め定めた値よりも音響信号の強度(例えば、パワー)が小さい場合、無音状態であると検出する。音声認識部143は、前後が無音状態で挟まれる区間を発話区間と判断する。音声認識部143は、各発話区間について音源別信号に基づいて発話内容を示す音声認識情報を生成する。
音声認識部143は、音響モデル(例えば、隠れマルコフモデル(Hidden Markov Model、HMM))と言語モデル(例えば、単語辞書及び記述文法)が予め記憶されている記憶部を備える。音声認識部143は、入力された音源別信号に対して音響特徴量を算出し、算出した音響特徴量に対して記憶部に記憶された音響モデルを用いて音素からなる音素列を定める。音声認識部143は、定めた音素列に対して記憶部に記憶された言語モデルを用いて単語列を定める。定めた単語列は、発話内容を表す音声認識情報の全部又は一部である。音声認識部143は、この音声認識情報を情報処理部144に出力する。
【0026】
情報処理部144は、データ対応部145、表示データ生成部146、画像合成部147及び音響合成部148を含んで構成される。
【0027】
データ対応部145は、音源方向推定部141から入力された音源毎の音源方向情報と、放射方向推定部142から入力された音源毎の放射方向情報及び位置情報を、音源毎に対応付ける。ここで、データ対応部145は、予め設定された上述の基準位置の何れか一方(例えば、収音室の一端)を基準座標として、入力された位置情報が表す音源方向と、入力された音源方向情報が表す音源方向が等しいか否か、近似しているか否か判断する。データ対応部145は、これらの音源方向の差分の絶対値が予め定めた方向誤差よりも小さい場合、両者が近似していると判断する。両者が等しい又は近似していると判断された場合、データ対応部145は、入力された位置情報に係る音源と、入力された音源方向情報が表す音源が同一であると判断する。
データ対応部145は、同一と判断された音源について、入力された音源方向情報と放射方向情報を対応付け、表示データ生成部146、画像合成部147に出力する。
【0028】
表示データ生成部146は、データ対応部145から入力された放射方向情報に基づいて自部が備える記憶部から標識データを読み出す。次に、表示データ生成部146は、音声認識部143から入力された音声認識情報が表す文字列を標識データの文字表示領域に配置して、その文字列が配置された標識を表す表示データを生成する。
表示データ生成部146は、データ対応部から入力された位置情報に基づき音源毎に、表示データを配置する位置を示す配置位置情報を生成する。表示データ生成部146は、生成した表示データと配置位置情報を音源毎に対応付けて画像合成部147に出力する
表示データ生成部146の構成、標識データ、表示データ及び配置位置情報については後述する。
【0029】
画像合成部147は、表示データ生成部146から入力された表示データと配置位置情報に基づいて表示データ配置情報を生成する。例えば、表示データが表す標識が矢印である場合には、画像合成部147は、その矢印の方向が、データ対応部145から入力された放射方向情報に基づく放射方向に向くように配置する。画像合成部147は、生成された表示データ配置情報に基づいて、撮影部13の視点から観測される標識の画像を表す表示データ画像信号を生成する。画像合成部147は、生成した表示データ画像信号と、撮影部13から入力された画像信号とを合成して、表示画像信号を生成する。
次に、画像合成部147は、生成した表示画像信号を座標変換して、データ入力部151から入力された視点情報が表す視点から観測される表示画像信号を生成する。画像合成部147は、生成した表示画像信号を画像表示部152に出力する。
画像合成部147の構成、表示データ配置情報及び表示画像信号については後述する。
【0030】
音響合成部148は、音源方向推定部141から音源毎に音源方向情報と音源別信号が入力される。音響合成部148は、音源方向推定部141から入力された音源毎の音源別信号を、音源間で加算することによって1チャネルの音響信号を合成し、合成した1チャネルの音響信号を音響再生部153に出力してもよい。
【0031】
また、音響合成部148は、2チャネルのステレオ音響信号を合成し、合成した2チャネルの音響信号を音響再生部153に出力してもよい。
ここで、音響合成部148は、ある受聴点(視点)から予め定めた距離dだけ離れた音源方向毎に頭部伝達関数(Head Related Transfer Functions,HRTF)が予め記憶された記憶部を備える。頭部伝達関数とは、音源からある受聴点(視点)に位置する視聴者の左右各耳(チャネル)までの音波の伝達特性をそれぞれ表すフィルタ係数である。音響合成部148は、上述の基準位置から距離dだけ離れ、入力された音源方向情報が表す音源方向が示す音源位置を算出し、受聴点である予め定めた視点(例えば、撮影部13が備える光学系の焦点)からの方向を算出する。音響合成部148は、算出した方向に対応した頭部伝達関数を自部が備える記憶部から読み出し、読み出した左右各耳の頭部伝達関数を対応する音源別信号にそれぞれ畳み込み演算(convolution)を行い、左右各チャネルの音源別信号を生成する。音響合成部148は、チャネル毎に、音源間で生成した音源別信号を加算することによって、左右各チャネルの音響信号を合成する。これによって、受聴点に位置する視聴者の左右各耳において、各音源から到来した音が再現される。そのため、視聴者は、受聴点を基準としたそれぞれの音源方向に各音源に係る音を知覚する。
【0032】
音響合成部148は、上述の撮影部13が備える光学系の視点に係る2チャネルの音響信号の代わりに、データ入力部151から入力された視点情報に係る2チャネルの音響信号を生成してもよい(視点変換)。ここで、音響合成部148は、上述の基準位置から距離dだけ離れ、入力された音源方向情報が表す音源方向が示す音源位置を算出し、算出した音源位置に対する受聴点、つまりデータ入力部151から入力された視点からの方向を算出する。音響合成部148は、算出した方向に対応する頭部伝達関数を、上述の頭部伝達関数の代わりに用いることによって、左右各チャネルの音響信号を合成する。
【0033】
データ入力部151は、利用者の操作入力を受けつけ、視点(view point)と注視方向を表す視点情報が入力される。視点とは、音源又は物体を視聴する仮想的な位置である。注視方向とは、視点から音源又は物体を注視する仮想的な方向である。データ入力部151は、例えば、マウスやジョイスティックのように、操作に伴って位置情報を入力することができるポインティングデバイスを含んで構成される。データ入力部151は、入力された視点情報を画像合成部147及び音響合成部148に出力する。
【0034】
画像表示部152は、画像合成部147から入力された画像信号が表す画像を表示する。入力された画像信号が1視点の画像を示す平面画像信号である場合には、画像表示部152は、平面画像を表す液晶ディスプレイであってもよい。入力された画像信号が複数の視点、例えば2視点の画像を含む立体画像である場合には、画像表示部152は、立体画像を表す3次元ディスプレイであってもよい。画像表示部152は、例えば、ヘッドマウンテッドディスプレイ(Head Mounted Display;HMD)であってもよい。画像表示部152は、各視点の画像を、それぞれ対応する眼に表示するディスプレイであれば、据置式であってもよいし、利用者に眼鏡の装着が必要な方式であっても、眼鏡の装着が不要な方式であってもよい。
【0035】
音響再生部153は、音響合成部148から入力された音響信号が表す音を再生する。入力された音響信号が1チャネルの音を示すモノラル音響信号である場合には、音響再生部153は、1チャネルの音を再生するスピーカであってもよい。入力された音響信号が複数のチャネル、例えば2チャネルの音を示すステレオ音響信号である場合には、音響再生部153は、例えば、ヘッドホンであってもよい。当該ヘッドホンは、上述のヘッドマウンテッドディスプレイに内蔵されていてもよい。
【0036】
(表示データ生成部の構成)
表示データ生成部146には、音声認識部143から音声認識情報が、データ対応部145から放射方向情報と音源方向情報が入力される。表示データ生成部146は、標識(symbol)を示す標識データが記憶された記憶部を備える。この標識は、文字を画像の一部として表示させる領域(文字表示領域)を囲む図形である。文字表示領域を囲む図形には、例えば、矢印(arrow)、吹き出し(speech balloon)があり、その外縁(輪郭、outline)が線分で示される線画として構成されている。ここで、その外縁に相当する座標毎に予め定められた第1信号値が設定され、その他の領域における座標毎に予め定められた第2信号値が設定されている。第1信号値は、例えば、8ビットのRGB表色系において、赤色の信号値が255、その他の色の信号値が0である。なお、外縁に囲まれる背景部分については、予め定められた第3信号値が設定されている。第3信号値は、例えば、第1信号値と同一の色彩に係る信号値であって、第1信号値よりも小さい信号値である。第3信号値は、例えば、8ビットのRGB表色系において、赤色の信号値が64、その他の色の信号値が0である。なお、表示データ生成部146は、音源によって異なる色彩を表す信号値を定めてもよい。例えば、表示データ生成部146は、他の音源については、その外縁に相当する座標毎に赤色以外の色彩、例えば、緑色に対応した信号値を定める。
【0037】
当該記憶部には、特定の一方向(例えば、音源の放射方向)を示す標識に係る標識データ(方向指示標識データ)と、特定の方向を示さない標識に係る標識データ(方向非指示標識データ)が記憶されている。以下の説明では、方向指示標識データとして矢印の画像を、方向非指示標識データとして吹き出しの画像を表す場合を例にとって説明する。また、矢印の画像を表す標識データを矢印データ、吹き出しの画像を表す標識データを吹き出しデータと呼ぶ。なお、矢印の画像、吹き出しの画像の例については後述する。
【0038】
表示データ生成部146は、入力された放射方向情報が推定可を示す場合、自部が備える記憶部から矢印データを読み出す。表示データ生成部146は、入力された放射方向情報が推定不可を示す場合、自部が備える記憶部から吹き出しデータを読み出す。
【0039】
表示データ生成部146は、文字表示領域の大きさを、予め定めた一定の大きさにしてもよいが、表示する文字の大きさに応じて文字表示領域の大きさを定めてもよい。文字表示領域は、後述するように予め定めた幅の余白部分を介して指標の外縁に囲まれているため、表示データ生成部146は、文字表示領域の大きさが定めることで指標全体の大きさが定めてもよい。
【0040】
まず、表示データ生成部146は、その音源に係る相対位置に応じて文字の大きさを定める。具体的には、表示データ生成部146は、その音源に係る方向情報に対応する位置の座標値psから、視点情報が示す視点の座標値prを差し引いて、その音源に係る相対位置の座標値ps’を算出する。この視点情報が示す視点の位置は、例えば、撮影部13が備える光学系の視点の位置である。また、座標値psを算出する際、音源が上述の基準位置から予め定めた距離にあることを仮定する。
表示データ生成部146は、算出した座標値に基づき視点からその音源までの奥行値(depth)dhを算出する。表示データ生成部146は、算出した奥行値が大きいほど、小さくなるように、文字の大きさを算出する。表示データ生成部146は、例えば、式(1)を用いて文字の大きさ(フォントサイズ、font size)sを算出する。
【0041】
【数1】
【0042】
式(1)において、sb、sfは、それぞれ文字の大きさの最大値、最小値を示す予め定められた実数である。これらの単位は、画素数である。db、dfは、それぞれ奥行値の閾値を示す予め定められた実数である。ここで、dbは、dfよりも小さい値である。即ち、式(1)は、奥行値dhに対応した文字の大きさsを、奥行値の最大値dbに対応する文字の大きさsbと奥行値の最小値dfに対応する文字の大きさsfとの間で補間して算出することを示す。但し、表示データ生成部146は、dhがdbと等しいか、dbよりも小さい場合、s=sbと定め、dhがdfと等しいか、dfよりも大きい場合、s=sfと定める。
これにより、視点からの奥行値が大きい(即ち、遠い)ほど、小さくなるように文字の大きさが定められる。この奥行値は視点からの距離の目安となる値である。
【0043】
表示データ生成部146は、定めた文字の大きさに対応した、1文字当たりの高さ、幅、及び予め定めた1行あたりの文字数、行数に応じて文字表示領域を定める。なお、表示データ生成部146は、一度に入力された音声認識情報が表す文字列に含まれる文字数を計数し、計数した文字数を表示文字数と定めることによって文字表示領域を定めてもよい。但し、計数した文字数が予め定めた文字数の最大値(最大表示文字数)を越える場合には、その最大表示文字数を表示文字数と定める。
【0044】
表示データ生成部146は、音声認識情報が表す文字列を標識データの文字表示領域に配置して、その文字列が配置された標識を表す表示データを生成する。ここで、表示データ生成部146は、音声認識情報が表す文字列に含まれる文字を、表示データ生成部146に入力された順序で最大表示文字数に達するまで、行毎に左端から右端に向けて文字表示領域に配置する。
表示データ生成部146は、所定時間経過した後、文字表示領域に配置した文字を消去し、次に入力された音声認識情報が表す文字列に含まれる文字を配置する。ここで、表示データ生成部146は、文字が配置された領域の信号値を、例えば、外縁と同一の値(信号値1)と定める。
【0045】
音声認識情報が表す文字列が、最大表示文字数を越える場合には、表示データ生成部146は、その文字列を文字表示領域の右側から挿入され左側から消去されるように配置してもよい。行数が1の場合であれば、表示データ生成部146は、新たに配列する文字を、文字表示領域の右端に配置し、予め定めた時間間隔で既に配置された文字列を一文字ずつ左側に移動させ、最左端の文字を消去する。
【0046】
表示データ生成部146は、音声認識部143から新たに音声認識情報が入力されない限り、既に配置した文字を配置したままでもよいが、文字の配置が完了してから、ある時間(表示時間)が経過した後に配置した文字を消去してもよい。ここで、表示データ生成部146は、音声認識情報が示す文字列に含まれる文字数又は単語数が多いほど、表示時間が長くなるように表示時間を定める。例えば、日本語の場合には、表示時間を3+0.2×l秒(l(エル)は、文字数を表す整数値)とする。
【0047】
表示データ生成部146は、生成した表示データが示す標識の基準点を、その表示データに係る配置位置として、その音源に係る位置情報が示す位置から予め定めた方向(例えば、上方又は下方)に、予め定めた距離hだけ偏位した位置と定める。標識の基準点とは、その標識の位置を代表する点、例えば、矢印の起点、吹き出しの頂点である。表示データ生成部146は、音源毎に定めた配置位置を表す配置位置情報を生成する。これにより、標識が当該音源に係る画像であることを示すとともに、当該音源に係る画像が隠れてしまうこと回避する。なお、表示データ生成部146は、音源数が複数である場合には、音源毎の表示データが表示される領域が重複せず、かつ、音源毎の基準点と位置情報が示す位置との距離が最小となるように、音源毎の距離hを変更する。
【0048】
表示データ生成部146は、生成した表示データと配置位置情報を音源毎に対応付けて画像合成部147に出力する。
表示データが示す標識が矢印の画像である場合、表示データ生成部146は、生成した表示データ、配置位置情報及び放射方向情報を音源毎に対応付けて画像合成部147に出力する。表示データが示す標識が吹き出しの画像である場合、表示データ生成部146は、生成した表示データ及び配置位置情報を対応付けて画像合成部147に出力する。この場合、表示データ生成部146は、放射方向情報を出力しなくてもよい。
【0049】
(画像合成部の構成)
画像合成部147は、表示データ生成部146から表示データ、配置位置情報及び放射方向情報が入力され、撮影部13から画像信号が入力される。但し、上述したように放射方向情報は入力されないことがある。
画像合成部147は、入力された表示データが表す標識が、配置位置情報が表す配置位置に配置された表示データ配置情報を生成する。表示データが表す標識が矢印である場合には、画像合成部147は、その矢印の方向が、放射方向情報に基づく放射方向に向くように配置する。画像合成部147は、この表示データ配置情報に基づいて、ある視点の位置(例えば、撮影部13の光学系の視点の位置)から観測される、標識の画像を表す表示データ画像信号を生成する。
【0050】
入力される配置位置情報及び放射方向情報が、上述の基準座標を基準とする3次元座標系で表されている場合、画像合成部147は、生成した表示データ配置情報が表す要素毎の座標値について、上述の視点の位置を基準とする座標系に座標変換する。例えば、画像合成部147は、基準座標で表された世界座標系による座標値(Xo,Yo,Zo)を、式(2)の関係を満たすように、視点の位置を基準とするカメラ座標系による座標値(Xc,Yc,Zc)に変換する。
【0051】
【数2】
【0052】
式(2)において、Rは世界座標系における座標軸をカメラ座標系の座標軸に回転させることを示す回転行列、Tは、撮影部13の視点の位置(原点)の基準座標からの位置のずれを表す並進ベクトルである。画像合成部147は、座標変換した表示データ配置情報を、例えば式(3)を用いて、2次元の画像座標系に変換することで表示データ画像信号を生成する。
【0053】
【数3】
【0054】
式(3)は、世界座標系における座標値のうち、水平方向の座標値Xoと垂直方向の座標値Yoを、それぞれ奥行方向の座標値Zoの焦点距離fに対する比Zo/fで規格化してカメラ座標系における座標値(uc,vc)を算出することを示す。焦点距離fは、撮影部13が備える光学系の焦点距離である。
なお、配置位置情報が示す配置位置に係る奥行方向の座標値が負値となる場合には、表示データを生成した時点における左右方向から、座標変換後の左右方向が反転する。この場合には、画像合成部147は、座標変換前に入力された表示データが表す文字表示領域又は文字列について、左右方向を反転させる。左右方向を反転させる際、例えば、文字表示領域の左右方向の中心点を通る上下方向の対称軸の周りを180°回転させる。これにより、座標変換後に表示データ上に表される文字列を構成する各文字が右から左に配列されることが防止される。
【0055】
画像合成部147は、撮影部13から入力された画像信号と、生成した表示データ画像情報とを合成し、表示画像信号を生成する。ここで、画像合成部147は、表示データ画像情報が優先されるように合成する。即ち、画像合成部147は、ある画素において、表示データ画像情報の信号値が信号値1である場合、その信号値1を、当該画素における表示画像信号の信号値と定める。画像合成部147は、ある画素において、表示データ画像情報の信号値が信号値2である場合、当該画素における入力された画像信号の信号値を、当該画素における表示画像信号の信号値と定める。
このようにして、表示データにおける外縁や文字の部分が優先して表示され、それ以外の部分については撮影された画像が表示される。よって、標識の内部が透明に表示される。
これにより、文字が表示される部分を除いて、標識の内部が透明に表示される。
【0056】
画像合成部147は、ある画素において、表示データ画像情報の信号値が信号値2である場合、その信号値と当該画素にかかる入力された画像信号の信号値との間のいずれかの信号値(例えば、平均値)を、当該画素における表示画像信号の信号値と定める。これにより、文字が表示される部分を除いて、標識の内部が半透明に表示される。
画像合成部147は、生成した表示データ画像信号(平面画像信号)を画像表示部152に出力してもよい。
【0057】
画像合成部147は、2視点の表示画像データ画像信号を生成し、画像表示部152に出力してもよい。画像合成部147が、左画像信号と右画像信号を含む2視点の画像信号が撮影部13から入力された場合、何れかの視点の画像信号、例えば左画像信号に対して、上述の処理を行って表示データ画像信号を生成する。
画像合成部147は、生成した表示データ画像信号について画素毎に、対応する表示データ配置情報についての奥行成分の座標値Zcに基づいて視差値Dを算出する。ここで、視差値Dと座標値Zcには、D=B・f/(p・Zc)という関係がある。Bは、基線長である。基線長Bとは、撮影部13における2視点間の距離である。pは、画素間間隔である。
画像合成部147は、生成した表示データ画像信号について画素毎の信号値を、算出した視差値だけ水平方向(右側)に、それぞれずれた位置に配置して右側の表示データ画像信号(以下、右表示データ画像信号と呼ぶ)を生成する。
画像合成部147は、生成した右表示データ画像信号と入力された右画像信号を合成して右表示画像信号を生成する。この右表示画像信号を生成する処理は、上述の表示画像信号を生成する処理と同様である。
画像合成部147は、入力された左画像信号に対する上述の表示画像信号を左画像信号として、生成した右表示画像信号を右画像信号として画像表示部152に出力してもよい。
【0058】
画像合成部147は、上述の撮影部13が備える光学系の視点に係る表示画像信号(2視点)を、データ入力部151から入力された視点情報に係る表示画像信号(2視点)に変換するようにしてもよい(視点変換)。
ここで、画像合成部147は、生成した左表示画像信号と右表示画像信号との間で、例えばブロックマッチングを行うことによって、画素毎に視差値を算出する。ブロックマッチングとは、一方の画像信号の注目画素を含む予め定めた領域(ブロック)内の信号値が類似する信号値を有するブロックを他方の画像信号から抽出する処理である。画像合成部147は、算出した視差値に基づいて各画素に対応したカメラ座標系における座標値を算出する。画像合成部147は、算出した座標値を、式(2)に示す関係を用いて、入力された視点情報が表す視点の座標を原点とするように並進移動させ、視点情報が表す注視方向が奥行方向となるように座標軸を回転させることで座標変換を行う。画像合成部147は、式(3)に示す関係を用いて、入力された視点情報に係る座標値を算出する。これにより座標変換された左表示画像信号が生成される。また、画像合成部147は、算出された奥行成分の座標値を用いて視差値を画素毎に算出し、算出した視差値を用いて対応する画素を水平方向にそれぞれずれた位置に配置することで座標変換された右表示画像信号が生成される。画像合成部147は、生成した左表示画像信号と右表示画像信号を、それぞれ左画像信号と右画像信号として画像表示部152に出力する。
【0059】
(収音部、撮影部の配置例)
次に、本実施形態に係る収音部11、12及び撮影部13の配置例について説明する。
図2は、本実施形態に係る収音部及び撮影部の配置例を示す概念図である。
図2に示す横長の長方形は、収音室31の内壁面を表す。図2において、長方形の左上方に音源32の位置を星印で示し、この長方形の左下端に基準位置33を×印で示す。この基準位置33は、放射方向推定部142が音源位置を推定する際の基準位置である。
収音室の内壁面には、全周を囲むように一定の間隔でn個のマイクロホン121−1〜121−nが、それぞれ同一の高さに配置されている。これらのマイクロホンは、収音部12が備えるn個のマイクロホンである。収音室31の中央付近には、撮影部13が示されている。撮影部13を起点とする破線の矢印34は、撮影部13が備える光学系の光軸の向きを表す。撮影部13の近傍にはm個のマイクロホン111−1〜111−mが、それらの重心点が撮影部13の光学系の焦点(視点)に近似するように一定の間隔で、配置されている。これらのマイクロホンは、収音部11が備えるm個のマイクロホンである。
音源をそれぞれ中心とする円弧とその法線方向を示す矢印35は、その音源による放射レベルが著しい方向である放射方向を示す。
【0060】
(表示データが表す矢印の画像の例)
次に、本実施形態に係る矢印の画像の例について説明する。
図3は、本実施形態に係る矢印の画像の一例を示す図である。
図3に示す矢印の画像は、左端に三角形の頂点bが向けられ、その三角形の底辺に長方形が接するように構成されている。長方形に囲まれる領域が文字表示領域である。図3の例では、日本語で「友達」を意味する語を示す文字列「tomodachi」が表示されている。長方形の右辺の中点に示される×印は基準点(anchor point)aである。頂点bのなす角度は直角である。また、矢印全体の形状は、基準点aと頂点bを通る線分に対して上下対称である。なお、図3に示す画像は、特定の一方向を示す標識の一例であって、形状はこれには限られない。
【0061】
(表示データが表す吹き出しの画像の例)
図4は、本実施形態に係る吹き出しの画像の一例を示す図である。
図4に示す吹き出しの画像は、各頂点が丸みを帯びた長方形とその左下端から、さらに下方に離れた位置に頂点b’を有する三角形とで構成される。長方形に囲まれる領域が文字表示領域である。図4が示す文字列は、図3が示す文字列と同一である。長方形の右辺の中点に示される×印が基準点a’を示す。なお、長方形の底辺から頂点b’までの距離をhb’で示す。なお、図4に示す画像は、特定の一方向を示さない標識の一例であって、形状はこれには限られない。
【0062】
(情報表示処理)
次に、本実施形態に係る情報表示装置14が行う情報表示処理について説明する。
図5は、本実施形態に係る情報表示処理を表すフローチャートである。
(ステップS101)音源方向推定部141は、収音部11から入力された音響信号に基づいて各音源の音源方向を推定し、各音源が寄与する成分を示す音源別信号を生成する。音源方向推定部141は、推定した音源方向を表す音源方向情報を音源毎にデータ対応部145に出力する。音源方向推定部141は、生成した音源別信号を音源毎に音声認識部143及び音響合成部148に出力する。その後、ステップS102に進む。
(ステップS102)放射方向推定部142は、収音部12から入力された音響信号に基づいて、各音源の放射方向と位置を推定する。放射方向推定部142は、推定した放射方向を表す放射方向情報と位置を表す位置情報とを対応づけてデータ対応部145に出力する。その後、ステップS103に進む。
(ステップS103)音声認識部143は、音源方向推定部141から入力された音源毎の音源別信号が表す発話内容を発話区間毎に認識する。音声認識部143は、発話内容を表す音声認識情報を表示データ生成部146に出力する。その後、ステップS104に進む。
【0063】
(ステップS104)データ対応部145は、音源方向推定部141から入力された音源方向情報に係る音源と、放射方向推定部142から入力された放射方向情報及び位置情報に係る音源とを対応付ける。次に、データ対応部145は、同一と判断された音源毎に音源方向情報と放射方向情報を対応付けて、表示データ生成部146及び画像合成部147に出力する。その後、ステップS105に進む。
【0064】
(ステップS105)表示データ生成部146は、データ対応部145から入力された放射方向情報が推定可を示す場合、自部が備える記憶部から標識データとして矢印データを読み出す。表示データ生成部146は、放射方向情報が推定不可を示す場合、標識データとして吹き出しデータを読み出す。
次に、表示データ生成部146は、音声認識部143から入力された音声認識情報が表す文字列を標識データの文字表示領域に配置して、その文字列が配置された標識を表す表示データを生成する。
次に、表示データ生成部146は、データ対応部145から入力された位置情報に基づき音源毎に、表示データを配置する位置を示す配置位置情報を生成する。そして、表示データ生成部146は、生成した表示データと配置位置情報を音源毎に対応付けて画像合成部147に出力する。
なお、表示データが示す標識が矢印である場合、表示データ生成部146は、データ対応部145から入力された当該音源の放射方向情報を画像合成部147に出力する。その後、ステップS106に進む。
【0065】
(ステップS106)データ入力部151は、利用者の操作により入力された視点情報を画像合成部147及び音響合成部148に出力する。その後、ステップS107に進む。
(ステップS107)画像合成部147は、表示データ生成部146から入力された表示データが表す標識が、配置位置情報が表す配置位置に配置された表示データ配置情報を生成する。表示データが表す標識が矢印である場合には、画像合成部147は、その矢印の方向が、データ対応部145から入力された放射方向情報に基づく放射方向に向くように配置する。次に、画像合成部147は、生成された表示データ配置情報に基づいて、撮影部13の視点から観測される標識の画像を表す表示データ画像信号を生成する。そして、画像合成部147は、生成した表示データ画像信号が優先されるように、この表示データ画像信号と撮影部13から入力された画像信号を合成して表示画像信号を合成する。表示データ画像信号が優先されることで、表示データが表す画像が撮影された画像に隠されずに表示される。
次に、画像合成部147は、合成した表示画像信号を座標変換して、データ入力部151から入力された視点情報が表す視点から観測される表示画像信号を生成する。そして、画像合成部147は、生成した表示画像信号を画像表示部152に出力する。その後、ステップS108に進む。
【0066】
(ステップS108)画像表示部152は、画像合成部147から入力された表示画像信号が表す画像を表示する。その後、ステップS109に進む。
(ステップS109)音響合成部148は、データ入力部151から入力された視点情報が示す視点から、音源方向推定部141から入力された音源方向が示す音源位置への音源方向を算出する。次に、音響合成部148は、算出した音源方向に対応する左右各チャネルの頭部伝達関数を記憶部から読み出す。そして、音響合成部148は、読み出した左右各チャネルの頭部伝達関数を、音源方向推定部141から入力された当該音源に係る音源別信号にそれぞれ畳み込み演算する。次に、音響合成部148は、チャネル毎に、音源間で生成した音源別信号を加算することによって、左右各チャネルの音響信号を合成する。そして、音響合成部148は、合成した左右各チャネルの音響信号を音響再生部153に出力する。その後、ステップS110に進む。
(ステップS110)音響再生部153は、音響合成部148から入力された左右各チャネルの音響信号が表す音をチャネル毎に並列して再生する。その後、処理を終了する。
【0067】
(表示画像の例)
次に、画像表示部152に表示される画像の一例を示す。
図6は、画像表示部152に表示される画像の一例を示す。
図6において、左右方向は撮影部13の光学系が有する光軸を基準とした左右方向を示し、上下方向は高さの高低を示す。
図6が示す画像41は、表示データ生成部146が生成した表示データが示す矢印の画像42A、42Bと、それ以外の部分である撮影部13が撮影した画像信号が合成された表示画像である。画像41の中央部を挟んで左右両側にそれぞれ人物43A、43Bが示されている。これらの人物43A、43Bがそれぞれ音源に相当する。矢印42A、42Bの基準点の位置が各人物43A、43Bの頭部の真上又は真下となるように、それぞれ矢印42A、42Bが配置されている。また、画像41の中央部には、収音部11と撮影部13が頭部に内蔵された人型ロボット43Rが示されている。
【0068】
右側の人物43Aの真上を起点とする矢印42Aは、人物43Aに対して左側に向けられている。この矢印42Aは、人物43Aが左側の人物43Bに向けて発話していることを示す。この矢印42Aに囲まれている文字列「Tomorrow I will go to Hawaii for week」は、人物43Aが発話した音声に対する音声認識情報を表す文字列である。従って、この矢印は、人物43Aから人物43Bに対して、「Tomorrow I will go to Hawaii for week」と音声で話しかけていることを示す。
【0069】
左側の人物43Bの真下を起点とする矢印42Bは、人物43Bに対して右側に向けられている。この矢印42Bは、人物43Bが右側の人物43Aに向けて発話していることを示す。この矢印42Bに囲まれている文字列「Hawaii? nice」は、人物43Bが発声した音声に対する音声認識情報を表す文字列である。従って、この矢印42Bは、人物43Bから人物43Aに対して、「Hawaii? nice」と音声で応答していることを示す。
従って、本実施形態によれば、視聴者は音源として人物43A、43Bの発話内容を表す文字列と、その向けられた方向を視認することにより、話者、発話内容及び話し相手を一括して直感的に把握することができる。また、視聴者は発話内容毎に発話者を容易に識別することができる。また、例えば、聴覚障害者は、図6が表す画像を視聴することにより意思疎通を促進することができる。
なお、人物43Aが人物43Bに対して発話している場合、図6において矢印42Aの代わりに前述の吹き出しの画像を表示するようにしてもよい。この場合、発話内容を示す文字列の他に、発話者と発話方向を示す情報(例えば、人物43A⇒人物43B等)、を表示するようにしてもよい。
【0070】
(変形例1−1)
次に本実施形態に係る変形例1−1について、上述の実施形態と同一の構成、処理について同一の符号を付して説明する。
図7は、本実施形態の一変形例に係る情報表示システム1aの構成を表す概略図である。
【0071】
情報表示システム1aは、情報表示システム1(図1)に対して記憶部15aを更に備える。情報表示装置14aは、情報表示装置14(図1)に対して音源方向推定部141、放射方向推定部142、及び音声認識部143が省略された構成である。
記憶部15aは、音源方向推定部141から入力された音源方向情報、音源別信号、放射方向推定部142から入力された放射方向情報及び位置情報、音声認識部143から入力された音声認識情報、撮影部13から入力された画像信号を記憶する。記憶部15aは、これらの入力された信号及び情報を入力された時刻毎に対応付けて記憶する。
【0072】
データ対応部145は、音源方向推定部141又は放射方向推定部142から入力される代わりに、記憶部15aから音源方向情報、放射方向情報及び位置情報を読み出す。表示データ生成部146は、音声認識部143から入力される代わりに、記憶部15aから音声認識情報を読み出す。
音響合成部148は、音源方向推定部141から入力される代わりに、記憶部15aから音源方向情報と音源別信号を読み出す。
【0073】
(変形例1−2)
次に本実施形態に係る変形例1−2について、上述の実施形態と同一の構成、処理について同一の符号を付して説明する。
図8は、本実施形態の他の変形例に係る情報表示システム1bの構成を表す概略図である。
情報表示システム1bは、情報表示システム1(図1)に対して記憶部15bを更に備え、情報表示装置14の代わりに情報表示装置14a(図7)を備える。
記憶部15bは、収音部11、12から入力された音響信号、撮影部13から入力された画像信号を、入力された時刻毎に対応付けて記憶する。
音源方向推定部141及び放射方向推定部142は、収音部11から入力される代わりに、記憶部15bから収音部11、12から入力された音響信号をそれぞれ読み出す。
画像合成部147は、撮影部13から入力される代わりに、記憶部15bから画像信号を読み出す。
【0074】
上述の変形例1−1、1−2では、収音部11、12から入力された音響信号又は撮影部13から入力された画像信号を逐次に処理しなくとも、処理した画像信号を画像表示部152に出力し、処理した音響信号を音響再生部153に出力することができる。従って、本実施例では、既に録音された音声信号や録画された画像信号を用いることができ、処理量が過大になることを回避することができる。
また、上述の変形例1−1、1−2では、収音部11、12から入力された音響信号又は撮影部13から入力された画像信号に対して情報量を圧縮し、情報量を圧縮した音響信号又は画像信号を記憶部15a、15bに記憶させるようにしてもよい。記憶部15a、15bから、記憶した音声信号又は画像信号を読み出す際には、情報量を圧縮前の情報量に伸長する。上述の変形例1−1、1−2において、情報量を伸長した音声信号又は画像信号に基づいて表示画像信号を再構成することで、記憶部15a、15bの記憶容量を低減することができる。
【0075】
(変形例1−3)
次に本実施形態に係る変形例1−3について、上述の実施形態と同一の構成、処理について同一の符号を付して説明する。
図9は、本実施形態の他の変形例に係る情報表示システム1cの構成を表す概略図である。
情報表示システム1cは、情報表示システム1(図1)に対して感情推定部149を更に備え、表示データ生成部146の代わりに表示データ生成部146cを備える。
即ち、情報表示システム1cにおいて、情報表示装置14c、情報処理部144cは、それぞれ情報表示装置14、情報処理部144(図1)に対して、感情推定部149及び表示データ生成部146cが備えられている。
【0076】
感情推定部149は、音響特徴量の組からなる音響特徴量ベクトルと感情情報が予め対応付けて記憶されている記憶部を備える。記憶部に記憶された感情情報が示す感情には、例えば、興奮、安静、中立がある。
感情推定部149は、音源方向推定部141から入力された音源別信号に対して音響特徴量を算出し、算出した音響特徴量に対応する感情情報を自部が備える記憶部から読み出す。感情推定部149が算出する音響特徴量は、例えば、平均ピッチ(予め定めた区間毎に含まれるピッチの平均値)、平均レベル(予め定めた区間毎に含まれるレベルの平均値)、平均ピッチ変化率(予め定めた区間毎に含まれる複数の小区間に含まれるピッチの平均値に対する小区間を跨いだ変化率)、平均レベル変化率(予め定めた区間毎に含まれる複数の小区間に含まれるレベルの平均値に対する小区間を跨いだ変化率)、ピッチ指数(予め定めた平均ピッチの入力された全区間内のピッチの平均値)、レベル指数(予め定めた平均レベルの入力された全区間内のレベルの平均値)等の全部又は一部の組である。感情推定部149は、この組からなる音響特徴量を要素とした音響特徴量ベクトルを構成する。
感情推定部149は、構成した音響特徴量ベクトル、記憶部に記憶された各音響特徴量ベクトルとの類似度を表す指標値、例えばユークリッド距離を算出する。感情推定部149は、算出した指標値が最小となる音響特徴量ベクトルに対応した感情情報を記憶部から読み出し、読み出した感情情報を表示データ生成部146cに出力する。
【0077】
なお、感情推定部149は、撮影部13から入力された画像信号から音源である人物の顔面の各部位を既知の画像処理方法を用いて検出し、部位間の位置関係に対応した感情情報を推定してもよい。また、感情推定部149は、音源である人物の筋電位信号を入力し、入力された筋電位信号に基づいて既知の感情推定方法を用いて、感情情報を推定してもよい。
【0078】
表示データ生成部146cは、表示データ生成部146と同様な構成を備える。以下、主に表示データ生成部146との差異点について説明する。
表示データ生成部146cが備える記憶部には、感情情報毎に、標識データ(方向指示標識データ、方向非指示標識データ)が予め記憶されている。標識データの表示態様は、感情情報毎に異なる。表示態様とは、例えば、外縁の形状、線幅、その輝度、その色彩等がある。
【0079】
例えば、感情情報が興奮を示す場合の表示態様では、標識は、外縁の少なくとも一部がギザギザの形状を有し、感情情報が中立を示す場合より線幅が太くもしくは輝度が高く示される。例えば、感情情報が安静を示す場合の表示態様では、標識は、外縁の少なくとも一部において雲形が繰り返される形状を有し、感情情報が中立を示す場合より線幅が太くもしくは輝度が高く示される。表示される色彩は、例えば、感情情報が興奮、安静、中立それぞれの場合に対して、赤色、水色、黄色である。
【0080】
表示データ生成部146cは、感情推定部149から入力された感情情報、かつ入力された放射方向情報が示す放射方向の推定の可否に対応した標識データを当該記憶部から読み出す。表示データ生成部146cは、読み出した標識データの文字表示領域に、入力された音声認識情報が表す文字列を配置する。感情情報毎の表示態様に、線幅、輝度、色彩の差異がある場合、表示データ生成部146cは、感情情報に対応した表示態様でその文字列を配置してもよい。
これにより、本変形例では、視聴者は、標識の表示態様を視認することによって音源である話者の感情を把握することができる。また、本変形例では特定の感情、例えば興奮について、上述のような視聴者の注意を引く表示態様で標識を表示することで、話者の感情に応じて視聴者の注意の度合いを変えることができる。
【0081】
(標識データが表す矢印の画像の例)
ここで、標識の表示態様として矢印の画像に係る形状の例について述べる。
図10は、本変形例における矢印の画像における形状の一例を示す図である。
図10に示す矢印では、左側に頂点が向いている三角形と外縁がギザギザの線画で構成されている。かかる形状の矢印を表すことで、音源方向、つまり話者が発声する方向とともに話者の感情(興奮)が視覚的に表現される。
図11は、本変形例における矢印の画像における形状の他の例を示す図である。
図11に示す矢印では、左側に頂点が向いている三角形と外縁において雲形が繰り返される線画で構成されている。かかる形状の矢印を表すことで、話者が発声する方向とともに、話者の感情(安静)が視覚的に表現される。
【0082】
(変形例1−4)
次に本実施形態に係る変形例1−4について、上述の実施形態と同一の構成、処理について同一の符号を付して説明する。
図12は、本実施形態の他の変形例に係る情報表示システム1dの構成を表す概略図である。
情報表示システム1dは、情報表示システム1(図1)に対して音源方向推定部141、音声認識部143、表示データ生成部146、音響合成部148の代わりに、音源方向推定部141d、音声認識部143d、表示データ生成部146d、音響合成部148dをそれぞれ備える。情報表示システム1dにおいて、情報表示装置14dは、音源方向推定部141d、音声認識部143d及び情報処理部144dを備える。情報処理部144dは、表示データ生成部146d、音響合成部148dを備える。
【0083】
音源方向推定部141d、音声認識部143d、表示データ生成部146d、音響合成部148dは、それぞれ、音源方向推定部141、音声認識部143、表示データ生成部146、音響合成部148と同様な構成を備える。以下、主に音源方向推定部141、音声認識部143、表示データ生成部146、音響合成部148との差異点について説明する。
表示データ生成部146dは、音源毎の音源別信号のうち音響再生部153に出力する区間に係る音素と対応した文字もしくは単語を、その他の文字もしくは単語とは異なる態様で表示する。異なる態様とは、例えば、色彩、文字の大きさ、文字の太さ、装飾、背景色もしくは背景の模様(texture)の有無、又は差異である。
ここで、音源方向推定部141dは、音源別信号を生成した時刻を表す時刻情報を予め定めた時間(例えば、50ms)毎に生成し、生成した時刻情報を音源別信号と対応付けて音声認識部143d及び音響合成部148dに出力する。音声認識部143dは、音源方向推定部141dから入力された時刻情報を、音声認識情報を表す各文字と対応付けて表示データ生成部146dに出力する。音響合成部148dは、音源方向推定部141dから音源別信号と時刻情報が対応付けられて入力され、入力された音源別信号を予め定めた遅延時間(例えば、5秒間)遅延させる。音響合成部148dは、遅延させた音源別信号を音響再生部153に出力する際、当該音源別信号と対応付けられた時刻情報を表示データ生成部146dに出力する。表示データ生成部146dは、音響合成部148dから入力された時刻情報に対応する文字を異なる態様で表示する文字と定める。
【0084】
このように、本実施形態では、発話内容を表す文字と、当該文字を囲んで1方向を示す標識を、当該標識が囲む文字が示す発話内容に係る音源に対応した位置に、前記1方向を当該音源が音波を放射する放射方向に向けて表示する表示画像データを生成する。これにより、視聴者は発話者の位置、発話内容と発話方向を一括して直感的に把握することができる。
なお、本実施形態では標識の例を図3、4、10、11に示したが、これには限られない。例えば、標識内に表示する文字数が予め定めた文字数よりも多い場合、本実施形態では、それらの文字列を複数の標識を用いて表示してもよい。この場合、表示される複数の標識において、認識結果として得られた時期が新しいものほど、その文を大きく表示し、古いほど小さく表示するようにしてもよい。また、文字列に含まれる全ての文字を、そのそれらの文字の大きさを小さくして1つの標識上に表示するようにしてもよい。
【0085】
(第2の実施形態)
以下、図面を参照しながら本発明の第2の実施形態について、上述と同一の構成又は処理については同一の符号を付して説明する。
図13は、本実施形態に係る情報表示システム2の構成を表す概念図である。
情報表示システム2は、情報表示システム1(図1)において情報表示装置14の代わりに情報表示装置24を備え、さらに位置検出部25を備える。
【0086】
位置検出部25は、自部の位置を検出する位置センサ、例えば、磁気センサ、を備える。位置検出部25は、検出した位置を表す検出位置情報を生成し、生成した検出位置情報を情報表示装置24の情報処理部244に出力する。
位置検出部25は、収音部11、撮影部13、画像表示部152及び音響再生部153と同一の筐体に一体化されていてもよい。例えば、位置検出部25は、これらが一体化したヘッドマウンテッドディスプレイに内蔵されていてもよい。これにより、位置検出部25は当該ヘッドマウンテッドディスプレイを装着した視聴者自身の位置を検出することができる。また、音源方向推定部141は、視聴者の位置を基準とした音源方向を推定することができる。
【0087】
情報表示装置24は、情報表示装置14(図1)において情報処理部144(図1)の代わりに情報処理部244を備える。情報処理部244は、情報処理部144(図1)において画像合成部147及び音響合成部148の代わりに画像合成部247及び音響合成部248を備える。画像合成部247及び音響合成部248は、画像合成部147及び音響合成部148と同様な構成を備える。
【0088】
但し、画像合成部247は、データ入力部151(図1)から視点情報が入力される代わりに、位置検出部25から検出位置情報が入力され、2視点の表示画像信号を生成する。画像合成部247は、入力された検出位置情報を、データ入力部151から入力された視点情報の代わりに用いて、視点変換を行う。これにより、その検出位置を視点とする2視点の表示画像信号を生成することができる。
【0089】
音響合成部248は、データ入力部151(図1)から視点情報が入力される代わりに、位置検出部25から検出位置情報が入力され、2チャネルの音響信号を生成する。音響合成部248は、入力された検出位置情報が示す検出位置を、データ入力部151から入力された視点情報の代わりに用いて、視点変換を行う。これにより、その検出位置を受聴点とする2チャネルの音響信号を生成することができる。
【0090】
(表示画像の例)
次に、画像表示部152に表示される画像の一例を示す。
図14は、画像表示部152に表示される画像の一例を示す。
但し、図14に示す表示画像は、2視点の表示画像信号のうち一方の視点(左)の表示画像信号が表す画像である。
図14において、左右方向は位置検出部25を装着している視聴者を基準とした左右方向を示し、上下方向は当該視聴者を基準とした高低を示す。
図14が示す画像51は、表示データ生成部146が生成した矢印52を表す表示データと、その残りの部分である撮影部13が撮影した画像信号とが合成された表示画像である。この画像の中央部を挟んで左右両側にそれぞれ人物が53A、53Bが示されている。左側の人物53Aが音源に相当する。矢印52の基準点の位置が人物53Aの頭部の真上となるように、矢印52が配置されている。また、中央よりも下には撮影部13が撮影された時点における時刻(Current Time 02:23)を示す文字が示されている。
【0091】
人物53Aの真上を起点とする矢印52は、人物53Aに対して右側に向けられている。この矢印52は、人物53Aが右側の人物53Bに向けて発話していることを示す。この矢印に囲まれている文字列「Konoaida」は、人物53Aが発話した音声に対する音声認識情報を表す文字列である。従って、この矢印52は、人物53Aから人物53Bに対して、「Konoaida」と話しかけていることを示す。
従って、本実施形態によれば、検知された視聴者自身の位置を中心として、視聴者は音源として人物が発声した発話内容を表す文字列とその向けられた方向を視認することにより、話者、発話内容及び話し相手を一括して直感的に把握することができる。
なお、画像表示部152が、画像を表示する表示面が、外部からの光線を透過する半透明のディスプレイである場合には、画像合成部247は撮影部13から入力された画像を合成する処理を省略してもよい。即ち、画像合成部247は、表示データが検知された自己の位置が中心とあるように視点変換された画像を表す表示画像信号を生成し、画像表示部152は、その表示画像信号に係る矢印を表示する。
【0092】
(変形例2−1)
次に本実施形態に係る変形例2−1について、上述の実施形態と同一の構成、処理について同一の符号を付して説明する。
図15は、本実施形態の一変形例に係る情報表示システム2aの構成を表す概略図である。
次に本実施形態に係る変形例2−1について、上述の実施形態と同一の構成、処理について同一の符号を付して説明する。
図15は、本実施形態の一変形例に係る情報表示システム2aの構成を表す概略図である。
【0093】
情報表示システム2aにおいて情報表示装置24aは、情報表示システム2(図13)に対して音源推定部140の代わりに音源推定部240を備える。音源推定部240は、音源方向推定部141及び放射方向推定部242を含んで構成される。
放射方向推定部242は、撮影部13から入力された画像信号が表す画像に表された人物の顔面の方向を検出し、検出した方向を放射方向とし推定する。放射方向推定部242は、画像に表された顔の方向を検出するために既知の方法を用いることができる。
放射方向推定部242は、例えば、人間の顔面を構成する部位、例えば顔面の左半分及び右半分の特徴を表すhaar−like特徴からなる顔モデルデータを予め記憶させておいた記憶部を備える。放射方向推定部242は、撮影部13から入力された画像信号が表す画像の含まれる領域毎に、記憶部に記憶された各部位の顔モデルデータとの間の指標値としてhaar−like特徴量を算出する。放射方向推定部242は、部位毎に算出したhaar−like特徴量が予め定めた閾値よりも大きいと判断された領域を、その部位に含まれる領域と判断する。
放射方向推定部242は、左目を表す領域の面積と、右目を表す領域の面積に対する比を算出し、算出した比に対応する顔の方向を算出する。放射方向推定部242は、算出した方向を放射方向として、放射方向を表す放射方向情報をデータ対応部145に出力する。
なお、放射方向推定部242は、入力された画像信号から検出した左右各目が向いている方向(視線方向)を公知の方法を用いて検出し、検出した方向を放射方向と定めてもよい。これにより、本変形例では、多数のマイクロホンを用いることなく、撮影部13の視点から観察された人間の顔の方向に基づいて、音源の放射方向として推定することができる。
【0094】
上述した各実施形態では、画像合成部147、247は、撮影部13から入力された画像信号と表示データ生成部146等が生成した表示データとを合成する場合を例にとって説明したが、本実施形態ではこれには限られない。本実施形態では、画像合成部147、247は、撮影部13から入力された画像信号の代わりに、コンピュータグラフィクス等、別個の手段によって生成された画像信号を用いてもよい。生成された画像信号は、例えば、音源推定部140が推定した音源位置に配置され、推定された放射方向に音を放射する音源を表す画像であってもよい。
【0095】
上述では、音源推定部140において音源方向推定部141及び放射方向推定部142を備え、音源推定部240において音源方向推定部141及び放射方向推定部242を備える構成を例として説明したが、上述した実施形態ではこれには限られない。上述した実施形態では、音源推定部140は、入力された複数の音源信号に基づき、音源毎の音源方向、放射方向及び音源別信号を推定することができれば、一体化して構成されたものであってもよい。その場合には、データ対応部145を省略し、音源推定部140は、推定した音源方向を表す音源方向情報及び推定した放射方向情報を表示データ生成部146、146c、146d、画像合成部147、247及び音響合成部148、148d、248に出力する。
なお、上述した実施形態において、各変形例その他の代替例を任意に組み合わせて構成してもよい。
【0096】
なお、上述した実施形態における情報表示装置14、14a、14c、14d、24、24aの一部、例えば、音源方向推定部141、141d、放射方向推定部142、242、音声認識部143、143d、データ対応部145、表示データ生成部146、146c、146d、画像合成部147、247、及び音響合成部148、148d、248をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、情報表示装置14、14a、14c、14d、24、24aに内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
また、上述した実施形態における情報表示装置14、14a、14c、14d、24、24aの一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現しても良い。情報表示装置14、14a、14c、14d、24、24aの各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化しても良い。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現しても良い。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いても良い。
【0097】
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
【符号の説明】
【0098】
1、1a、1b、1c、1b、1d、2、2a…情報表示システム、
11、12…収音部、13…撮影部、
14、14a、14c、14d、24、24a…情報表示装置、
140、240…音源推定部、141、141d…音源方向推定部、
142、242…放射方向推定部、
143、143d…音声認識部、144、144c、144d…情報処理部、
145…データ対応部、146、146c、146d…表示データ生成部、
147、247…画像合成部、148、148d、248…音響合成部、
149…感情推定部、
15a、15b…記録部
151…データ入力部、152…画像表示部、153…音響再生部、
25…位置検出部
【技術分野】
【0001】
本発明は、情報処理装置、情報処理システム、情報処理方法及び情報処理プログラムに関する。
【背景技術】
【0002】
音声処理技術の発達により、発話内容とともに音環境を記録又は遠隔地に伝達することが試みられている。一般に、ある発話者の音声には、他人の音声や機器の動作音等、複数の音源から到来した音が混在している。視聴者はこれらを識別したうえで発話内容等を把握する。そこで、音源毎の音データを分離し、分離した音データが示す情報を受聴者に表示する技術が提案されていた。
例えば、特許文献1に記載の音データ記録再生装置では、音データを取得し、音源が存在する方向を特定し、音源毎の音データを分離し、音源毎の時系列の音データを格納し、所定の時間において所定の音源の方向を示す音に関するストリームデータを作成し、ストリームデータを視聴者に表示する。表示されたストリームデータが視聴者により選択されると、当該音データ記録再生装置は、選択されたストリームデータに関する音データを再生する。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2008−197650号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1に記載の音データ記録再生装置は、音声を再生する際に、その音声に係る音源の方向と、音データの内容を別個に表示する。例えば複数人の発話者が発話した音声が再生される場合、視聴者はどの音声がどのような発話内容を示すか、などの発話状況を直感的に把握することが困難であった。
【0005】
本発明は上記の点に鑑みてなされたものであり、視聴者が発話状況を容易に把握できる情報処理装置、情報処理システム、情報処理方法又は情報処理プログラムを提供する。
【課題を解決するための手段】
【0006】
(1)本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、発話の内容を表す文字と、当該文字を囲んで一方向を示す標識を表す表示データを生成する表示データ生成部と、前記発話に係る音源を表す画像の表示位置に基づいて、前記音声が放射される放射方向に前記一方向を向けて前記表示データを合成する画像合成部と、を備えることを特徴とする情報処理装置である。
【0007】
(2)本発明の他の態様は、上述の情報処理装置であって、前記音源を表す画像を取得する画像取得部と、前記画像を観察する位置である視点を入力するデータ入力部と、を備え、前記画像合成部は、前記表示データ生成部が生成した表示データに対して、前記データ入力部から入力された視点に基づいて視点を変換し、視点が変換された表示データを前記画像取得部が取得した画像に合成することを特徴とする。
【0008】
(3)本発明の他の態様は、上述の情報処理装置であって、自部の位置を検出する位置検出部を備え、前記データ入力部は、前記位置検出部が検出前記データ入力部は、自部の位置を検出し、前記検出した位置を前記視点として入力することを特徴とする。
【0009】
(4)本発明の他の態様は、上述の情報処理装置であって、前記発話内容に係る音声を発声した話者の感情を推定する感情推定部を備え、前記表示データ生成部は、前記感情推定部が推定した感情に基づいて、前記標識の表示態様を変化させることを特徴とする。
【0010】
(5)本発明の他の態様は、上述の情報処理装置であって、前記表示データ生成部は、前記発話の内容を表す文字の大きさを、前記視点から前記音源の位置までの間の距離に基づいて定めることを特徴とする。
【0011】
(6)本発明の他の態様は、上述の情報処理装置であって、前記表示データ生成部は、
前記表示データに含まれる文字数に基づいて前記標識を表示する時間を定めることを特徴とする。
【0012】
(7)本発明の他の態様は、音源の位置を推定する音源位置推定部と、前記音源が音波を放射する放射方向を推定する放射方向推定部と、前記音源の発話の内容を認識する音声認識部と、前記音声認識部が認識した発話の内容を表す文字と、当該文字を囲んで一方向を示す標識を表す表示データを生成する表示データ生成部と、前記発話に係る音源を表す画像の表示位置に基づいて、前記音声が放射される放射方向に前記一方向を向けて前記表示データを合成する画像合成部を備えることを特徴とする情報処理システムである。
【0013】
(8)本発明の他の態様は、上述の情報処理システムであって、前記発話に係る音源を表す画像を撮影する撮影部、を備えることを特徴とする。
【0014】
(9)本発明の他の態様は、情報処理装置における情報表示方法であって、前記情報処理装置は、発話の内容を表す文字と、当該文字を囲んで一方向を示す標識を表す表示データを生成する過程と、前記情報処理装置は、前記発話に係る音源を表す画像の表示位置に基づいて、前記音声が放射される放射方向に前記一方向を向けて前記表示データを合成する過程と、を有することを特徴とする情報処理方法である。
【0015】
(10)本発明の他の態様は、情報処理装置のコンピュータに、発話の内容を表す文字と、当該文字を囲んで一方向を示す標識を表す表示データを生成する手順、前記発話に係る音源を表す画像の表示位置に基づいて、前記音声が放射される放射方向に前記一方向を向けて前記表示データを合成する手順、を実行させるための情報処理プログラムである。
【発明の効果】
【0016】
上述の態様(1)、(7)、(9)、及び(10)によれば、視聴者が発話状況を容易に把握することができる。
上述の態様(2)によれば、視聴者は、さらに、取得された画像が表す物体である音源の発話状況を直感的に把握することができる。
上述の態様(3)によれば、視聴者は、さらに、検出した視点に応じた音源の位置及び音声の放射方向を把握することができる。
上述の態様(4)によれば、視聴者は、さらに、音源である話者の感情を視認して把握することができる。
上述の態様(5)によれば、視聴者は、さらに、視点からの音源までの距離を直感的に把握することができる。
上述の態様(6)によれば、視聴者には、さらに、発話内容を表す文字の数に応じて発話内容を理解するために十分な時間が与えられる。
上述の態様(8)によれば、視聴者は、さらに、音源である話者の画像を視聴して、その状況をより容易に把握することができる。
【図面の簡単な説明】
【0017】
【図1】本発明の第1の実施形態に係る情報表示システムの概略図である。
【図2】本実施形態に係る収音部及び撮影部の配置例を示す概念図である。
【図3】本実施形態に係る矢印の画像の一例を示す図である。
【図4】本実施形態に係る吹き出しの画像の一例を示す図である。
【図5】本実施形態に係る情報表示処理を表すフローチャートである。
【図6】画像表示部に表示される画像の一例を示す。
【図7】本実施形態の一変形例に係る情報表示システムの構成を表す概略図である。
【図8】本実施形態の他の変形例に係る情報表示システムの構成を表す概略図である。
【図9】本実施形態の他の変形例に係る情報表示システムの構成を表す概略図である。
【図10】本変形例における矢印の画像における形状の一例を示す図である。
【図11】本変形例における矢印の画像における形状の他の例を示す図である。
【図12】本実施形態の他の変形例に係る情報表示システムの構成を表す概略図 である。
【図13】本発明の第2の実施形態に係る情報表示システムの構成を表す概念図 である。
【図14】画像表示部に表示される画像の一例を示す。
【図15】本実施形態の一変形例に係る情報表示システムの構成を表す概略図である。
【発明を実施するための形態】
【0018】
(第1の実施形態)
以下、図面を参照しながら本発明の実施形態について詳しく説明する。
図1は、本発明の第1の実施形態に係る情報表示システム(情報処理システム)1の概略図である。
情報表示システム1は、収音部11、12、撮影部(画像取得部)13及び情報表示装置14を含んで構成される。
【0019】
収音部11、12は、それぞれm、nチャネルの音響信号を情報表示装置14に出力する。m、nは、それぞれ1よりも大きい整数である。収音部11、12は、チャネル毎に到達した音波の振動を示す電気信号である音響信号に変換するマイクロホンを備える。各マイクロホンは、例えば、無指向性(omnidirectional)のマイクロホンである。収音部11は、例えば、ロボットの頭部に設置されたマイクロホンアレイであってもよい。当該マイクロホンアレイにおいて、各マイクロホンは、隣接するマイクロホンとの間隔が等しくなるようにロボットの頭頂部を中心とする円周上に配列されている。収音部12は、例えば、ある部屋の内壁の表面に設置されたマイクロホンアレイである。当該マイクロホンアレイにおいて、各マイクロホンが隣接するマイクロホンとの間隔が等しく、かつ床面からの高さが等しくなるように、その部屋の水平面を覆うように配列されている。マイクロホンの配置例については後述する。
【0020】
撮影部13は、撮影した画像を表す画像信号をフレーム毎に生成し、生成した画像信号を情報表示装置14に出力する。撮影部13は、例えば、CCD(Charge−Coupled Device、電荷結合素子)カメラ、CMOS(Complementary Metal Oxide Semiconductor、相補性金属酸化膜半導体)カメラである。撮影部13は、複数(例えば、2個)の光学系を備えるステレオカメラ装置であってもよい。このステレオカメラ装置は、各光学系が一定の間隔だけ離れた位置に設置され、各光学系の光軸が互いに平行である。各光学系は、それぞれの視点の画像を表す画像信号、例えば左画像信号又は右画像信号を生成する。撮影部13は、生成した左画像信号及び右画像信号を情報表示装置14に出力する。
【0021】
情報表示装置14は、音源推定部140、音声認識部143、情報処理部144、データ入力部151、画像表示部152及び音響再生部153を含んで構成される。
【0022】
音源推定部140は、入力された複数のチャネルの音響信号に基づいて音源毎の方向、該音源が音を放射方向、及び当該音響信号のうち該音源が寄与する成分を推定する。音源が寄与する成分とは、その音源のみから到来した音波が示す音響信号、つまり、その他の音源から到来した音波がないと仮定したときに観測される音響信号である。
図1に示す例では、音源推定部140は、音源方向推定部141及び放射方向推定部142を備える。
音源方向推定部141は、収音部11から入力されたmチャネルの音響信号に基づいて各音源の方向(音源方向)を推定する。音源方向推定部141が推定する音源方向は、例えば、収音部11が備えるm個のマイクロホンの位置の重心点から、当該m個のマイクロホンのうち予め定めた1個のマイクロホンへの方向を基準とした、水平面内の方向である。
また、音源方向推定部141は、mチャネルの音響信号から各音源が寄与する成分を示す音響信号を分離する。以下では、音源毎に分離された音響信号、つまり各音源が寄与する成分を示す音響信号を、音源別信号と呼ぶ。
音源方向推定部141は、音源方向を推定する際、例えば、MUSIC(Multiple Signal Classification;多信号分類)法、WDS−BF(Weighted Delay and Sum Beam Forming;重み付け遅延和ビームフォーミング)法、等の音源方向推定方式を用いる。
音源方向推定部141は、音源別信号を分離する際、例えば、特開2012−42953号公報に記載の音源分離方法等、既知の音源分離方法を用いる。
音源方向推定部141は、各音源の方向を示す音源方向情報を生成し、生成した音源方向情報を情報処理部144に出力する。音源方向推定部141は、各音源の音源別信号を音声認識部143及び情報処理部144に出力する。音源方向情報が表す方向は、予め定めた基準位置、例えば、収音部11が備えるm個のマイクロホンの位置の重心点を基準とした方向である。
【0023】
放射方向推定部142は、収音部12から入力されたnチャネルの音響信号に基づいて各音源の放射方向(orientation)と位置を推定する。放射方向とは、音源から放射される音波のパワーが最も大きい方向である。即ち、放射方向は、音源の指向性(directivity)の1つの指標である。放射方向推定部142は、各音源の放射方向と位置を推定する際、例えば、国際公開2007/013525号公報に記載の音源特性推定装置が実行する放射方向(当該公報では、「音源の方向」と記載されている)及び音源位置の推定方法等、既知の推定方法を用いる。
放射方向推定部142は、例えば、nチャネルの音響信号をチャネルの毎の重み付け関数を用いて重み付け加算した信号を出力するビームフォーマを複数備える。ビームフォーマは、それぞれ空間内のある位置からある1方向に対応する単位指向特性(放射特性)を有する重みづけ関数を用い、その方向への出力値を算出する。放射方向推定部142は、複数のビームフォーマのうち出力値が極大となるビームフォーマに対応する放射方向及び位置を定める。
【0024】
放射方向推定部142は、また、音源の放射方向の推定の可否を判断する。推定に失敗する(推定不可)場合とは、例えば、予め定めた度合いよりも音源の指向性が少ない場合である。推定不可とは、具体的には、その音源について音波のパワー(方向別パワー)を方向毎に検知し、方向別パワーの最大値の、方向別パワーの平均値に対する比(最大パワー比)が、予め定めた値(例えば、3dB)より小さい場合である。これに対して、放射方向推定部142は、最大パワー比が、予め定めた値と等しい場合か、その値よりも大きい場合には、推定に成功した(推定可)と判断する。
放射方向推定部142は、各音源について放射方向の推定の可否及び推定された放射方向を表す放射方向情報を生成し、各音源について推定した位置を表す位置情報を生成する。放射方向推定部142は、生成した放射方向情報と位置情報を情報処理部144に出力する。生成された位置情報が表す位置は、予め定めた基準位置、例えば、収音部12が備えるn個のマイクロホンが配置された部屋(以下、収音室と呼ぶ)の一端を基準とした座標系で示される。
【0025】
音声認識部143は、音源方向推定部141から入力された音源毎の音源別信号が表す発話内容を既知の音声認識方式を用いて認識する。
ここで、音声認識部143は、予め設定された時間(例えば、1秒)よりも長い時間、予め定めた値よりも音響信号の強度(例えば、パワー)が小さい場合、無音状態であると検出する。音声認識部143は、前後が無音状態で挟まれる区間を発話区間と判断する。音声認識部143は、各発話区間について音源別信号に基づいて発話内容を示す音声認識情報を生成する。
音声認識部143は、音響モデル(例えば、隠れマルコフモデル(Hidden Markov Model、HMM))と言語モデル(例えば、単語辞書及び記述文法)が予め記憶されている記憶部を備える。音声認識部143は、入力された音源別信号に対して音響特徴量を算出し、算出した音響特徴量に対して記憶部に記憶された音響モデルを用いて音素からなる音素列を定める。音声認識部143は、定めた音素列に対して記憶部に記憶された言語モデルを用いて単語列を定める。定めた単語列は、発話内容を表す音声認識情報の全部又は一部である。音声認識部143は、この音声認識情報を情報処理部144に出力する。
【0026】
情報処理部144は、データ対応部145、表示データ生成部146、画像合成部147及び音響合成部148を含んで構成される。
【0027】
データ対応部145は、音源方向推定部141から入力された音源毎の音源方向情報と、放射方向推定部142から入力された音源毎の放射方向情報及び位置情報を、音源毎に対応付ける。ここで、データ対応部145は、予め設定された上述の基準位置の何れか一方(例えば、収音室の一端)を基準座標として、入力された位置情報が表す音源方向と、入力された音源方向情報が表す音源方向が等しいか否か、近似しているか否か判断する。データ対応部145は、これらの音源方向の差分の絶対値が予め定めた方向誤差よりも小さい場合、両者が近似していると判断する。両者が等しい又は近似していると判断された場合、データ対応部145は、入力された位置情報に係る音源と、入力された音源方向情報が表す音源が同一であると判断する。
データ対応部145は、同一と判断された音源について、入力された音源方向情報と放射方向情報を対応付け、表示データ生成部146、画像合成部147に出力する。
【0028】
表示データ生成部146は、データ対応部145から入力された放射方向情報に基づいて自部が備える記憶部から標識データを読み出す。次に、表示データ生成部146は、音声認識部143から入力された音声認識情報が表す文字列を標識データの文字表示領域に配置して、その文字列が配置された標識を表す表示データを生成する。
表示データ生成部146は、データ対応部から入力された位置情報に基づき音源毎に、表示データを配置する位置を示す配置位置情報を生成する。表示データ生成部146は、生成した表示データと配置位置情報を音源毎に対応付けて画像合成部147に出力する
表示データ生成部146の構成、標識データ、表示データ及び配置位置情報については後述する。
【0029】
画像合成部147は、表示データ生成部146から入力された表示データと配置位置情報に基づいて表示データ配置情報を生成する。例えば、表示データが表す標識が矢印である場合には、画像合成部147は、その矢印の方向が、データ対応部145から入力された放射方向情報に基づく放射方向に向くように配置する。画像合成部147は、生成された表示データ配置情報に基づいて、撮影部13の視点から観測される標識の画像を表す表示データ画像信号を生成する。画像合成部147は、生成した表示データ画像信号と、撮影部13から入力された画像信号とを合成して、表示画像信号を生成する。
次に、画像合成部147は、生成した表示画像信号を座標変換して、データ入力部151から入力された視点情報が表す視点から観測される表示画像信号を生成する。画像合成部147は、生成した表示画像信号を画像表示部152に出力する。
画像合成部147の構成、表示データ配置情報及び表示画像信号については後述する。
【0030】
音響合成部148は、音源方向推定部141から音源毎に音源方向情報と音源別信号が入力される。音響合成部148は、音源方向推定部141から入力された音源毎の音源別信号を、音源間で加算することによって1チャネルの音響信号を合成し、合成した1チャネルの音響信号を音響再生部153に出力してもよい。
【0031】
また、音響合成部148は、2チャネルのステレオ音響信号を合成し、合成した2チャネルの音響信号を音響再生部153に出力してもよい。
ここで、音響合成部148は、ある受聴点(視点)から予め定めた距離dだけ離れた音源方向毎に頭部伝達関数(Head Related Transfer Functions,HRTF)が予め記憶された記憶部を備える。頭部伝達関数とは、音源からある受聴点(視点)に位置する視聴者の左右各耳(チャネル)までの音波の伝達特性をそれぞれ表すフィルタ係数である。音響合成部148は、上述の基準位置から距離dだけ離れ、入力された音源方向情報が表す音源方向が示す音源位置を算出し、受聴点である予め定めた視点(例えば、撮影部13が備える光学系の焦点)からの方向を算出する。音響合成部148は、算出した方向に対応した頭部伝達関数を自部が備える記憶部から読み出し、読み出した左右各耳の頭部伝達関数を対応する音源別信号にそれぞれ畳み込み演算(convolution)を行い、左右各チャネルの音源別信号を生成する。音響合成部148は、チャネル毎に、音源間で生成した音源別信号を加算することによって、左右各チャネルの音響信号を合成する。これによって、受聴点に位置する視聴者の左右各耳において、各音源から到来した音が再現される。そのため、視聴者は、受聴点を基準としたそれぞれの音源方向に各音源に係る音を知覚する。
【0032】
音響合成部148は、上述の撮影部13が備える光学系の視点に係る2チャネルの音響信号の代わりに、データ入力部151から入力された視点情報に係る2チャネルの音響信号を生成してもよい(視点変換)。ここで、音響合成部148は、上述の基準位置から距離dだけ離れ、入力された音源方向情報が表す音源方向が示す音源位置を算出し、算出した音源位置に対する受聴点、つまりデータ入力部151から入力された視点からの方向を算出する。音響合成部148は、算出した方向に対応する頭部伝達関数を、上述の頭部伝達関数の代わりに用いることによって、左右各チャネルの音響信号を合成する。
【0033】
データ入力部151は、利用者の操作入力を受けつけ、視点(view point)と注視方向を表す視点情報が入力される。視点とは、音源又は物体を視聴する仮想的な位置である。注視方向とは、視点から音源又は物体を注視する仮想的な方向である。データ入力部151は、例えば、マウスやジョイスティックのように、操作に伴って位置情報を入力することができるポインティングデバイスを含んで構成される。データ入力部151は、入力された視点情報を画像合成部147及び音響合成部148に出力する。
【0034】
画像表示部152は、画像合成部147から入力された画像信号が表す画像を表示する。入力された画像信号が1視点の画像を示す平面画像信号である場合には、画像表示部152は、平面画像を表す液晶ディスプレイであってもよい。入力された画像信号が複数の視点、例えば2視点の画像を含む立体画像である場合には、画像表示部152は、立体画像を表す3次元ディスプレイであってもよい。画像表示部152は、例えば、ヘッドマウンテッドディスプレイ(Head Mounted Display;HMD)であってもよい。画像表示部152は、各視点の画像を、それぞれ対応する眼に表示するディスプレイであれば、据置式であってもよいし、利用者に眼鏡の装着が必要な方式であっても、眼鏡の装着が不要な方式であってもよい。
【0035】
音響再生部153は、音響合成部148から入力された音響信号が表す音を再生する。入力された音響信号が1チャネルの音を示すモノラル音響信号である場合には、音響再生部153は、1チャネルの音を再生するスピーカであってもよい。入力された音響信号が複数のチャネル、例えば2チャネルの音を示すステレオ音響信号である場合には、音響再生部153は、例えば、ヘッドホンであってもよい。当該ヘッドホンは、上述のヘッドマウンテッドディスプレイに内蔵されていてもよい。
【0036】
(表示データ生成部の構成)
表示データ生成部146には、音声認識部143から音声認識情報が、データ対応部145から放射方向情報と音源方向情報が入力される。表示データ生成部146は、標識(symbol)を示す標識データが記憶された記憶部を備える。この標識は、文字を画像の一部として表示させる領域(文字表示領域)を囲む図形である。文字表示領域を囲む図形には、例えば、矢印(arrow)、吹き出し(speech balloon)があり、その外縁(輪郭、outline)が線分で示される線画として構成されている。ここで、その外縁に相当する座標毎に予め定められた第1信号値が設定され、その他の領域における座標毎に予め定められた第2信号値が設定されている。第1信号値は、例えば、8ビットのRGB表色系において、赤色の信号値が255、その他の色の信号値が0である。なお、外縁に囲まれる背景部分については、予め定められた第3信号値が設定されている。第3信号値は、例えば、第1信号値と同一の色彩に係る信号値であって、第1信号値よりも小さい信号値である。第3信号値は、例えば、8ビットのRGB表色系において、赤色の信号値が64、その他の色の信号値が0である。なお、表示データ生成部146は、音源によって異なる色彩を表す信号値を定めてもよい。例えば、表示データ生成部146は、他の音源については、その外縁に相当する座標毎に赤色以外の色彩、例えば、緑色に対応した信号値を定める。
【0037】
当該記憶部には、特定の一方向(例えば、音源の放射方向)を示す標識に係る標識データ(方向指示標識データ)と、特定の方向を示さない標識に係る標識データ(方向非指示標識データ)が記憶されている。以下の説明では、方向指示標識データとして矢印の画像を、方向非指示標識データとして吹き出しの画像を表す場合を例にとって説明する。また、矢印の画像を表す標識データを矢印データ、吹き出しの画像を表す標識データを吹き出しデータと呼ぶ。なお、矢印の画像、吹き出しの画像の例については後述する。
【0038】
表示データ生成部146は、入力された放射方向情報が推定可を示す場合、自部が備える記憶部から矢印データを読み出す。表示データ生成部146は、入力された放射方向情報が推定不可を示す場合、自部が備える記憶部から吹き出しデータを読み出す。
【0039】
表示データ生成部146は、文字表示領域の大きさを、予め定めた一定の大きさにしてもよいが、表示する文字の大きさに応じて文字表示領域の大きさを定めてもよい。文字表示領域は、後述するように予め定めた幅の余白部分を介して指標の外縁に囲まれているため、表示データ生成部146は、文字表示領域の大きさが定めることで指標全体の大きさが定めてもよい。
【0040】
まず、表示データ生成部146は、その音源に係る相対位置に応じて文字の大きさを定める。具体的には、表示データ生成部146は、その音源に係る方向情報に対応する位置の座標値psから、視点情報が示す視点の座標値prを差し引いて、その音源に係る相対位置の座標値ps’を算出する。この視点情報が示す視点の位置は、例えば、撮影部13が備える光学系の視点の位置である。また、座標値psを算出する際、音源が上述の基準位置から予め定めた距離にあることを仮定する。
表示データ生成部146は、算出した座標値に基づき視点からその音源までの奥行値(depth)dhを算出する。表示データ生成部146は、算出した奥行値が大きいほど、小さくなるように、文字の大きさを算出する。表示データ生成部146は、例えば、式(1)を用いて文字の大きさ(フォントサイズ、font size)sを算出する。
【0041】
【数1】
【0042】
式(1)において、sb、sfは、それぞれ文字の大きさの最大値、最小値を示す予め定められた実数である。これらの単位は、画素数である。db、dfは、それぞれ奥行値の閾値を示す予め定められた実数である。ここで、dbは、dfよりも小さい値である。即ち、式(1)は、奥行値dhに対応した文字の大きさsを、奥行値の最大値dbに対応する文字の大きさsbと奥行値の最小値dfに対応する文字の大きさsfとの間で補間して算出することを示す。但し、表示データ生成部146は、dhがdbと等しいか、dbよりも小さい場合、s=sbと定め、dhがdfと等しいか、dfよりも大きい場合、s=sfと定める。
これにより、視点からの奥行値が大きい(即ち、遠い)ほど、小さくなるように文字の大きさが定められる。この奥行値は視点からの距離の目安となる値である。
【0043】
表示データ生成部146は、定めた文字の大きさに対応した、1文字当たりの高さ、幅、及び予め定めた1行あたりの文字数、行数に応じて文字表示領域を定める。なお、表示データ生成部146は、一度に入力された音声認識情報が表す文字列に含まれる文字数を計数し、計数した文字数を表示文字数と定めることによって文字表示領域を定めてもよい。但し、計数した文字数が予め定めた文字数の最大値(最大表示文字数)を越える場合には、その最大表示文字数を表示文字数と定める。
【0044】
表示データ生成部146は、音声認識情報が表す文字列を標識データの文字表示領域に配置して、その文字列が配置された標識を表す表示データを生成する。ここで、表示データ生成部146は、音声認識情報が表す文字列に含まれる文字を、表示データ生成部146に入力された順序で最大表示文字数に達するまで、行毎に左端から右端に向けて文字表示領域に配置する。
表示データ生成部146は、所定時間経過した後、文字表示領域に配置した文字を消去し、次に入力された音声認識情報が表す文字列に含まれる文字を配置する。ここで、表示データ生成部146は、文字が配置された領域の信号値を、例えば、外縁と同一の値(信号値1)と定める。
【0045】
音声認識情報が表す文字列が、最大表示文字数を越える場合には、表示データ生成部146は、その文字列を文字表示領域の右側から挿入され左側から消去されるように配置してもよい。行数が1の場合であれば、表示データ生成部146は、新たに配列する文字を、文字表示領域の右端に配置し、予め定めた時間間隔で既に配置された文字列を一文字ずつ左側に移動させ、最左端の文字を消去する。
【0046】
表示データ生成部146は、音声認識部143から新たに音声認識情報が入力されない限り、既に配置した文字を配置したままでもよいが、文字の配置が完了してから、ある時間(表示時間)が経過した後に配置した文字を消去してもよい。ここで、表示データ生成部146は、音声認識情報が示す文字列に含まれる文字数又は単語数が多いほど、表示時間が長くなるように表示時間を定める。例えば、日本語の場合には、表示時間を3+0.2×l秒(l(エル)は、文字数を表す整数値)とする。
【0047】
表示データ生成部146は、生成した表示データが示す標識の基準点を、その表示データに係る配置位置として、その音源に係る位置情報が示す位置から予め定めた方向(例えば、上方又は下方)に、予め定めた距離hだけ偏位した位置と定める。標識の基準点とは、その標識の位置を代表する点、例えば、矢印の起点、吹き出しの頂点である。表示データ生成部146は、音源毎に定めた配置位置を表す配置位置情報を生成する。これにより、標識が当該音源に係る画像であることを示すとともに、当該音源に係る画像が隠れてしまうこと回避する。なお、表示データ生成部146は、音源数が複数である場合には、音源毎の表示データが表示される領域が重複せず、かつ、音源毎の基準点と位置情報が示す位置との距離が最小となるように、音源毎の距離hを変更する。
【0048】
表示データ生成部146は、生成した表示データと配置位置情報を音源毎に対応付けて画像合成部147に出力する。
表示データが示す標識が矢印の画像である場合、表示データ生成部146は、生成した表示データ、配置位置情報及び放射方向情報を音源毎に対応付けて画像合成部147に出力する。表示データが示す標識が吹き出しの画像である場合、表示データ生成部146は、生成した表示データ及び配置位置情報を対応付けて画像合成部147に出力する。この場合、表示データ生成部146は、放射方向情報を出力しなくてもよい。
【0049】
(画像合成部の構成)
画像合成部147は、表示データ生成部146から表示データ、配置位置情報及び放射方向情報が入力され、撮影部13から画像信号が入力される。但し、上述したように放射方向情報は入力されないことがある。
画像合成部147は、入力された表示データが表す標識が、配置位置情報が表す配置位置に配置された表示データ配置情報を生成する。表示データが表す標識が矢印である場合には、画像合成部147は、その矢印の方向が、放射方向情報に基づく放射方向に向くように配置する。画像合成部147は、この表示データ配置情報に基づいて、ある視点の位置(例えば、撮影部13の光学系の視点の位置)から観測される、標識の画像を表す表示データ画像信号を生成する。
【0050】
入力される配置位置情報及び放射方向情報が、上述の基準座標を基準とする3次元座標系で表されている場合、画像合成部147は、生成した表示データ配置情報が表す要素毎の座標値について、上述の視点の位置を基準とする座標系に座標変換する。例えば、画像合成部147は、基準座標で表された世界座標系による座標値(Xo,Yo,Zo)を、式(2)の関係を満たすように、視点の位置を基準とするカメラ座標系による座標値(Xc,Yc,Zc)に変換する。
【0051】
【数2】
【0052】
式(2)において、Rは世界座標系における座標軸をカメラ座標系の座標軸に回転させることを示す回転行列、Tは、撮影部13の視点の位置(原点)の基準座標からの位置のずれを表す並進ベクトルである。画像合成部147は、座標変換した表示データ配置情報を、例えば式(3)を用いて、2次元の画像座標系に変換することで表示データ画像信号を生成する。
【0053】
【数3】
【0054】
式(3)は、世界座標系における座標値のうち、水平方向の座標値Xoと垂直方向の座標値Yoを、それぞれ奥行方向の座標値Zoの焦点距離fに対する比Zo/fで規格化してカメラ座標系における座標値(uc,vc)を算出することを示す。焦点距離fは、撮影部13が備える光学系の焦点距離である。
なお、配置位置情報が示す配置位置に係る奥行方向の座標値が負値となる場合には、表示データを生成した時点における左右方向から、座標変換後の左右方向が反転する。この場合には、画像合成部147は、座標変換前に入力された表示データが表す文字表示領域又は文字列について、左右方向を反転させる。左右方向を反転させる際、例えば、文字表示領域の左右方向の中心点を通る上下方向の対称軸の周りを180°回転させる。これにより、座標変換後に表示データ上に表される文字列を構成する各文字が右から左に配列されることが防止される。
【0055】
画像合成部147は、撮影部13から入力された画像信号と、生成した表示データ画像情報とを合成し、表示画像信号を生成する。ここで、画像合成部147は、表示データ画像情報が優先されるように合成する。即ち、画像合成部147は、ある画素において、表示データ画像情報の信号値が信号値1である場合、その信号値1を、当該画素における表示画像信号の信号値と定める。画像合成部147は、ある画素において、表示データ画像情報の信号値が信号値2である場合、当該画素における入力された画像信号の信号値を、当該画素における表示画像信号の信号値と定める。
このようにして、表示データにおける外縁や文字の部分が優先して表示され、それ以外の部分については撮影された画像が表示される。よって、標識の内部が透明に表示される。
これにより、文字が表示される部分を除いて、標識の内部が透明に表示される。
【0056】
画像合成部147は、ある画素において、表示データ画像情報の信号値が信号値2である場合、その信号値と当該画素にかかる入力された画像信号の信号値との間のいずれかの信号値(例えば、平均値)を、当該画素における表示画像信号の信号値と定める。これにより、文字が表示される部分を除いて、標識の内部が半透明に表示される。
画像合成部147は、生成した表示データ画像信号(平面画像信号)を画像表示部152に出力してもよい。
【0057】
画像合成部147は、2視点の表示画像データ画像信号を生成し、画像表示部152に出力してもよい。画像合成部147が、左画像信号と右画像信号を含む2視点の画像信号が撮影部13から入力された場合、何れかの視点の画像信号、例えば左画像信号に対して、上述の処理を行って表示データ画像信号を生成する。
画像合成部147は、生成した表示データ画像信号について画素毎に、対応する表示データ配置情報についての奥行成分の座標値Zcに基づいて視差値Dを算出する。ここで、視差値Dと座標値Zcには、D=B・f/(p・Zc)という関係がある。Bは、基線長である。基線長Bとは、撮影部13における2視点間の距離である。pは、画素間間隔である。
画像合成部147は、生成した表示データ画像信号について画素毎の信号値を、算出した視差値だけ水平方向(右側)に、それぞれずれた位置に配置して右側の表示データ画像信号(以下、右表示データ画像信号と呼ぶ)を生成する。
画像合成部147は、生成した右表示データ画像信号と入力された右画像信号を合成して右表示画像信号を生成する。この右表示画像信号を生成する処理は、上述の表示画像信号を生成する処理と同様である。
画像合成部147は、入力された左画像信号に対する上述の表示画像信号を左画像信号として、生成した右表示画像信号を右画像信号として画像表示部152に出力してもよい。
【0058】
画像合成部147は、上述の撮影部13が備える光学系の視点に係る表示画像信号(2視点)を、データ入力部151から入力された視点情報に係る表示画像信号(2視点)に変換するようにしてもよい(視点変換)。
ここで、画像合成部147は、生成した左表示画像信号と右表示画像信号との間で、例えばブロックマッチングを行うことによって、画素毎に視差値を算出する。ブロックマッチングとは、一方の画像信号の注目画素を含む予め定めた領域(ブロック)内の信号値が類似する信号値を有するブロックを他方の画像信号から抽出する処理である。画像合成部147は、算出した視差値に基づいて各画素に対応したカメラ座標系における座標値を算出する。画像合成部147は、算出した座標値を、式(2)に示す関係を用いて、入力された視点情報が表す視点の座標を原点とするように並進移動させ、視点情報が表す注視方向が奥行方向となるように座標軸を回転させることで座標変換を行う。画像合成部147は、式(3)に示す関係を用いて、入力された視点情報に係る座標値を算出する。これにより座標変換された左表示画像信号が生成される。また、画像合成部147は、算出された奥行成分の座標値を用いて視差値を画素毎に算出し、算出した視差値を用いて対応する画素を水平方向にそれぞれずれた位置に配置することで座標変換された右表示画像信号が生成される。画像合成部147は、生成した左表示画像信号と右表示画像信号を、それぞれ左画像信号と右画像信号として画像表示部152に出力する。
【0059】
(収音部、撮影部の配置例)
次に、本実施形態に係る収音部11、12及び撮影部13の配置例について説明する。
図2は、本実施形態に係る収音部及び撮影部の配置例を示す概念図である。
図2に示す横長の長方形は、収音室31の内壁面を表す。図2において、長方形の左上方に音源32の位置を星印で示し、この長方形の左下端に基準位置33を×印で示す。この基準位置33は、放射方向推定部142が音源位置を推定する際の基準位置である。
収音室の内壁面には、全周を囲むように一定の間隔でn個のマイクロホン121−1〜121−nが、それぞれ同一の高さに配置されている。これらのマイクロホンは、収音部12が備えるn個のマイクロホンである。収音室31の中央付近には、撮影部13が示されている。撮影部13を起点とする破線の矢印34は、撮影部13が備える光学系の光軸の向きを表す。撮影部13の近傍にはm個のマイクロホン111−1〜111−mが、それらの重心点が撮影部13の光学系の焦点(視点)に近似するように一定の間隔で、配置されている。これらのマイクロホンは、収音部11が備えるm個のマイクロホンである。
音源をそれぞれ中心とする円弧とその法線方向を示す矢印35は、その音源による放射レベルが著しい方向である放射方向を示す。
【0060】
(表示データが表す矢印の画像の例)
次に、本実施形態に係る矢印の画像の例について説明する。
図3は、本実施形態に係る矢印の画像の一例を示す図である。
図3に示す矢印の画像は、左端に三角形の頂点bが向けられ、その三角形の底辺に長方形が接するように構成されている。長方形に囲まれる領域が文字表示領域である。図3の例では、日本語で「友達」を意味する語を示す文字列「tomodachi」が表示されている。長方形の右辺の中点に示される×印は基準点(anchor point)aである。頂点bのなす角度は直角である。また、矢印全体の形状は、基準点aと頂点bを通る線分に対して上下対称である。なお、図3に示す画像は、特定の一方向を示す標識の一例であって、形状はこれには限られない。
【0061】
(表示データが表す吹き出しの画像の例)
図4は、本実施形態に係る吹き出しの画像の一例を示す図である。
図4に示す吹き出しの画像は、各頂点が丸みを帯びた長方形とその左下端から、さらに下方に離れた位置に頂点b’を有する三角形とで構成される。長方形に囲まれる領域が文字表示領域である。図4が示す文字列は、図3が示す文字列と同一である。長方形の右辺の中点に示される×印が基準点a’を示す。なお、長方形の底辺から頂点b’までの距離をhb’で示す。なお、図4に示す画像は、特定の一方向を示さない標識の一例であって、形状はこれには限られない。
【0062】
(情報表示処理)
次に、本実施形態に係る情報表示装置14が行う情報表示処理について説明する。
図5は、本実施形態に係る情報表示処理を表すフローチャートである。
(ステップS101)音源方向推定部141は、収音部11から入力された音響信号に基づいて各音源の音源方向を推定し、各音源が寄与する成分を示す音源別信号を生成する。音源方向推定部141は、推定した音源方向を表す音源方向情報を音源毎にデータ対応部145に出力する。音源方向推定部141は、生成した音源別信号を音源毎に音声認識部143及び音響合成部148に出力する。その後、ステップS102に進む。
(ステップS102)放射方向推定部142は、収音部12から入力された音響信号に基づいて、各音源の放射方向と位置を推定する。放射方向推定部142は、推定した放射方向を表す放射方向情報と位置を表す位置情報とを対応づけてデータ対応部145に出力する。その後、ステップS103に進む。
(ステップS103)音声認識部143は、音源方向推定部141から入力された音源毎の音源別信号が表す発話内容を発話区間毎に認識する。音声認識部143は、発話内容を表す音声認識情報を表示データ生成部146に出力する。その後、ステップS104に進む。
【0063】
(ステップS104)データ対応部145は、音源方向推定部141から入力された音源方向情報に係る音源と、放射方向推定部142から入力された放射方向情報及び位置情報に係る音源とを対応付ける。次に、データ対応部145は、同一と判断された音源毎に音源方向情報と放射方向情報を対応付けて、表示データ生成部146及び画像合成部147に出力する。その後、ステップS105に進む。
【0064】
(ステップS105)表示データ生成部146は、データ対応部145から入力された放射方向情報が推定可を示す場合、自部が備える記憶部から標識データとして矢印データを読み出す。表示データ生成部146は、放射方向情報が推定不可を示す場合、標識データとして吹き出しデータを読み出す。
次に、表示データ生成部146は、音声認識部143から入力された音声認識情報が表す文字列を標識データの文字表示領域に配置して、その文字列が配置された標識を表す表示データを生成する。
次に、表示データ生成部146は、データ対応部145から入力された位置情報に基づき音源毎に、表示データを配置する位置を示す配置位置情報を生成する。そして、表示データ生成部146は、生成した表示データと配置位置情報を音源毎に対応付けて画像合成部147に出力する。
なお、表示データが示す標識が矢印である場合、表示データ生成部146は、データ対応部145から入力された当該音源の放射方向情報を画像合成部147に出力する。その後、ステップS106に進む。
【0065】
(ステップS106)データ入力部151は、利用者の操作により入力された視点情報を画像合成部147及び音響合成部148に出力する。その後、ステップS107に進む。
(ステップS107)画像合成部147は、表示データ生成部146から入力された表示データが表す標識が、配置位置情報が表す配置位置に配置された表示データ配置情報を生成する。表示データが表す標識が矢印である場合には、画像合成部147は、その矢印の方向が、データ対応部145から入力された放射方向情報に基づく放射方向に向くように配置する。次に、画像合成部147は、生成された表示データ配置情報に基づいて、撮影部13の視点から観測される標識の画像を表す表示データ画像信号を生成する。そして、画像合成部147は、生成した表示データ画像信号が優先されるように、この表示データ画像信号と撮影部13から入力された画像信号を合成して表示画像信号を合成する。表示データ画像信号が優先されることで、表示データが表す画像が撮影された画像に隠されずに表示される。
次に、画像合成部147は、合成した表示画像信号を座標変換して、データ入力部151から入力された視点情報が表す視点から観測される表示画像信号を生成する。そして、画像合成部147は、生成した表示画像信号を画像表示部152に出力する。その後、ステップS108に進む。
【0066】
(ステップS108)画像表示部152は、画像合成部147から入力された表示画像信号が表す画像を表示する。その後、ステップS109に進む。
(ステップS109)音響合成部148は、データ入力部151から入力された視点情報が示す視点から、音源方向推定部141から入力された音源方向が示す音源位置への音源方向を算出する。次に、音響合成部148は、算出した音源方向に対応する左右各チャネルの頭部伝達関数を記憶部から読み出す。そして、音響合成部148は、読み出した左右各チャネルの頭部伝達関数を、音源方向推定部141から入力された当該音源に係る音源別信号にそれぞれ畳み込み演算する。次に、音響合成部148は、チャネル毎に、音源間で生成した音源別信号を加算することによって、左右各チャネルの音響信号を合成する。そして、音響合成部148は、合成した左右各チャネルの音響信号を音響再生部153に出力する。その後、ステップS110に進む。
(ステップS110)音響再生部153は、音響合成部148から入力された左右各チャネルの音響信号が表す音をチャネル毎に並列して再生する。その後、処理を終了する。
【0067】
(表示画像の例)
次に、画像表示部152に表示される画像の一例を示す。
図6は、画像表示部152に表示される画像の一例を示す。
図6において、左右方向は撮影部13の光学系が有する光軸を基準とした左右方向を示し、上下方向は高さの高低を示す。
図6が示す画像41は、表示データ生成部146が生成した表示データが示す矢印の画像42A、42Bと、それ以外の部分である撮影部13が撮影した画像信号が合成された表示画像である。画像41の中央部を挟んで左右両側にそれぞれ人物43A、43Bが示されている。これらの人物43A、43Bがそれぞれ音源に相当する。矢印42A、42Bの基準点の位置が各人物43A、43Bの頭部の真上又は真下となるように、それぞれ矢印42A、42Bが配置されている。また、画像41の中央部には、収音部11と撮影部13が頭部に内蔵された人型ロボット43Rが示されている。
【0068】
右側の人物43Aの真上を起点とする矢印42Aは、人物43Aに対して左側に向けられている。この矢印42Aは、人物43Aが左側の人物43Bに向けて発話していることを示す。この矢印42Aに囲まれている文字列「Tomorrow I will go to Hawaii for week」は、人物43Aが発話した音声に対する音声認識情報を表す文字列である。従って、この矢印は、人物43Aから人物43Bに対して、「Tomorrow I will go to Hawaii for week」と音声で話しかけていることを示す。
【0069】
左側の人物43Bの真下を起点とする矢印42Bは、人物43Bに対して右側に向けられている。この矢印42Bは、人物43Bが右側の人物43Aに向けて発話していることを示す。この矢印42Bに囲まれている文字列「Hawaii? nice」は、人物43Bが発声した音声に対する音声認識情報を表す文字列である。従って、この矢印42Bは、人物43Bから人物43Aに対して、「Hawaii? nice」と音声で応答していることを示す。
従って、本実施形態によれば、視聴者は音源として人物43A、43Bの発話内容を表す文字列と、その向けられた方向を視認することにより、話者、発話内容及び話し相手を一括して直感的に把握することができる。また、視聴者は発話内容毎に発話者を容易に識別することができる。また、例えば、聴覚障害者は、図6が表す画像を視聴することにより意思疎通を促進することができる。
なお、人物43Aが人物43Bに対して発話している場合、図6において矢印42Aの代わりに前述の吹き出しの画像を表示するようにしてもよい。この場合、発話内容を示す文字列の他に、発話者と発話方向を示す情報(例えば、人物43A⇒人物43B等)、を表示するようにしてもよい。
【0070】
(変形例1−1)
次に本実施形態に係る変形例1−1について、上述の実施形態と同一の構成、処理について同一の符号を付して説明する。
図7は、本実施形態の一変形例に係る情報表示システム1aの構成を表す概略図である。
【0071】
情報表示システム1aは、情報表示システム1(図1)に対して記憶部15aを更に備える。情報表示装置14aは、情報表示装置14(図1)に対して音源方向推定部141、放射方向推定部142、及び音声認識部143が省略された構成である。
記憶部15aは、音源方向推定部141から入力された音源方向情報、音源別信号、放射方向推定部142から入力された放射方向情報及び位置情報、音声認識部143から入力された音声認識情報、撮影部13から入力された画像信号を記憶する。記憶部15aは、これらの入力された信号及び情報を入力された時刻毎に対応付けて記憶する。
【0072】
データ対応部145は、音源方向推定部141又は放射方向推定部142から入力される代わりに、記憶部15aから音源方向情報、放射方向情報及び位置情報を読み出す。表示データ生成部146は、音声認識部143から入力される代わりに、記憶部15aから音声認識情報を読み出す。
音響合成部148は、音源方向推定部141から入力される代わりに、記憶部15aから音源方向情報と音源別信号を読み出す。
【0073】
(変形例1−2)
次に本実施形態に係る変形例1−2について、上述の実施形態と同一の構成、処理について同一の符号を付して説明する。
図8は、本実施形態の他の変形例に係る情報表示システム1bの構成を表す概略図である。
情報表示システム1bは、情報表示システム1(図1)に対して記憶部15bを更に備え、情報表示装置14の代わりに情報表示装置14a(図7)を備える。
記憶部15bは、収音部11、12から入力された音響信号、撮影部13から入力された画像信号を、入力された時刻毎に対応付けて記憶する。
音源方向推定部141及び放射方向推定部142は、収音部11から入力される代わりに、記憶部15bから収音部11、12から入力された音響信号をそれぞれ読み出す。
画像合成部147は、撮影部13から入力される代わりに、記憶部15bから画像信号を読み出す。
【0074】
上述の変形例1−1、1−2では、収音部11、12から入力された音響信号又は撮影部13から入力された画像信号を逐次に処理しなくとも、処理した画像信号を画像表示部152に出力し、処理した音響信号を音響再生部153に出力することができる。従って、本実施例では、既に録音された音声信号や録画された画像信号を用いることができ、処理量が過大になることを回避することができる。
また、上述の変形例1−1、1−2では、収音部11、12から入力された音響信号又は撮影部13から入力された画像信号に対して情報量を圧縮し、情報量を圧縮した音響信号又は画像信号を記憶部15a、15bに記憶させるようにしてもよい。記憶部15a、15bから、記憶した音声信号又は画像信号を読み出す際には、情報量を圧縮前の情報量に伸長する。上述の変形例1−1、1−2において、情報量を伸長した音声信号又は画像信号に基づいて表示画像信号を再構成することで、記憶部15a、15bの記憶容量を低減することができる。
【0075】
(変形例1−3)
次に本実施形態に係る変形例1−3について、上述の実施形態と同一の構成、処理について同一の符号を付して説明する。
図9は、本実施形態の他の変形例に係る情報表示システム1cの構成を表す概略図である。
情報表示システム1cは、情報表示システム1(図1)に対して感情推定部149を更に備え、表示データ生成部146の代わりに表示データ生成部146cを備える。
即ち、情報表示システム1cにおいて、情報表示装置14c、情報処理部144cは、それぞれ情報表示装置14、情報処理部144(図1)に対して、感情推定部149及び表示データ生成部146cが備えられている。
【0076】
感情推定部149は、音響特徴量の組からなる音響特徴量ベクトルと感情情報が予め対応付けて記憶されている記憶部を備える。記憶部に記憶された感情情報が示す感情には、例えば、興奮、安静、中立がある。
感情推定部149は、音源方向推定部141から入力された音源別信号に対して音響特徴量を算出し、算出した音響特徴量に対応する感情情報を自部が備える記憶部から読み出す。感情推定部149が算出する音響特徴量は、例えば、平均ピッチ(予め定めた区間毎に含まれるピッチの平均値)、平均レベル(予め定めた区間毎に含まれるレベルの平均値)、平均ピッチ変化率(予め定めた区間毎に含まれる複数の小区間に含まれるピッチの平均値に対する小区間を跨いだ変化率)、平均レベル変化率(予め定めた区間毎に含まれる複数の小区間に含まれるレベルの平均値に対する小区間を跨いだ変化率)、ピッチ指数(予め定めた平均ピッチの入力された全区間内のピッチの平均値)、レベル指数(予め定めた平均レベルの入力された全区間内のレベルの平均値)等の全部又は一部の組である。感情推定部149は、この組からなる音響特徴量を要素とした音響特徴量ベクトルを構成する。
感情推定部149は、構成した音響特徴量ベクトル、記憶部に記憶された各音響特徴量ベクトルとの類似度を表す指標値、例えばユークリッド距離を算出する。感情推定部149は、算出した指標値が最小となる音響特徴量ベクトルに対応した感情情報を記憶部から読み出し、読み出した感情情報を表示データ生成部146cに出力する。
【0077】
なお、感情推定部149は、撮影部13から入力された画像信号から音源である人物の顔面の各部位を既知の画像処理方法を用いて検出し、部位間の位置関係に対応した感情情報を推定してもよい。また、感情推定部149は、音源である人物の筋電位信号を入力し、入力された筋電位信号に基づいて既知の感情推定方法を用いて、感情情報を推定してもよい。
【0078】
表示データ生成部146cは、表示データ生成部146と同様な構成を備える。以下、主に表示データ生成部146との差異点について説明する。
表示データ生成部146cが備える記憶部には、感情情報毎に、標識データ(方向指示標識データ、方向非指示標識データ)が予め記憶されている。標識データの表示態様は、感情情報毎に異なる。表示態様とは、例えば、外縁の形状、線幅、その輝度、その色彩等がある。
【0079】
例えば、感情情報が興奮を示す場合の表示態様では、標識は、外縁の少なくとも一部がギザギザの形状を有し、感情情報が中立を示す場合より線幅が太くもしくは輝度が高く示される。例えば、感情情報が安静を示す場合の表示態様では、標識は、外縁の少なくとも一部において雲形が繰り返される形状を有し、感情情報が中立を示す場合より線幅が太くもしくは輝度が高く示される。表示される色彩は、例えば、感情情報が興奮、安静、中立それぞれの場合に対して、赤色、水色、黄色である。
【0080】
表示データ生成部146cは、感情推定部149から入力された感情情報、かつ入力された放射方向情報が示す放射方向の推定の可否に対応した標識データを当該記憶部から読み出す。表示データ生成部146cは、読み出した標識データの文字表示領域に、入力された音声認識情報が表す文字列を配置する。感情情報毎の表示態様に、線幅、輝度、色彩の差異がある場合、表示データ生成部146cは、感情情報に対応した表示態様でその文字列を配置してもよい。
これにより、本変形例では、視聴者は、標識の表示態様を視認することによって音源である話者の感情を把握することができる。また、本変形例では特定の感情、例えば興奮について、上述のような視聴者の注意を引く表示態様で標識を表示することで、話者の感情に応じて視聴者の注意の度合いを変えることができる。
【0081】
(標識データが表す矢印の画像の例)
ここで、標識の表示態様として矢印の画像に係る形状の例について述べる。
図10は、本変形例における矢印の画像における形状の一例を示す図である。
図10に示す矢印では、左側に頂点が向いている三角形と外縁がギザギザの線画で構成されている。かかる形状の矢印を表すことで、音源方向、つまり話者が発声する方向とともに話者の感情(興奮)が視覚的に表現される。
図11は、本変形例における矢印の画像における形状の他の例を示す図である。
図11に示す矢印では、左側に頂点が向いている三角形と外縁において雲形が繰り返される線画で構成されている。かかる形状の矢印を表すことで、話者が発声する方向とともに、話者の感情(安静)が視覚的に表現される。
【0082】
(変形例1−4)
次に本実施形態に係る変形例1−4について、上述の実施形態と同一の構成、処理について同一の符号を付して説明する。
図12は、本実施形態の他の変形例に係る情報表示システム1dの構成を表す概略図である。
情報表示システム1dは、情報表示システム1(図1)に対して音源方向推定部141、音声認識部143、表示データ生成部146、音響合成部148の代わりに、音源方向推定部141d、音声認識部143d、表示データ生成部146d、音響合成部148dをそれぞれ備える。情報表示システム1dにおいて、情報表示装置14dは、音源方向推定部141d、音声認識部143d及び情報処理部144dを備える。情報処理部144dは、表示データ生成部146d、音響合成部148dを備える。
【0083】
音源方向推定部141d、音声認識部143d、表示データ生成部146d、音響合成部148dは、それぞれ、音源方向推定部141、音声認識部143、表示データ生成部146、音響合成部148と同様な構成を備える。以下、主に音源方向推定部141、音声認識部143、表示データ生成部146、音響合成部148との差異点について説明する。
表示データ生成部146dは、音源毎の音源別信号のうち音響再生部153に出力する区間に係る音素と対応した文字もしくは単語を、その他の文字もしくは単語とは異なる態様で表示する。異なる態様とは、例えば、色彩、文字の大きさ、文字の太さ、装飾、背景色もしくは背景の模様(texture)の有無、又は差異である。
ここで、音源方向推定部141dは、音源別信号を生成した時刻を表す時刻情報を予め定めた時間(例えば、50ms)毎に生成し、生成した時刻情報を音源別信号と対応付けて音声認識部143d及び音響合成部148dに出力する。音声認識部143dは、音源方向推定部141dから入力された時刻情報を、音声認識情報を表す各文字と対応付けて表示データ生成部146dに出力する。音響合成部148dは、音源方向推定部141dから音源別信号と時刻情報が対応付けられて入力され、入力された音源別信号を予め定めた遅延時間(例えば、5秒間)遅延させる。音響合成部148dは、遅延させた音源別信号を音響再生部153に出力する際、当該音源別信号と対応付けられた時刻情報を表示データ生成部146dに出力する。表示データ生成部146dは、音響合成部148dから入力された時刻情報に対応する文字を異なる態様で表示する文字と定める。
【0084】
このように、本実施形態では、発話内容を表す文字と、当該文字を囲んで1方向を示す標識を、当該標識が囲む文字が示す発話内容に係る音源に対応した位置に、前記1方向を当該音源が音波を放射する放射方向に向けて表示する表示画像データを生成する。これにより、視聴者は発話者の位置、発話内容と発話方向を一括して直感的に把握することができる。
なお、本実施形態では標識の例を図3、4、10、11に示したが、これには限られない。例えば、標識内に表示する文字数が予め定めた文字数よりも多い場合、本実施形態では、それらの文字列を複数の標識を用いて表示してもよい。この場合、表示される複数の標識において、認識結果として得られた時期が新しいものほど、その文を大きく表示し、古いほど小さく表示するようにしてもよい。また、文字列に含まれる全ての文字を、そのそれらの文字の大きさを小さくして1つの標識上に表示するようにしてもよい。
【0085】
(第2の実施形態)
以下、図面を参照しながら本発明の第2の実施形態について、上述と同一の構成又は処理については同一の符号を付して説明する。
図13は、本実施形態に係る情報表示システム2の構成を表す概念図である。
情報表示システム2は、情報表示システム1(図1)において情報表示装置14の代わりに情報表示装置24を備え、さらに位置検出部25を備える。
【0086】
位置検出部25は、自部の位置を検出する位置センサ、例えば、磁気センサ、を備える。位置検出部25は、検出した位置を表す検出位置情報を生成し、生成した検出位置情報を情報表示装置24の情報処理部244に出力する。
位置検出部25は、収音部11、撮影部13、画像表示部152及び音響再生部153と同一の筐体に一体化されていてもよい。例えば、位置検出部25は、これらが一体化したヘッドマウンテッドディスプレイに内蔵されていてもよい。これにより、位置検出部25は当該ヘッドマウンテッドディスプレイを装着した視聴者自身の位置を検出することができる。また、音源方向推定部141は、視聴者の位置を基準とした音源方向を推定することができる。
【0087】
情報表示装置24は、情報表示装置14(図1)において情報処理部144(図1)の代わりに情報処理部244を備える。情報処理部244は、情報処理部144(図1)において画像合成部147及び音響合成部148の代わりに画像合成部247及び音響合成部248を備える。画像合成部247及び音響合成部248は、画像合成部147及び音響合成部148と同様な構成を備える。
【0088】
但し、画像合成部247は、データ入力部151(図1)から視点情報が入力される代わりに、位置検出部25から検出位置情報が入力され、2視点の表示画像信号を生成する。画像合成部247は、入力された検出位置情報を、データ入力部151から入力された視点情報の代わりに用いて、視点変換を行う。これにより、その検出位置を視点とする2視点の表示画像信号を生成することができる。
【0089】
音響合成部248は、データ入力部151(図1)から視点情報が入力される代わりに、位置検出部25から検出位置情報が入力され、2チャネルの音響信号を生成する。音響合成部248は、入力された検出位置情報が示す検出位置を、データ入力部151から入力された視点情報の代わりに用いて、視点変換を行う。これにより、その検出位置を受聴点とする2チャネルの音響信号を生成することができる。
【0090】
(表示画像の例)
次に、画像表示部152に表示される画像の一例を示す。
図14は、画像表示部152に表示される画像の一例を示す。
但し、図14に示す表示画像は、2視点の表示画像信号のうち一方の視点(左)の表示画像信号が表す画像である。
図14において、左右方向は位置検出部25を装着している視聴者を基準とした左右方向を示し、上下方向は当該視聴者を基準とした高低を示す。
図14が示す画像51は、表示データ生成部146が生成した矢印52を表す表示データと、その残りの部分である撮影部13が撮影した画像信号とが合成された表示画像である。この画像の中央部を挟んで左右両側にそれぞれ人物が53A、53Bが示されている。左側の人物53Aが音源に相当する。矢印52の基準点の位置が人物53Aの頭部の真上となるように、矢印52が配置されている。また、中央よりも下には撮影部13が撮影された時点における時刻(Current Time 02:23)を示す文字が示されている。
【0091】
人物53Aの真上を起点とする矢印52は、人物53Aに対して右側に向けられている。この矢印52は、人物53Aが右側の人物53Bに向けて発話していることを示す。この矢印に囲まれている文字列「Konoaida」は、人物53Aが発話した音声に対する音声認識情報を表す文字列である。従って、この矢印52は、人物53Aから人物53Bに対して、「Konoaida」と話しかけていることを示す。
従って、本実施形態によれば、検知された視聴者自身の位置を中心として、視聴者は音源として人物が発声した発話内容を表す文字列とその向けられた方向を視認することにより、話者、発話内容及び話し相手を一括して直感的に把握することができる。
なお、画像表示部152が、画像を表示する表示面が、外部からの光線を透過する半透明のディスプレイである場合には、画像合成部247は撮影部13から入力された画像を合成する処理を省略してもよい。即ち、画像合成部247は、表示データが検知された自己の位置が中心とあるように視点変換された画像を表す表示画像信号を生成し、画像表示部152は、その表示画像信号に係る矢印を表示する。
【0092】
(変形例2−1)
次に本実施形態に係る変形例2−1について、上述の実施形態と同一の構成、処理について同一の符号を付して説明する。
図15は、本実施形態の一変形例に係る情報表示システム2aの構成を表す概略図である。
次に本実施形態に係る変形例2−1について、上述の実施形態と同一の構成、処理について同一の符号を付して説明する。
図15は、本実施形態の一変形例に係る情報表示システム2aの構成を表す概略図である。
【0093】
情報表示システム2aにおいて情報表示装置24aは、情報表示システム2(図13)に対して音源推定部140の代わりに音源推定部240を備える。音源推定部240は、音源方向推定部141及び放射方向推定部242を含んで構成される。
放射方向推定部242は、撮影部13から入力された画像信号が表す画像に表された人物の顔面の方向を検出し、検出した方向を放射方向とし推定する。放射方向推定部242は、画像に表された顔の方向を検出するために既知の方法を用いることができる。
放射方向推定部242は、例えば、人間の顔面を構成する部位、例えば顔面の左半分及び右半分の特徴を表すhaar−like特徴からなる顔モデルデータを予め記憶させておいた記憶部を備える。放射方向推定部242は、撮影部13から入力された画像信号が表す画像の含まれる領域毎に、記憶部に記憶された各部位の顔モデルデータとの間の指標値としてhaar−like特徴量を算出する。放射方向推定部242は、部位毎に算出したhaar−like特徴量が予め定めた閾値よりも大きいと判断された領域を、その部位に含まれる領域と判断する。
放射方向推定部242は、左目を表す領域の面積と、右目を表す領域の面積に対する比を算出し、算出した比に対応する顔の方向を算出する。放射方向推定部242は、算出した方向を放射方向として、放射方向を表す放射方向情報をデータ対応部145に出力する。
なお、放射方向推定部242は、入力された画像信号から検出した左右各目が向いている方向(視線方向)を公知の方法を用いて検出し、検出した方向を放射方向と定めてもよい。これにより、本変形例では、多数のマイクロホンを用いることなく、撮影部13の視点から観察された人間の顔の方向に基づいて、音源の放射方向として推定することができる。
【0094】
上述した各実施形態では、画像合成部147、247は、撮影部13から入力された画像信号と表示データ生成部146等が生成した表示データとを合成する場合を例にとって説明したが、本実施形態ではこれには限られない。本実施形態では、画像合成部147、247は、撮影部13から入力された画像信号の代わりに、コンピュータグラフィクス等、別個の手段によって生成された画像信号を用いてもよい。生成された画像信号は、例えば、音源推定部140が推定した音源位置に配置され、推定された放射方向に音を放射する音源を表す画像であってもよい。
【0095】
上述では、音源推定部140において音源方向推定部141及び放射方向推定部142を備え、音源推定部240において音源方向推定部141及び放射方向推定部242を備える構成を例として説明したが、上述した実施形態ではこれには限られない。上述した実施形態では、音源推定部140は、入力された複数の音源信号に基づき、音源毎の音源方向、放射方向及び音源別信号を推定することができれば、一体化して構成されたものであってもよい。その場合には、データ対応部145を省略し、音源推定部140は、推定した音源方向を表す音源方向情報及び推定した放射方向情報を表示データ生成部146、146c、146d、画像合成部147、247及び音響合成部148、148d、248に出力する。
なお、上述した実施形態において、各変形例その他の代替例を任意に組み合わせて構成してもよい。
【0096】
なお、上述した実施形態における情報表示装置14、14a、14c、14d、24、24aの一部、例えば、音源方向推定部141、141d、放射方向推定部142、242、音声認識部143、143d、データ対応部145、表示データ生成部146、146c、146d、画像合成部147、247、及び音響合成部148、148d、248をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、情報表示装置14、14a、14c、14d、24、24aに内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
また、上述した実施形態における情報表示装置14、14a、14c、14d、24、24aの一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現しても良い。情報表示装置14、14a、14c、14d、24、24aの各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化しても良い。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現しても良い。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いても良い。
【0097】
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
【符号の説明】
【0098】
1、1a、1b、1c、1b、1d、2、2a…情報表示システム、
11、12…収音部、13…撮影部、
14、14a、14c、14d、24、24a…情報表示装置、
140、240…音源推定部、141、141d…音源方向推定部、
142、242…放射方向推定部、
143、143d…音声認識部、144、144c、144d…情報処理部、
145…データ対応部、146、146c、146d…表示データ生成部、
147、247…画像合成部、148、148d、248…音響合成部、
149…感情推定部、
15a、15b…記録部
151…データ入力部、152…画像表示部、153…音響再生部、
25…位置検出部
【特許請求の範囲】
【請求項1】
発話の内容を表す文字と、当該文字を囲んで一方向を示す標識を表す表示データを生成する表示データ生成部と、
前記発話に係る音源を表す画像の表示位置に基づいて、前記音声が放射される放射方向に前記一方向を向けて前記表示データを合成する画像合成部と、を備えること
を特徴とする情報処理装置。
【請求項2】
前記音源を表す画像を取得する画像取得部と、
前記画像を観察する位置である視点を入力するデータ入力部と、を備え、
前記画像合成部は、前記表示データ生成部が生成した表示データに対して、前記データ入力部から入力された視点に基づいて視点を変換し、視点が変換された表示データを前記画像取得部が取得した画像に合成することを特徴とする請求項1に記載の情報処理装置。
【請求項3】
自部の位置を検出する位置検出部を備え、
前記データ入力部は、前記位置検出部が検出した位置を前記視点として入力することを特徴とする請求項2に記載の情報処理装置。
【請求項4】
前記発話内容に係る音声を発声した話者の感情を推定する感情推定部を備え、
前記表示データ生成部は、前記感情推定部が推定した感情に基づいて、前記標識の表示態様を変化させることを特徴とする請求項1ないし3のいずれかに記載の情報処理装置。
【請求項5】
前記表示データ生成部は、前記発話の内容を表す文字の大きさを、前記視点から前記音源の位置までの間の距離に基づいて定めることを特徴とする請求項2又は3に記載の情報処理装置。
【請求項6】
前記表示データ生成部は、
前記表示データに含まれる文字数に基づいて前記標識を表示する時間を定めることを特徴とする請求項1に記載の情報処理装置。
【請求項7】
音源の位置を推定する音源位置推定部と、
前記音源が音波を放射する放射方向を推定する放射方向推定部と、
前記音源の発話の内容を認識する音声認識部と、
前記音声認識部が認識した発話の内容を表す文字と、当該文字を囲んで一方向を示す標識を表す表示データを生成する表示データ生成部と、
前記発話に係る音源を表す画像の表示位置に基づいて、前記音声が放射される放射方向に前記一方向を向けて前記表示データを合成する画像合成部を備えること
を特徴とする情報処理システム。
【請求項8】
前記発話に係る音源を表す画像を撮影する撮影部、を備えること
を特徴とする請求項7に記載の情報処理システム。
【請求項9】
情報処理装置における情報表示方法であって、
前記情報処理装置は、発話の内容を表す文字と、当該文字を囲んで一方向を示す標識を表す表示データを生成する過程と、
前記情報処理装置は、前記発話に係る音源を表す画像の表示位置に基づいて、前記音声が放射される放射方向に前記一方向を向けて前記表示データを合成する過程と、を有すること
を特徴とする情報処理方法。
【請求項10】
情報処理装置のコンピュータに、
発話の内容を表す文字と、当該文字を囲んで一方向を示す標識を表す表示データを生成する手順、
前記発話に係る音源を表す画像の表示位置に基づいて、前記音声が放射される放射方向に前記一方向を向けて前記表示データを合成する手順、
を実行させるための情報処理プログラム。
【請求項1】
発話の内容を表す文字と、当該文字を囲んで一方向を示す標識を表す表示データを生成する表示データ生成部と、
前記発話に係る音源を表す画像の表示位置に基づいて、前記音声が放射される放射方向に前記一方向を向けて前記表示データを合成する画像合成部と、を備えること
を特徴とする情報処理装置。
【請求項2】
前記音源を表す画像を取得する画像取得部と、
前記画像を観察する位置である視点を入力するデータ入力部と、を備え、
前記画像合成部は、前記表示データ生成部が生成した表示データに対して、前記データ入力部から入力された視点に基づいて視点を変換し、視点が変換された表示データを前記画像取得部が取得した画像に合成することを特徴とする請求項1に記載の情報処理装置。
【請求項3】
自部の位置を検出する位置検出部を備え、
前記データ入力部は、前記位置検出部が検出した位置を前記視点として入力することを特徴とする請求項2に記載の情報処理装置。
【請求項4】
前記発話内容に係る音声を発声した話者の感情を推定する感情推定部を備え、
前記表示データ生成部は、前記感情推定部が推定した感情に基づいて、前記標識の表示態様を変化させることを特徴とする請求項1ないし3のいずれかに記載の情報処理装置。
【請求項5】
前記表示データ生成部は、前記発話の内容を表す文字の大きさを、前記視点から前記音源の位置までの間の距離に基づいて定めることを特徴とする請求項2又は3に記載の情報処理装置。
【請求項6】
前記表示データ生成部は、
前記表示データに含まれる文字数に基づいて前記標識を表示する時間を定めることを特徴とする請求項1に記載の情報処理装置。
【請求項7】
音源の位置を推定する音源位置推定部と、
前記音源が音波を放射する放射方向を推定する放射方向推定部と、
前記音源の発話の内容を認識する音声認識部と、
前記音声認識部が認識した発話の内容を表す文字と、当該文字を囲んで一方向を示す標識を表す表示データを生成する表示データ生成部と、
前記発話に係る音源を表す画像の表示位置に基づいて、前記音声が放射される放射方向に前記一方向を向けて前記表示データを合成する画像合成部を備えること
を特徴とする情報処理システム。
【請求項8】
前記発話に係る音源を表す画像を撮影する撮影部、を備えること
を特徴とする請求項7に記載の情報処理システム。
【請求項9】
情報処理装置における情報表示方法であって、
前記情報処理装置は、発話の内容を表す文字と、当該文字を囲んで一方向を示す標識を表す表示データを生成する過程と、
前記情報処理装置は、前記発話に係る音源を表す画像の表示位置に基づいて、前記音声が放射される放射方向に前記一方向を向けて前記表示データを合成する過程と、を有すること
を特徴とする情報処理方法。
【請求項10】
情報処理装置のコンピュータに、
発話の内容を表す文字と、当該文字を囲んで一方向を示す標識を表す表示データを生成する手順、
前記発話に係る音源を表す画像の表示位置に基づいて、前記音声が放射される放射方向に前記一方向を向けて前記表示データを合成する手順、
を実行させるための情報処理プログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図15】
【図6】
【図14】
【図2】
【図3】
【図4】
【図5】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図15】
【図6】
【図14】
【公開番号】特開2013−8031(P2013−8031A)
【公開日】平成25年1月10日(2013.1.10)
【国際特許分類】
【出願番号】特願2012−139780(P2012−139780)
【出願日】平成24年6月21日(2012.6.21)
【出願人】(000005326)本田技研工業株式会社 (23,863)
【Fターム(参考)】
【公開日】平成25年1月10日(2013.1.10)
【国際特許分類】
【出願日】平成24年6月21日(2012.6.21)
【出願人】(000005326)本田技研工業株式会社 (23,863)
【Fターム(参考)】
[ Back to top ]