テレビジョン受像装置及びテレビジョン受像方法
【課題】画像情報を利用して精度を向上させた音声翻訳を行なうテレビジョン受像装置及びテレビジョン受像方法を提供する。
【解決手段】入力音声から指示代名詞を抽出する音声データ処理装置と、入力画像よりオブジェクトを切り出す画像データ処理装置と、前記指示代名詞が示す位置関係によりこの指示代名詞と前記オブジェクトを対応付ける音声画像比較翻訳装置とを具備することを特徴とするテレビジョン受像装置。また入力音声から指示代名詞を抽出し、入力画像よりオブジェクトを切り出し、前記指示代名詞が示す位置関係によりこの指示代名詞と前記オブジェクトを対応付ける音声と画像を比較・翻訳することを特徴とするテレビジョン受像方法。
【解決手段】入力音声から指示代名詞を抽出する音声データ処理装置と、入力画像よりオブジェクトを切り出す画像データ処理装置と、前記指示代名詞が示す位置関係によりこの指示代名詞と前記オブジェクトを対応付ける音声画像比較翻訳装置とを具備することを特徴とするテレビジョン受像装置。また入力音声から指示代名詞を抽出し、入力画像よりオブジェクトを切り出し、前記指示代名詞が示す位置関係によりこの指示代名詞と前記オブジェクトを対応付ける音声と画像を比較・翻訳することを特徴とするテレビジョン受像方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、テレビジョン受像装置及びテレビジョン受像方法に係わり、特に自動翻訳表示技術に関する。
【背景技術】
【0002】
テレビジョン受像装置では自動翻訳表示技術に関する技術が関心を持たれている。応用例としては、シーンボタンのいずれかを押すことにより各シーンのフレーズをディスプレイに表示し、日英変換ボタンを押すことにより日本語のフレーズを英語に変換し表示する。また音声出力ボタンを押すと、英語でそのフレーズを音声出力する。またキーワードボタンを押すと、フレーズに付加されたレベル情報を用い該当するフレーズを検索する。関連して特許文献1に記載されている内容は、音声のフレーズを翻訳して、動画シーン中に表示するというものである。
【0003】
しかしながらこれは、翻訳に動画からの情報を活用しておらず、単に表示方法に掛かる方式である。したがって画像情報を利用して精度を向上させた翻訳に関る技術は開示されていなかった。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開平05−324702号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は、画像情報を利用して精度を向上させた音声翻訳を行なうテレビジョン受像装置及びテレビジョン受像方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
上記課題を解決するために、本発明のテレビジョン受像装置は、入力音声から指示代名詞を抽出する音声データ処理装置と、入力画像よりオブジェクトを切り出す画像データ処理装置と、前記指示代名詞が示す位置関係によりこの指示代名詞と前記オブジェクトを対応付ける音声画像比較翻訳装置とを具備することを特徴とする。
【発明の効果】
【0007】
本発明によれば、画像情報を利用して精度を向上させた音声翻訳を行なうテレビジョン受像装置及びテレビジョン受像方法が得られる。
【図面の簡単な説明】
【0008】
【図1】この発明の一実施形態を示すシステム概念図。
【図2】同実施形態の音声自動翻訳表示のフローチャート。
【図3】同実施形態の音声データ処理装置概念図。
【図4】同実施形態の画像データ処理装置概念図。
【図5】同実施形態に用いられる音声画像比較翻訳装置概念図。
【図6】同実施形態の基本となるデータ構造の説明図。
【図7】同実施形態に用いられる実施例1(画像領域分割)。
【図8】同実施形態に用いられる実施例2(オブジェクト種別判定)。
【図9】同実施形態に用いられる実施例3(指示代名詞、移動の動詞抽出)。
【図10】同実施形態に用いられる実施例4(代名詞出現時の位置関係からOBJしぼり込み)。
【図11】同実施形態に用いられる実施例5(指示代名詞の変化からOBJをしぼり込み)。
【図12】同実施形態に用いられる実施例6(移動の動詞からOBJを決定)。
【図13】同実施形態に用いられる実施例7(動き度/画像特性付加辞書から訳語を決定、表示)。
【図14】同実施形態に用いられる確率的手法の適用の説明図。
【発明を実施するための形態】
【0009】
以下、本発明の実施形態を説明する。
(実施形態1)
本発明による実施形態1を図1乃至図14を参照して説明する。
図1は、この発明の一実施形態を示すシステム概念図であり、テレビジョン受像装置1のブロック構成図を含んでいる。テレビジョン受像装置1内の構成要素については以下に説明していく。
【0010】
まず先に、図2の実施形態の音声自動翻訳表示のフローチャートを示す。図2は、テレビの表示画像におけるシーンの検出に関る処理である。
ステップS21:音声から指示代名詞、移動の動詞を抽出する。構文解析し、指示代名詞が示す単語、移動動詞の主語、目的語を決定する。さらに、同じ被指示単語、目的語(以下、単語A)を持つ構文をまとめる。
【0011】
ステップS22:他方で、遠景/近景分割、オブジェクト領域分割、オブジェクト近傍設定を行う。
ステップS23:続いて、各オブジェクト(OBJ)の種別を判定する。
ステップS24:ステップS21とステップS23の結果を用い、指示代名詞出現時のOBJ位置関係から、各指示代名詞の対象をしぼり込む。
ステップS25:各指示代名詞の変化、及び移動の動詞の方向性と、OBJの運動ベクトルを比較して、単語Aに当たるOBJを決定する。
ステップS26:各指示対象OBJの画像特性を判定し、動き度/画像特性付加辞書から、指示対象OBJ、すなわち単語Aの訳語を決定する。更に精度を上げる場合は、辞書リンクされているサーバー上の画像とOBJの画像比較を行う。更には、Internet上で、OBJと特徴の一致する画像を検索する。
【0012】
ステップS27:画面中の各指示対象OBJ付近に、それぞれの訳語を表示する。音声と同期し訳文を音声合成して出力する。
図3は、実施形態の音声データ処理装置の概念図である。
まず入力である音声データは、音声認識手段11によりテキストデータとして出力される。この例では、I‘ll pick it up.である。
次に形態素解析手段12により、Iは名詞、‘llは助動詞、pickは動詞、itは指示代名詞、upは副詞とそれぞれ判別される。続いて次の構文解析手段13では図3にあるように、Iを主語として、‘ll+pickが述語、itが目的語といった解析がなされる。そしてこの解析結果に基づき最後の指示代名詞/移動動詞抽出手段14では図3にあるように、pickが移動動詞、itが指示代名詞といった抽出がなされる。
【0013】
図4は、実施形態の画像データ処理装置の概念図である。
まず入力である画像データは、オブジェクト分離手段16(エッジ検出)によりオブジェクト分離データとして出力される。
次にオブジェクト種別判定手段17により、オブジェクト種別が判定される。続いて次の近傍付加手段18(遠近法)では、近傍付加がなされる。そしてこの結果に基づき最後のオブジェクト動きベクトル測定/オブジェクト近傍重なり判定手段19ではOBJ位置/動きデータの出力がなされる。
【0014】
図5は、実施形態に用いられる音声‐画像比較翻訳装置の概念図である。
まず入力である音声テキスト情報と画像情報から比較手段21は、対象のしぼり込みを行う。図3のit(目的語)は曖昧語であるpresentと対応付けられ、また画像情報の方はオブジェクト動きベクトルとオブジェクト近傍重なり状態とが考慮される。比較手段は、指示代名詞の特性とOBJ近傍重なりとの位置関係と、指示代名詞の変化、移動動詞の特性とOBJ動きベクトルとの動きから対象をしぼり込む。
【0015】
つぎにOBJ‐単語対応推定手段22では後述する最尤推定などの方法を用いてOBJ‐単語対応推定を行う。最後に辞書検索手段23は、辞書付加画像特性データとOBJ画像特性とを対応させて比較(画像特性、画像比較、ネット画像検索を用いて)、意味決定手段の出力として「贈り物」なる目的語を得る。
【0016】
図6は、同実施形態の基本となるデータ構造の説明図である。内蔵辞書のデータ構造としては、諸元として単語(同音語単位)、訳語(品詞)、動き度(0〜10)、画像特性、画像リンクが含まれる。
【0017】
例として「キカイ」という単語は訳語としてmachine(n), chance(n), monstrosity(n)といった3つの名詞が挙げられ、各動き度として5,0,2の数値が割り当てられている。それぞれ画像特性としては金属光沢、抽象名詞、暗い色彩が相当し、2つには画像リンク(アドレス情報等)が張られている。リンク先は例えばTVメーカが提供する画像データサーバーである。
【0018】
図7は、実施形態に用いられる画像領域分割の処理の実施例である。次の3段階を経る。
(1)遠景と近景の分離(高画質化用アルゴリズムなど)
(2)オブジェクト分離(エッジ検出アルゴリズムなど)
(3)オブジェクト近傍設定(エッジからnピクセル、のような形式で、遠近も考慮する。OBJの動きに伴い、近傍も移動させる。)
図8は、実施形態に用いられるオブジェクト種別判定の処理の実施例である。次の5種類を想定している。
(1)私(話し手):人、最初に口が動く、一人だけ写った時に声が流れるなど
(2)あなた(聞きて、答え手):「私」ではない人、「私」の視線が向いている、「私」の動作などに反応するなど
(3)第三者(彼):「私」でも「あなた」でもない人(物体と同じだが、その人、この人たちなど、特別な指示語で示される)
(4)ナレーター(無人称):人が写っていないのに声が流れる時に設定する仮想OBJ(近傍は近景全て)
話者認識技術を用いて同一人か判定しても良い。ある時点で複数の写らない人が生じる場合などにも有効である。
(5)物体:人でないもの、物、動物
図9は、実施形態に用いられる指示代名詞、移動の動詞抽出の処理の実施例である。
まず代名詞に関しては、人称代名詞(わたし、あなた、彼、I、you、he)と物主代名詞(わたしの、あなたの、mine、yours)と指示代名詞(これ、それ、あれ、this、that、it)と疑問代名詞(どれ、なに、what、whitch)と再帰代名詞(自分、myself)の区分がある。また移動を表す動詞には、行く、来る、寄る、投げる、引くなどがある(反例としては、いる、咲く、笑う、壊す、食べるなど)。
【0019】
指示代名詞と移動の動詞に注目し、音声より抽出する(音声認識、形態素/構文解析の技術を用いる)。
図10は、実施形態に用いられる代名詞出現時の位置関係からのOBJしぼり込みの処理の実施例である。予め登録された、各言語の特有の位置関係から、指示代名詞に対応するOBJをしぼり込む。
【0020】
ここで登録データ形式(指示代名詞の位置特性)としては、例えば次の要素がある。
(代名詞:特性)
(これ:私∋指示対象,あなたNOT∋指示対象) #私の近傍
(それ:あなた∋指示対象,私NOT∋指示対象) #あなたの近傍
(あれ:私∪あなたNOT∋指示対象) #近傍にない
図11は、実施形態に用いられる指示代名詞の変化からのOBJしぼり込み処理の実施例である。
次のような対話があるとする。
わたし:「それよ」
あなた:「これですか? じゃ、これを拾います」
あなた:「――これですよね」
わたし:「そう。これは、present」
このような対話を元に、テキスト翻訳と同じ構文解析により、「それ」即ち「これ」から「present」を決定する。更に、(人‐指示代名詞)の変化を測定する(「わたし‐それ」から「わたし‐これ」へ、「あなた‐これ」から「あなた‐これ」へ)
【0021】
先には(それ:私NOT∋指示対象)だったのが、後には(これ:私∋指示対象)の状態となる。これにより、指示対象は私の近傍に入った、私に近接するOBJを指示対象と推定する、というOBJのしぼり込みを行う。
【0022】
図12は、実施形態に用いられる移動の動詞からのOBJ決定処理の実施例である。
移動の動詞「拾う」の方向特性(主語から目的語へ)を用いる。
ここで登録データ形式(移動動詞の方向特性)としては、例えば次の要素がある。
(動詞,価数,特性)
(pick,2,S→O) #主語が目的語に接近
(give,3,Od:S→,Od→Oi) #直接目的語は主語から離れ、間接目的語に接近
図13は、実施形態に用いられる動き度/画像特性付加辞書からの訳語決定、表示の処理の実施例である。
内蔵辞書のデータ構造としては、すでに説明したように諸元として単語(同音語単位)、訳語(品詞)、動き度(0〜10)、画像特性、画像リンクが含まれる。
例として上記の「present」という単語は訳語として現在(n), 贈り物(n), 証書(n)といった3つの名詞が挙げられ、各動き度として0,1,1の数値が割り当てられている。それぞれ画像特性としては抽象名詞、派手な色彩で立体、地味な色彩で平たいが相当している。決定訳は贈り物である。
【0023】
“This is a present.”と原語音声で発せられる場合、図13中の矢印のように贈り物(present)の対象物が同期として、対応する音声発音時に点滅するなどしてユーザに知らされる。
【0024】
上記の実施形態の変形例としては以下に列挙するような方法を用いても良い。
・「あちら」、「こちら」、「そこ」、「ここ」など、指示代名詞の派生語に着目して位置関係を把握してもよい。
・Webと接続して、オブジェクトの訳語をクリックすると、その原語や訳語をWeb検索するようにしてもよい。
・翻訳結果を付けたまま録画する機能を待たせてもよい。
・元音声が何語か、自動判定する機能を持たせてもよい。
・全翻訳結果を字幕形式で表示してもよい。
・単語に対応するオブジェクトを、複数のオブジェクトから決定する際に、最尤度法など、確率推定的な手法を適用してもよい(図14参照)。
図14は、実施形態に用いられる確率的手法の適用の説明図である。
例として曖昧さを考慮した接近度の測定を行う。上記の「present」であるOBJ(A)では最接近距離の逆数値が私からは30であなたからは19、他のオブジェクトであるOBJ(B)では同値が各15と40である。
【0025】
最尤度法は条件付確率に関するものであり、ここでは確率(0〜1)に正規化する前の値を例に説明すると図14の計算のように、OBJ(A)では570、OBJ(B)では600となり、オブジェクト「それ」としてより数値の大きなOBJ(B)が選ばれる。
【0026】
(実施形態2)
本発明による実施形態2を図1乃至図14を参照して説明する。実施形態1と共通する部分は説明を省略する。
図4に関してオブジェクト種別判定手段17により、オブジェクト種別が判定される。ここで注目画像があるエリアとして人物等が存在しているエリアを検出する方法を説明する。
【0027】
例えば人物の特徴としては顔の部分の肌色を抽出する。デジタルカメラで実用化されているように目や口等も捉えてもよい。付随して頭部や肢体を色、形、大きさ、相互配置、動き方といった特徴で捉える。
【0028】
人物を捉えるための具体的なアルゴリズムとしてはMT(Mahalanobis-Taguchi)システムを援用してもよい。画像等の認識手段を実装する枠組みとしてMTシステムがあるがMTシステムは、均一な例えば普通のベクトルデータ集団から基準空間を予め作成し、入力データがこの集団に属するか否かを判定する。
【0029】
ここでは実装例として人物が含まれるとして選ばれたデータから基準空間を作成する。例えば、上記人物の特徴k個の値から成る列ベクトルを数十サンプル以上用いる。なおk個の変量ごとに、それらの平均と標準偏差を用いてそれぞれのデータを正規化しておくことは言うまでも無い。
【0030】
MTシステムのうちで逆行列を利用するポピュラーな方法であるMT法は、Mahalanobis距離MD(二乗距離)を正規化された入力データである列ベクトルYに対し式1のように求める。即ち、基準空間である相関行列Rの逆行列R−1とYを演算しベクトル項目数kで割ったスカラー値となる。
【0031】
【数1】
【0032】
予め装置の製造時等に相関行列Rに対応する例えば数表等と上記演算のプログラムを実装しておけばよい。
MTシステムに関連する技術のうち、MT法の他に余因子行列を利用するMTA法やシュミットの直交展開を利用するTS法等やこれらの多階法を用いてもよい。例えば、人物の特徴としては顔の部分の肌色が有力といったことが予め解っている場合には、TS法を用いるとk個のうち有力な項目を優先して演算するように構成しておけば演算精度を向上することができる。近年の手法であるT法をまず用いるのも好適である。
【0033】
人物らしさの抽出後の判定は、例えばMDが1以下なら人物であると、5以上なら人物ではないと判定する。1と5の間の値の場合は人物らしさの程度に応じ信頼度のような数値を付与し後の処理に用いてもよい。
【0034】
なお、基準空間の画素ブロックサイズも適宜変えてもよい。また注目位置内容、対象の種類毎に基準空間を分けるのも好適である。一入力に対する複数のMDの結果に対して例えば最も高い対象の値を以って判定を行なえばよい。例えばまず人物を対象とする場合でも層別がある。成人とは体形等が異なる子供を特に捉えたければ、子供の基準空間を作る。また人物以外の対象としては例えば、自動車もまた基準空間を作成しやすい対象である。このように精度の高い基準空間を作成できる対象があれば、それらを用いて人物の候補であるオブジェクトを予め削減しておいてもよい。
【0035】
どの種類の基準空間を用いるかはユーザがリモコンを用いて表示画面のメニュー設定に対して対話的に行うといった形態をとってもよい。またやがてユーザの好みを反映してどの種類の基準空間を用いるか自動的に決定するような設定を行ってもよい。
【0036】
本実施形態では、通常は正常状態の判定に利用されるMTシステムを用いることにより、アルゴリズムが確定し難い処理対象において相応の最適性を確保できる。
MTシステムを援用することにより、図8の実施形態に用いられるオブジェクト種別判定の処理の精度を高める可能性が大きくなる。
以上の実施形態では、音声から抽出した指示代名詞や移動の動詞から推定した動きと、動画中のオブジェクトの動きを比較して、音声中の単語と動画中のオブジェクトを対応づけ、そのオブジェクトの画像特性と、翻訳辞書に付加された画像特性などのデータを比較して、対応する単語の訳語を決定することにより、従来の音声のみによる翻訳やテキスト翻訳より高い翻訳精度が得られる。
【0037】
また、オブジェクトと訳語の対応関係が判り、オブジェクトの近くに表示する形で訳語を示し、音声と同期させて点滅させたりできるので、全訳を単調に出力するような、従来の自動翻訳に比べて、視聴者に情報内容を理解させる効果が高まる。
【0038】
更に、訳語の表示を一定時間遅らせることで、視聴覚語学学習機器として活用することもできる点も、従来の自動翻装置にはなかった。
実施形態の効果として、音声から抽出した動き情報(指示代名詞、移動の動詞)と、動画の動きベクトルを対応させることにより、動画情報を翻訳に活用することで、曖昧語の意味決定などが容易になり、自動翻訳の精度を上げることができ、また情報利用率を向上させることができ、更にWeb上の文書データ翻訳に対して、テレビ翻訳を差異化できる。
【0039】
訳語を対応する物体の付近に表示して、単語の発声と同期して点滅させたりすることにより、訳語−画像−音声を一体化させ、外国語情報の意味を把握しやすくできる。これは、インターネット動画配信などを通じて、外国語音声動画に直接アクセスする際に特に効果を発揮する。
【0040】
全翻訳を合成音声出力したり、訳語の表示を一定時間遅くしたりすることで、語学学習効果を発揮する。
以下に、実施形態のポイントをまとめる。
1.音声から抽出した指示代名詞と、動画中より切り出したオブジェクトを、指示代名詞が示す位置関係により対応付ける。
2.指示代名詞の変化、および「移動の動詞」の方向性と、オブジェクトの動きベクトルを比較することにより、指示代名詞が示すオブジェクトを決定する。
3.単語の動き度、画像特性、画像リンクをデータとして付加した翻訳辞書を持ち、またインターネット画像検索手段、画像特徴比較手段を持ち、オブジェクトの動き度、および画像特性と比較して、オブジェクトに対応する単語の意味を決定することで翻訳精度を上げる。
【0041】
4.訳語を画面中のオブジェクトの近くに表示し、対応する単語の発声と同期して点滅させるなどして、単語(原語)とオブジェクト(画像)と訳語を一体化して認識できるようにし、音声動画の情報認識度を上げる。
【0042】
5.原音声と切り替えて、全翻訳を合成音声で出力できる機能を持つ。
6.訳語表示を単語の発声から一定時間遅らせる、語学学習機能を持つ。
なお、この発明は上記実施形態に限定されるものではなく、この外その要旨を逸脱しない範囲で種々変形して実施することができる。例えばアンテナとチューナーにより放送波を受信する替わりに、インターネット等を通して番組の配信サービスを受けてもよい。
【0043】
また、上記した実施の形態に開示されている複数の構成要素を適宜に組み合わせることにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素から幾つかの構成要素を削除しても良いものである。さらに、異なる実施の形態に係る構成要素を適宜組み合わせても良いものである。
【符号の説明】
【0044】
1…テレビジョン受像装置、11…音声認識手段、12…形態素解析手段、13…構文解析手段、14…指示代名詞/移動動詞抽出手段、16…オブジェクト分離手段、17…オブジェクト種別判定手段、18…近傍付加手段、19…オブジェクト動きベクトル測定/オブジェクト近傍重なり判定手段、21…比較手段、22…OBJ‐単語対応推定手段、23…辞書検索手段。
【技術分野】
【0001】
本発明は、テレビジョン受像装置及びテレビジョン受像方法に係わり、特に自動翻訳表示技術に関する。
【背景技術】
【0002】
テレビジョン受像装置では自動翻訳表示技術に関する技術が関心を持たれている。応用例としては、シーンボタンのいずれかを押すことにより各シーンのフレーズをディスプレイに表示し、日英変換ボタンを押すことにより日本語のフレーズを英語に変換し表示する。また音声出力ボタンを押すと、英語でそのフレーズを音声出力する。またキーワードボタンを押すと、フレーズに付加されたレベル情報を用い該当するフレーズを検索する。関連して特許文献1に記載されている内容は、音声のフレーズを翻訳して、動画シーン中に表示するというものである。
【0003】
しかしながらこれは、翻訳に動画からの情報を活用しておらず、単に表示方法に掛かる方式である。したがって画像情報を利用して精度を向上させた翻訳に関る技術は開示されていなかった。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開平05−324702号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は、画像情報を利用して精度を向上させた音声翻訳を行なうテレビジョン受像装置及びテレビジョン受像方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
上記課題を解決するために、本発明のテレビジョン受像装置は、入力音声から指示代名詞を抽出する音声データ処理装置と、入力画像よりオブジェクトを切り出す画像データ処理装置と、前記指示代名詞が示す位置関係によりこの指示代名詞と前記オブジェクトを対応付ける音声画像比較翻訳装置とを具備することを特徴とする。
【発明の効果】
【0007】
本発明によれば、画像情報を利用して精度を向上させた音声翻訳を行なうテレビジョン受像装置及びテレビジョン受像方法が得られる。
【図面の簡単な説明】
【0008】
【図1】この発明の一実施形態を示すシステム概念図。
【図2】同実施形態の音声自動翻訳表示のフローチャート。
【図3】同実施形態の音声データ処理装置概念図。
【図4】同実施形態の画像データ処理装置概念図。
【図5】同実施形態に用いられる音声画像比較翻訳装置概念図。
【図6】同実施形態の基本となるデータ構造の説明図。
【図7】同実施形態に用いられる実施例1(画像領域分割)。
【図8】同実施形態に用いられる実施例2(オブジェクト種別判定)。
【図9】同実施形態に用いられる実施例3(指示代名詞、移動の動詞抽出)。
【図10】同実施形態に用いられる実施例4(代名詞出現時の位置関係からOBJしぼり込み)。
【図11】同実施形態に用いられる実施例5(指示代名詞の変化からOBJをしぼり込み)。
【図12】同実施形態に用いられる実施例6(移動の動詞からOBJを決定)。
【図13】同実施形態に用いられる実施例7(動き度/画像特性付加辞書から訳語を決定、表示)。
【図14】同実施形態に用いられる確率的手法の適用の説明図。
【発明を実施するための形態】
【0009】
以下、本発明の実施形態を説明する。
(実施形態1)
本発明による実施形態1を図1乃至図14を参照して説明する。
図1は、この発明の一実施形態を示すシステム概念図であり、テレビジョン受像装置1のブロック構成図を含んでいる。テレビジョン受像装置1内の構成要素については以下に説明していく。
【0010】
まず先に、図2の実施形態の音声自動翻訳表示のフローチャートを示す。図2は、テレビの表示画像におけるシーンの検出に関る処理である。
ステップS21:音声から指示代名詞、移動の動詞を抽出する。構文解析し、指示代名詞が示す単語、移動動詞の主語、目的語を決定する。さらに、同じ被指示単語、目的語(以下、単語A)を持つ構文をまとめる。
【0011】
ステップS22:他方で、遠景/近景分割、オブジェクト領域分割、オブジェクト近傍設定を行う。
ステップS23:続いて、各オブジェクト(OBJ)の種別を判定する。
ステップS24:ステップS21とステップS23の結果を用い、指示代名詞出現時のOBJ位置関係から、各指示代名詞の対象をしぼり込む。
ステップS25:各指示代名詞の変化、及び移動の動詞の方向性と、OBJの運動ベクトルを比較して、単語Aに当たるOBJを決定する。
ステップS26:各指示対象OBJの画像特性を判定し、動き度/画像特性付加辞書から、指示対象OBJ、すなわち単語Aの訳語を決定する。更に精度を上げる場合は、辞書リンクされているサーバー上の画像とOBJの画像比較を行う。更には、Internet上で、OBJと特徴の一致する画像を検索する。
【0012】
ステップS27:画面中の各指示対象OBJ付近に、それぞれの訳語を表示する。音声と同期し訳文を音声合成して出力する。
図3は、実施形態の音声データ処理装置の概念図である。
まず入力である音声データは、音声認識手段11によりテキストデータとして出力される。この例では、I‘ll pick it up.である。
次に形態素解析手段12により、Iは名詞、‘llは助動詞、pickは動詞、itは指示代名詞、upは副詞とそれぞれ判別される。続いて次の構文解析手段13では図3にあるように、Iを主語として、‘ll+pickが述語、itが目的語といった解析がなされる。そしてこの解析結果に基づき最後の指示代名詞/移動動詞抽出手段14では図3にあるように、pickが移動動詞、itが指示代名詞といった抽出がなされる。
【0013】
図4は、実施形態の画像データ処理装置の概念図である。
まず入力である画像データは、オブジェクト分離手段16(エッジ検出)によりオブジェクト分離データとして出力される。
次にオブジェクト種別判定手段17により、オブジェクト種別が判定される。続いて次の近傍付加手段18(遠近法)では、近傍付加がなされる。そしてこの結果に基づき最後のオブジェクト動きベクトル測定/オブジェクト近傍重なり判定手段19ではOBJ位置/動きデータの出力がなされる。
【0014】
図5は、実施形態に用いられる音声‐画像比較翻訳装置の概念図である。
まず入力である音声テキスト情報と画像情報から比較手段21は、対象のしぼり込みを行う。図3のit(目的語)は曖昧語であるpresentと対応付けられ、また画像情報の方はオブジェクト動きベクトルとオブジェクト近傍重なり状態とが考慮される。比較手段は、指示代名詞の特性とOBJ近傍重なりとの位置関係と、指示代名詞の変化、移動動詞の特性とOBJ動きベクトルとの動きから対象をしぼり込む。
【0015】
つぎにOBJ‐単語対応推定手段22では後述する最尤推定などの方法を用いてOBJ‐単語対応推定を行う。最後に辞書検索手段23は、辞書付加画像特性データとOBJ画像特性とを対応させて比較(画像特性、画像比較、ネット画像検索を用いて)、意味決定手段の出力として「贈り物」なる目的語を得る。
【0016】
図6は、同実施形態の基本となるデータ構造の説明図である。内蔵辞書のデータ構造としては、諸元として単語(同音語単位)、訳語(品詞)、動き度(0〜10)、画像特性、画像リンクが含まれる。
【0017】
例として「キカイ」という単語は訳語としてmachine(n), chance(n), monstrosity(n)といった3つの名詞が挙げられ、各動き度として5,0,2の数値が割り当てられている。それぞれ画像特性としては金属光沢、抽象名詞、暗い色彩が相当し、2つには画像リンク(アドレス情報等)が張られている。リンク先は例えばTVメーカが提供する画像データサーバーである。
【0018】
図7は、実施形態に用いられる画像領域分割の処理の実施例である。次の3段階を経る。
(1)遠景と近景の分離(高画質化用アルゴリズムなど)
(2)オブジェクト分離(エッジ検出アルゴリズムなど)
(3)オブジェクト近傍設定(エッジからnピクセル、のような形式で、遠近も考慮する。OBJの動きに伴い、近傍も移動させる。)
図8は、実施形態に用いられるオブジェクト種別判定の処理の実施例である。次の5種類を想定している。
(1)私(話し手):人、最初に口が動く、一人だけ写った時に声が流れるなど
(2)あなた(聞きて、答え手):「私」ではない人、「私」の視線が向いている、「私」の動作などに反応するなど
(3)第三者(彼):「私」でも「あなた」でもない人(物体と同じだが、その人、この人たちなど、特別な指示語で示される)
(4)ナレーター(無人称):人が写っていないのに声が流れる時に設定する仮想OBJ(近傍は近景全て)
話者認識技術を用いて同一人か判定しても良い。ある時点で複数の写らない人が生じる場合などにも有効である。
(5)物体:人でないもの、物、動物
図9は、実施形態に用いられる指示代名詞、移動の動詞抽出の処理の実施例である。
まず代名詞に関しては、人称代名詞(わたし、あなた、彼、I、you、he)と物主代名詞(わたしの、あなたの、mine、yours)と指示代名詞(これ、それ、あれ、this、that、it)と疑問代名詞(どれ、なに、what、whitch)と再帰代名詞(自分、myself)の区分がある。また移動を表す動詞には、行く、来る、寄る、投げる、引くなどがある(反例としては、いる、咲く、笑う、壊す、食べるなど)。
【0019】
指示代名詞と移動の動詞に注目し、音声より抽出する(音声認識、形態素/構文解析の技術を用いる)。
図10は、実施形態に用いられる代名詞出現時の位置関係からのOBJしぼり込みの処理の実施例である。予め登録された、各言語の特有の位置関係から、指示代名詞に対応するOBJをしぼり込む。
【0020】
ここで登録データ形式(指示代名詞の位置特性)としては、例えば次の要素がある。
(代名詞:特性)
(これ:私∋指示対象,あなたNOT∋指示対象) #私の近傍
(それ:あなた∋指示対象,私NOT∋指示対象) #あなたの近傍
(あれ:私∪あなたNOT∋指示対象) #近傍にない
図11は、実施形態に用いられる指示代名詞の変化からのOBJしぼり込み処理の実施例である。
次のような対話があるとする。
わたし:「それよ」
あなた:「これですか? じゃ、これを拾います」
あなた:「――これですよね」
わたし:「そう。これは、present」
このような対話を元に、テキスト翻訳と同じ構文解析により、「それ」即ち「これ」から「present」を決定する。更に、(人‐指示代名詞)の変化を測定する(「わたし‐それ」から「わたし‐これ」へ、「あなた‐これ」から「あなた‐これ」へ)
【0021】
先には(それ:私NOT∋指示対象)だったのが、後には(これ:私∋指示対象)の状態となる。これにより、指示対象は私の近傍に入った、私に近接するOBJを指示対象と推定する、というOBJのしぼり込みを行う。
【0022】
図12は、実施形態に用いられる移動の動詞からのOBJ決定処理の実施例である。
移動の動詞「拾う」の方向特性(主語から目的語へ)を用いる。
ここで登録データ形式(移動動詞の方向特性)としては、例えば次の要素がある。
(動詞,価数,特性)
(pick,2,S→O) #主語が目的語に接近
(give,3,Od:S→,Od→Oi) #直接目的語は主語から離れ、間接目的語に接近
図13は、実施形態に用いられる動き度/画像特性付加辞書からの訳語決定、表示の処理の実施例である。
内蔵辞書のデータ構造としては、すでに説明したように諸元として単語(同音語単位)、訳語(品詞)、動き度(0〜10)、画像特性、画像リンクが含まれる。
例として上記の「present」という単語は訳語として現在(n), 贈り物(n), 証書(n)といった3つの名詞が挙げられ、各動き度として0,1,1の数値が割り当てられている。それぞれ画像特性としては抽象名詞、派手な色彩で立体、地味な色彩で平たいが相当している。決定訳は贈り物である。
【0023】
“This is a present.”と原語音声で発せられる場合、図13中の矢印のように贈り物(present)の対象物が同期として、対応する音声発音時に点滅するなどしてユーザに知らされる。
【0024】
上記の実施形態の変形例としては以下に列挙するような方法を用いても良い。
・「あちら」、「こちら」、「そこ」、「ここ」など、指示代名詞の派生語に着目して位置関係を把握してもよい。
・Webと接続して、オブジェクトの訳語をクリックすると、その原語や訳語をWeb検索するようにしてもよい。
・翻訳結果を付けたまま録画する機能を待たせてもよい。
・元音声が何語か、自動判定する機能を持たせてもよい。
・全翻訳結果を字幕形式で表示してもよい。
・単語に対応するオブジェクトを、複数のオブジェクトから決定する際に、最尤度法など、確率推定的な手法を適用してもよい(図14参照)。
図14は、実施形態に用いられる確率的手法の適用の説明図である。
例として曖昧さを考慮した接近度の測定を行う。上記の「present」であるOBJ(A)では最接近距離の逆数値が私からは30であなたからは19、他のオブジェクトであるOBJ(B)では同値が各15と40である。
【0025】
最尤度法は条件付確率に関するものであり、ここでは確率(0〜1)に正規化する前の値を例に説明すると図14の計算のように、OBJ(A)では570、OBJ(B)では600となり、オブジェクト「それ」としてより数値の大きなOBJ(B)が選ばれる。
【0026】
(実施形態2)
本発明による実施形態2を図1乃至図14を参照して説明する。実施形態1と共通する部分は説明を省略する。
図4に関してオブジェクト種別判定手段17により、オブジェクト種別が判定される。ここで注目画像があるエリアとして人物等が存在しているエリアを検出する方法を説明する。
【0027】
例えば人物の特徴としては顔の部分の肌色を抽出する。デジタルカメラで実用化されているように目や口等も捉えてもよい。付随して頭部や肢体を色、形、大きさ、相互配置、動き方といった特徴で捉える。
【0028】
人物を捉えるための具体的なアルゴリズムとしてはMT(Mahalanobis-Taguchi)システムを援用してもよい。画像等の認識手段を実装する枠組みとしてMTシステムがあるがMTシステムは、均一な例えば普通のベクトルデータ集団から基準空間を予め作成し、入力データがこの集団に属するか否かを判定する。
【0029】
ここでは実装例として人物が含まれるとして選ばれたデータから基準空間を作成する。例えば、上記人物の特徴k個の値から成る列ベクトルを数十サンプル以上用いる。なおk個の変量ごとに、それらの平均と標準偏差を用いてそれぞれのデータを正規化しておくことは言うまでも無い。
【0030】
MTシステムのうちで逆行列を利用するポピュラーな方法であるMT法は、Mahalanobis距離MD(二乗距離)を正規化された入力データである列ベクトルYに対し式1のように求める。即ち、基準空間である相関行列Rの逆行列R−1とYを演算しベクトル項目数kで割ったスカラー値となる。
【0031】
【数1】
【0032】
予め装置の製造時等に相関行列Rに対応する例えば数表等と上記演算のプログラムを実装しておけばよい。
MTシステムに関連する技術のうち、MT法の他に余因子行列を利用するMTA法やシュミットの直交展開を利用するTS法等やこれらの多階法を用いてもよい。例えば、人物の特徴としては顔の部分の肌色が有力といったことが予め解っている場合には、TS法を用いるとk個のうち有力な項目を優先して演算するように構成しておけば演算精度を向上することができる。近年の手法であるT法をまず用いるのも好適である。
【0033】
人物らしさの抽出後の判定は、例えばMDが1以下なら人物であると、5以上なら人物ではないと判定する。1と5の間の値の場合は人物らしさの程度に応じ信頼度のような数値を付与し後の処理に用いてもよい。
【0034】
なお、基準空間の画素ブロックサイズも適宜変えてもよい。また注目位置内容、対象の種類毎に基準空間を分けるのも好適である。一入力に対する複数のMDの結果に対して例えば最も高い対象の値を以って判定を行なえばよい。例えばまず人物を対象とする場合でも層別がある。成人とは体形等が異なる子供を特に捉えたければ、子供の基準空間を作る。また人物以外の対象としては例えば、自動車もまた基準空間を作成しやすい対象である。このように精度の高い基準空間を作成できる対象があれば、それらを用いて人物の候補であるオブジェクトを予め削減しておいてもよい。
【0035】
どの種類の基準空間を用いるかはユーザがリモコンを用いて表示画面のメニュー設定に対して対話的に行うといった形態をとってもよい。またやがてユーザの好みを反映してどの種類の基準空間を用いるか自動的に決定するような設定を行ってもよい。
【0036】
本実施形態では、通常は正常状態の判定に利用されるMTシステムを用いることにより、アルゴリズムが確定し難い処理対象において相応の最適性を確保できる。
MTシステムを援用することにより、図8の実施形態に用いられるオブジェクト種別判定の処理の精度を高める可能性が大きくなる。
以上の実施形態では、音声から抽出した指示代名詞や移動の動詞から推定した動きと、動画中のオブジェクトの動きを比較して、音声中の単語と動画中のオブジェクトを対応づけ、そのオブジェクトの画像特性と、翻訳辞書に付加された画像特性などのデータを比較して、対応する単語の訳語を決定することにより、従来の音声のみによる翻訳やテキスト翻訳より高い翻訳精度が得られる。
【0037】
また、オブジェクトと訳語の対応関係が判り、オブジェクトの近くに表示する形で訳語を示し、音声と同期させて点滅させたりできるので、全訳を単調に出力するような、従来の自動翻訳に比べて、視聴者に情報内容を理解させる効果が高まる。
【0038】
更に、訳語の表示を一定時間遅らせることで、視聴覚語学学習機器として活用することもできる点も、従来の自動翻装置にはなかった。
実施形態の効果として、音声から抽出した動き情報(指示代名詞、移動の動詞)と、動画の動きベクトルを対応させることにより、動画情報を翻訳に活用することで、曖昧語の意味決定などが容易になり、自動翻訳の精度を上げることができ、また情報利用率を向上させることができ、更にWeb上の文書データ翻訳に対して、テレビ翻訳を差異化できる。
【0039】
訳語を対応する物体の付近に表示して、単語の発声と同期して点滅させたりすることにより、訳語−画像−音声を一体化させ、外国語情報の意味を把握しやすくできる。これは、インターネット動画配信などを通じて、外国語音声動画に直接アクセスする際に特に効果を発揮する。
【0040】
全翻訳を合成音声出力したり、訳語の表示を一定時間遅くしたりすることで、語学学習効果を発揮する。
以下に、実施形態のポイントをまとめる。
1.音声から抽出した指示代名詞と、動画中より切り出したオブジェクトを、指示代名詞が示す位置関係により対応付ける。
2.指示代名詞の変化、および「移動の動詞」の方向性と、オブジェクトの動きベクトルを比較することにより、指示代名詞が示すオブジェクトを決定する。
3.単語の動き度、画像特性、画像リンクをデータとして付加した翻訳辞書を持ち、またインターネット画像検索手段、画像特徴比較手段を持ち、オブジェクトの動き度、および画像特性と比較して、オブジェクトに対応する単語の意味を決定することで翻訳精度を上げる。
【0041】
4.訳語を画面中のオブジェクトの近くに表示し、対応する単語の発声と同期して点滅させるなどして、単語(原語)とオブジェクト(画像)と訳語を一体化して認識できるようにし、音声動画の情報認識度を上げる。
【0042】
5.原音声と切り替えて、全翻訳を合成音声で出力できる機能を持つ。
6.訳語表示を単語の発声から一定時間遅らせる、語学学習機能を持つ。
なお、この発明は上記実施形態に限定されるものではなく、この外その要旨を逸脱しない範囲で種々変形して実施することができる。例えばアンテナとチューナーにより放送波を受信する替わりに、インターネット等を通して番組の配信サービスを受けてもよい。
【0043】
また、上記した実施の形態に開示されている複数の構成要素を適宜に組み合わせることにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素から幾つかの構成要素を削除しても良いものである。さらに、異なる実施の形態に係る構成要素を適宜組み合わせても良いものである。
【符号の説明】
【0044】
1…テレビジョン受像装置、11…音声認識手段、12…形態素解析手段、13…構文解析手段、14…指示代名詞/移動動詞抽出手段、16…オブジェクト分離手段、17…オブジェクト種別判定手段、18…近傍付加手段、19…オブジェクト動きベクトル測定/オブジェクト近傍重なり判定手段、21…比較手段、22…OBJ‐単語対応推定手段、23…辞書検索手段。
【特許請求の範囲】
【請求項1】
入力音声から指示代名詞を抽出する音声データ処理装置と、
入力画像よりオブジェクトを切り出す画像データ処理装置と、
前記指示代名詞が示す位置関係によりこの指示代名詞と前記オブジェクトを対応付ける音声画像比較翻訳装置とを
具備することを特徴とするテレビジョン受像装置。
【請求項2】
前記音声画像比較翻訳装置は、前記指示代名詞の変化および移動の動詞の方向性と、オブジェクトの動きベクトルとを比較することにより、指示代名詞が示すオブジェクトを決定することを特徴とする請求項1に記載のテレビジョン受像装置。
【請求項3】
更に単語の動き度または画像特性または画像リンクをデータとして付加した翻訳辞書、或いは対象画像を検索するインターネット画像検索手段とこの画像の特徴を比較する画像特徴比較手段を備え、
前記音声画像比較翻訳装置は、オブジェクトの動き度、および画像特性と比較して、オブジェクトに対応する単語の意味を決定することを特徴とする請求項1に記載のテレビジョン受像装置。
【請求項4】
更に音声の訳語をユーザがオブジェクトと一体化して認識できるようにこの訳語を画面中の前記オブジェクトの近くに表示し、この訳語に対応する単語の発声と同期してオブジェクトを表現する画像、翻訳結果合成・表示装置を備えたことを特徴とする請求項1に記載のテレビジョン受像装置。
【請求項5】
前記画像データ処理装置は、入力画像より前記オブジェクトを切り出すためにMTシステムを用いることを特徴とする請求項1に記載のテレビジョン受像装置。
【請求項6】
更に放送波から入力画像および音声を得る為のチューナーを備えたことを特徴とする請求項1乃至請求項5に記載のテレビジョン受像装置。
【請求項7】
入力音声から指示代名詞を抽出し、
入力画像よりオブジェクトを切り出し、
前記指示代名詞が示す位置関係によりこの指示代名詞と前記オブジェクトを対応付ける音声と画像を比較・翻訳することを特徴とするテレビジョン受像方法。
【請求項1】
入力音声から指示代名詞を抽出する音声データ処理装置と、
入力画像よりオブジェクトを切り出す画像データ処理装置と、
前記指示代名詞が示す位置関係によりこの指示代名詞と前記オブジェクトを対応付ける音声画像比較翻訳装置とを
具備することを特徴とするテレビジョン受像装置。
【請求項2】
前記音声画像比較翻訳装置は、前記指示代名詞の変化および移動の動詞の方向性と、オブジェクトの動きベクトルとを比較することにより、指示代名詞が示すオブジェクトを決定することを特徴とする請求項1に記載のテレビジョン受像装置。
【請求項3】
更に単語の動き度または画像特性または画像リンクをデータとして付加した翻訳辞書、或いは対象画像を検索するインターネット画像検索手段とこの画像の特徴を比較する画像特徴比較手段を備え、
前記音声画像比較翻訳装置は、オブジェクトの動き度、および画像特性と比較して、オブジェクトに対応する単語の意味を決定することを特徴とする請求項1に記載のテレビジョン受像装置。
【請求項4】
更に音声の訳語をユーザがオブジェクトと一体化して認識できるようにこの訳語を画面中の前記オブジェクトの近くに表示し、この訳語に対応する単語の発声と同期してオブジェクトを表現する画像、翻訳結果合成・表示装置を備えたことを特徴とする請求項1に記載のテレビジョン受像装置。
【請求項5】
前記画像データ処理装置は、入力画像より前記オブジェクトを切り出すためにMTシステムを用いることを特徴とする請求項1に記載のテレビジョン受像装置。
【請求項6】
更に放送波から入力画像および音声を得る為のチューナーを備えたことを特徴とする請求項1乃至請求項5に記載のテレビジョン受像装置。
【請求項7】
入力音声から指示代名詞を抽出し、
入力画像よりオブジェクトを切り出し、
前記指示代名詞が示す位置関係によりこの指示代名詞と前記オブジェクトを対応付ける音声と画像を比較・翻訳することを特徴とするテレビジョン受像方法。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【公開番号】特開2011−71809(P2011−71809A)
【公開日】平成23年4月7日(2011.4.7)
【国際特許分類】
【出願番号】特願2009−221981(P2009−221981)
【出願日】平成21年9月28日(2009.9.28)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】
【公開日】平成23年4月7日(2011.4.7)
【国際特許分類】
【出願日】平成21年9月28日(2009.9.28)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】
[ Back to top ]