説明

映像翻訳装置

【課題】撮影した映像と位置情報をもとに、映像に含まれる声や文字を他の言語に翻訳することを目的とする。
【解決手段】位置情報101と映像102を含む映像データ103と、音声を抽出する音声情報抽出部104と、画像を抽出する画像情報抽出部105と、位置を抽出する位置情報抽出部106と、音声に含まれる声を解析する音声解析部107と、画像に含まれる文字を解析する画像解析部108と、位置言語種別DB110から位置情報に対応する入力言語を選択する入力言語選択部109と、出力言語を選択する出力言語選択部111と、声を翻訳する音声翻訳部112と、文字を翻訳する画像翻訳部113と、翻訳した声を吹替える音声情報吹替え部114と、翻訳した文字テロップを重畳する画像情報重畳部115と、翻訳後の映像を表示する映像出力部116とを備えるものとした。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像翻訳装置に関し、特に撮影した映像データに含まれる位置情報に対応して、翻訳を行なうことができる映像翻訳装置に関するものである。
【背景技術】
【0002】
旅行先の国で見聞きする会話や放送、看板の文字など、旅行する国や地域によって使用される言語が異なるが、従来、ユーザの位置を検出し、ユーザの位置に対応する言語に基づいて、場所を移動するごとに言語を設定し直すことなく翻訳を行なう情報処理装置があった。(例えば、特許文献1参照)。
【特許文献1】特開2000−194698号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかしながら、上記従来の翻訳を行なう情報処理装置では、旅行先の国で翻訳が必要となる映像を撮影する場合に、デジタルビデオカメラなどの撮影装置とは別に翻訳装置を持ち歩く手間がかかるという問題を有していた。
【0004】
映像を撮影する場合に、GPSにより取得した位置情報を対応させて記録させることにより、再生時に映像の位置情報をわかるようにした撮影装置がある。
【0005】
本発明は、撮影した映像データに含まれる位置情報に対応する言語に基づいて翻訳を行なう装置であり、撮影後のデータを入力とするため、撮影時に翻訳装置を持ち歩く必要をなくすことができる。
【課題を解決するための手段】
【0006】
請求項1に記載の映像翻訳装置は、位置情報を含む映像データから位置を抽出する抽出手段と、抽出手段により抽出された位置に対応する入力言語を選択する入力言語選択手段及び、ユーザが任意に他の種類の出力言語を選択する出力言語選択手段と、入力言語選択手段により選択された入力言語と出力言語選択手段により選択された出力言語に基づいて、映像の翻訳処理を実行する翻訳手段とを備えることを特徴とする。
【0007】
請求項2に記載の映像翻訳装置は、映像データから、音声を抽出する音声抽出手段と、音声抽出手段により抽出された音声に含まれる声を解析する解析手段と、出力言語選択手段により選択された出力言語に基づいて、解析手段により解析した声を翻訳する音声翻訳手段とをさらに備えることを特徴とする。
【0008】
請求項3に記載の映像翻訳装置は、音声出力手段により翻訳された声を、もとの映像に含まれる声に吹替えた映像を出力する出力手段をさらに備えることを特徴とする。
【0009】
請求項4に記載の映像翻訳装置は、音声翻訳手段により翻訳された声を出力言語選択手段により選択された出力言語に翻訳し、もとの映像にテロップとして重畳した映像を出力する出力手段をさらに備えることを特徴とする。
【0010】
請求項5に記載の映像翻訳装置は、映像データから画像を抽出する画像抽出手段と、画像抽出手段により抽出された画像に含まれる文字を解析する文字解析手段とをさらに備え、翻訳手段は、文字解析手段により解析した文字を翻訳することを特徴とする。
【0011】
請求項6に記載の映像翻訳装置は、翻訳手段により翻訳された文字を、もとの映像にテロップとして重畳した映像を出力する出力手段をさらに備えることを特徴とする。
【0012】
請求項7に記載の映像翻訳装置は、翻訳手段により翻訳された文字を出力言語選択手段により選択された出力言語に基づいて音声に変換して、もとの映像に音声を加えた映像を出力する出力手段をさらに備えることを特徴とする。
【0013】
請求項8に記載の映像翻訳装置は、抽出手段で抽出する位置情報をGPSにより取得することを特徴とする。
【発明の効果】
【0014】
本発明によれば、撮影時には、どこの国、地域で撮影した映像かを撮影者が意識することなく、撮影後に映像を翻訳することができる。また、使用される言語が入り組んだ国、地域をまたがって撮影した場合でも、刻々と変化する位置情報に応じて言語を判定し、映像を翻訳できる。これにより、旅行やビジネス、報道目的など、国内外で撮影した映像データを基に自国語や他の言語に翻訳して視聴することが可能となる利点がある。
【発明を実施するための最良の形態】
【0015】
以下、本発明の実施の形態について、図面を参照しながら説明する。
【0016】
(実施の形態1)
図1は本発明の実施の形態1における映像翻訳装置の構成を示すブロック図である。図1において、103はデジタルビデオカメラなどの撮影装置で撮影した映像102と、映像の撮影時にGPSにより取得した位置情報101とを対応させて記録した映像データである。ここで位置情報とは、撮影地点により刻々と変化する緯度、経度を含む情報である。104は映像データ103から音声を抽出する音声情報抽出部である。107は音声解析部であり、音声情報抽出部104で抽出した音声に含まれる会話や放送などの声を解析し、抽出する。105は映像データ103から画像を抽出する画像情報抽出部である。108は画像解析部であり、画像情報抽出部105で抽出した画像に含まれる看板などの文字を解析し、抽出する。106は映像データ103から翻訳の入力となる言語種別を特定するための位置情報を抽出する位置情報抽出部である。109は入力言語選択部であり、位置情報抽出部106で抽出した位置情報と、位置情報に対応する言語種別を集積した位置言語種別DB110が入力言語選択部109に入力され、翻訳の入力となる言語種別を検索し選択する。111は出力言語選択部であり、翻訳の出力となる任意の言語種別を、ユーザがキー入力や音声入力などの手段で選択する。112は音声翻訳部であり、音声解析部107で抽出した声を、入力言語選択部109で選択された入力言語から出力言語選択部111で選択された出力言語に翻訳する。114は音声情報吹替え部であり、音声情報抽出部104で抽出した音声を音声翻訳部112で翻訳した声に吹替える。113は画像翻訳部であり、画像解析部108で抽出した文字を、入力言語選択部109で選択された入力言語から出力言語選択部111で選択された出力言語に翻訳する。115は画像情報重畳部であり、画像情報抽出部105で抽出した画像に画像翻訳部113で翻訳した文字をテロップとして重畳する。116は映像出力部であり、音声情報吹替え部114で吹替えた音声と映像情報重畳部115で重畳した画像とを合成し、翻訳された映像として出力する。
【0017】
図2は、本発明の実施の形態1による映像データに格納されている情報の例を表す図である。映像にGPSにより取得した位置情報を対応させて記録させる撮影装置で撮影された映像データは、撮影シーンごとの画像201と音声202に加えて、撮影地点の緯度、経度を含む位置情報203から構成されている。撮影地点を移動することにより言語種別の異なる国、地域へ移った場合は、音声202の言語種別が変化することになる。例えば、図2に示すように、北緯40度、西経74度の地点はアメリカ合衆国であり、ここで撮影されたシーン1の画像201には英語の文字が含まれ、音声202には英語の声が含まれている。北緯43度、西経79度の地点はカナダであり、ここで撮影されたシーン2の画像201には加仏語の文字が含まれ、音声202には加仏語の声が含まれている。このようにして撮影された映像データから画像情報、音声情報、位置情報をそれぞれ抽出する。
【0018】
以上のように構成された映像翻訳装置において、映像データから抽出した位置情報に基づいて、位置情報が示す国、地域で使用されている言語を自動的に判定し、入力言語種別を選択する動作について、図1、図3を参照しながら説明する。図3は、位置言語種別DBに格納されている情報の例を表す図である。まず、位置情報抽出部106で抽出した緯度、経度などの組合せで表される位置情報に基づき、位置言語種別DB110を検索する。位置言語種別DB110には予め各位置情報が示す国、地域で使用されている言語の種別が記録されている。例えば、図3に示すように、北緯40度、西経74度という位置情報に対応する言語の種別は英語であるというような位置情報とそこで使用されている言語の種別を対にしたデータが集積されている。これによって、位置情報抽出部106で抽出した位置情報と一致した位置言語種別DB110の位置情報と対になっている言語の種別を選択する。
【0019】
次に出力言語種別を選択する動作について、図4を参照しながら説明する。図4は、出力言語選択画面の例を表す図である。本発明の映像翻訳装置は、例えば図4に示すような出力言語選択画面を有し、キー入力や音声入力などにより出力言語選択リスト402に表示される言語種別から出力言語種別を選択するか、出力言語入力域401に直接言語種別を入力することで、出力言語種別をユーザが任意に選択する。
【0020】
続いて、音声翻訳処理を実行する場合の動作について、図1、図5を参照しながら説明する。図5は、実施の形態1の映像翻訳装置を用いて翻訳した映像出力情報の一例を表す図である。音声翻訳部112では、音声解析部107で抽出した声を、入力言語選択部109で選択された入力言語から出力言語選択部111で選択された出力言語に翻訳する。例えば、図5のシーン1に示すように音声502に含まれる声505の入力言語種別は英語であり、出力言語種別が日本語であった場合に、音声情報吹替え部114にて、音声情報抽出部104で抽出した英語の声“Welcome to Hoolywood”を音声翻訳部112で翻訳した日本語の声“ようこそハリウッドへ”に吹替える。同様にシーン2では、加仏語の声“Bienvenue vers Canada”を日本語の声“ようこそカナダへ”に吹替える。
【0021】
次に、映像翻訳処理を実行する場合の動作について、図1、図5を参照しながら説明する。画像翻訳部113では、画像解析部108で抽出した文字を、入力言語選択部109で選択された入力言語から出力言語選択部111で選択された出力言語に翻訳する。例えば、図5のシーン1に示すように画像501に含まれる文字503の入力言語種別は英語であり、出力言語種別が日本語であった場合に、画像情報重畳部115にて、画像情報抽出部105で抽出した英語の文字“HOOLYWOOD”が含まれる画像に画像翻訳部113で翻訳した日本語の文字“ハリウッド”をテロップ504として重畳する。同様にシーン2では、加仏語の文字“Canada”が含まれる画像に日本語の文字“カナダ”をテロップ504として重畳する。
【0022】
以上の処理により、本発明の実施の形態1における映像翻訳装置において、映像に対応した位置情報を持つ映像データから、位置情報が示す国、地域で使用されている言語を自動的に判定し、これにより翻訳の入力となる言語を選択することができ、ユーザが選択した出力言語に画像と音声を翻訳して、翻訳結果を映像情報として出力することが可能となる。
【0023】
なお、音声情報の翻訳処理を実施する際、本人及び、同行者の声は入力言語種別とは異なる場合が多いため、入力言語種別以外の言語の翻訳は行なわない機能を有する。同様に画像情報に含まれる文字についても、入力言語種別以外の言語の翻訳は行なわない機能を有するものとする。
【0024】
また、図3に示す位置情報と言語種別の対応関係において、緯度、経度の情報は数値の範囲を持つものとし、位置情報と各々の国、地域内の撮影地点との対応関係は維持し得るものとしている。
【0025】
また、図3に示す撮影地点の位置情報と、一地点の位置情報に対する国、地域で使用される言語種別の候補を複数保持するDB構成とした場合、候補となる言語種別の中から最も高い翻訳精度が得られる最適な言語種別を自動的に判別する機能を有するものとする。
【0026】
また、本発明の映像翻訳装置は動画に限らず、デジタルスチルカメラなどで撮影した静止画に対しても、画像の翻訳、出力が同様の手段にて実施できる。
【0027】
また、本発明の映像翻訳装置を、映像にGPSにより取得した位置情報を対応させて記録させる撮影装置に接続、もしくは組込んで、携帯する構成をとることにより、映像を撮影しながら、その場で翻訳処理後の出力映像を視聴することが可能である。
【0028】
また、本発明の映像翻訳装置を、パソコン用プログラムとして実施することによって、翻訳処理後の出力映像を、例えば松下電器産業のパソコン用デジタルビデオ動画編集ソフトウェア”MotionDV STUDIO”などの映像編集ソフトに引渡す、もしくは該ソフトウェアの機能として組込むことで、従来のノンリニア編集に加え、翻訳後の音声情報やテロップ情報の追加、修正などを可能とする。
【0029】
また、動画翻訳メールや、テレビ電話としての応用など、異国間の動画コミュニケーションツールとしての用途も広がる。
【0030】
(実施の形態2)
実施の形態1では、音声に含まれる入力言語の声を、出力言語の声に吹替えることで翻訳結果を映像情報として出力した。実施の形態2では、音声に含まれる入力言語の声を、字幕などの文字情報として画像に重畳させる手法を導入する。
【0031】
図6は、本発明の実施の形態2の映像翻訳装置の構成を示すブロック図である。図6において、101は位置情報、102は映像、103は映像データ、104は音声情報抽出部、105は画像情報抽出部、106は位置情報抽出部、107は音声解析部、108は画像解析部、109は入力言語選択部、110は位置言語種別DB、111は出力言語選択部、112は音声翻訳部、113は画像翻訳部、615は音声・画像情報重畳部、116は映像出力部である。位置情報、映像、映像データ、音声情報抽出部、画像情報抽出部、位置情報抽出部、音声解析部、画像解析部、入力言語選択部、位置言語種別DB、出力言語選択部、音声翻訳部、画像翻訳部、映像出力部は、実施の形態1と同様の動作を行なう。音声・画像情報重畳部615は、画像翻訳部113で翻訳した文字をテロップとして重畳するとともに、音声翻訳部112で翻訳した声を字幕などの文字情報に変換して画像に重畳させる。
【0032】
続いて、音声・画像翻訳処理を実行する場合の動作について、図6、図7を参照しながら説明する。図7は、実施の形態2の映像翻訳装置を用いて翻訳した映像出力情報の一例を表す図である。音声翻訳部112では、音声解析部107で抽出した声を、入力言語選択部109で選択された入力言語から出力言語選択部111で選択された出力言語に翻訳する。例えば、図7のシーン1に示すように入力言語種別は英語であり、出力言語種別が日本語であった場合に、音声・画像情報重畳部615にて、音声解析部107で抽出した英語の声“Welcome to Hoolywood”を音声翻訳部112で翻訳した日本語の“ようこそハリウッドへ”という文字情報に変換し、字幕704として画像に重畳させる。同様にシーン2では、加仏語の声“Bienvenue vers Canada”を日本語の“ようこそカナダへ”という。字幕704として画像に重畳させる。また、画像に対する処理は、テロップの表示が字幕と重ならない位置となるよう実施の形態1と同様の動作を行なう。
【0033】
このように、実施の形態2では、音声に含まれる入力言語の声を、字幕などの文字情報として画像に重畳させることで、画像のみで翻訳結果を理解できる映像情報として出力することが可能となる。
【0034】
(実施の形態3)
実施の形態1では、画像に含まれる入力言語の文字を、出力言語の文字のテロップとして画像に重畳することで、翻訳結果を映像情報として出力した。実施の形態3では、画像に含まれる入力言語の文字を、声に変換して音声に合成させる手法を導入する。
【0035】
図8は、本発明の実施の形態3の映像翻訳装置の構成を示すブロック図である。図8において、101は位置情報、102は映像、103は映像データ、104は音声情報抽出部、105は画像情報抽出部、106は位置情報抽出部、107は音声解析部、108は画像解析部、109は入力言語選択部、110は位置言語種別DB、111は出力言語選択部、112は音声翻訳部、113は画像翻訳部、814は音声・画像情報吹替え部、116は映像出力部である。位置情報、映像、映像データ、音声情報抽出部、画像情報抽出部、位置情報抽出部、音声解析部、画像解析部、入力言語選択部、位置言語種別DB、出力言語選択部、音声翻訳部、画像翻訳部、映像出力部は、実施の形態1と同様の動作を行なう。音声・画像情報吹替え部814は、音声情報抽出部104で抽出した音声を音声翻訳部112で翻訳した声に吹替えるとともに、画像翻訳部113で翻訳した文字を声に変換して音声に合成させる。
【0036】
続いて、音声・画像翻訳処理を実行する場合の動作について、図8、図9を参照しながら説明する。図9は、実施の形態3の映像翻訳装置を用いて翻訳した映像出力情報の一例を表す図である。画像翻訳部113では、画像解析部108で抽出した文字を、入力言語選択部109で選択された入力言語から出力言語選択部111で選択された出力言語に翻訳する。例えば、図9のシーン1に示すように入力言語種別は英語であり、出力言語種別が日本語であった場合に、音声・画像情報吹替え部814にて、画像情報重畳部115にて、画像情報抽出部105で抽出した英語の文字“HOOLYWOOD”が含まれる画像から画像翻訳部113で翻訳した日本語の「“ハリウッド”の表示があります」のような音声案内903に変換して、音声に合成させる。同様にシーン2では、加仏語の文字“Canada”が含まれる画像から日本語の「“カナダ” の表示があります」のような音声案内903に変換して、音声に合成させる。また、音声に対する処理は、音声案内と吹替えの声が重ならないよう実施の形態1と同様の動作を行なう。
【0037】
このように、実施の形態3では、画像に含まれる入力言語の文字を、音声案内などの声の情報として音声に合成させることで、音声のみで翻訳結果を理解できる映像情報として出力することが可能となる。
【0038】
(実施の形態4)
実施の形態1から3では、出力言語種別をユーザが任意に選択するものとしていた。実施の形態4では、出力言語選択部にGPSにより取得した現在の位置情報を入力し、ユーザが本発明の映像翻訳装置を使用する現在地の国、地域で使用されている言語を、自動的に出力言語として選択する出力言語選択手段を有する。
【0039】
図10は、本発明の実施の形態4における出力言語選択部の構成を示すブロック図であり。図10において、110は位置言語種別DB、111は出力言語選択部、1001は位置情報である。続いて、出力言語選択処理を実行する場合の動作について、図3、図10を参照しながら説明する。例えば、実施の形態4における本発明の映像翻訳装置を北緯40度、東経135度の地点で動作させた場合、GPSにより緯度、経度の情報が位置情報1001として取得でき、図3に示すとおり、位置言語種別DB110に集積されているデータから、出力言語の言語種別として日本語が選択される。
【0040】
以上の処理により、本発明の実施の形態4における出力言語選択部において、現在の位置情報が示す国、地域で使用されている言語を自動的に判定し、翻訳の出力となる言語を選択することが可能となる。
【産業上の利用可能性】
【0041】
本発明の映像翻訳装置は、撮影後の映像データに含まれる刻々と変化する位置情報に応じて、撮影した国、地域の言語を判定し、映像を任意の他の種類の言語に翻訳できる。これにより、旅行やビジネス、報道目的など、国内外で撮影した映像データを基に自国語や他の言語に翻訳して視聴することができる。
【図面の簡単な説明】
【0042】
【図1】本発明の実施の形態1における映像翻訳装置の構成を示すブロック図
【図2】映像データに格納されている情報の例を表す図
【図3】位置言語種別DBに格納されている情報の例を表す図
【図4】出力言語選択画面の例を表す図
【図5】実施の形態1の実施の効果例図
【図6】本発明の実施の形態2における映像翻訳装置の構成を示すブロック図
【図7】実施の形態2の実施の効果例図
【図8】本発明の実施の形態3における映像翻訳装置の構成を示すブロック図
【図9】実施の形態3の実施の効果例図
【図10】本発明の実施の形態4における出力言語選択部の構成を示すブロック図
【符号の説明】
【0043】
101 位置情報
102 映像
103 映像データ
104 音声情報抽出部
105 画像情報抽出部
106 位置情報抽出部
107 音声解析部
108 画像解析部
109 入力言語選択部
110 位置言語種別DB
111 出力言語選択部
112 音声翻訳部
113 画像翻訳部
114 音声情報吹替え部
115 画像情報重畳部
116 映像出力部
201 画像
202 音声
203 位置情報
401 出力言語入力域
402 出力言語選択リスト
501 画像
502 音声
503 画像に含まれる文字
504 テロップ
505 声
615 音声・画像情報重畳部
814 音声・画像情報吹替え部
903 音声案内
1001 位置情報

【特許請求の範囲】
【請求項1】
位置情報を含む映像データから位置を抽出する抽出手段と、前記抽出手段により抽出された前記位置に対応する入力言語を選択する入力言語選択手段と、ユーザが任意に他の種類の出力言語を選択する出力言語選択手段と、前記入力言語選択手段により選択された入力言語と前記出力言語選択手段により選択された出力言語に基づいて、映像の翻訳処理を実行する翻訳手段とを備えることを特徴とする映像翻訳装置。
【請求項2】
前記映像データから、音声を抽出する音声抽出手段と、前記音声抽出手段により抽出された音声に含まれる声を解析する解析手段と、前記出力言語選択手段により選択された出力言語に基づいて、前記解析手段により解析した声を翻訳する音声翻訳手段とをさらに備えることを特徴とする、請求項1に記載の映像翻訳装置。
【請求項3】
前記音声翻訳手段により翻訳された声を、もとの映像に含まれる声に吹替えた映像を出力する出力手段をさらに備えることを特徴とする、請求項2に記載の映像翻訳装置。
【請求項4】
前記音声翻訳手段により翻訳された声を前記出力言語選択手段により選択された出力言語に翻訳し、もとの映像にテロップとして重畳した映像を出力する出力手段をさらに備えることを特徴とする、請求項2に記載の映像翻訳装置。
【請求項5】
映像データから画像を抽出する画像抽出手段と、前記画像抽出手段により抽出された画像に含まれる文字を解析する文字解析手段とをさらに備え、前記翻訳手段は、前記文字解析手段により解析した文字を翻訳することを特徴とする、請求項1に記載の映像翻訳装置。
【請求項6】
前記翻訳手段により翻訳された文字を、もとの映像にテロップとして重畳した映像を出力する出力手段をさらに備えることを特徴とする、請求項5に記載の映像翻訳装置。
【請求項7】
前記翻訳手段により翻訳された文字を、前記出力言語選択手段により選択された出力言語に基づいて音声に変換して、もとの映像に音声を加えた映像を出力する出力手段をさらに備えることを特徴とする、請求項5に記載の映像翻訳装置。
【請求項8】
前記抽出手段で抽出する位置情報はGPSにより取得することを特徴とする、請求項1に記載の映像翻訳装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2008−65653(P2008−65653A)
【公開日】平成20年3月21日(2008.3.21)
【国際特許分類】
【出願番号】特願2006−243697(P2006−243697)
【出願日】平成18年9月8日(2006.9.8)
【出願人】(000005821)松下電器産業株式会社 (73,050)
【Fターム(参考)】