説明

音声制御画像編集

デバイスは、被写体の画像を撮影し、被写体と関連付けられたオーディオを記録し、被写体が人物である場合に撮影された画像において人物の頭の場所を判定する。更にデバイスは、オーディオをテキストに変換し、テキストを含む会話の吹き出しを作成し、撮影された画像において会話の吹き出しを人物の頭の場所の隣に位置付けて最終画像を作成する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は音声制御画像編集に関する。
【背景技術】
【0002】
会話の吹き出し(会話の吹き出し、対話の吹き出し、言葉の吹き出し、思考の吹き出し等)を被写体(例えば、人物、場所、もの)の画像に付加することは、人気がある。ユーザが画像(例えば、写真)をアップロードしてそれらに会話の吹き出しを手動で付加できるようにするウェブアプリケーションがある。ある写真タグ付けアプリケーションにおいて、ユーザは、既存のフォトアルバム内で会話の吹き出しを介して引用文を写真に付加する。ある特定のデバイス(例えば、カメラ、移動電話等)は、画像クリップ及び/又はビデオクリップを記録するためにカメラ及びマイクを使用する。しかし、上述のウェブアプリケーションを使用する以外に、これらのデバイスは、デバイスにより撮影された画像クリップ及び/又はビデオクリップに対して会話の吹き出しを作成できない。
【発明の概要】
【課題を解決するための手段】
【0003】
一態様によると、方法は、デバイスにより被写体の画像を撮影することと、被写体と関連付けられたオーディオをデバイスのメモリに記録することと、デバイスのプロセッサにより且つ被写体が人物である場合に撮影された画像において人物の頭の場所を判定すること、プロセッサによりオーディオをテキストに変換することと、プロセッサによりテキストを含む会話の吹き出しを作成することと、プロセッサにより、撮影された画像において会話の吹き出しを人物の頭の場所の隣に位置付けて最終画像を作成することとを備えてよい。
【0004】
また、方法は、最終画像をデバイスのディスプレイ上に表示することと、最終画像をデバイスのメモリに格納することとを更に備えてもよい。
【0005】
また、方法は、被写体が動物である場合にデバイスのユーザにより提供されたオーディオを記録することと、撮影された画像において動物の頭の場所を判定することと、ユーザにより提供されたオーディオをテキストに変換することと、ユーザにより提供されたオーディオから変換されたテキストを含む会話の吹き出しを作成することと、撮影された画像においてユーザにより提供されたオーディオから変換されたテキストを含む会話の吹き出しを動物の頭の場所の隣に位置付けて画像を作成することとを更に備えてもよい。
【0006】
また、方法は、被写体が無生物の被写体である場合にデバイスのユーザにより提供されたオーディオを記録することと、ユーザにより提供されたオーディオをユーザが提供したテキストに変換することと、ユーザが提供したテキストを撮影された画像と関連付けてユーザが規定した画像を作成することとを更に備えてもよい。
【0007】
また、方法は、被写体が複数の人物を含む場合に複数の人物のビデオを解析して各人物の口の動きを判定することと、オーディオを各人物の口の動きと比較して各人物と関連付けられるオーディオの部分を判定することと、各人物と関連付けられたオーディオ部分をテキスト部分に変換することと、人物毎に各人物と関連付けられたテキスト部分を含む会話の吹き出しを作成することと、撮影された画像に基づいて各人物の頭の場所を判定することと、会話の吹き出しの各々を対応する各人物の頭の場所と共に位置付けて複数の人物の最終画像を作成することとを更に備えてもよい。
【0008】
また、方法は、オーディオを解析して各人物と関連付けられるオーディオの部分を判定することを更に備えてもよい。
【0009】
また、オーディオは第1言語で提供されてもよく、オーディオをテキストに変換することは、オーディオを第1言語とは異なる第2言語で提供されたテキストに変換することを更に備えてもよい。
【0010】
また、方法は、被写体の複数の画像を撮影することと、各々がテキストの部分を含む複数の会話の吹き出しを作成することと、複数の会話の吹き出しの各々を対応する複数の画像のうちの1つと関連付けて時間順の画像を作成することとを更に備えてもよい。
【0011】
また、方法は、デバイスのユーザにより提供されたオーディオを記録することと、ユーザにより提供されたオーディオをユーザが提供したテキストに変換することと、ユーザが提供したテキストを含む思考の吹き出しを作成することと、撮影された画像において思考の吹き出しを人物の頭の場所の隣に位置付けて思考の吹き出しの画像を作成することとを更に備えてもよい。
【0012】
また、デバイスは、無線電話、パーソナル移動通信システム(PCS)端末、カメラ、カメラ機能を備えたビデオカメラ、双眼鏡又はビデオ眼鏡のうちの少なくとも1つを含んでもよい。
【0013】
別の態様によると、デバイスは、複数の命令を格納するメモリと、被写体の画像を撮影し、被写体と関連付けられたオーディオを記録し、被写体が人物である場合に撮影された画像において人物の頭の場所を判定し、オーディオをテキストに変換し、テキストを含む会話の吹き出しを作成し、撮影された画像において会話の吹き出しを人物の頭の場所の隣に位置付けて最終画像を作成し、且つ最終画像をデバイスのディスプレイ上に表示するためにメモリ中の命令を実行するプロセッサとを備えてもよい。
【0014】
また、プロセッサは、最終画像をメモリに格納するためにメモリ中の命令を更に実行してもよい。
【0015】
また、プロセッサは、被写体が動物である場合にデバイスのユーザにより提供されたオーディオを記録し、撮影された画像において動物の頭の場所を判定し、ユーザにより提供されたオーディオをテキストに変換し、ユーザにより提供されたオーディオから変換されたテキストを含む会話の吹き出しを作成し、且つ撮影された画像においてユーザにより提供されたオーディオから変換されたテキストを含む会話の吹き出しを動物の頭の場所の隣に位置付けて画像を作成するためにメモリ中の命令を更に実行してもよい。
【0016】
また、プロセッサは、被写体が無生物の被写体である場合にデバイスのユーザにより提供されたオーディオを記録し、ユーザにより提供されたオーディオをユーザが提供したテキストに変換し、且つユーザが提供したテキストを撮影された画像と関連付けてユーザが規定した画像を作成するためにメモリ中の命令を更に実行してもよい。
【0017】
また、プロセッサは、被写体が複数の人物を含む場合に複数の人物のビデオを解析して各人物の口の動きを判定し、オーディオを各人物の口の動きと比較して各人物と関連付けられるオーディオの部分を判定し、各人物と関連付けられたオーディオ部分をテキスト部分に変換し、人物毎に各人物と関連付けられたテキスト部分を含む会話の吹き出しを作成し、撮影された画像に基づいて各人物の頭の場所を判定し、且つ会話の吹き出しの各々を対応する各人物の頭の場所と共に位置付けて複数の人物の最終画像を作成するためにメモリ中の命令を更に実行してもよい。
【0018】
また、プロセッサは、オーディオを解析して各人物と関連付けられるオーディオの部分を判定するためにメモリ中の命令を更に実行してもよい。
【0019】
また、オーディオは第1言語で提供されてもよく、オーディオをテキストに変換する場合、プロセッサは、オーディオを第1言語とは異なる第2言語で提供されたテキストに変換するためにメモリ中の命令を更に実行してもよい。
【0020】
また、プロセッサは、被写体の複数の画像を撮影し、各々がテキストの部分を含む複数の会話の吹き出しを作成し、且つ複数の会話の吹き出しの各々を対応する複数の画像のうちの1つと関連付けて時間順の画像を作成するためにメモリ中の命令を更に実行してもよい。
【0021】
また、プロセッサは、デバイスのユーザにより提供されたオーディオを記録し、ユーザにより提供されたオーディオをユーザが提供したテキストに変換し、ユーザが提供したテキストを含む思考の吹き出しを作成し、且つ撮影された画像において思考の吹き出しを人物の頭の場所の隣に位置付けて思考の吹き出しの画像を作成するためにメモリ中の命令を更に実行してもよい。
【0022】
更に別の態様によると、デバイスは、被写体の画像を撮影する手段と、被写体と関連付けられたオーディオを記録する手段と、被写体が人物である場合に撮影された画像において人物の頭の場所を判定する手段と、オーディオをテキストに変換する手段と、テキストを含む会話の吹き出しを作成する手段と、撮影された画像において会話の吹き出しを人物の頭の場所の隣に位置付けて最終画像を作成する手段と、最終画像を表示する手段と、最終画像を格納する手段とを備えてもよい。
【0023】
本明細書に取り入れられ且つその一部を構成する添付の図面は、本明細書において説明する1つ以上の実現例を示し、説明と共にこれらの実現例を説明する。
【図面の簡単な説明】
【0024】
【図1】図1は、本明細書において説明するシステム及び/又は方法が実現される例示的な構成を示す図である。
【図2】図2は、本明細書において説明するシステム及び/又は方法が実現される例示的なデバイスを示す図である。
【図3A】、
【図3B】図3A及び図3Bは、それぞれ、本明細書において説明するシステム及び/又は方法が実現される別の例示的なデバイスの正面図及び背面図を示す図である。
【図4】図4は、図2〜図3Bに示されたデバイスの例示的な構成要素を示す図である。
【図5】図5は、図2〜図3Bに示されたデバイスが実行できる単一の人物の場合の例示的な音声制御画像編集動作を示す図である。
【図6】図6は、図2〜図3Bに示されたデバイスの例示的な構成要素を示す図である。
【図7】図7は、図2〜図3Bに示されたデバイスが実行できる複数の人物の場合の例示的な音声制御画像編集動作を示す図である。
【図8】図8は、図6に示された例示的な構成要素が実行できる更なる動作を示す図である。
【図9】図9は、図2〜図3Bに示されたデバイスが実行できる動物の場合の例示的な音声制御画像編集動作を示す図である。
【図10】図10は、図2〜図3Bに示されたデバイスが実行できる被写体の場合の例示的な音声制御画像編集動作を示す図である。
【図11】図11は、図2〜図3Bに示されたデバイスが実行できる複数の人物の場合の例示的な音声制御画像編集動作を示す図である。
【図12】図12は、図2〜図3Bに示されたデバイスが実行できる単一の人物の場合の例示的な音声制御画像編集動作を示す図である。
【図13】図13は、図2〜図3Bに示されたデバイスが実行できる例示的な音声制御画像編集及び翻訳動作を示す図である。
【図14】図14は、ビデオ眼鏡が実行できる例示的な音声制御画像編集及び翻訳動作を示す図である。
【図15】図15は、図2〜図3Bに示されたデバイスが実行できる複数の表現の場合の例示的な音声制御画像編集動作を示す図である。
【図16】、
【図17】、
【図18】図16〜図18は、本明細書において説明する実現例に係る音声制御画像編集の例示的な処理を示すフローチャートである。
【発明を実施するための形態】
【0025】
以下の詳細な説明は添付の図面を参照する。異なる図面における同一の図中符号は、同一の要素又は同様の要素を識別してもよい。また、以下の詳細な説明は本発明を限定しない。
【0026】
概要
本明細書において説明するシステム及び/又は方法は、音声制御画像編集を実行するデバイスを提供できる。例えば、図1に示されるような例示的な構成、システム及び/又は方法は、2人の被験者(例えば、第1の被験者120及び第2の被験者130)と関連付けられたデバイス110を提供してもよく、被験者の画像はデバイス110により撮影される。デバイス110は、カメラ、移動電話等を含んでもよい。被験者120/130には、画像がデバイス110により撮影される人物を含んでもよい。
【0027】
デバイス110は、被験者120/130の画像140を撮影してもよく、デバイス110により画像140が撮影される際に被験者120/130と関連付けられたオーディオを記録してもよい。デバイス110は、被験者120/130のビデオを撮影し且つ解析して第1の被験者120の口の動き及び第2の被験者130の口の動きを判定してもよく、記録されたオーディオを口の動きと比較して第1の被験者120及び第2の被験者130と関連付けられるオーディオの部分を判定してもよい。デバイス110は、オーディオ部分を各被験者120/130と関連付けられたテキスト部分に変換してもよく、第1の被験者120と関連付けられたテキストを含む第1の会話の吹き出し150を作成してもよく、第2の被験者130と関連付けられたテキストを含む第2の会話の吹き出し160を作成してもよい。デバイス110は、被験者120/130の頭の場所を判定してもよく、第1の被験者120の頭の場所と共に第1の会話の吹き出し150を位置決めしてもよく、第2の被験者130の頭の場所と共に第2の会話の吹き出し160を位置決めして画像140の最終版を作成してもよい。更にデバイス110は、画像140の最終版を表示し且つ/あるいは格納してもよい。
【0028】
後続の説明はデバイスについて説明する。本明細書において使用されるように、「デバイス」は、無線電話、携帯無線電話をデータ処理機能、ファクシミリ機能及びデータ通信機能と組み合わせてもよいパーソナル移動通信システム(PCS)、無線電話、ページャ、インターネット/イントラネットアクセス、ウェブブラウザ、オーガナイザ、カレンダ、ドップラー受信機及び/又は全地球測位システム(GPS)受信機を含むパーソナルデジタルアシスタント(PDA)、ラップトップ、GPSデバイス、パーソナルコンピュータ、カメラ(例えば、最近のカメラ又はデジタルカメラ)、ビデオカメラ(例えば、カメラ機能を備えたカムコーダ)、双眼鏡、望遠鏡、並びに/あるいはカメラを利用できる他のあらゆるデバイスを含んでもよい。
【0029】
本明細書において使用されるように、「カメラ」は、画像及び/又はビデオを撮影し且つ格納できるデバイスを含んでもよい。例えばデジタルカメラは、最近のカメラのように写真フィルムを使用するのではなく、画像及び/又はビデオを電子的に撮影し且つ格納できる電子デバイスであってもよい。デジタルカメラは多機能であってもよく、音及び/又はビデオ、並びに画像を記録できるいくつかのデバイスを備える。
【0030】
例示的なデバイスアーキテクチャ
図2は、本明細書において説明するシステム及び/又は方法が実現される例示的なデバイス200を示す図である。図2に示されるように、デバイス200は、筐体210、レンズ220、フラッシュユニット230、ビューファインダ240及びボタン250を含んでもよい。筐体210は、デバイスの構成要素を外部の要素から保護してもよい。
【0031】
レンズ220は、固定の焦点距離を有する主要なレンズとは対照的な、焦点距離を機械的、電気的、及び/又は電気機械的に変更できる制御されたレンズのアセンブリを含んでもよい。レンズ220は、最長焦点距離と最短焦点距離との比により説明される「ズームレンズ」を含んでもよい。レンズ220は、デバイス200のユーザが手動で焦点を調節することを必要とするのではなく、レンズ220が被験者に正しく焦点を合わせられるようにするオートフォーカスシステム(不図示)と共に動作してもよい。オートフォーカスシステムは、1つ以上のオートフォーカスセンサ(不図示)に依存して正しい焦点を判定してもよい。オートフォーカスシステムは、センサを手動で選択できるようにしてもよく、被験者の場所を識別することを試みるアルゴリズムを使用してオートフォーカスセンサを自動的に選択してもよい。オートフォーカスセンサから収集されたデータは、光学系の焦点を調節できる電気機械的システムを制御するために使用されてもよい。
【0032】
フラッシュユニット230は、カメラに使用されたあらゆる種類のフラッシュユニットを含んでもよい。例えば、一実現例において、フラッシュユニット230は、発光ダイオード(LED)を用いたフラッシュユニット(例えば、1つ以上のLEDを含むフラッシュユニット)を含んでもよい。他の実現例において、フラッシュユニット230は、デバイス200に組み込まれたフラッシュユニット、デバイス200から離間したフラッシュユニット、電子キセノン閃光ランプ(例えば、高圧の電気が放電されて短い閃光を発するアークを生成するキセノンガスで充填されたチューブ)、マイクロフラッシュ(例えば、サブマイクロ秒の持続時間で閃光を放つように設計された特別な高圧フラッシュユニット)等を含んでもよい。
【0033】
ビューファインダ240は、デバイス200のユーザが通して見て被験者を閲覧し且つ/あるいは被験者に焦点を合わせられるウィンドウを含んでもよい。例えばビューファインダ240は、光学式ビューファインダ(例えば、反転望遠鏡)、電子ビューファインダ(例えば、ビューファインダとして使用されてもよく、且つ/あるいは先に撮影されたデータを再生するために使用されてもよい陰極線管(CRT)、液晶ディスプレイ(LCD)又は有機発光ダイオード(OLED)を用いたディスプレイ)又は上述したものの組合せを含んでもよい。
【0034】
ボタン250は、デバイス200により被験者の画像を撮影するために使用される機械的なボタン又は電子機械的なボタンを含んでもよい。デバイス200のユーザがボタン250を操作する場合、デバイス200は、デバイス200を用いて被験者の画像を撮影するためにレンズ200(及びオートフォーカスシステム)、並びにフラッシュユニット230を操作してもよい。
【0035】
図2はデバイス200の例示的な構成要素を示すが、他の実現例において、デバイス200は、図2に示されたものより少ない構成要素、図2に示されたのとは異なる構成要素、図2に示された以外の更なる構成要素又は図2に示されたのとは異なる方法で配置された構成要素を含んでもよい。例えばデバイス200は、デバイス200により撮影されるユーザ及び/又は被験者から可聴情報を受信するマイクを含んでもよい。更に他の実現例において、デバイス200の1つ以上の構成要素は、デバイス200の1つ以上の他の構成要素により実行されるものとして説明された1つ以上の他のタスクを実行してもよい。
【0036】
図3A及び図3Bは、それぞれ、本明細書において説明するシステム及び/又は方法が実現される別の例示的なデバイス300の正面図及び背面図を示す図である。図3Aに示されるように、デバイス300は、筐体310、スピーカ320、ディスプレイ330、制御ボタン340、キーパッド350及びマイク360を含んでもよい。筐体310は、デバイス300の構成要素を外部の要素から保護してもよい。スピーカ320は、可聴情報をデバイス300のユーザに提供してもよい。
【0037】
ディスプレイ330は、視覚情報をユーザに提供してもよい。例えばディスプレイ330は、着呼又は発呼、メディア、ゲーム、電話帳、現在時刻等に関する情報を提供してもよい。別の例において、ディスプレイ330は、デバイス300のユーザが通して見て被験者を閲覧し且つ/あるいは被験者に焦点を合わせることができ、且つ/あるいは先に撮影されたデータを再生できる陰極線管(CRT)、液晶ディスプレイ(LCD)又は有機発光ダイオード(OLED)を用いたディスプレイ等の電子ビューファインダを提供してもよい。
【0038】
制御ボタン340により、ユーザは、デバイス300に1つ以上の動作を実行させるようにデバイス300と対話できてもよい。例えば制御ボタン340は、デバイス200のボタン250と同様に、デバイス300により被験者の画像を撮影するために使用されてもよい。キーパッド350は、標準的な電話のキーパッドを含んでもよい。マイク360は、デバイス300により撮影されるユーザ及び/又は被験者から可聴情報を受信してもよい。
【0039】
図3Bに示されるように、デバイス200は、カメラレンズ370、フラッシュユニット380及びマイク390を更に含んでもよい。カメラレンズ370は、レンズ220の構成要素に類似した構成要素を含んでもよく、レンズ220が動作するのと同様に動作してもよい。カメラレンズ370は、デバイス300のユーザが手動で焦点を調節することを必要とするのではなく、レンズカメラレンズ370が被験者に正しく焦点を合わせられるようにするオートフォーカスシステム(不図示)と共に動作してもよい。フラッシュユニット380は、フラッシュユニット230の構成要素と類似した構成要素を含んでもよく、フラッシュユニット230が動作するのと同様に動作してもよい。例えば、一実現例において、フラッシュユニット380は、LEDを用いたフラッシュユニット(1つ以上のLEDを含むフラッシュユニット等)を含んでもよい。他の実現例において、フラッシュユニット380は、デバイス300に組み込まれたフラッシュユニット、デバイス300から離間したフラッシュユニット、電子キセノン閃光ランプ、マイクロフラッシュ等を含んでもよい。マイク390は、デバイス300により撮影されるユーザ及び/又は被験者から可聴情報を受信してもよい。
【0040】
図3A及び図3Bはデバイス300の例示的な構成要素を示すが、他の実現例において、デバイス300は、図3A及び図3Bに示されたものより少ない構成要素、図3A及び図3Bに示されたのとは異なる構成要素、図3A及び図3Bに示された以外の更なる構成要素又は図3A及び図3Bに示されたのとは異なる方法で配置された構成要素を含んでもよい。更に他の実現例において、デバイス300の1つ以上の構成要素は、デバイス300の1つ以上の他の構成要素により実行されるものとして説明された1つ以上の他のタスクを実行してもよい。
【0041】
図4は、デバイス200又は300の例示的な構成要素を示す図である。図4に示されるように、デバイス200/300は、処理ユニット400、メモリ420、ユーザインタフェース430、通信インタフェース440及びアンテナアセンブリ450を含んでもよい。
【0042】
処理ユニット410は、1つ以上のプロセッサ、マイクロプロセッサ、特定用途向け集積回路(ASIC)又はフィールドプログラマブルゲートアレイ(FPGA)等を含んでもよい。処理ユニット410は、デバイス200/300及びその構成要素の動作を制御してもよい。
【0043】
メモリ420は、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、並びに/あるいは処理ユニット410により使用されてもよいデータ及び命令を格納するあらゆる種類のメモリを含んでもよい。
【0044】
ユーザインタフェース430は、デバイス200/300に情報を入力し、且つ/あるいはデバイス200/300から情報を出力する機構を含んでもよい。入力機構及び出力機能の例には、電気信号を受信してオーディオ信号を出力するスピーカ(例えば、スピーカ320)、画像信号及び/又はビデオ信号を受信して電気信号を出力するカメラレンズ(例えば、レンズ220又はカメラレンズ370)、オーディオ信号を受信して電気信号を出力するマイク(例えばマイク360又は390)、データコマンド及び制御コマンドをデバイス200/300に入力できるボタン(例えば、ジョイスティック、ボタン250、制御ボタン340又はキーパッド350のキー)、視覚情報を出力するディスプレイ(例えば、ディスプレイ330)、並びに/あるいはデバイス200/300を振動させるバイブレータが含まれてもよい。
【0045】
通信インタフェース440は、例えば、処理ユニット410からのベースバンド信号を無線周波数(RF)信号に変換できる送信機及び/又はRF信号をベースバンド信号に変換できる受信機を含んでもよい。あるいは、通信インタフェース440は、送信機及び受信機の双方の機能を実行する送受信機を含んでもよい。通信インタフェース440は、RF信号を送受信するアンテナアセンブリ450に接続してもよい。
【0046】
アンテナアセンブリ450は、無線でRF信号を送受信する1つ以上のアンテナを含んでもよい。例えばアンテナアセンブリ450は、通信インタフェース440からRF信号を受信し且つ無線でそれらを送信してもよく、無線でRF信号を受信し且つそれらを通信インタフェース440に提供してもよい。一実現例において、例えば通信インタフェース440は、ネットワーク(例えば、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、公衆交換電話網(PSTN)等の電話ネットワーク、イントラネット、インターネット又はネットワークの組合せ)と通信してもよい。
【0047】
本明細書において説明するように、デバイス200/300は、メモリ420等のコンピュータ可読媒体に含まれたソフトウェア命令を実行する処理ユニット410に応答して、ある特定の動作を実行してもよい。コンピュータ可読媒体は、物理メモリ素子又は論理メモリ素子として規定されてもよい。論理メモリ素子は、単一の物理メモリ素子内にメモリ空間を含んでもよく、あるいは複数の物理メモリ素子にわたり拡散してもよい。ソフトウェア命令は、通信インタフェース440を介して別のコンピュータ可読媒体又は別のデバイスからメモリ420に読み込まれてもよい。メモリ420に含まれたソフトウェア命令により、処理ユニット410は後述される処理を実行してもよい。あるいは、ハードワイヤード回路網は、本明細書において説明する処理を実現するソフトウェア命令の代わりに又はそれと組み合わせて使用されてもよい。従って、本明細書において説明する実現例は、ハードウェア回路網とソフトウェアとの何らかの特定の組み合わせに限定されない。
【0048】
図4はデバイス200/300の例示的な構成要素を示すが、他の実現例において、デバイス200/300は、図4に示されたものより少ない構成要素、図4に示されたのとは異なる構成要素、図4に示された以外の更なる構成要素又は図4に示されたのとは異なる方法で配置された構成要素を含んでもよい。更に他の実現例において、デバイス200/300の1つ以上の構成要素は、デバイス200/300の1つ以上の他の構成要素により実行されるものとして説明された1つ以上の他のタスクを実行してもよい。
【0049】
例示的なデバイス動作
図5は、デバイス200/300が実行できる単一の人物の場合の例示的な音声制御画像編集動作500を示す図である。図示されるように、デバイス200/300は、第1の被験者120(例えば、単一の人物)の画像を撮影できるように、第1の被験者120と共に配置されてもよい。デバイス200/300のユーザは、デバイス200/300と関連付けられた会話の吹き出しモード(例えば、画像撮影モード)を選択してもよく、デバイス200/300は、第1の被験者120と関連付けられた(例えば、マイク360/390を介して)オーディオ510を記録し始めてもよい。ユーザが写真を撮る場合、デバイス200/300は、第1の被験者120の画像520を撮影してもよく、記録されたオーディオ510(例えば、画像520が撮影される時間に時間的に近接する)及び撮影された画像520をデバイス200/300のメモリ420に格納してもよい。記録されたオーディオ510は、デバイス200/300により画像520が撮影される前及び後の双方に記録されるオーディオを含んでもよい。例えば記録されたオーディオ510は、第1の被験者120により話された言葉(例えば、「I’m sorry, I have no time to speak for the moment. I’m in Paris working!」)を含んでもよい。デバイス200/300は、記録されたオーディオ510を画像520が撮影された頃に話された(例えば、被験者120により)言葉を記録するオーディオクリップに短くしてもよい。オーディオクリップは、記録されたオーディオ510間で無音期間を識別することにより、全文を含んでもよい。
【0050】
デバイス200/300は、会話認識ソフトウェアを使用して記録されたオーディオ510(例えば、オーディオクリップ)をテキストに変換してもよい。一実現例において、会話認識は、デバイス200/300に提供された(例えば、デバイス200/300の処理ユニット410及びメモリ420を介して)会話認識ソフトウェアを用いて記録されたオーディオ510に対して実行されてもよい。別の実現例において、会話認識は、デバイス200/300と通信する(例えば、通信インタフェース440を介して)デバイス上に提供された会話認識ソフトウェアを用いて記録されたオーディオ510に対して実行されてもよい。会話認識ソフトウェアは、話された言葉を機械可読入力(例えば、テキスト)に変換するあらゆるソフトウェアを含んでもよい。会話認識ソフトウェアの例には、「Voice on the Go」、旭化成により提供される「Vorero」、IBMにより提供される「WebSphere Voice Server」、「Microsoft Speech Server」等が含まれる。
【0051】
デバイス200/300は、撮影された画像520において第1の被験者120の頭の場所を判定するために顔検出ソフトウェアを使用してもよい。一実現例において、顔検出は、デバイス200/300に提供された(例えば、デバイス200/300の処理ユニット410及びメモリ420を介して)顔検出ソフトウェアを用いて撮影された画像520に対して実行されてもよい。別の実現例において、顔検出は、デバイス200/300と通信する(例えば、通信インタフェース440を介して)デバイス上に提供された顔検出ソフトウェアを用いて撮影された画像520に対して実行されてもよい。顔検出ソフトウェアは、画像において顔の場所及び大きさを判定し、顔の特徴を検出し、且つ他のあらゆるもの(例えば、建物、木、体等)を無視するあらゆる顔検出技術を含んでもよい。
【0052】
デバイス200/300は、記録されたオーディオ510の変換されたテキストを含む会話の吹き出し530を作成してもよい。撮影された画像520において判定された第1の被験者120の頭の場所に基づいて、デバイス200/300は、撮影された画像520において会話の吹き出し530を第1の被験者120の頭の隣に位置付けてもよい。一実現例において、デバイス200/300のユーザは、撮影された画像520に応じて会話の吹き出し530を手動で再位置付けしてもよく、且つ/あるいは会話の吹き出し530に提供されたテキストを手動で編集してもよい。デバイス200/300は、第1の被験者120の位置付けられた会話の吹き出し530と撮影された画像520とを組み合わせて最終画像540を形成してもよい。デバイス200/300は、画像540を表示してもよく(例えば、ディスプレイ330を介して)、且つ/あるいは画像540を格納してもよい(例えば、メモリ420に)。
【0053】
図5はデバイス200/300の例示的な構成要素を示すが、他の実現例において、デバイス200/300は、図5に示されたものより少ない構成要素、図5に示されたのとは異なる構成要素、図5に示された以外の更なる構成要素又は図5に示されたのとは異なる方法で配置された構成要素を含んでもよい。更に他の実現例において、デバイス200/300の1つ以上の構成要素は、デバイス200/300の1つ以上の他の構成要素により実行されるものとして説明された1つ以上の他のタスクを実行してもよい。
【0054】
図6は、デバイス200/300の例示的な構成要素を示す図である。図示されるように、デバイス200/300は、オーディオ/テキスト変換器600、画像解析器610及び画像/会話の吹き出し生成器620を含んでもよい。一実現例において、図6で説明する機能は、図4に示されたデバイス200/300の例示的な構成要素のうちの1つ以上により実行されてもよい。
【0055】
オーディオ/テキスト変換器600は、記録されたオーディオ510を受信する(例えば、第1の被験者120から)あらゆるハードウェア又はハードウェアとソフトウェアとの組合せを含んでもよく、会話認識ソフトウェアを使用して記録されたオーディオ510(例えば、オーディオクリップ)をテキスト630(例えば、記録されたオーディオ510の)に変換してもよい。一実現例において、会話認識は、デバイス200/300に提供された(例えば、オーディオ/テキスト変換器600を介して)会話認識ソフトウェアを用いて記録されたオーディオ510に対して実行されてもよい。別の実現例において、会話認識は、デバイス200/300と通信する(例えば、通信インタフェース440を介して)デバイス上に提供された会話認識ソフトウェアを用いて記録されたオーディオ510に対して実行されてもよい。オーディオ/テキスト変換器600は、テキスト630を画像/会話の吹き出し生成器620に提供してもよい。
【0056】
画像解析器610は、撮影された画像520(例えば、第1の被験者120の)を受信するあらゆるハードウェア又はハードウェアとソフトウェアとの組合せを含んでもよく、撮影された画像520において第1の被験者120の頭の場所640を判定するために顔検出ソフトウェアを使用してもよい。一実現例において、顔検出は、デバイス200/300に提供された(例えば、画像解析器610を介して)顔検出ソフトウェアを用いて撮影された画像520に対して実行されてもよい。別の実現例において、顔検出は、デバイス200/300と通信する(例えば、通信インタフェース440を介して)デバイス上に提供された顔検出ソフトウェアを用いて撮影された画像520に対して実行されてもよい。画像解析器610は、撮影された画像520における第1の被験者120の頭の場所640を画像/会話の吹き出し生成器620に提供してもよい。
【0057】
画像/会話の吹き出し生成器620は、オーディオ/テキスト変換器600からテキスト630を受信するあらゆるハードウェア又はハードウェアとソフトウェアとの組合せを含んでもよく、画像解析器610から場所640を受信してもよく、テキスト630を含む会話の吹き出し530を作成してもよい。場所640に基づいて、画像/会話の吹き出し生成器620は、撮影された画像520において会話の吹き出し530を第1の被験者120の頭の隣に位置付けてもよい。画像/会話の吹き出し生成器620は、第1の被験者120の位置付けられた会話の吹き出し530と撮影された画像520とを組み合わせて最終画像540を形成してもよい。
【0058】
図6はデバイス200/300の例示的な構成要素を示すが、他の実現例において、デバイス200/300は、図6に示されたものより少ない構成要素、図6に示されたのとは異なる構成要素、図6に示された以外の更なる構成要素又は図6に示されたのとは異なる方法で配置された構成要素を含んでもよい。更に他の実現例において、デバイス200/300の1つ以上の構成要素は、デバイス200/300の1つ以上の他の構成要素により実行されるものとして説明された1つ以上の他のタスクを実行してもよい。
【0059】
図7は、デバイス200/300が実行できる複数の人物の場合の例示的な音声制御画像編集動作700を示す図である。図示されるように、デバイス200/300は、第1の被験者120及び第2の被験者130(例えば、複数の人物)の画像を撮影できるように、第1の被験者120及び第2の被験者130と共に配置されてもよい。デバイス200/300のユーザは、デバイス200/300と関連付けられた会話の吹き出しモード(例えば、画像撮影モード)を選択してもよく、デバイス200/300は、被験者120/130と関連付けられた(例えば、マイク360/390を介して)オーディオ710を記録し始めてもよい。ユーザが写真を撮る場合、デバイス200/300は、被験者120/130の画像720を撮影してもよく、記録されたオーディオ710(例えば、画像720が撮影される時間に時間的に近接する)及び撮影された画像720をデバイス200/300のメモリ420に格納してもよい。記録されたオーディオ710は、画像720がデバイス200/300により撮影される前及び後の双方に記録されるオーディオを含んでもよい。例えば記録されたオーディオ710は、被験者120/130により話された言葉(例えば、「How’s it going today? Good. How are you?」)を含んでもよい。デバイス200/300は、記録されたオーディオ710を画像720が撮影された頃に話された(例えば、被験者120/130により)言葉を記録するオーディオクリップに短くしてもよい。オーディオクリップは、記録されたオーディオ710間で無音期間を識別することにより、全文を含んでもよい。
【0060】
2人以上の人物(例えば、被験者120/130)がデバイス200/300により撮影された画像720に存在し、且つ被験者120/130の双方が話している場合、デバイス200/300は、各被験者120/130に属する記録されたオーディオ710の部分を識別する必要があるだろう。これを達成するために、一実現例において、デバイス200/300は、被験者120/130のビデオ(又は複数の撮影された画像)を解析して被験者120/130の口の動きを判定してもよく、記録されたオーディオ710を口の動きと比較して各被験者120/130に属する記録されたオーディオ710の部分を判定してもよい。別の実現例において、デバイス200/300は、記録されたオーディオ710を解析して被験者120/130の声の違いを判定してもよく、各被験者120/130に属する記録されたオーディオ710の部分を判定するためにこの情報を使用してもよい。更に別の実現例において、デバイス200/300は、各被験者120/130に属する記録されたオーディオ710の部分を判定するために使用される1つ以上の指向性マイクを含んでもよい。更に別の実現例において、デバイス200/300は、各被験者120/130に属する記録されたオーディオ710の部分を判定するために、上述の技術の組合せを利用してもよい。
【0061】
デバイス200/300は、会話認識ソフトウェアを使用して記録されたオーディオ710(例えば、オーディオクリップ)をテキストに変換してもよい。一実現例において、会話認識は、デバイス200/300に提供された(例えば、デバイス200/300の処理ユニット410及びメモリ420を介して)会話認識ソフトウェアを用いて記録されたオーディオ710に対して実行されてもよい。別の実現例において、会話認識は、デバイス200/300と通信する(例えば、通信インタフェース440を介して)デバイス上に提供された会話認識ソフトウェアを用いて記録されたオーディオ710に対して実行されてもよい。デバイス200/300は、第1の被験者120に属する記録されたオーディオ710の部分の変換されたテキストを含む会話の吹き出し730を作成してもよく、第2の被験者130に属する記録されたオーディオ710の部分の変換されたテキストを含む会話の吹き出し740を作成してもよい。
【0062】
デバイス200/300は、撮影された画像720において各被験者120/130の頭の場所を判定するために顔検出ソフトウェアを使用してもよい。一実現例において、顔検出は、デバイス200/300に提供された(例えば、デバイス200/300の処理ユニット410及びメモリ420を介して)顔検出ソフトウェアを用いて撮影された画像720に対して実行されてもよい。別の実現例において、顔検出は、デバイス200/300と通信する(例えば、通信インタフェース440を介して)デバイス上に提供された顔検出ソフトウェアを用いて撮影された画像720に対して実行されてもよい。
【0063】
撮影された画像720において判定された第1の被験者120の頭の場所に基づいて、デバイス200/300は、撮影された画像720において会話の吹き出し730を第1の被験者120の頭の隣に位置付けてもよい。撮影された画像720において判定された第2の被験者130の頭の場所に基づいて、デバイス200/300は、撮影された画像720において会話の吹き出し740を第2の被験者130の頭の隣に位置付けてもよい。デバイス200/300は、会話の吹き出し730/740に提供されたテキストが被験者120/130により話される時間順に従って会話の吹き出し730/740を配置してもよい。例えば、第2の被験者130が「Good. How are you?」というテキスト(例えば、会話の吹き出し740に提供された)を話す前に第1の被験者120が「How’s it going today?」というテキスト(例えば、会話の吹き出し730に提供された)を話した場合、デバイス200/300は、正しい時間順を示すために、会話の吹き出し730を会話の吹き出し740の左(又は上)に配置してもよい。
【0064】
一実現例において、デバイス200/300のユーザは、撮影された画像750に応じて会話の吹き出し730/740を手動で再位置付けしてもよく、且つ/あるいは会話の吹き出し730/740に提供されたテキストを手動で編集してもよい。デバイス200/300は、被験者120/130の位置付けられた会話の吹き出し730/740と撮影された画像720とを組み合わせて最終画像750を形成してもよい。デバイス200/300は、画像750を表示してもよく(例えば、ディスプレイ330を介して)、且つ/あるいは画像750を格納してもよい(例えば、メモリ420に)。
【0065】
図7はデバイス200/300の例示的な構成要素を示すが、他の実現例において、デバイス200/300は、図7に示されたものより少ない構成要素、図7に示されたのとは異なる構成要素、図7に示された以外の更なる構成要素又は図7に示されたのとは異なる方法で配置された構成要素を含んでもよい。更に他の実現例において、デバイス200/300の1つ以上の構成要素は、デバイス200/300の1つ以上の他の構成要素により実行されるものとして説明された1つ以上の他のタスクを実行してもよい。
【0066】
図8は、図6に示されたオーディオ/テキスト変換器600、画像解析器610及び画像/会話の吹き出し生成器620が実行できる更なる動作を示す図である。一実現例において、図8で説明する機能は、図4に示されたデバイス200/300の例示的な構成要素のうちの1つ以上により実行されてもよい。
【0067】
オーディオ/テキスト変換器600は、記録されたオーディオ710を受信してもよく(例えば、被験者120/130から)、記録されたオーディオ710(例えば、オーディオクリップ)を第1の被験者120と関連付けられたテキスト800(例えば、記録されたオーディオ710の)及び第2の被験者130と関連付けられたテキスト810(例えば、記録されたオーディオ710の)に変換してもよい。オーディオ/テキスト変換器600は、テキスト800及びテキスト810を画像/会話の吹き出し生成器620に提供してもよい。
【0068】
画像解析器610は、被験者120/130の記録されたオーディオ710及びビデオ820を受信してもよく、ビデオ820を解析して被験者120/130の口の動きを判定してもよく、記録されたオーディオ710を口の動きと比較して各被験者120/130に属する記録されたオーディオ710の部分を判定してもよい。画像解析器610は、記録されたオーディオ710を解析して被験者120/130の声の違いを判定してもよく、各被験者120/130に属する記録されたオーディオ710の部分を判定するためにこの情報を使用してもよい。画像解析器610は、撮影された画像720において被験者120/130の頭の場所を判定するために顔検出ソフトウェアを使用してもよく、頭の場所情報を判定された各被験者120/130に属する記録されたオーディオ710の部分と組み合わせて、オーディオ/第1の被験者一致情報830及びオーディオ/第2の被験者一致情報840を生成してもよい。画像解析器610は、情報830及び840を画像/会話の吹き出し生成器620に提供してもよい。
【0069】
画像/会話の吹き出し生成器620は、オーディオ/テキスト変換器600からテキスト800/810を受信してもよく、画像解析器610から情報830/840を受信してもよい。画像/会話の吹き出し生成器620は、撮影された画像720において判定された第1の被験者120の場所に基づいて、撮影された画像720において会話の吹き出し730を第1の被験者120の頭の隣に位置付けてもよい。画像/会話の吹き出し生成器620は、撮影された画像720において判定された第2の被験者130の場所に基づいて、撮影された画像720において会話の吹き出し740を第2の被験者130の頭の隣に位置付けてもよい。画像/会話の吹き出し生成器620は、被験者120/130の位置付けられた会話の吹き出し730/740と撮影された画像720とを組み合わせて最終画像750を形成してもよい。
【0070】
図8はデバイス200/300の例示的な構成要素を示すが、他の実現例において、デバイス200/300は、図8に示されたものより少ない構成要素、図8に示されたのとは異なる構成要素、図8に示された以外の更なる構成要素又は図8に示されたのとは異なる方法で配置された構成要素を含んでもよい。更に他の実現例において、デバイス200/300の1つ以上の構成要素は、デバイス200/300の1つ以上の他の構成要素により実行されるものとして説明された1つ以上の他のタスクを実行してもよい。
【0071】
図9は、デバイス200/300が実行できる動物の場合の例示的な音声制御画像編集動作900を示す図である。図示されるように、デバイス200/300は、ユーザ920が(例えば、デバイス200/300を介して)動物910(例えば、犬、猫、馬等の頭を含む人間以外の生物)の画像を撮影できるように、動物910と共に配置されてもよい。ユーザ920は、デバイス200/300と関連付けられた会話の吹き出しモード(例えば、画像撮影モード)を選択してもよく、デバイス200/300は、ユーザ920により提供された(例えば、マイク360/390を介して)オーディオ930を記録し始めてもよい。ユーザ920が写真を撮る場合、デバイス200/300は、動物9190の画像940を撮影してもよく、記録されたオーディオ930(例えば、画像940が撮影される時間に時間的に近接する)及び撮影された画像940をデバイス200/300のメモリ420に格納してもよい。記録されたオーディオ930は、デバイス200/300により画像940が撮影される前及び後の双方に記録されるオーディオを含んでもよい。例えば記録されたオーディオ930は、ユーザ920により話された言葉(例えば、「I am so cute and cuddly!」)を含んでもよい。デバイス200/300は、記録されたオーディオ930を画像940が撮影された頃に話された(例えば、ユーザ920により)言葉を記録するオーディオクリップに短くしてもよい。オーディオクリップは、記録されたオーディオ930間で無音期間を識別することにより、全文を含んでもよい。
【0072】
デバイス200/300は、会話認識ソフトウェアを使用して記録されたオーディオ930(例えば、オーディオクリップ)をテキストに変換してもよい。一実現例において、会話認識は、デバイス200/300に提供された(例えば、デバイス200/300の処理ユニット410及びメモリ420を介して)会話認識ソフトウェアを用いて記録されたオーディオ930に対して実行されてもよい。別の実現例において、会話認識は、デバイス200/300と通信する(例えば、通信インタフェース440を介して)デバイス上に提供された会話認識ソフトウェアを用いて記録されたオーディオ930に対して実行されてもよい。
【0073】
デバイス200/300は、撮影された画像940において動物910の頭の場所を判定するために顔検出ソフトウェアを使用してもよい。一実現例において、顔検出は、デバイス200/300に提供された(例えば、デバイス200/300の処理ユニット410及びメモリ420を介して)顔検出ソフトウェアを用いて撮影された画像940に対して実行されてもよい。別の実現例において、顔検出は、デバイス200/300と通信する(例えば、通信インタフェース440を介して)デバイス上に提供された顔検出ソフトウェアを用いて撮影された画像940に対して実行されてもよい。
【0074】
デバイス200/300は、記録されたオーディオ930の変換されたテキストを含む会話の吹き出し950を作成してもよい。撮影された画像940において判定された動物910の頭の場所に基づいて、デバイス200/300は、撮影された画像940において会話の吹き出し950を動物910の頭の隣に位置付けてもよい。一実現例において、ユーザ920は、撮影された画像940に応じて会話の吹き出し950を手動で再位置付けしてもよく、且つ/あるいは会話の吹き出し950に提供されたテキストを手動で編集してもよい。デバイス200/300は、動物910の位置付けられた会話の吹き出し950と撮影された画像940とを組み合わせて最終画像960を形成してもよい。デバイス200/300は、画像960を表示してもよく(例えば、ディスプレイ330を介して)、且つ/あるいは画像960を格納してもよい(例えば、メモリ420に)。
【0075】
図9はデバイス200/300の例示的な構成要素を示すが、他の実現例において、デバイス200/300は、図9に示されたものより少ない構成要素、図9に示されたのとは異なる構成要素、図9に示された以外の更なる構成要素又は図9に示されたのとは異なる方法で配置された構成要素を含んでもよい。更に他の実現例において、デバイス200/300の1つ以上の構成要素は、デバイス200/300の1つ以上の他の構成要素により実行されるものとして説明された1つ以上の他のタスクを実行してもよい。
【0076】
図10は、デバイス200/300が実行できる被写体の場合の例示的な音声制御画像編集動作1000を示す図である。図示されるように、デバイス200/300は、ユーザ1020が(例えば、デバイス200/300を介して)被写体1010(例えば、自動車、家等の無生物の被写体)の画像を撮影できるように、被写体1010と共に配置されてもよい。ユーザ1020は、デバイス200/300と関連付けられた会話の吹き出しモード(例えば、画像撮影モード)を選択してもよく、デバイス200/300は、ユーザ1020により提供された(例えば、マイク360/390を介して)オーディオ1030を記録し始めてもよい。ユーザ1020が写真を撮る場合、デバイス200/300は、被写体1010の画像1040を撮影してもよく、記録されたオーディオ1030(例えば、画像1040が撮影される時間に時間的に近接する)及び撮影された画像1040をデバイス200/300のメモリ420に格納してもよい。記録されたオーディオ1030は、デバイス200/300により画像1040が撮影される前及び後の双方に記録されるオーディオを含んでもよい。例えば記録されたオーディオ1030は、ユーザ1020により話された言葉(例えば、「Isn’t she lovely?」)を含んでもよい。デバイス200/300は、記録されたオーディオ1030を画像1040が撮影された頃に話された(例えば、ユーザ1020により)言葉を記録するオーディオクリップに短くしてもよい。オーディオクリップは、記録されたオーディオ1030間で無音期間を識別することにより、全文を含んでもよい。
【0077】
デバイス200/300は、会話認識ソフトウェアを使用して記録されたオーディオ1030(例えば、オーディオクリップ)をテキストに変換してもよい。一実現例において、会話認識は、デバイス200/300に提供された(例えば、デバイス200/300の処理ユニット410及びメモリ420を介して)会話認識ソフトウェアを用いて記録されたオーディオ1030に対して実行されてもよい。別の実現例において、会話認識は、デバイス200/300と通信する(例えば、通信インタフェース440を介して)デバイス上に提供された会話認識ソフトウェアを用いて記録されたオーディオ1030に対して実行されてもよい。デバイス200/300は、撮影された画像1040において頭の場所を判定するために顔検出ソフトウェアを使用してもよい。しかし、被写体1010が頭を有さないため、デバイス200/300は撮影された画像1040において頭を検出できない。
【0078】
撮影された画像1040において頭が検出されない場合、デバイス200/300は、記録されたオーディオ1030の変換されたテキストを含むタイトル1050(例えば、撮影された画像1040に対する)を作成してもよい。デバイス200/300は、撮影された画像1040においてタイトル1050を被写体1010の隣に位置付けてもよい(例えば、タイトルとして)。一実現例において、ユーザ1020は、撮影された画像1040に応じてタイトル1050を手動で再位置付けしてもよく、且つ/あるいはタイトル1050に提供されたテキストを手動で編集してもよい。デバイス200/300は、被写体1010の位置付けられたタイトル1050と撮影された画像1040とを組み合わせて最終画像1060を形成してもよい。デバイス200/300は、画像1060を表示してもよく(例えば、ディスプレイ330を介して)、且つ/あるいは画像1060を格納してもよい(例えば、メモリ420に)。
【0079】
図10はデバイス200/300の例示的な構成要素を示すが、他の実現例において、デバイス200/300は、図10に示されたものより少ない構成要素、図10に示されたのとは異なる構成要素、図10に示された以外の更なる構成要素又は図10に示されたのとは異なる方法で配置された構成要素を含んでもよい。更に他の実現例において、デバイス200/300の1つ以上の構成要素は、デバイス200/300の1つ以上の他の構成要素により実行されるものとして説明された1つ以上の他のタスクを実行してもよい。
【0080】
図11は、デバイス200/300が実行できる複数の人物の場合の例示的な音声制御画像編集動作1100を示す図である。図示されるように、デバイス200/300は、第1の被験者120及び第2の被験者130(例えば、複数の人物)の画像を撮影できるように、第1の被験者120及び第2の被験者130と共に配置されてもよい。デバイス200/300のユーザは、デバイス200/300と関連付けられた会話の吹き出しモード(例えば、画像撮影モード)を選択してもよく、デバイス200/300は、被験者120/130と関連付けられた(例えば、マイク360/390を介して)オーディオ1110を記録し始めてもよい。ユーザが写真を撮る場合、デバイス200/300は、被験者120/130の画像1120を撮影してもよく、記録されたオーディオ1110(例えば、画像1120が撮影される時間に時間的に近接する)及び撮影された画像1120をデバイス200/300のメモリ420に格納してもよい。記録されたオーディオ1110は、画像1120がデバイス200/300により撮影される前及び後の双方に記録されるオーディオを含んでもよい。例えば記録されたオーディオ1110は、被験者120/130により話された言葉(例えば、「... and moronic stringing together of words the studios terms as prose.」)を含んでもよい。デバイス200/300は、記録されたオーディオ1110を画像1120が撮影された頃に話された(例えば、被験者120/130により)言葉を記録するオーディオクリップに短くしてもよい。オーディオクリップは、記録されたオーディオ1110間で無音期間を識別することにより、全文を含んでもよい。
【0081】
デバイス200/300は、各被験者120/130に属する記録されたオーディオ710の部分を識別することを試みてもよい。一実現例において、デバイス200/300は、被験者120/130のビデオ(又は複数の撮影された画像)を解析して被験者120/130の口の動きを判定してもよく、記録されたオーディオ1110を口の動きと比較して各被験者120/130に属する記録されたオーディオ1110の部分を判定してもよい。別の実現例において、デバイス200/300は、記録されたオーディオ1110を解析して被験者120/130の声の違いを判定してもよく、各被験者120/130に属する記録されたオーディオ1110の部分を判定するためにこの情報を使用してもよい。更に別の実現例において、デバイス200/300は、各被験者120/130に属する記録されたオーディオ1110の部分を判定するために、上述の技術の組合せを利用してもよい。
【0082】
デバイス200/300は、会話認識ソフトウェアを使用して記録されたオーディオ1110(例えば、オーディオクリップ)をテキストに変換してもよい。一実現例において、会話認識は、デバイス200/300に提供された(例えば、デバイス200/300の処理ユニット410及びメモリ420を介して)会話認識ソフトウェアを用いて記録されたオーディオ1110に対して実行されてもよい。別の実現例において、会話認識は、デバイス200/300と通信する(例えば、通信インタフェース440を介して)デバイス上に提供された会話認識ソフトウェアを用いて記録されたオーディオ1110に対して実行されてもよい。デバイス200/300は、各被験者120/130に属する記録されたオーディオ1110の部分を識別できない場合、記録されたオーディオ1110の変換されたテキストを含む字幕1130を作成してもよい。字幕1130は、各被験者120/130が属する記録されたオーディオ1110の部分をデバイス200/300が識別できる場合にも提供されてもよい。字幕1130は、各被験者120/130が属する記録されたオーディオ1110の部分を識別することを必要とせずに、記録されたオーディオ1110の変換されたテキストを表示してもよい。字幕1130は、オーディオ1110のリアルタイムの変換を提供してもよく、聴覚障害者に対して及び更には変換のために(例えば、図13に関連して以下に説明する)ビデオ眼鏡を用いて(例えば、図14に関連して以下に説明する)使用されてもよい。字幕1130をリアルタイムに表示することにより、被験者の頭に向けられた会話の吹き出しの必要性を排除してもよい。
【0083】
デバイス200/300は、各被験者120/130に属する記録されたオーディオ1110の部分を識別できない場合、撮影された画像1120において字幕1130を被験者120/130の隣(例えば、下)に位置付けてもよい。一実現例において、デバイス200/300のユーザは、撮影された画像1120に応じて字幕1130を手動で再位置付けしてもよく、且つ/あるいは字幕1130に提供されたテキストを手動で編集してもよい。デバイス200/300は、被験者120/130の位置付けられた字幕1130と撮影された画像1120とを組み合わせて最終画像1140を形成してもよい。デバイス200/300は、画像1140を表示してもよく(例えば、ディスプレイ330を介して)、且つ/あるいは画像1140を格納してもよい(例えば、メモリ420に)。
【0084】
図11はデバイス200/300の例示的な構成要素を示すが、他の実現例において、デバイス200/300は、図11に示されたものより少ない構成要素、図11に示されたのとは異なる構成要素、図11に示された以外の更なる構成要素又は図11に示されたのとは異なる方法で配置された構成要素を含んでもよい。更に他の実現例において、デバイス200/300の1つ以上の構成要素は、デバイス200/300の1つ以上の他の構成要素により実行されるものとして説明された1つ以上の他のタスクを実行してもよい。例えばデバイス200/300は、画像1140に濃淡を付加してもよく、画像1140をエンボス加工してもよく、画像1140を油絵として生成してもよく、画像1140又は画像1140の一部をトリミングするかあるいはズームする等してもよい。

図12は、デバイス200/300が実行できる単一の人物の場合の例示的な音声制御画像編集動作1200を示す図である。図示されるように、デバイス200/300は、ユーザ1220が(例えば、デバイス200/300を介して)被験者1210(例えば、被験者120/130に類似する)の画像を撮影できるように、被験者1210及びユーザ1220と共に配置されてもよい。ユーザ1020は、デバイス200/300と関連付けられた会話の吹き出しモード(例えば、画像撮影モード)を選択してもよく、音声コマンド1230をデバイス200/300に提供してもよい。音声コマンド1230は、特定の動作を実行するようにデバイス200/300に命令する1つ又は複数の言葉を含んでもよい。例えば音声コマンド1230は、思考の吹き出し動作を実行するようにデバイス200/300に命令するコマンド(例えば、「思考の吹き出し」)を含んでもよい。音声コマンド1230を受信した後、デバイス200/300は、ユーザ1220により提供された(例えば、マイク360/390を介して)オーディオ1240を記録し始めてもよい。ユーザ1220が写真を撮る場合、デバイス200/300は、被験者1210の画像1250を撮影してもよく、記録されたオーディオ1240(例えば、画像1250が撮影される時間に時間的に近接する)及び撮影された画像1250をデバイス200/300のメモリ420に格納してもよい。記録されたオーディオ1240は、デバイス200/300により画像1250が撮影される前及び後の双方に記録されるオーディオを含んでもよい。例えば記録されたオーディオ1240は、ユーザ1220により話された言葉(例えば、「A football and friends would be nice!」)を含んでもよい。デバイス200/300は、記録されたオーディオ1240を画像1250が撮影された頃に話された(例えば、ユーザ1220により)言葉を記録するオーディオクリップに短くしてもよい。オーディオクリップは、記録されたオーディオ1240間で無音期間を識別することにより、全文を含んでもよい。
【0085】
デバイス200/300は、会話認識ソフトウェアを使用して記録されたオーディオ1240(例えば、オーディオクリップ)をテキストに変換してもよい。一実現例において、会話認識は、デバイス200/300に提供された(例えば、デバイス200/300の処理ユニット410及びメモリ420を介して)会話認識ソフトウェアを用いて記録されたオーディオ1240に対して実行されてもよい。別の実現例において、会話認識は、デバイス200/300と通信する(例えば、通信インタフェース440を介して)デバイス上に提供された会話認識ソフトウェアを用いて記録されたオーディオ1240に対して実行されてもよい。
【0086】
デバイス200/300は、撮影された画像1250の被験者1210の頭の場所を判定するために顔検出ソフトウェアを使用してもよい。一実現例において、顔検出は、デバイス200/300に提供された(例えば、デバイス200/300の処理ユニット410及びメモリ420を介して)顔検出ソフトウェアを用いて撮影された画像1250に対して実行されてもよい。別の実現例において、顔検出は、デバイス200/300と通信する(例えば、通信インタフェース440を介して)デバイス上に提供された顔検出ソフトウェアを用いて撮影された画像520に対して実行されてもよい。
【0087】
デバイス200/300は、記録されたオーディオ1240の変換されたテキストを含む思考の吹き出し1260を作成してもよい(例えば、音声コマンド1230に基づいて)。撮影された画像1250において判定された被験者1210の頭の場所に基づいて、デバイス200/300は、撮影された画像1250において思考の吹き出し1260を被験者1210の頭の隣に位置付けてもよい。一実現例において、ユーザ1210は、撮影された画像1250に応じて思考の吹き出し1260を手動で再位置付けしてもよく、且つ/あるいは思考の吹き出し1260に提供されたテキストを手動で編集してもよい。デバイス200/300は、被験者1210の位置付けられた思考の吹き出し1260と撮影された画像1250とを組み合わせて最終画像1270を形成してもよい。デバイス200/300は、画像1270を表示してもよく(例えば、ディスプレイ330を介して)、且つ/あるいは画像1270を格納してもよい(例えば、メモリ420に)。
【0088】
図12はデバイス200/300の例示的な構成要素を示すが、他の実現例において、デバイス200/300は、図12に示されたものより少ない構成要素、図12に示されたのとは異なる構成要素、図12に示された以外の更なる構成要素又は図12に示されたのとは異なる方法で配置された構成要素を含んでもよい。更に他の実現例において、デバイス200/300の1つ以上の構成要素は、デバイス200/300の1つ以上の他の構成要素により実行されるものとして説明された1つ以上の他のタスクを実行してもよい。
【0089】
図13は、デバイス200/300が実行できる例示的な音声制御画像編集及び翻訳動作1300を示す図である。図示されるように、デバイス200/300は、第1の被験者120の画像を撮影できるように、第1の被験者120と共に配置されてもよい。デバイス200/300のユーザは、デバイス200/300と関連付けられた会話の吹き出しモード(例えば、画像撮影モード)を選択してもよく、デバイス200/300は、第1の被験者120と関連付けられ(例えば、マイク360/390を介して)且つ第1言語(例えば、スペイン語)で提供されたオーディオ1310を記録し始めてもよい。ユーザが写真を撮る場合、デバイス200/300は、第1の被験者120の画像1320を撮影してもよく、記録されたオーディオ1310(例えば、画像1320が撮影される時間に時間的に近接する)及び撮影された画像1320をデバイス200/300のメモリ420に格納してもよい。記録されたオーディオ1310は、デバイス200/300により画像1320が撮影される前及び後の双方に記録されるオーディオを含んでもよい。例えば記録されたオーディオ1310は、第1の被験者120により話された言葉(例えば、「Barcelona? It costs 20 Euro. Hurry the train is leaving!」という意味のスペイン語「Barcelona? Cuesta 20 euros. Rapido se va el tren!」)を含んでもよい。デバイス200/300は、記録されたオーディオ1310を画像1320が撮影された頃に話された(例えば、被験者120により)言葉を記録するオーディオクリップに短くしてもよい。オーディオクリップは、記録されたオーディオ1310間で無音期間を識別することにより、全文を含んでもよい。
【0090】
デバイス200/300は、会話認識ソフトウェアを使用して記録されたオーディオ1310(例えば、オーディオクリップ)を第2言語(例えば、英語)でテキストに変換してもよい。一実現例において、会話認識及び言語翻訳は、デバイス200/300に提供された(例えば、デバイス200/300の処理ユニット410及びメモリ420を介して)会話認識ソフトウェアを用いて記録されたオーディオ1310に対して実行されてもよい。別の実現例において、会話認識及び言語翻訳は、デバイス200/300と通信する(例えば、通信インタフェース440を介して)デバイス上に提供された会話認識ソフトウェアを用いて記録されたオーディオ1310に対して実行されてもよい。
【0091】
デバイス200/300は、撮影された画像1320において第1の被験者120の頭の場所を判定するために顔検出ソフトウェアを使用してもよい。一実現例において、顔検出は、デバイス200/300に提供された(例えば、デバイス200/300の処理ユニット410及びメモリ420を介して)顔検出ソフトウェアを用いて撮影された画像1320に対して実行されてもよい。別の実現例において、顔検出は、デバイス200/300と通信する(例えば、通信インタフェース440を介して)デバイス上に提供された顔検出ソフトウェアを用いて撮影された画像1320に対して実行されてもよい。
【0092】
デバイス200/300は、記録されたオーディオ1310の翻訳されたテキスト(例えば、「Barcelona? It costs 20 Euro. Hurry the train is leaving!」)を含む第2言語(例えば、英語)で会話の吹き出し1330を作成してもよい。撮影された画像1320において判定された第1の被験者120の頭の場所に基づいて、デバイス200/300は、撮影された画像1320において会話の吹き出し1330を第1の被験者120の頭の隣に位置付けてもよい。一実現例において、デバイス200/300のユーザは、撮影された画像1320に応じて会話の吹き出し1330を手動で再位置付けしてもよく、且つ/あるいは会話の吹き出し1330に提供されたテキストを手動で編集してもよい。デバイス200/300は、第1の被験者120の位置付けられた会話の吹き出し1330と撮影された画像1320とを組み合わせて最終画像1340を形成してもよい。デバイス200/300は、画像1340を表示してもよく(例えば、ディスプレイ330を介して)、且つ/あるいは画像1340を格納してもよい(例えば、メモリ420に)。
【0093】
会話の吹き出し1330(又は字幕)がデバイス200/300により表示される前に記録されたオーディオ1310を解釈し且つ翻訳する場合、何らかの遅延がある可能性がある。そのような遅延は、記録されたオーディオ1310が翻訳される際にその一部を表示することにより(例えば、記録されたオーディオ1310の完全な翻訳を待つのではなく)、減少するだろう。例えばデバイス200/300は、全文又は文の一部が解釈(及び翻訳)されるのを待つのではなく、記録されたオーディオ1310の言葉が解釈(及び翻訳)されるとすぐそれを表示してもよい。そのような構成において、デバイス200/300は殆ど遅延なく言葉を表示してもよく、ユーザは記録されたオーディオ1310を解釈し始めてもよい。全文又は文の一部がデバイス200/300により解釈(及び翻訳)されている場合、デバイス200/300は、言葉を再構成して文法的に正しい文又は文の一部を表示してもよい。デバイス200/300は、解釈(及び翻訳)されたテキストを複数の行で表示してもよく、新しく記録されたオーディオ1310がデバイス200/300により受信され、解釈され且つ表示されると、テキストの先の行を上方へスクロールするかあるいはフェードアウトしてもよい。
【0094】
図13はデバイス200/300の例示的な構成要素を示すが、他の実現例において、デバイス200/300は、図13に示されたものより少ない構成要素、図13に示されたのとは異なる構成要素、図13に示された以外の更なる構成要素又は図13に示されたのとは異なる方法で配置された構成要素を含んでもよい。更に他の実現例において、デバイス200/300の1つ以上の構成要素は、デバイス200/300の1つ以上の他の構成要素により実行されるものとして説明された1つ以上の他のタスクを実行してもよい 図14は、ビデオ眼鏡1410が実行できる例示的な音声制御画像編集及び翻訳動作1400を示す図である。一実現例において、図13に関連して上述した動作は、ビデオ眼鏡1410により実行されてもよい。ビデオ眼鏡1410は、フレーム、画像及び/又はビデオを表示するレンズ、フレーム内に隠蔽された小型カメラ、図4の構成要素等を含んでもよい。図14に示されるように、ビデオ眼鏡1410は、第1の被験者120の画像を撮影できるように、第1の被験者120と共に配置されてもよい。ビデオ眼鏡1410をかけているユーザは、ビデオ眼鏡1410と関連付けられた会話の吹き出しモード(例えば、画像撮影モード)を選択してもよく、ビデオ眼鏡1410は、第1の被験者120と関連付けられ且つ第1言語(例えば、スペイン語)で提供されたオーディオ1420を記録し始めてもよい。ビデオ眼鏡1410は、第1の被験者120の画像1430を撮影してもよく、記録されたオーディオ1420(例えば、画像1430が撮影される時間に時間的に近接する)及び撮影された画像1430をビデオ眼鏡1410に格納してもよい。記録されたオーディオ1420は、ビデオ眼鏡1410により画像1430が撮影される前及び後の双方に記録されるオーディオを含んでもよい。例えば記録されたオーディオ1310は、第1の被験者120により話された言葉(例えば、「The meeting will begin with a short presentation about...」という意味のスペイン語「La reunion comenzara con una breve presentacion acerca de...」)を含んでもよい。ビデオ眼鏡1410は、記録されたオーディオ1420を画像1430が撮影された頃に話された(例えば、被験者120により)言葉を記録するオーディオクリップに短くしてもよい。オーディオクリップは、記録されたオーディオ1420間で無音期間を識別することにより、全文を含んでもよい。
【0095】
ビデオ眼鏡1410は、会話認識ソフトウェアを使用して記録されたオーディオ1420(例えば、オーディオクリップ)を第2言語(例えば、英語)でテキストに変換してもよい。一実現例において、会話認識及び言語翻訳は、ビデオ眼鏡1410に提供された会話認識ソフトウェアを用いて記録されたオーディオ1420に対して実行されてもよい。別の実現例において、会話認識及び言語翻訳は、ビデオ眼鏡1410と通信するデバイス上に提供された会話認識ソフトウェアを用いて記録されたオーディオ1420に対して実行されてもよい。
【0096】
ビデオ眼鏡1410は、第1の被験者120の頭の場所を判定するために顔検出ソフトウェアを使用してもよい。一実現例において、顔検出は、ビデオ眼鏡1410に提供された顔検出ソフトウェアを用いて撮影された画像1430に対して実行されてもよい。別の実現例において、顔検出は、ビデオ眼鏡1410と通信するデバイス上に提供された顔検出ソフトウェアを用いて撮影された画像1430に対して実行されてもよい。
【0097】
ビデオ眼鏡1410は、記録されたオーディオ1420の翻訳されたテキスト(例えば、「The meeting will begin with a short presentation about...」)を含む第2言語(例えば、英語)で会話の吹き出し1330を作成してもよい。判定された第1の被験者120の頭の場所に基づいて、ビデオ眼鏡1410は、会話の吹き出し1440を第1の被験者120の頭の隣に位置付けてもよい。ビデオ眼鏡1410は、会話の吹き出し1440(例えば、レンズ上の)を第1の被験者120の頭の隣に表示してもよい。ビデオ眼鏡1410は、第1の被験者120、すなわちビデオ眼鏡1410をかけているユーザが移動する場合、第1の被験者120に対して会話の吹き出し1440の位置を自動的に更新してもよい。そのような構成により、ビデオ眼鏡1410をかけているユーザは実行中に言語翻訳を取得できる。ビデオ眼鏡1410は、リアルタイムのビデオを表示し且つ撮影してもよい(例えば、演劇を見ている難聴者に対して)。例えば、一実現例において、ビデオ眼鏡1410は、透明な眼鏡に会話の吹き出し1440(又は字幕)を表示してもよい。別の実現例において、ビデオ眼鏡1410は、会話の吹き出し1440(又は字幕)と共に被験者120のリアルタイムのビデオを表示してもよい。
【0098】
図14はビデオ眼鏡1410の例示的な構成要素を示すが、他の実現例において、ビデオ眼鏡1410は、図14に示されたものより少ない構成要素、図14に示されたのとは異なる構成要素、図14に示された以外の更なる構成要素又は図14に示されたのとは異なる方法で配置された構成要素を含んでもよい。更に他の実現例において、ビデオ眼鏡1410の1つ以上の構成要素は、ビデオ眼鏡1410の1つ以上の他の構成要素により実行されるものとして説明された1つ以上の他のタスクを実行してもよい。例えばビデオ眼鏡1410は、デバイス200/300により実行されるものとして本明細書において説明されたタスクを実行してもよい。
【0099】
図15は、デバイス200/300が実行できる複数の表現の場合の例示的な音声制御画像編集動作1500を示す図である。図示されるように、デバイスが記録されたオーディオを介して複数の表現又は対話を受信する場合、デバイス200/300は、そのような表現又は対話をいくつかの会話の吹き出しに分割してもよく、会話の吹き出しを時間順の画像(例えば、フリップチャートのコマ割り漫画のような)と関連付けてもよい。例えば、図15に示されるように、デバイス200/300は、第1の会話の吹き出し1510を作成してもよく、第1の会話の吹き出し1510を第1の撮影された画像と関連付けて第1の画像1520を作成してもよい。デバイス200/300は、第2の会話の吹き出し1530を作成してもよく、第2の会話の吹き出し1530を第2の撮影された画像と関連付けて第2の画像1540を作成してもよい。デバイス200/300は、第3の会話の吹き出し1550を作成してもよく、第3の会話の吹き出し1550を第3の撮影された画像と関連付けて第3の画像1560を作成してもよい。デバイス200/300は、画像1520と、1540と、1560とを組み合わせてもよく、その組合せを表示してもよく(例えば、ディスプレイ330を介して)、且つ/あるいはその組合せを格納してもよい(例えば、メモリ420に)。
【0100】
図15はデバイス200/300の例示的な構成要素を示すが、他の実現例において、デバイス200/300は、図15に示されたものより少ない構成要素、図15に示されたのとは異なる構成要素、図15に示された以外の更なる構成要素又は図15に示されたのとは異なる方法で配置された構成要素を含んでもよい。更に他の実現例において、デバイス200/300の1つ以上の構成要素は、デバイス200/300の1つ以上の他の構成要素により実行されるものとして説明された1つ以上の他のタスクを実行してもよい。
【0101】
例示的な処理
図16〜図18は、本明細書において説明する実現例に係る音声制御画像編集の例示的な処理1600を示すフローチャートである。一実現例において、処理1600は、デバイス200/300の1つ以上の構成要素により実行されてもよい。別の実現例において、処理1600のうちのいくつか又は全ては、デバイス200/300を含むかあるいは除外する別のデバイス又はデバイスのグループにより実行されてもよい。
【0102】
図16に示されるように、処理1600は、デバイスにより被写体の画像を撮影し(ブロック1610)、且つ被写体が人物であるかを判定する(ブロック1620)ことから開始してもよい。被写体が人物でない場合(ブロック1620−NO)、処理1600は図17の「A」に継続する。被写体が人物である場合(ブロック1620−YES)、被写体と関連付けられたオーディオが記録される(ブロック1630)。例えば、図5に関連して上述した実現例において、デバイス200/300のユーザは、デバイス200/300と関連付けられた会話の吹き出しモード(例えば、画像撮影モード)を選択してもよく、デバイス200/300は、第1の被験者120と関連付けられた(例えば、マイク360/390を介して)オーディオ510を記録し始めてもよい。ユーザが写真を撮る場合、デバイス200/300は、第1の被験者120の画像520を撮影してもよく、記録されたオーディオ510(例えば、画像520が撮影される時間に時間的に近接する)及び撮影された画像520をデバイス200/300のメモリ420に格納してもよい。記録されたオーディオ510は、デバイス200/300により画像520が撮影される前及び後の双方に記録されるオーディオを含んでもよい。デバイス200/300は、第1の被験者120が人物であるかを更に判定してもよい。
【0103】
図16に更に示されるように、被写体が単一の人物であると判定されない場合(ブロック1640−NO)、処理1600は図18の「B」に継続する。被写体が単一の人物であると判定される場合(ブロック1640−YES)、人物の頭の場所は、撮影された画像に基づいて判定されてもよい(ブロック1650)。例えば、図5に関連して上述した実現例において、第1の被験者120が単一の人物であると判定した後、デバイス200/300は、撮影された画像520において第1の被験者120の頭の場所を判定するために顔検出ソフトウェアを使用してもよい。一例において、顔検出は、デバイス200/300に提供された(例えば、デバイス200/300の処理ユニット410及びメモリ420を介して)顔検出ソフトウェアを用いて撮影された画像520に対して実行されてもよい。別の例において、顔検出は、デバイス200/300と通信する(例えば、通信インタフェース440を介して)デバイス上に提供された顔検出ソフトウェアを用いて撮影された画像520に対して実行されてもよい。
【0104】
図16に戻ると、オーディオはテキストに変換されてもよく(ブロック1660)、テキストを含む会話の吹き出しが作成されてもよく(ブロック1670)、会話の吹き出しは、人物の頭の場所の隣に位置付けられて最終画像を作成してもよく(ブロック1680)、最終画像は、デバイス上に表示され且つ/あるいは格納されてもよい(ブロック1690)。例えば、図5に関連して上述した実現例において、デバイス200/300は、会話認識ソフトウェアを使用して記録されたオーディオ510(例えば、オーディオクリップ)をテキストに変換してもよい。デバイス200/300は、記録されたオーディオ510の変換されたテキストを含む会話の吹き出し530を作成してもよい。撮影された画像520において判定された第1の被験者120の頭の場所に基づいて、デバイス200/300は、撮影された画像520において会話の吹き出し530を第1の被験者120の頭の隣に位置付けてもよい。一例において、デバイス200/300のユーザは、撮影された画像520に応じて会話の吹き出し530を手動で再位置付けしてもよく、且つ/あるいは会話の吹き出し530に提供されたテキストを手動で編集してもよい。デバイス200/300は、第1の被験者120の位置付けられた会話の吹き出し530と撮影された画像520とを組み合わせて最終画像540を形成してもよい。デバイス200/300は、画像540を表示してもよく(例えば、ディスプレイ330を介して)、且つ/あるいは画像540を格納してもよい(例えば、メモリ420に)。
【0105】
図17に示されるように、被写体が人物でない場合(ブロック1620−NO)、被写体が動物であるかが判定されてもよい(ブロック1705)。被写体が動物である場合(ブロック1705−YES)、デバイスのユーザと関連付けられたオーディオが記録されてもよく(ブロック1710)、且つ動物の頭の場所が撮影された画像に基づいて判定されてもよい(ブロック1715)。例えば、図9に関連して上述した実現例において、被験者は動物であるとデバイス200/300が判定した後、ユーザ920は、デバイス200/300と関連付けられた会話の吹き出しモード(例えば、画像撮影モード)を選択してもよく、デバイス200/300は、ユーザ920により提供された(例えば、マイク360/390を介して)オーディオ930を記録し始めてもよい。ユーザ920が写真を撮る場合、デバイス200/300は、動物9190の画像940を撮影してもよく、記録されたオーディオ930(例えば、画像940が撮影される時間に時間的に近接する)及び撮影された画像940をデバイス200/300のメモリ420に格納してもよい。デバイス200/300は、会話認識ソフトウェアを使用して記録されたオーディオ930をテキストに変換してもよい。デバイス200/300は、撮影された画像940において動物910の頭の場所を判定するために顔検出ソフトウェアを使用してもよい。
【0106】
図17に更に示されるように、テキストを含む会話の吹き出しが作成されてもよく(ブロック1725)、会話の吹き出しは、動物の頭の場所の隣に位置付けられて最終画像を作成してもよく(ブロック1730)、最終画像は、デバイス上に表示され且つ/あるいは格納されてもよい(ブロック1740)。例えば、図9に関連して上述した実現例において、デバイス200/300は、記録されたオーディオ930の変換されたテキストを含む会話の吹き出し950を作成してもよい。撮影された画像940において判定された動物910の頭の場所に基づいて、デバイス200/300は、撮影された画像940において会話の吹き出し950を動物910の頭の隣に位置付けてもよい。一例において、ユーザ920は、撮影された画像940に応じて会話の吹き出し950を手動で再位置付けしてもよく、且つ/あるいは会話の吹き出し950に提供されたテキストを手動で編集してもよい。デバイス200/300は、動物910の位置付けられた会話の吹き出し950と撮影された画像940とを組み合わせて最終画像960を形成してもよい。デバイス200/300は、画像960を表示してもよく(例えば、ディスプレイ330を介して)、且つ/あるいは画像960を格納してもよい(例えば、メモリ420に)。
【0107】
図17に戻ると、被写体が動物でない場合(ブロック1705−NO)、デバイスのユーザと関連付けられたオーディオが記録されてもよく(ブロック1740)、且つオーディオがテキストに変換されてもよい(ブロック1745)。例えば、図10に関連して上述した実現例において、ユーザ1020は、デバイス200/300と関連付けられた会話の吹き出しモード(例えば、画像撮影モード)を選択してもよく、デバイス200/300は、ユーザ1020により提供された(例えば、マイク360/390を介して)オーディオ1030を記録し始めてもよい。ユーザ1020が写真を撮る場合、デバイス200/300は、被写体1010の画像1040を撮影してもよく、記録されたオーディオ1030(例えば、画像1040が撮影される時間に時間的に近接する)及び撮影された画像1040をデバイス200/300のメモリ420に格納してもよい。デバイス200/300は、会話認識ソフトウェアを使用して記録されたオーディオ1030(例えば、オーディオクリップ)をテキストに変換してもよい。
【0108】
図17に更に示されるように、テキストは、撮影された画像と関連付けられて最終画像を作成してもよく(ブロック1750)、最終画像は、デバイス上に表示され且つ/あるいは格納されてもよい(ブロック1755)。例えば、図10に関連して上述した実現例において、デバイス200/300は、撮影された画像1040において頭の場所を判定するために顔検出ソフトウェアを使用してもよい。しかし、被写体1010が頭を有さないため、デバイス200/300は撮影された画像1040において頭を検出できない。撮影された画像1040において頭が検出されない場合、デバイス200/300は、記録されたオーディオ1030の変換されたテキストを含むタイトル1050(例えば、撮影された画像1040に対する)を作成してもよい。デバイス200/300は、撮影された画像1040においてタイトル1050を被写体1010の隣に位置付けてもよい(例えば、タイトルとして)。一例において、ユーザ1020は、撮影された画像1040に応じてタイトル1050を手動で再位置付けしてもよく、且つ/あるいはタイトル1050に提供されたテキストを手動で編集してもよい。デバイス200/300は、被写体1010の位置付けられたタイトル1050と撮影された画像1040とを組み合わせて最終画像1060を形成してもよい。デバイス200/300は、画像1060を表示してもよく(例えば、ディスプレイ330を介して)、且つ/あるいは画像1060を格納してもよい(例えば、メモリ420に)。
【0109】
図18に示されるように、被写体が単一の人物でない場合(ブロック1640−NO)、被写体のビデオは、解析されて各人物の口の動きを判定してもよく(ブロック1810)、オーディオは、口の動きと比較されて各人物と関連付けられたオーディオの部分を判定してもよく(ブロック1820)、且つ/あるいはオーディオは、解析されて各人物と関連付けられたオーディオの部分を判定してもよい(ブロック1830)。例えば、図7に関連して上述した実現例において、2人以上の人物(例えば、被験者120/130)がデバイス200/300により撮影された画像720に存在し、且つ被験者120/130の双方が話している場合、デバイス200/300は、各被験者120/130に属する記録されたオーディオ710の部分を識別する必要があるだろう。これを達成するために、一例において、デバイス200/300は、被験者120/130のビデオ(又は複数の撮影された画像)を解析して被験者120/130の口の動きを判定してもよく、記録されたオーディオ710を口の動きと比較して各被験者120/130に属する記録されたオーディオ710の部分を判定してもよい。別の例において、デバイス200/300は、記録されたオーディオ710を解析して被験者120/130の声の違いを判定してもよく、各被験者120/130に属する記録されたオーディオ710の部分を判定するためにこの情報を使用してもよい。更に別の実現例において、デバイス200/300は、各被験者120/130に属する記録されたオーディオ710の部分を判定するために、上述の技術の組合せを利用してもよい。
【0110】
図18に更に示されるように、各人物と関連付けられたオーディオ部分は、テキスト部分に変換されてもよく(ブロック1840)、各人物と関連付けられたテキスト部分を含む会話の吹き出しは、人物毎に作成されてもよい(ブロック1850)。例えば、図7に関連して上述した実現例において、デバイス200/300は、会話認識ソフトウェアを使用して記録されたオーディオ710をテキストに変換してもよい。デバイス200/300は、第1の被験者120に属する記録されたオーディオ710の部分の変換されたテキストを含む会話の吹き出し730を作成してもよく、第2の被験者130に属する記録されたオーディオ710の部分の変換されたテキストを含む会話の吹き出し740を作成してもよい。
【0111】
図18に戻ると、各人物の頭の場所は、撮影された画像に基づいて判定されてもよく(ブロック1860)、会話の吹き出しの各々は、対応する各人物の頭の場所と共に位置付けられて最終画像を作成してもよく(ブロック1870)、最終画像は、デバイス上に表示され且つ/あるいは格納されてもよい(ブロック1880)。例えば、図7に関連して上述した実現例において、デバイス200/300は、撮影された画像720において各被験者120/130の頭の場所を判定するために顔検出ソフトウェアを使用してもよい。撮影された画像720において判定された第1の被験者120の頭の場所に基づいて、デバイス200/300は、撮影された画像720において会話の吹き出し730を第1の被験者120の頭の隣に位置付けてもよい。撮影された画像720において判定された第2の被験者130の頭の場所に基づいて、デバイス200/300は、撮影された画像720において会話の吹き出し740を第2の被験者130の頭の隣に位置付けてもよい。デバイス200/300は、被験者120/130の位置付けられた会話の吹き出し730/740と撮影された画像720とを組み合わせて最終画像750を形成してもよい。デバイス200/300は、画像750を表示してもよく(例えば、ディスプレイ330を介して)、且つ/あるいは画像750を格納してもよい(例えば、メモリ420に)。
【0112】
結論
本明細書において説明したシステム及び/又は方法は、音声制御画像編集を実行するデバイスを提供してもよい。
【0113】
実現例の上述の説明は、例示及び説明を提供するが、本発明を網羅すること、あるいは開示された厳密な形式に限定することを意図しない。変更及び変形は、上記教示に鑑みて可能であり、あるいは本発明の実施から得られてもよい。
【0114】
例えば、図16〜図18に対して一連のブロックを説明したが、ブロックの順序は他の実現例において変更されてもよい。更に、非依存ブロックは同時に実行されてもよい。
【0115】
本明細書において説明したように、態様が図に示された実現例においてソフトウェア、ファームウェア及びハードウェアの多くの異なる形態で実現されてもよいことは、明らかとなるだろう。これらの態様を実現するために使用された実際のソフトウェアコード又は専用の制御ハードウェアは、本発明を限定していない。従って、これらの態様の動作及び挙動は、特定のソフトウェアコードを参照せずに説明された。すなわち、ソフトウェア及び制御ハードウェアは、本明細書の説明に基づいてこれらの態様を実現するように設計されてもよいことが理解される。
【0116】
また、本発明のある特定の部分は、1つ以上の機能を実行する「論理」として実現されてもよい。この論理は、特定用途向け集積回路又はフィールドプログラマブルゲートアレイ等のハードウェア、あるいはハードウェアとソフトウェアとの組合せを含んでもよい。
【0117】
機能の特定の組み合わせが請求の範囲において説明され且つ/あるいは明細書において開示されるが、これらの組合せは本発明を限定することを意図しない。実際に、これらの特徴の多くは、具体的に請求の範囲において説明されない方法及び/又は明細書において開示されない方法で組み合わされてもよい。
【0118】
本明細書中で使用される場合の用語「備える」は、記載された特徴、数字、ステップ又は構成要素の存在を特定するために利用されるが、1つ以上の他の特徴、数字、ステップ、構成要素又はそれらの集合の存在又は追加を除外しないことが強調されるべきである。
【0119】
特に指定のない限り、本出願において使用された要素、動作又は命令は本発明に対して不可欠又は必須のものとして解釈されるべきではない。また、本明細書において使用されたように、単数形の冠詞は1つ以上の項目を含むことを意図する。1つの項目のみが意図される場合、「1つの」という用語又は同様の言語が使用される。更に、明示的な指定のない限り、「基づいて」という表現は「少なくとも部分的に基づいて」を意味することを意図する。

【特許請求の範囲】
【請求項1】
デバイスにより被写体の画像を撮影するステップと、
前記被写体と関連付けられたオーディオを前記デバイスのメモリに記録するステップと、
前記デバイスのプロセッサにより且つ前記被写体が人物である場合に前記撮影された画像において前記人物の頭の場所を判定するステップと、
前記プロセッサにより前記オーディオをテキストに変換するステップと、
前記プロセッサにより前記テキストを含む会話の吹き出しを作成するステップと、
前記プロセッサにより、前記撮影された画像において前記会話の吹き出しを前記人物の頭の前記場所の隣に位置付けて最終画像を作成するステップと、
を有することを特徴とする方法。
【請求項2】
前記最終画像を前記デバイスのディスプレイ上に表示するステップと、
前記最終画像を前記デバイスの前記メモリに格納するステップと、
を更に有することを特徴とする請求項1に記載の方法。
【請求項3】
前記被写体が動物である場合に前記デバイスのユーザにより提供されたオーディオを記録するステップと、
前記撮影された画像において前記動物の頭の場所を判定するステップと、
前記ユーザにより提供された前記オーディオをテキストに変換するステップと、
前記ユーザにより提供された前記オーディオから変換された前記テキストを含む会話の吹き出しを作成するステップと、
前記撮影された画像において前記ユーザにより提供された前記オーディオから変換された前記テキストを含む前記会話の吹き出しを前記動物の頭の前記場所の隣に位置付けて画像を作成するステップと、
を更に有することを特徴とする請求項1に記載の方法。
【請求項4】
前記被写体が無生物の被写体である場合に前記デバイスのユーザにより提供されたオーディオを記録するステップと、
前記ユーザにより提供された前記オーディオをユーザ提供テキストに変換するステップと、
前記ユーザ提供テキストを前記撮影された画像と関連付けてユーザ規定画像を作成するステップと、
を更に有することを特徴とする請求項1に記載の方法。
【請求項5】
前記被写体が複数の人物を含む場合に前記複数の人物のビデオを解析して各人物の口の動きを判定するステップと、
前記オーディオを各人物の前記口の動きと比較して各人物と関連付けられる前記オーディオの部分を判定するステップと、
各人物と関連付けられた前記オーディオ部分をテキスト部分に変換するステップと、
人物毎に各人物と関連付けられたテキスト部分を含む会話の吹き出しを作成するステップと、
前記撮影された画像に基づいて各人物の頭の場所を判定するステップと、
会話の吹き出しの各々を対応する各人物の頭の場所と共に位置付けて複数の人物の最終画像を作成するステップと、
を更に有することを特徴とする請求項1に記載の方法。
【請求項6】
前記オーディオを解析して各人物と関連付けられる前記オーディオの部分を判定するステップを更に有することを特徴とする請求項5に記載の方法。
【請求項7】
前記オーディオは第1言語で提供され、前記オーディオをテキストに変換するステップは、
前記オーディオを前記第1言語とは異なる第2言語に提供されるテキストに変換するステップを有することを特徴とする請求項1に記載の方法。
【請求項8】
前記被写体の複数の画像を撮影するステップと、
各々が前記テキストの部分を含む複数の会話の吹き出しを作成するステップと、
前記複数の会話の吹き出しの各々を対応する前記複数の画像のうちの1つと関連付けて時間順の画像を作成するステップと、
を更に有することを特徴とする請求項1に記載の方法。
【請求項9】
前記デバイスのユーザにより提供されたオーディオを記録するステップと、
前記ユーザにより提供された前記オーディオをユーザ提供テキストに変換するステップと、
前記ユーザ提供テキストを含む思考の吹き出しを作成するステップと、
前記撮影された画像において前記思考の吹き出しを前記人物の頭の前記場所の隣に位置付けて思考の吹き出しの画像を作成するステップと、
を更に有することを特徴とする請求項1に記載の方法。
【請求項10】
前記デバイスは、
無線電話と、
パーソナル移動通信システム(PCS)端末と、
カメラと、
カメラ機能を備えたビデオカメラと、
双眼鏡と、
ビデオ眼鏡とのうち少なくとも1つを含むことを特徴とする請求項1に記載の方法。
【請求項11】
複数の命令を格納するメモリと、
前記メモリに格納された命令を実行するプロセッサと、
ここで、前記命令は前記プロセッサに、
被写体の画像を撮影させ、
前記被写体と関連付けられたオーディオを記録させ、
前記被写体が人物である場合に前記撮影された画像において前記人物の頭の場所を判定させ、
前記オーディオをテキストに変換させ、
前記テキストを含む会話の吹き出しを作成させ、
前記撮影された画像において前記会話の吹き出しを前記人物の頭の前記場所の隣に位置付けて最終画像を作成させ、
前記最終画像を前記デバイスのディスプレイ上に表示させる
を有することを特徴とするデバイス。
【請求項12】
前記プロセッサは、前記メモリ中の命令を更に実行して、前記最終画像を前記メモリに格納することを特徴とする請求項11に記載のデバイス。
【請求項13】
前記プロセッサは、前記メモリ中の命令を更に実行して、
前記被写体が動物である場合に前記デバイスのユーザにより提供されたオーディオを記録し、
前記撮影された画像において前記動物の頭の場所を判定し、
前記ユーザにより提供された前記オーディオをテキストに変換し、
前記ユーザにより提供された前記オーディオから変換された前記テキストを含む会話の吹き出しを作成し、
前記撮影された画像において前記ユーザにより提供された前記オーディオから変換された前記テキストを含む前記会話の吹き出しを前記動物の頭の前記場所の隣に位置付けて画像を作成する
ことを特徴とする請求項11に記載のデバイス。
【請求項14】
前記プロセッサは、前記メモリ中の命令を更に実行して、
前記被写体が無生物の被写体である場合に前記デバイスのユーザにより提供されたオーディオを記録し、
前記ユーザにより提供された前記オーディオをユーザ提供テキストに変換し、
前記ユーザ提供テキストを前記撮影された画像と関連付けてユーザ規定画像を作成する
ことを特徴とする請求項11に記載のデバイス。
【請求項15】
前記プロセッサは、前記メモリ中の命令を更に実行して、
前記被写体が複数の人物を含む場合に前記複数の人物のビデオを解析して各人物の口の動きを判定し、
前記オーディオを各人物の前記口の動きと比較して各人物と関連付けられる前記オーディオの部分を判定し、
各人物と関連付けられた前記オーディオ部分をテキスト部分に変換し、
人物毎に各人物と関連付けられたテキスト部分を含む会話の吹き出しを作成し、
前記撮影された画像に基づいて各人物の頭の場所を判定し、
会話の吹き出しの各々を対応する各人物の頭の場所と共に位置付けて複数の人物の最終画像を作成する
ことを特徴とする請求項11に記載のデバイス。
【請求項16】
前記プロセッサは、前記メモリ中の命令を更に実行して、
前記オーディオを解析して各人物と関連付けられる前記オーディオの部分を判定する
ことを特徴とする請求項15に記載のデバイス。
【請求項17】
前記オーディオは第1言語で提供され、前記オーディオをテキストに変換する場合、前記プロセッサは、前記メモリ中の命令を更に実行して、
前記オーディオを前記第1言語とは異なる第2言語で提供されたテキストに変換する
ことを特徴とする請求項11に記載のデバイス。
【請求項18】
前記プロセッサは、前記メモリ中の命令を更に実行して、
前記被写体の複数の画像を撮影し、
各々が前記テキストの部分を含む複数の会話の吹き出しを作成し、
前記複数の会話の吹き出しの各々を対応する前記複数の画像のうちの1つと関連付けて時間順の画像を作成する
ことを特徴とする請求項11に記載のデバイス。
【請求項19】
前記プロセッサは、前記メモリ中の命令を更に実行して、
前記デバイスのユーザにより提供されたオーディオを記録し、
前記ユーザにより提供された前記オーディオをユーザ提供テキストに変換し、
前記ユーザ提供テキストを含む思考の吹き出しを作成し、
前記撮影された画像において前記思考の吹き出しを前記人物の頭の前記場所の隣に位置付けて思考の吹き出しの画像を作成する
ことを特徴とする請求項11に記載のデバイス。
【請求項20】
被写体の画像を撮影する手段と、
前記被写体と関連付けられたオーディオを記録する手段と、
前記被写体が人物である場合に前記撮影された画像において前記人物の頭の場所を判定する手段と、
前記オーディオをテキストに変換する手段と、
前記テキストを含む会話の吹き出しを作成する手段と、
前記撮影された画像において前記会話の吹き出しを前記人物の頭の前記場所の隣に位置付けて最終画像を作成する手段と、
前記最終画像を表示する手段と、
前記最終画像を格納する手段と、
を備えることを特徴とするデバイス。

【図1】
image rotate

【図2】
image rotate

【図3A】
image rotate

【図3B】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate


【公表番号】特表2012−521705(P2012−521705A)
【公表日】平成24年9月13日(2012.9.13)
【国際特許分類】
【出願番号】特願2012−501398(P2012−501398)
【出願日】平成21年8月25日(2009.8.25)
【国際出願番号】PCT/IB2009/053734
【国際公開番号】WO2010/109274
【国際公開日】平成22年9月30日(2010.9.30)
【出願人】(502087507)ソニーモバイルコミュニケーションズ, エービー (823)
【Fターム(参考)】