音声制御画像編集

デバイスは、被写体の画像を撮影し、被写体と関連付けられたオーディオを記録し、被写体が人物である場合に撮影された画像において人物の頭の場所を判定する。更にデバイスは、オーディオをテキストに変換し、テキストを含む会話の吹き出しを作成し、撮影された画像において会話の吹き出しを人物の頭の場所の隣に位置付けて最終画像を作成する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は音声制御画像編集に関する。
【背景技術】
【０００２】
会話の吹き出し（会話の吹き出し、対話の吹き出し、言葉の吹き出し、思考の吹き出し等）を被写体（例えば、人物、場所、もの）の画像に付加することは、人気がある。ユーザが画像（例えば、写真）をアップロードしてそれらに会話の吹き出しを手動で付加できるようにするウェブアプリケーションがある。ある写真タグ付けアプリケーションにおいて、ユーザは、既存のフォトアルバム内で会話の吹き出しを介して引用文を写真に付加する。ある特定のデバイス（例えば、カメラ、移動電話等）は、画像クリップ及び／又はビデオクリップを記録するためにカメラ及びマイクを使用する。しかし、上述のウェブアプリケーションを使用する以外に、これらのデバイスは、デバイスにより撮影された画像クリップ及び／又はビデオクリップに対して会話の吹き出しを作成できない。
【発明の概要】
【課題を解決するための手段】
【０００３】
一態様によると、方法は、デバイスにより被写体の画像を撮影することと、被写体と関連付けられたオーディオをデバイスのメモリに記録することと、デバイスのプロセッサにより且つ被写体が人物である場合に撮影された画像において人物の頭の場所を判定すること、プロセッサによりオーディオをテキストに変換することと、プロセッサによりテキストを含む会話の吹き出しを作成することと、プロセッサにより、撮影された画像において会話の吹き出しを人物の頭の場所の隣に位置付けて最終画像を作成することとを備えてよい。
【０００４】
また、方法は、最終画像をデバイスのディスプレイ上に表示することと、最終画像をデバイスのメモリに格納することとを更に備えてもよい。
【０００５】
また、方法は、被写体が動物である場合にデバイスのユーザにより提供されたオーディオを記録することと、撮影された画像において動物の頭の場所を判定することと、ユーザにより提供されたオーディオをテキストに変換することと、ユーザにより提供されたオーディオから変換されたテキストを含む会話の吹き出しを作成することと、撮影された画像においてユーザにより提供されたオーディオから変換されたテキストを含む会話の吹き出しを動物の頭の場所の隣に位置付けて画像を作成することとを更に備えてもよい。
【０００６】
また、方法は、被写体が無生物の被写体である場合にデバイスのユーザにより提供されたオーディオを記録することと、ユーザにより提供されたオーディオをユーザが提供したテキストに変換することと、ユーザが提供したテキストを撮影された画像と関連付けてユーザが規定した画像を作成することとを更に備えてもよい。
【０００７】
また、方法は、被写体が複数の人物を含む場合に複数の人物のビデオを解析して各人物の口の動きを判定することと、オーディオを各人物の口の動きと比較して各人物と関連付けられるオーディオの部分を判定することと、各人物と関連付けられたオーディオ部分をテキスト部分に変換することと、人物毎に各人物と関連付けられたテキスト部分を含む会話の吹き出しを作成することと、撮影された画像に基づいて各人物の頭の場所を判定することと、会話の吹き出しの各々を対応する各人物の頭の場所と共に位置付けて複数の人物の最終画像を作成することとを更に備えてもよい。
【０００８】
また、方法は、オーディオを解析して各人物と関連付けられるオーディオの部分を判定することを更に備えてもよい。
【０００９】
また、オーディオは第１言語で提供されてもよく、オーディオをテキストに変換することは、オーディオを第１言語とは異なる第２言語で提供されたテキストに変換することを更に備えてもよい。
【００１０】
また、方法は、被写体の複数の画像を撮影することと、各々がテキストの部分を含む複数の会話の吹き出しを作成することと、複数の会話の吹き出しの各々を対応する複数の画像のうちの１つと関連付けて時間順の画像を作成することとを更に備えてもよい。
【００１１】
また、方法は、デバイスのユーザにより提供されたオーディオを記録することと、ユーザにより提供されたオーディオをユーザが提供したテキストに変換することと、ユーザが提供したテキストを含む思考の吹き出しを作成することと、撮影された画像において思考の吹き出しを人物の頭の場所の隣に位置付けて思考の吹き出しの画像を作成することとを更に備えてもよい。
【００１２】
また、デバイスは、無線電話、パーソナル移動通信システム（ＰＣＳ）端末、カメラ、カメラ機能を備えたビデオカメラ、双眼鏡又はビデオ眼鏡のうちの少なくとも１つを含んでもよい。
【００１３】
別の態様によると、デバイスは、複数の命令を格納するメモリと、被写体の画像を撮影し、被写体と関連付けられたオーディオを記録し、被写体が人物である場合に撮影された画像において人物の頭の場所を判定し、オーディオをテキストに変換し、テキストを含む会話の吹き出しを作成し、撮影された画像において会話の吹き出しを人物の頭の場所の隣に位置付けて最終画像を作成し、且つ最終画像をデバイスのディスプレイ上に表示するためにメモリ中の命令を実行するプロセッサとを備えてもよい。
【００１４】
また、プロセッサは、最終画像をメモリに格納するためにメモリ中の命令を更に実行してもよい。
【００１５】
また、プロセッサは、被写体が動物である場合にデバイスのユーザにより提供されたオーディオを記録し、撮影された画像において動物の頭の場所を判定し、ユーザにより提供されたオーディオをテキストに変換し、ユーザにより提供されたオーディオから変換されたテキストを含む会話の吹き出しを作成し、且つ撮影された画像においてユーザにより提供されたオーディオから変換されたテキストを含む会話の吹き出しを動物の頭の場所の隣に位置付けて画像を作成するためにメモリ中の命令を更に実行してもよい。
【００１６】
また、プロセッサは、被写体が無生物の被写体である場合にデバイスのユーザにより提供されたオーディオを記録し、ユーザにより提供されたオーディオをユーザが提供したテキストに変換し、且つユーザが提供したテキストを撮影された画像と関連付けてユーザが規定した画像を作成するためにメモリ中の命令を更に実行してもよい。
【００１７】
また、プロセッサは、被写体が複数の人物を含む場合に複数の人物のビデオを解析して各人物の口の動きを判定し、オーディオを各人物の口の動きと比較して各人物と関連付けられるオーディオの部分を判定し、各人物と関連付けられたオーディオ部分をテキスト部分に変換し、人物毎に各人物と関連付けられたテキスト部分を含む会話の吹き出しを作成し、撮影された画像に基づいて各人物の頭の場所を判定し、且つ会話の吹き出しの各々を対応する各人物の頭の場所と共に位置付けて複数の人物の最終画像を作成するためにメモリ中の命令を更に実行してもよい。
【００１８】
また、プロセッサは、オーディオを解析して各人物と関連付けられるオーディオの部分を判定するためにメモリ中の命令を更に実行してもよい。
【００１９】
また、オーディオは第１言語で提供されてもよく、オーディオをテキストに変換する場合、プロセッサは、オーディオを第１言語とは異なる第２言語で提供されたテキストに変換するためにメモリ中の命令を更に実行してもよい。
【００２０】
また、プロセッサは、被写体の複数の画像を撮影し、各々がテキストの部分を含む複数の会話の吹き出しを作成し、且つ複数の会話の吹き出しの各々を対応する複数の画像のうちの１つと関連付けて時間順の画像を作成するためにメモリ中の命令を更に実行してもよい。
【００２１】
また、プロセッサは、デバイスのユーザにより提供されたオーディオを記録し、ユーザにより提供されたオーディオをユーザが提供したテキストに変換し、ユーザが提供したテキストを含む思考の吹き出しを作成し、且つ撮影された画像において思考の吹き出しを人物の頭の場所の隣に位置付けて思考の吹き出しの画像を作成するためにメモリ中の命令を更に実行してもよい。
【００２２】
更に別の態様によると、デバイスは、被写体の画像を撮影する手段と、被写体と関連付けられたオーディオを記録する手段と、被写体が人物である場合に撮影された画像において人物の頭の場所を判定する手段と、オーディオをテキストに変換する手段と、テキストを含む会話の吹き出しを作成する手段と、撮影された画像において会話の吹き出しを人物の頭の場所の隣に位置付けて最終画像を作成する手段と、最終画像を表示する手段と、最終画像を格納する手段とを備えてもよい。
【００２３】
本明細書に取り入れられ且つその一部を構成する添付の図面は、本明細書において説明する１つ以上の実現例を示し、説明と共にこれらの実現例を説明する。
【図面の簡単な説明】
【００２４】
【図１】図１は、本明細書において説明するシステム及び／又は方法が実現される例示的な構成を示す図である。
【図２】図２は、本明細書において説明するシステム及び／又は方法が実現される例示的なデバイスを示す図である。
【図３Ａ】、
【図３Ｂ】図３Ａ及び図３Ｂは、それぞれ、本明細書において説明するシステム及び／又は方法が実現される別の例示的なデバイスの正面図及び背面図を示す図である。
【図４】図４は、図２〜図３Ｂに示されたデバイスの例示的な構成要素を示す図である。
【図５】図５は、図２〜図３Ｂに示されたデバイスが実行できる単一の人物の場合の例示的な音声制御画像編集動作を示す図である。
【図６】図６は、図２〜図３Ｂに示されたデバイスの例示的な構成要素を示す図である。
【図７】図７は、図２〜図３Ｂに示されたデバイスが実行できる複数の人物の場合の例示的な音声制御画像編集動作を示す図である。
【図８】図８は、図６に示された例示的な構成要素が実行できる更なる動作を示す図である。
【図９】図９は、図２〜図３Ｂに示されたデバイスが実行できる動物の場合の例示的な音声制御画像編集動作を示す図である。
【図１０】図１０は、図２〜図３Ｂに示されたデバイスが実行できる被写体の場合の例示的な音声制御画像編集動作を示す図である。
【図１１】図１１は、図２〜図３Ｂに示されたデバイスが実行できる複数の人物の場合の例示的な音声制御画像編集動作を示す図である。
【図１２】図１２は、図２〜図３Ｂに示されたデバイスが実行できる単一の人物の場合の例示的な音声制御画像編集動作を示す図である。
【図１３】図１３は、図２〜図３Ｂに示されたデバイスが実行できる例示的な音声制御画像編集及び翻訳動作を示す図である。
【図１４】図１４は、ビデオ眼鏡が実行できる例示的な音声制御画像編集及び翻訳動作を示す図である。
【図１５】図１５は、図２〜図３Ｂに示されたデバイスが実行できる複数の表現の場合の例示的な音声制御画像編集動作を示す図である。
【図１６】、
【図１７】、
【図１８】図１６〜図１８は、本明細書において説明する実現例に係る音声制御画像編集の例示的な処理を示すフローチャートである。
【発明を実施するための形態】
【００２５】
以下の詳細な説明は添付の図面を参照する。異なる図面における同一の図中符号は、同一の要素又は同様の要素を識別してもよい。また、以下の詳細な説明は本発明を限定しない。
【００２６】
概要
本明細書において説明するシステム及び／又は方法は、音声制御画像編集を実行するデバイスを提供できる。例えば、図１に示されるような例示的な構成、システム及び／又は方法は、２人の被験者（例えば、第１の被験者１２０及び第２の被験者１３０）と関連付けられたデバイス１１０を提供してもよく、被験者の画像はデバイス１１０により撮影される。デバイス１１０は、カメラ、移動電話等を含んでもよい。被験者１２０／１３０には、画像がデバイス１１０により撮影される人物を含んでもよい。
【００２７】
デバイス１１０は、被験者１２０／１３０の画像１４０を撮影してもよく、デバイス１１０により画像１４０が撮影される際に被験者１２０／１３０と関連付けられたオーディオを記録してもよい。デバイス１１０は、被験者１２０／１３０のビデオを撮影し且つ解析して第１の被験者１２０の口の動き及び第２の被験者１３０の口の動きを判定してもよく、記録されたオーディオを口の動きと比較して第１の被験者１２０及び第２の被験者１３０と関連付けられるオーディオの部分を判定してもよい。デバイス１１０は、オーディオ部分を各被験者１２０／１３０と関連付けられたテキスト部分に変換してもよく、第１の被験者１２０と関連付けられたテキストを含む第１の会話の吹き出し１５０を作成してもよく、第２の被験者１３０と関連付けられたテキストを含む第２の会話の吹き出し１６０を作成してもよい。デバイス１１０は、被験者１２０／１３０の頭の場所を判定してもよく、第１の被験者１２０の頭の場所と共に第１の会話の吹き出し１５０を位置決めしてもよく、第２の被験者１３０の頭の場所と共に第２の会話の吹き出し１６０を位置決めして画像１４０の最終版を作成してもよい。更にデバイス１１０は、画像１４０の最終版を表示し且つ／あるいは格納してもよい。
【００２８】
後続の説明はデバイスについて説明する。本明細書において使用されるように、「デバイス」は、無線電話、携帯無線電話をデータ処理機能、ファクシミリ機能及びデータ通信機能と組み合わせてもよいパーソナル移動通信システム（ＰＣＳ）、無線電話、ページャ、インターネット／イントラネットアクセス、ウェブブラウザ、オーガナイザ、カレンダ、ドップラー受信機及び／又は全地球測位システム（ＧＰＳ）受信機を含むパーソナルデジタルアシスタント（ＰＤＡ）、ラップトップ、ＧＰＳデバイス、パーソナルコンピュータ、カメラ（例えば、最近のカメラ又はデジタルカメラ）、ビデオカメラ（例えば、カメラ機能を備えたカムコーダ）、双眼鏡、望遠鏡、並びに／あるいはカメラを利用できる他のあらゆるデバイスを含んでもよい。
【００２９】
本明細書において使用されるように、「カメラ」は、画像及び／又はビデオを撮影し且つ格納できるデバイスを含んでもよい。例えばデジタルカメラは、最近のカメラのように写真フィルムを使用するのではなく、画像及び／又はビデオを電子的に撮影し且つ格納できる電子デバイスであってもよい。デジタルカメラは多機能であってもよく、音及び／又はビデオ、並びに画像を記録できるいくつかのデバイスを備える。
【００３０】
例示的なデバイスアーキテクチャ
図２は、本明細書において説明するシステム及び／又は方法が実現される例示的なデバイス２００を示す図である。図２に示されるように、デバイス２００は、筐体２１０、レンズ２２０、フラッシュユニット２３０、ビューファインダ２４０及びボタン２５０を含んでもよい。筐体２１０は、デバイスの構成要素を外部の要素から保護してもよい。
【００３１】
レンズ２２０は、固定の焦点距離を有する主要なレンズとは対照的な、焦点距離を機械的、電気的、及び／又は電気機械的に変更できる制御されたレンズのアセンブリを含んでもよい。レンズ２２０は、最長焦点距離と最短焦点距離との比により説明される「ズームレンズ」を含んでもよい。レンズ２２０は、デバイス２００のユーザが手動で焦点を調節することを必要とするのではなく、レンズ２２０が被験者に正しく焦点を合わせられるようにするオートフォーカスシステム（不図示）と共に動作してもよい。オートフォーカスシステムは、１つ以上のオートフォーカスセンサ（不図示）に依存して正しい焦点を判定してもよい。オートフォーカスシステムは、センサを手動で選択できるようにしてもよく、被験者の場所を識別することを試みるアルゴリズムを使用してオートフォーカスセンサを自動的に選択してもよい。オートフォーカスセンサから収集されたデータは、光学系の焦点を調節できる電気機械的システムを制御するために使用されてもよい。
【００３２】
フラッシュユニット２３０は、カメラに使用されたあらゆる種類のフラッシュユニットを含んでもよい。例えば、一実現例において、フラッシュユニット２３０は、発光ダイオード（ＬＥＤ）を用いたフラッシュユニット（例えば、１つ以上のＬＥＤを含むフラッシュユニット）を含んでもよい。他の実現例において、フラッシュユニット２３０は、デバイス２００に組み込まれたフラッシュユニット、デバイス２００から離間したフラッシュユニット、電子キセノン閃光ランプ（例えば、高圧の電気が放電されて短い閃光を発するアークを生成するキセノンガスで充填されたチューブ）、マイクロフラッシュ（例えば、サブマイクロ秒の持続時間で閃光を放つように設計された特別な高圧フラッシュユニット）等を含んでもよい。
【００３３】
ビューファインダ２４０は、デバイス２００のユーザが通して見て被験者を閲覧し且つ／あるいは被験者に焦点を合わせられるウィンドウを含んでもよい。例えばビューファインダ２４０は、光学式ビューファインダ（例えば、反転望遠鏡）、電子ビューファインダ（例えば、ビューファインダとして使用されてもよく、且つ／あるいは先に撮影されたデータを再生するために使用されてもよい陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）又は有機発光ダイオード（ＯＬＥＤ）を用いたディスプレイ）又は上述したものの組合せを含んでもよい。
【００３４】
ボタン２５０は、デバイス２００により被験者の画像を撮影するために使用される機械的なボタン又は電子機械的なボタンを含んでもよい。デバイス２００のユーザがボタン２５０を操作する場合、デバイス２００は、デバイス２００を用いて被験者の画像を撮影するためにレンズ２００（及びオートフォーカスシステム）、並びにフラッシュユニット２３０を操作してもよい。
【００３５】
図２はデバイス２００の例示的な構成要素を示すが、他の実現例において、デバイス２００は、図２に示されたものより少ない構成要素、図２に示されたのとは異なる構成要素、図２に示された以外の更なる構成要素又は図２に示されたのとは異なる方法で配置された構成要素を含んでもよい。例えばデバイス２００は、デバイス２００により撮影されるユーザ及び／又は被験者から可聴情報を受信するマイクを含んでもよい。更に他の実現例において、デバイス２００の１つ以上の構成要素は、デバイス２００の１つ以上の他の構成要素により実行されるものとして説明された１つ以上の他のタスクを実行してもよい。
【００３６】
図３Ａ及び図３Ｂは、それぞれ、本明細書において説明するシステム及び／又は方法が実現される別の例示的なデバイス３００の正面図及び背面図を示す図である。図３Ａに示されるように、デバイス３００は、筐体３１０、スピーカ３２０、ディスプレイ３３０、制御ボタン３４０、キーパッド３５０及びマイク３６０を含んでもよい。筐体３１０は、デバイス３００の構成要素を外部の要素から保護してもよい。スピーカ３２０は、可聴情報をデバイス３００のユーザに提供してもよい。
【００３７】
ディスプレイ３３０は、視覚情報をユーザに提供してもよい。例えばディスプレイ３３０は、着呼又は発呼、メディア、ゲーム、電話帳、現在時刻等に関する情報を提供してもよい。別の例において、ディスプレイ３３０は、デバイス３００のユーザが通して見て被験者を閲覧し且つ／あるいは被験者に焦点を合わせることができ、且つ／あるいは先に撮影されたデータを再生できる陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）又は有機発光ダイオード（ＯＬＥＤ）を用いたディスプレイ等の電子ビューファインダを提供してもよい。
【００３８】
制御ボタン３４０により、ユーザは、デバイス３００に１つ以上の動作を実行させるようにデバイス３００と対話できてもよい。例えば制御ボタン３４０は、デバイス２００のボタン２５０と同様に、デバイス３００により被験者の画像を撮影するために使用されてもよい。キーパッド３５０は、標準的な電話のキーパッドを含んでもよい。マイク３６０は、デバイス３００により撮影されるユーザ及び／又は被験者から可聴情報を受信してもよい。
【００３９】
図３Ｂに示されるように、デバイス２００は、カメラレンズ３７０、フラッシュユニット３８０及びマイク３９０を更に含んでもよい。カメラレンズ３７０は、レンズ２２０の構成要素に類似した構成要素を含んでもよく、レンズ２２０が動作するのと同様に動作してもよい。カメラレンズ３７０は、デバイス３００のユーザが手動で焦点を調節することを必要とするのではなく、レンズカメラレンズ３７０が被験者に正しく焦点を合わせられるようにするオートフォーカスシステム（不図示）と共に動作してもよい。フラッシュユニット３８０は、フラッシュユニット２３０の構成要素と類似した構成要素を含んでもよく、フラッシュユニット２３０が動作するのと同様に動作してもよい。例えば、一実現例において、フラッシュユニット３８０は、ＬＥＤを用いたフラッシュユニット（１つ以上のＬＥＤを含むフラッシュユニット等）を含んでもよい。他の実現例において、フラッシュユニット３８０は、デバイス３００に組み込まれたフラッシュユニット、デバイス３００から離間したフラッシュユニット、電子キセノン閃光ランプ、マイクロフラッシュ等を含んでもよい。マイク３９０は、デバイス３００により撮影されるユーザ及び／又は被験者から可聴情報を受信してもよい。
【００４０】
図３Ａ及び図３Ｂはデバイス３００の例示的な構成要素を示すが、他の実現例において、デバイス３００は、図３Ａ及び図３Ｂに示されたものより少ない構成要素、図３Ａ及び図３Ｂに示されたのとは異なる構成要素、図３Ａ及び図３Ｂに示された以外の更なる構成要素又は図３Ａ及び図３Ｂに示されたのとは異なる方法で配置された構成要素を含んでもよい。更に他の実現例において、デバイス３００の１つ以上の構成要素は、デバイス３００の１つ以上の他の構成要素により実行されるものとして説明された１つ以上の他のタスクを実行してもよい。
【００４１】
図４は、デバイス２００又は３００の例示的な構成要素を示す図である。図４に示されるように、デバイス２００／３００は、処理ユニット４００、メモリ４２０、ユーザインタフェース４３０、通信インタフェース４４０及びアンテナアセンブリ４５０を含んでもよい。
【００４２】
処理ユニット４１０は、１つ以上のプロセッサ、マイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）又はフィールドプログラマブルゲートアレイ（ＦＰＧＡ）等を含んでもよい。処理ユニット４１０は、デバイス２００／３００及びその構成要素の動作を制御してもよい。
【００４３】
メモリ４２０は、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、並びに／あるいは処理ユニット４１０により使用されてもよいデータ及び命令を格納するあらゆる種類のメモリを含んでもよい。
【００４４】
ユーザインタフェース４３０は、デバイス２００／３００に情報を入力し、且つ／あるいはデバイス２００／３００から情報を出力する機構を含んでもよい。入力機構及び出力機能の例には、電気信号を受信してオーディオ信号を出力するスピーカ（例えば、スピーカ３２０）、画像信号及び／又はビデオ信号を受信して電気信号を出力するカメラレンズ（例えば、レンズ２２０又はカメラレンズ３７０）、オーディオ信号を受信して電気信号を出力するマイク（例えばマイク３６０又は３９０）、データコマンド及び制御コマンドをデバイス２００／３００に入力できるボタン（例えば、ジョイスティック、ボタン２５０、制御ボタン３４０又はキーパッド３５０のキー）、視覚情報を出力するディスプレイ（例えば、ディスプレイ３３０）、並びに／あるいはデバイス２００／３００を振動させるバイブレータが含まれてもよい。
【００４５】
通信インタフェース４４０は、例えば、処理ユニット４１０からのベースバンド信号を無線周波数（ＲＦ）信号に変換できる送信機及び／又はＲＦ信号をベースバンド信号に変換できる受信機を含んでもよい。あるいは、通信インタフェース４４０は、送信機及び受信機の双方の機能を実行する送受信機を含んでもよい。通信インタフェース４４０は、ＲＦ信号を送受信するアンテナアセンブリ４５０に接続してもよい。
【００４６】
アンテナアセンブリ４５０は、無線でＲＦ信号を送受信する１つ以上のアンテナを含んでもよい。例えばアンテナアセンブリ４５０は、通信インタフェース４４０からＲＦ信号を受信し且つ無線でそれらを送信してもよく、無線でＲＦ信号を受信し且つそれらを通信インタフェース４４０に提供してもよい。一実現例において、例えば通信インタフェース４４０は、ネットワーク（例えば、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、公衆交換電話網（ＰＳＴＮ）等の電話ネットワーク、イントラネット、インターネット又はネットワークの組合せ）と通信してもよい。
【００４７】
本明細書において説明するように、デバイス２００／３００は、メモリ４２０等のコンピュータ可読媒体に含まれたソフトウェア命令を実行する処理ユニット４１０に応答して、ある特定の動作を実行してもよい。コンピュータ可読媒体は、物理メモリ素子又は論理メモリ素子として規定されてもよい。論理メモリ素子は、単一の物理メモリ素子内にメモリ空間を含んでもよく、あるいは複数の物理メモリ素子にわたり拡散してもよい。ソフトウェア命令は、通信インタフェース４４０を介して別のコンピュータ可読媒体又は別のデバイスからメモリ４２０に読み込まれてもよい。メモリ４２０に含まれたソフトウェア命令により、処理ユニット４１０は後述される処理を実行してもよい。あるいは、ハードワイヤード回路網は、本明細書において説明する処理を実現するソフトウェア命令の代わりに又はそれと組み合わせて使用されてもよい。従って、本明細書において説明する実現例は、ハードウェア回路網とソフトウェアとの何らかの特定の組み合わせに限定されない。
【００４８】
図４はデバイス２００／３００の例示的な構成要素を示すが、他の実現例において、デバイス２００／３００は、図４に示されたものより少ない構成要素、図４に示されたのとは異なる構成要素、図４に示された以外の更なる構成要素又は図４に示されたのとは異なる方法で配置された構成要素を含んでもよい。更に他の実現例において、デバイス２００／３００の１つ以上の構成要素は、デバイス２００／３００の１つ以上の他の構成要素により実行されるものとして説明された１つ以上の他のタスクを実行してもよい。
【００４９】
例示的なデバイス動作
図５は、デバイス２００／３００が実行できる単一の人物の場合の例示的な音声制御画像編集動作５００を示す図である。図示されるように、デバイス２００／３００は、第１の被験者１２０（例えば、単一の人物）の画像を撮影できるように、第１の被験者１２０と共に配置されてもよい。デバイス２００／３００のユーザは、デバイス２００／３００と関連付けられた会話の吹き出しモード（例えば、画像撮影モード）を選択してもよく、デバイス２００／３００は、第１の被験者１２０と関連付けられた（例えば、マイク３６０／３９０を介して）オーディオ５１０を記録し始めてもよい。ユーザが写真を撮る場合、デバイス２００／３００は、第１の被験者１２０の画像５２０を撮影してもよく、記録されたオーディオ５１０（例えば、画像５２０が撮影される時間に時間的に近接する）及び撮影された画像５２０をデバイス２００／３００のメモリ４２０に格納してもよい。記録されたオーディオ５１０は、デバイス２００／３００により画像５２０が撮影される前及び後の双方に記録されるオーディオを含んでもよい。例えば記録されたオーディオ５１０は、第１の被験者１２０により話された言葉（例えば、「Ｉ’ｍｓｏｒｒｙ，Ｉｈａｖｅｎｏｔｉｍｅｔｏｓｐｅａｋｆｏｒｔｈｅｍｏｍｅｎｔ．Ｉ’ｍｉｎＰａｒｉｓｗｏｒｋｉｎｇ！」）を含んでもよい。デバイス２００／３００は、記録されたオーディオ５１０を画像５２０が撮影された頃に話された（例えば、被験者１２０により）言葉を記録するオーディオクリップに短くしてもよい。オーディオクリップは、記録されたオーディオ５１０間で無音期間を識別することにより、全文を含んでもよい。
【００５０】
デバイス２００／３００は、会話認識ソフトウェアを使用して記録されたオーディオ５１０（例えば、オーディオクリップ）をテキストに変換してもよい。一実現例において、会話認識は、デバイス２００／３００に提供された（例えば、デバイス２００／３００の処理ユニット４１０及びメモリ４２０を介して）会話認識ソフトウェアを用いて記録されたオーディオ５１０に対して実行されてもよい。別の実現例において、会話認識は、デバイス２００／３００と通信する（例えば、通信インタフェース４４０を介して）デバイス上に提供された会話認識ソフトウェアを用いて記録されたオーディオ５１０に対して実行されてもよい。会話認識ソフトウェアは、話された言葉を機械可読入力（例えば、テキスト）に変換するあらゆるソフトウェアを含んでもよい。会話認識ソフトウェアの例には、「ＶｏｉｃｅｏｎｔｈｅＧｏ」、旭化成により提供される「Ｖｏｒｅｒｏ」、ＩＢＭにより提供される「ＷｅｂＳｐｈｅｒｅＶｏｉｃｅＳｅｒｖｅｒ」、「ＭｉｃｒｏｓｏｆｔＳｐｅｅｃｈＳｅｒｖｅｒ」等が含まれる。
【００５１】
デバイス２００／３００は、撮影された画像５２０において第１の被験者１２０の頭の場所を判定するために顔検出ソフトウェアを使用してもよい。一実現例において、顔検出は、デバイス２００／３００に提供された（例えば、デバイス２００／３００の処理ユニット４１０及びメモリ４２０を介して）顔検出ソフトウェアを用いて撮影された画像５２０に対して実行されてもよい。別の実現例において、顔検出は、デバイス２００／３００と通信する（例えば、通信インタフェース４４０を介して）デバイス上に提供された顔検出ソフトウェアを用いて撮影された画像５２０に対して実行されてもよい。顔検出ソフトウェアは、画像において顔の場所及び大きさを判定し、顔の特徴を検出し、且つ他のあらゆるもの（例えば、建物、木、体等）を無視するあらゆる顔検出技術を含んでもよい。
【００５２】
デバイス２００／３００は、記録されたオーディオ５１０の変換されたテキストを含む会話の吹き出し５３０を作成してもよい。撮影された画像５２０において判定された第１の被験者１２０の頭の場所に基づいて、デバイス２００／３００は、撮影された画像５２０において会話の吹き出し５３０を第１の被験者１２０の頭の隣に位置付けてもよい。一実現例において、デバイス２００／３００のユーザは、撮影された画像５２０に応じて会話の吹き出し５３０を手動で再位置付けしてもよく、且つ／あるいは会話の吹き出し５３０に提供されたテキストを手動で編集してもよい。デバイス２００／３００は、第１の被験者１２０の位置付けられた会話の吹き出し５３０と撮影された画像５２０とを組み合わせて最終画像５４０を形成してもよい。デバイス２００／３００は、画像５４０を表示してもよく（例えば、ディスプレイ３３０を介して）、且つ／あるいは画像５４０を格納してもよい（例えば、メモリ４２０に）。
【００５３】
図５はデバイス２００／３００の例示的な構成要素を示すが、他の実現例において、デバイス２００／３００は、図５に示されたものより少ない構成要素、図５に示されたのとは異なる構成要素、図５に示された以外の更なる構成要素又は図５に示されたのとは異なる方法で配置された構成要素を含んでもよい。更に他の実現例において、デバイス２００／３００の１つ以上の構成要素は、デバイス２００／３００の１つ以上の他の構成要素により実行されるものとして説明された１つ以上の他のタスクを実行してもよい。
【００５４】
図６は、デバイス２００／３００の例示的な構成要素を示す図である。図示されるように、デバイス２００／３００は、オーディオ／テキスト変換器６００、画像解析器６１０及び画像／会話の吹き出し生成器６２０を含んでもよい。一実現例において、図６で説明する機能は、図４に示されたデバイス２００／３００の例示的な構成要素のうちの１つ以上により実行されてもよい。
【００５５】
オーディオ／テキスト変換器６００は、記録されたオーディオ５１０を受信する（例えば、第１の被験者１２０から）あらゆるハードウェア又はハードウェアとソフトウェアとの組合せを含んでもよく、会話認識ソフトウェアを使用して記録されたオーディオ５１０（例えば、オーディオクリップ）をテキスト６３０（例えば、記録されたオーディオ５１０の）に変換してもよい。一実現例において、会話認識は、デバイス２００／３００に提供された（例えば、オーディオ／テキスト変換器６００を介して）会話認識ソフトウェアを用いて記録されたオーディオ５１０に対して実行されてもよい。別の実現例において、会話認識は、デバイス２００／３００と通信する（例えば、通信インタフェース４４０を介して）デバイス上に提供された会話認識ソフトウェアを用いて記録されたオーディオ５１０に対して実行されてもよい。オーディオ／テキスト変換器６００は、テキスト６３０を画像／会話の吹き出し生成器６２０に提供してもよい。
【００５６】
画像解析器６１０は、撮影された画像５２０（例えば、第１の被験者１２０の）を受信するあらゆるハードウェア又はハードウェアとソフトウェアとの組合せを含んでもよく、撮影された画像５２０において第１の被験者１２０の頭の場所６４０を判定するために顔検出ソフトウェアを使用してもよい。一実現例において、顔検出は、デバイス２００／３００に提供された（例えば、画像解析器６１０を介して）顔検出ソフトウェアを用いて撮影された画像５２０に対して実行されてもよい。別の実現例において、顔検出は、デバイス２００／３００と通信する（例えば、通信インタフェース４４０を介して）デバイス上に提供された顔検出ソフトウェアを用いて撮影された画像５２０に対して実行されてもよい。画像解析器６１０は、撮影された画像５２０における第１の被験者１２０の頭の場所６４０を画像／会話の吹き出し生成器６２０に提供してもよい。
【００５７】
画像／会話の吹き出し生成器６２０は、オーディオ／テキスト変換器６００からテキスト６３０を受信するあらゆるハードウェア又はハードウェアとソフトウェアとの組合せを含んでもよく、画像解析器６１０から場所６４０を受信してもよく、テキスト６３０を含む会話の吹き出し５３０を作成してもよい。場所６４０に基づいて、画像／会話の吹き出し生成器６２０は、撮影された画像５２０において会話の吹き出し５３０を第１の被験者１２０の頭の隣に位置付けてもよい。画像／会話の吹き出し生成器６２０は、第１の被験者１２０の位置付けられた会話の吹き出し５３０と撮影された画像５２０とを組み合わせて最終画像５４０を形成してもよい。
【００５８】
図６はデバイス２００／３００の例示的な構成要素を示すが、他の実現例において、デバイス２００／３００は、図６に示されたものより少ない構成要素、図６に示されたのとは異なる構成要素、図６に示された以外の更なる構成要素又は図６に示されたのとは異なる方法で配置された構成要素を含んでもよい。更に他の実現例において、デバイス２００／３００の１つ以上の構成要素は、デバイス２００／３００の１つ以上の他の構成要素により実行されるものとして説明された１つ以上の他のタスクを実行してもよい。
【００５９】
図７は、デバイス２００／３００が実行できる複数の人物の場合の例示的な音声制御画像編集動作７００を示す図である。図示されるように、デバイス２００／３００は、第１の被験者１２０及び第２の被験者１３０（例えば、複数の人物）の画像を撮影できるように、第１の被験者１２０及び第２の被験者１３０と共に配置されてもよい。デバイス２００／３００のユーザは、デバイス２００／３００と関連付けられた会話の吹き出しモード（例えば、画像撮影モード）を選択してもよく、デバイス２００／３００は、被験者１２０／１３０と関連付けられた（例えば、マイク３６０／３９０を介して）オーディオ７１０を記録し始めてもよい。ユーザが写真を撮る場合、デバイス２００／３００は、被験者１２０／１３０の画像７２０を撮影してもよく、記録されたオーディオ７１０（例えば、画像７２０が撮影される時間に時間的に近接する）及び撮影された画像７２０をデバイス２００／３００のメモリ４２０に格納してもよい。記録されたオーディオ７１０は、画像７２０がデバイス２００／３００により撮影される前及び後の双方に記録されるオーディオを含んでもよい。例えば記録されたオーディオ７１０は、被験者１２０／１３０により話された言葉（例えば、「Ｈｏｗ’ｓｉｔｇｏｉｎｇｔｏｄａｙ？Ｇｏｏｄ．Ｈｏｗａｒｅｙｏｕ？」）を含んでもよい。デバイス２００／３００は、記録されたオーディオ７１０を画像７２０が撮影された頃に話された（例えば、被験者１２０／１３０により）言葉を記録するオーディオクリップに短くしてもよい。オーディオクリップは、記録されたオーディオ７１０間で無音期間を識別することにより、全文を含んでもよい。
【００６０】
２人以上の人物（例えば、被験者１２０／１３０）がデバイス２００／３００により撮影された画像７２０に存在し、且つ被験者１２０／１３０の双方が話している場合、デバイス２００／３００は、各被験者１２０／１３０に属する記録されたオーディオ７１０の部分を識別する必要があるだろう。これを達成するために、一実現例において、デバイス２００／３００は、被験者１２０／１３０のビデオ（又は複数の撮影された画像）を解析して被験者１２０／１３０の口の動きを判定してもよく、記録されたオーディオ７１０を口の動きと比較して各被験者１２０／１３０に属する記録されたオーディオ７１０の部分を判定してもよい。別の実現例において、デバイス２００／３００は、記録されたオーディオ７１０を解析して被験者１２０／１３０の声の違いを判定してもよく、各被験者１２０／１３０に属する記録されたオーディオ７１０の部分を判定するためにこの情報を使用してもよい。更に別の実現例において、デバイス２００／３００は、各被験者１２０／１３０に属する記録されたオーディオ７１０の部分を判定するために使用される１つ以上の指向性マイクを含んでもよい。更に別の実現例において、デバイス２００／３００は、各被験者１２０／１３０に属する記録されたオーディオ７１０の部分を判定するために、上述の技術の組合せを利用してもよい。
【００６１】
デバイス２００／３００は、会話認識ソフトウェアを使用して記録されたオーディオ７１０（例えば、オーディオクリップ）をテキストに変換してもよい。一実現例において、会話認識は、デバイス２００／３００に提供された（例えば、デバイス２００／３００の処理ユニット４１０及びメモリ４２０を介して）会話認識ソフトウェアを用いて記録されたオーディオ７１０に対して実行されてもよい。別の実現例において、会話認識は、デバイス２００／３００と通信する（例えば、通信インタフェース４４０を介して）デバイス上に提供された会話認識ソフトウェアを用いて記録されたオーディオ７１０に対して実行されてもよい。デバイス２００／３００は、第１の被験者１２０に属する記録されたオーディオ７１０の部分の変換されたテキストを含む会話の吹き出し７３０を作成してもよく、第２の被験者１３０に属する記録されたオーディオ７１０の部分の変換されたテキストを含む会話の吹き出し７４０を作成してもよい。
【００６２】
デバイス２００／３００は、撮影された画像７２０において各被験者１２０／１３０の頭の場所を判定するために顔検出ソフトウェアを使用してもよい。一実現例において、顔検出は、デバイス２００／３００に提供された（例えば、デバイス２００／３００の処理ユニット４１０及びメモリ４２０を介して）顔検出ソフトウェアを用いて撮影された画像７２０に対して実行されてもよい。別の実現例において、顔検出は、デバイス２００／３００と通信する（例えば、通信インタフェース４４０を介して）デバイス上に提供された顔検出ソフトウェアを用いて撮影された画像７２０に対して実行されてもよい。
【００６３】
撮影された画像７２０において判定された第１の被験者１２０の頭の場所に基づいて、デバイス２００／３００は、撮影された画像７２０において会話の吹き出し７３０を第１の被験者１２０の頭の隣に位置付けてもよい。撮影された画像７２０において判定された第２の被験者１３０の頭の場所に基づいて、デバイス２００／３００は、撮影された画像７２０において会話の吹き出し７４０を第２の被験者１３０の頭の隣に位置付けてもよい。デバイス２００／３００は、会話の吹き出し７３０／７４０に提供されたテキストが被験者１２０／１３０により話される時間順に従って会話の吹き出し７３０／７４０を配置してもよい。例えば、第２の被験者１３０が「Ｇｏｏｄ．Ｈｏｗａｒｅｙｏｕ？」というテキスト（例えば、会話の吹き出し７４０に提供された）を話す前に第１の被験者１２０が「Ｈｏｗ’ｓｉｔｇｏｉｎｇｔｏｄａｙ？」というテキスト（例えば、会話の吹き出し７３０に提供された）を話した場合、デバイス２００／３００は、正しい時間順を示すために、会話の吹き出し７３０を会話の吹き出し７４０の左（又は上）に配置してもよい。
【００６４】
一実現例において、デバイス２００／３００のユーザは、撮影された画像７５０に応じて会話の吹き出し７３０／７４０を手動で再位置付けしてもよく、且つ／あるいは会話の吹き出し７３０／７４０に提供されたテキストを手動で編集してもよい。デバイス２００／３００は、被験者１２０／１３０の位置付けられた会話の吹き出し７３０／７４０と撮影された画像７２０とを組み合わせて最終画像７５０を形成してもよい。デバイス２００／３００は、画像７５０を表示してもよく（例えば、ディスプレイ３３０を介して）、且つ／あるいは画像７５０を格納してもよい（例えば、メモリ４２０に）。
【００６５】
図７はデバイス２００／３００の例示的な構成要素を示すが、他の実現例において、デバイス２００／３００は、図７に示されたものより少ない構成要素、図７に示されたのとは異なる構成要素、図７に示された以外の更なる構成要素又は図７に示されたのとは異なる方法で配置された構成要素を含んでもよい。更に他の実現例において、デバイス２００／３００の１つ以上の構成要素は、デバイス２００／３００の１つ以上の他の構成要素により実行されるものとして説明された１つ以上の他のタスクを実行してもよい。
【００６６】
図８は、図６に示されたオーディオ／テキスト変換器６００、画像解析器６１０及び画像／会話の吹き出し生成器６２０が実行できる更なる動作を示す図である。一実現例において、図８で説明する機能は、図４に示されたデバイス２００／３００の例示的な構成要素のうちの１つ以上により実行されてもよい。
【００６７】
オーディオ／テキスト変換器６００は、記録されたオーディオ７１０を受信してもよく（例えば、被験者１２０／１３０から）、記録されたオーディオ７１０（例えば、オーディオクリップ）を第１の被験者１２０と関連付けられたテキスト８００（例えば、記録されたオーディオ７１０の）及び第２の被験者１３０と関連付けられたテキスト８１０（例えば、記録されたオーディオ７１０の）に変換してもよい。オーディオ／テキスト変換器６００は、テキスト８００及びテキスト８１０を画像／会話の吹き出し生成器６２０に提供してもよい。
【００６８】
画像解析器６１０は、被験者１２０／１３０の記録されたオーディオ７１０及びビデオ８２０を受信してもよく、ビデオ８２０を解析して被験者１２０／１３０の口の動きを判定してもよく、記録されたオーディオ７１０を口の動きと比較して各被験者１２０／１３０に属する記録されたオーディオ７１０の部分を判定してもよい。画像解析器６１０は、記録されたオーディオ７１０を解析して被験者１２０／１３０の声の違いを判定してもよく、各被験者１２０／１３０に属する記録されたオーディオ７１０の部分を判定するためにこの情報を使用してもよい。画像解析器６１０は、撮影された画像７２０において被験者１２０／１３０の頭の場所を判定するために顔検出ソフトウェアを使用してもよく、頭の場所情報を判定された各被験者１２０／１３０に属する記録されたオーディオ７１０の部分と組み合わせて、オーディオ／第１の被験者一致情報８３０及びオーディオ／第２の被験者一致情報８４０を生成してもよい。画像解析器６１０は、情報８３０及び８４０を画像／会話の吹き出し生成器６２０に提供してもよい。
【００６９】
画像／会話の吹き出し生成器６２０は、オーディオ／テキスト変換器６００からテキスト８００／８１０を受信してもよく、画像解析器６１０から情報８３０／８４０を受信してもよい。画像／会話の吹き出し生成器６２０は、撮影された画像７２０において判定された第１の被験者１２０の場所に基づいて、撮影された画像７２０において会話の吹き出し７３０を第１の被験者１２０の頭の隣に位置付けてもよい。画像／会話の吹き出し生成器６２０は、撮影された画像７２０において判定された第２の被験者１３０の場所に基づいて、撮影された画像７２０において会話の吹き出し７４０を第２の被験者１３０の頭の隣に位置付けてもよい。画像／会話の吹き出し生成器６２０は、被験者１２０／１３０の位置付けられた会話の吹き出し７３０／７４０と撮影された画像７２０とを組み合わせて最終画像７５０を形成してもよい。
【００７０】
図８はデバイス２００／３００の例示的な構成要素を示すが、他の実現例において、デバイス２００／３００は、図８に示されたものより少ない構成要素、図８に示されたのとは異なる構成要素、図８に示された以外の更なる構成要素又は図８に示されたのとは異なる方法で配置された構成要素を含んでもよい。更に他の実現例において、デバイス２００／３００の１つ以上の構成要素は、デバイス２００／３００の１つ以上の他の構成要素により実行されるものとして説明された１つ以上の他のタスクを実行してもよい。
【００７１】
図９は、デバイス２００／３００が実行できる動物の場合の例示的な音声制御画像編集動作９００を示す図である。図示されるように、デバイス２００／３００は、ユーザ９２０が（例えば、デバイス２００／３００を介して）動物９１０（例えば、犬、猫、馬等の頭を含む人間以外の生物）の画像を撮影できるように、動物９１０と共に配置されてもよい。ユーザ９２０は、デバイス２００／３００と関連付けられた会話の吹き出しモード（例えば、画像撮影モード）を選択してもよく、デバイス２００／３００は、ユーザ９２０により提供された（例えば、マイク３６０／３９０を介して）オーディオ９３０を記録し始めてもよい。ユーザ９２０が写真を撮る場合、デバイス２００／３００は、動物９１９０の画像９４０を撮影してもよく、記録されたオーディオ９３０（例えば、画像９４０が撮影される時間に時間的に近接する）及び撮影された画像９４０をデバイス２００／３００のメモリ４２０に格納してもよい。記録されたオーディオ９３０は、デバイス２００／３００により画像９４０が撮影される前及び後の双方に記録されるオーディオを含んでもよい。例えば記録されたオーディオ９３０は、ユーザ９２０により話された言葉（例えば、「Ｉａｍｓｏｃｕｔｅａｎｄｃｕｄｄｌｙ！」）を含んでもよい。デバイス２００／３００は、記録されたオーディオ９３０を画像９４０が撮影された頃に話された（例えば、ユーザ９２０により）言葉を記録するオーディオクリップに短くしてもよい。オーディオクリップは、記録されたオーディオ９３０間で無音期間を識別することにより、全文を含んでもよい。
【００７２】
デバイス２００／３００は、会話認識ソフトウェアを使用して記録されたオーディオ９３０（例えば、オーディオクリップ）をテキストに変換してもよい。一実現例において、会話認識は、デバイス２００／３００に提供された（例えば、デバイス２００／３００の処理ユニット４１０及びメモリ４２０を介して）会話認識ソフトウェアを用いて記録されたオーディオ９３０に対して実行されてもよい。別の実現例において、会話認識は、デバイス２００／３００と通信する（例えば、通信インタフェース４４０を介して）デバイス上に提供された会話認識ソフトウェアを用いて記録されたオーディオ９３０に対して実行されてもよい。
【００７３】
デバイス２００／３００は、撮影された画像９４０において動物９１０の頭の場所を判定するために顔検出ソフトウェアを使用してもよい。一実現例において、顔検出は、デバイス２００／３００に提供された（例えば、デバイス２００／３００の処理ユニット４１０及びメモリ４２０を介して）顔検出ソフトウェアを用いて撮影された画像９４０に対して実行されてもよい。別の実現例において、顔検出は、デバイス２００／３００と通信する（例えば、通信インタフェース４４０を介して）デバイス上に提供された顔検出ソフトウェアを用いて撮影された画像９４０に対して実行されてもよい。
【００７４】
デバイス２００／３００は、記録されたオーディオ９３０の変換されたテキストを含む会話の吹き出し９５０を作成してもよい。撮影された画像９４０において判定された動物９１０の頭の場所に基づいて、デバイス２００／３００は、撮影された画像９４０において会話の吹き出し９５０を動物９１０の頭の隣に位置付けてもよい。一実現例において、ユーザ９２０は、撮影された画像９４０に応じて会話の吹き出し９５０を手動で再位置付けしてもよく、且つ／あるいは会話の吹き出し９５０に提供されたテキストを手動で編集してもよい。デバイス２００／３００は、動物９１０の位置付けられた会話の吹き出し９５０と撮影された画像９４０とを組み合わせて最終画像９６０を形成してもよい。デバイス２００／３００は、画像９６０を表示してもよく（例えば、ディスプレイ３３０を介して）、且つ／あるいは画像９６０を格納してもよい（例えば、メモリ４２０に）。
【００７５】
図９はデバイス２００／３００の例示的な構成要素を示すが、他の実現例において、デバイス２００／３００は、図９に示されたものより少ない構成要素、図９に示されたのとは異なる構成要素、図９に示された以外の更なる構成要素又は図９に示されたのとは異なる方法で配置された構成要素を含んでもよい。更に他の実現例において、デバイス２００／３００の１つ以上の構成要素は、デバイス２００／３００の１つ以上の他の構成要素により実行されるものとして説明された１つ以上の他のタスクを実行してもよい。
【００７６】
図１０は、デバイス２００／３００が実行できる被写体の場合の例示的な音声制御画像編集動作１０００を示す図である。図示されるように、デバイス２００／３００は、ユーザ１０２０が（例えば、デバイス２００／３００を介して）被写体１０１０（例えば、自動車、家等の無生物の被写体）の画像を撮影できるように、被写体１０１０と共に配置されてもよい。ユーザ１０２０は、デバイス２００／３００と関連付けられた会話の吹き出しモード（例えば、画像撮影モード）を選択してもよく、デバイス２００／３００は、ユーザ１０２０により提供された（例えば、マイク３６０／３９０を介して）オーディオ１０３０を記録し始めてもよい。ユーザ１０２０が写真を撮る場合、デバイス２００／３００は、被写体１０１０の画像１０４０を撮影してもよく、記録されたオーディオ１０３０（例えば、画像１０４０が撮影される時間に時間的に近接する）及び撮影された画像１０４０をデバイス２００／３００のメモリ４２０に格納してもよい。記録されたオーディオ１０３０は、デバイス２００／３００により画像１０４０が撮影される前及び後の双方に記録されるオーディオを含んでもよい。例えば記録されたオーディオ１０３０は、ユーザ１０２０により話された言葉（例えば、「Ｉｓｎ’ｔｓｈｅｌｏｖｅｌｙ？」）を含んでもよい。デバイス２００／３００は、記録されたオーディオ１０３０を画像１０４０が撮影された頃に話された（例えば、ユーザ１０２０により）言葉を記録するオーディオクリップに短くしてもよい。オーディオクリップは、記録されたオーディオ１０３０間で無音期間を識別することにより、全文を含んでもよい。
【００７７】
デバイス２００／３００は、会話認識ソフトウェアを使用して記録されたオーディオ１０３０（例えば、オーディオクリップ）をテキストに変換してもよい。一実現例において、会話認識は、デバイス２００／３００に提供された（例えば、デバイス２００／３００の処理ユニット４１０及びメモリ４２０を介して）会話認識ソフトウェアを用いて記録されたオーディオ１０３０に対して実行されてもよい。別の実現例において、会話認識は、デバイス２００／３００と通信する（例えば、通信インタフェース４４０を介して）デバイス上に提供された会話認識ソフトウェアを用いて記録されたオーディオ１０３０に対して実行されてもよい。デバイス２００／３００は、撮影された画像１０４０において頭の場所を判定するために顔検出ソフトウェアを使用してもよい。しかし、被写体１０１０が頭を有さないため、デバイス２００／３００は撮影された画像１０４０において頭を検出できない。
【００７８】
撮影された画像１０４０において頭が検出されない場合、デバイス２００／３００は、記録されたオーディオ１０３０の変換されたテキストを含むタイトル１０５０（例えば、撮影された画像１０４０に対する）を作成してもよい。デバイス２００／３００は、撮影された画像１０４０においてタイトル１０５０を被写体１０１０の隣に位置付けてもよい（例えば、タイトルとして）。一実現例において、ユーザ１０２０は、撮影された画像１０４０に応じてタイトル１０５０を手動で再位置付けしてもよく、且つ／あるいはタイトル１０５０に提供されたテキストを手動で編集してもよい。デバイス２００／３００は、被写体１０１０の位置付けられたタイトル１０５０と撮影された画像１０４０とを組み合わせて最終画像１０６０を形成してもよい。デバイス２００／３００は、画像１０６０を表示してもよく（例えば、ディスプレイ３３０を介して）、且つ／あるいは画像１０６０を格納してもよい（例えば、メモリ４２０に）。
【００７９】
図１０はデバイス２００／３００の例示的な構成要素を示すが、他の実現例において、デバイス２００／３００は、図１０に示されたものより少ない構成要素、図１０に示されたのとは異なる構成要素、図１０に示された以外の更なる構成要素又は図１０に示されたのとは異なる方法で配置された構成要素を含んでもよい。更に他の実現例において、デバイス２００／３００の１つ以上の構成要素は、デバイス２００／３００の１つ以上の他の構成要素により実行されるものとして説明された１つ以上の他のタスクを実行してもよい。
【００８０】
図１１は、デバイス２００／３００が実行できる複数の人物の場合の例示的な音声制御画像編集動作１１００を示す図である。図示されるように、デバイス２００／３００は、第１の被験者１２０及び第２の被験者１３０（例えば、複数の人物）の画像を撮影できるように、第１の被験者１２０及び第２の被験者１３０と共に配置されてもよい。デバイス２００／３００のユーザは、デバイス２００／３００と関連付けられた会話の吹き出しモード（例えば、画像撮影モード）を選択してもよく、デバイス２００／３００は、被験者１２０／１３０と関連付けられた（例えば、マイク３６０／３９０を介して）オーディオ１１１０を記録し始めてもよい。ユーザが写真を撮る場合、デバイス２００／３００は、被験者１２０／１３０の画像１１２０を撮影してもよく、記録されたオーディオ１１１０（例えば、画像１１２０が撮影される時間に時間的に近接する）及び撮影された画像１１２０をデバイス２００／３００のメモリ４２０に格納してもよい。記録されたオーディオ１１１０は、画像１１２０がデバイス２００／３００により撮影される前及び後の双方に記録されるオーディオを含んでもよい。例えば記録されたオーディオ１１１０は、被験者１２０／１３０により話された言葉（例えば、「．．．ａｎｄｍｏｒｏｎｉｃｓｔｒｉｎｇｉｎｇｔｏｇｅｔｈｅｒｏｆｗｏｒｄｓｔｈｅｓｔｕｄｉｏｓｔｅｒｍｓａｓｐｒｏｓｅ．」）を含んでもよい。デバイス２００／３００は、記録されたオーディオ１１１０を画像１１２０が撮影された頃に話された（例えば、被験者１２０／１３０により）言葉を記録するオーディオクリップに短くしてもよい。オーディオクリップは、記録されたオーディオ１１１０間で無音期間を識別することにより、全文を含んでもよい。
【００８１】
デバイス２００／３００は、各被験者１２０／１３０に属する記録されたオーディオ７１０の部分を識別することを試みてもよい。一実現例において、デバイス２００／３００は、被験者１２０／１３０のビデオ（又は複数の撮影された画像）を解析して被験者１２０／１３０の口の動きを判定してもよく、記録されたオーディオ１１１０を口の動きと比較して各被験者１２０／１３０に属する記録されたオーディオ１１１０の部分を判定してもよい。別の実現例において、デバイス２００／３００は、記録されたオーディオ１１１０を解析して被験者１２０／１３０の声の違いを判定してもよく、各被験者１２０／１３０に属する記録されたオーディオ１１１０の部分を判定するためにこの情報を使用してもよい。更に別の実現例において、デバイス２００／３００は、各被験者１２０／１３０に属する記録されたオーディオ１１１０の部分を判定するために、上述の技術の組合せを利用してもよい。
【００８２】
デバイス２００／３００は、会話認識ソフトウェアを使用して記録されたオーディオ１１１０（例えば、オーディオクリップ）をテキストに変換してもよい。一実現例において、会話認識は、デバイス２００／３００に提供された（例えば、デバイス２００／３００の処理ユニット４１０及びメモリ４２０を介して）会話認識ソフトウェアを用いて記録されたオーディオ１１１０に対して実行されてもよい。別の実現例において、会話認識は、デバイス２００／３００と通信する（例えば、通信インタフェース４４０を介して）デバイス上に提供された会話認識ソフトウェアを用いて記録されたオーディオ１１１０に対して実行されてもよい。デバイス２００／３００は、各被験者１２０／１３０に属する記録されたオーディオ１１１０の部分を識別できない場合、記録されたオーディオ１１１０の変換されたテキストを含む字幕１１３０を作成してもよい。字幕１１３０は、各被験者１２０／１３０が属する記録されたオーディオ１１１０の部分をデバイス２００／３００が識別できる場合にも提供されてもよい。字幕１１３０は、各被験者１２０／１３０が属する記録されたオーディオ１１１０の部分を識別することを必要とせずに、記録されたオーディオ１１１０の変換されたテキストを表示してもよい。字幕１１３０は、オーディオ１１１０のリアルタイムの変換を提供してもよく、聴覚障害者に対して及び更には変換のために（例えば、図１３に関連して以下に説明する）ビデオ眼鏡を用いて（例えば、図１４に関連して以下に説明する）使用されてもよい。字幕１１３０をリアルタイムに表示することにより、被験者の頭に向けられた会話の吹き出しの必要性を排除してもよい。
【００８３】
デバイス２００／３００は、各被験者１２０／１３０に属する記録されたオーディオ１１１０の部分を識別できない場合、撮影された画像１１２０において字幕１１３０を被験者１２０／１３０の隣（例えば、下）に位置付けてもよい。一実現例において、デバイス２００／３００のユーザは、撮影された画像１１２０に応じて字幕１１３０を手動で再位置付けしてもよく、且つ／あるいは字幕１１３０に提供されたテキストを手動で編集してもよい。デバイス２００／３００は、被験者１２０／１３０の位置付けられた字幕１１３０と撮影された画像１１２０とを組み合わせて最終画像１１４０を形成してもよい。デバイス２００／３００は、画像１１４０を表示してもよく（例えば、ディスプレイ３３０を介して）、且つ／あるいは画像１１４０を格納してもよい（例えば、メモリ４２０に）。
【００８４】
図１１はデバイス２００／３００の例示的な構成要素を示すが、他の実現例において、デバイス２００／３００は、図１１に示されたものより少ない構成要素、図１１に示されたのとは異なる構成要素、図１１に示された以外の更なる構成要素又は図１１に示されたのとは異なる方法で配置された構成要素を含んでもよい。更に他の実現例において、デバイス２００／３００の１つ以上の構成要素は、デバイス２００／３００の１つ以上の他の構成要素により実行されるものとして説明された１つ以上の他のタスクを実行してもよい。例えばデバイス２００／３００は、画像１１４０に濃淡を付加してもよく、画像１１４０をエンボス加工してもよく、画像１１４０を油絵として生成してもよく、画像１１４０又は画像１１４０の一部をトリミングするかあるいはズームする等してもよい。

図１２は、デバイス２００／３００が実行できる単一の人物の場合の例示的な音声制御画像編集動作１２００を示す図である。図示されるように、デバイス２００／３００は、ユーザ１２２０が（例えば、デバイス２００／３００を介して）被験者１２１０（例えば、被験者１２０／１３０に類似する）の画像を撮影できるように、被験者１２１０及びユーザ１２２０と共に配置されてもよい。ユーザ１０２０は、デバイス２００／３００と関連付けられた会話の吹き出しモード（例えば、画像撮影モード）を選択してもよく、音声コマンド１２３０をデバイス２００／３００に提供してもよい。音声コマンド１２３０は、特定の動作を実行するようにデバイス２００／３００に命令する１つ又は複数の言葉を含んでもよい。例えば音声コマンド１２３０は、思考の吹き出し動作を実行するようにデバイス２００／３００に命令するコマンド（例えば、「思考の吹き出し」）を含んでもよい。音声コマンド１２３０を受信した後、デバイス２００／３００は、ユーザ１２２０により提供された（例えば、マイク３６０／３９０を介して）オーディオ１２４０を記録し始めてもよい。ユーザ１２２０が写真を撮る場合、デバイス２００／３００は、被験者１２１０の画像１２５０を撮影してもよく、記録されたオーディオ１２４０（例えば、画像１２５０が撮影される時間に時間的に近接する）及び撮影された画像１２５０をデバイス２００／３００のメモリ４２０に格納してもよい。記録されたオーディオ１２４０は、デバイス２００／３００により画像１２５０が撮影される前及び後の双方に記録されるオーディオを含んでもよい。例えば記録されたオーディオ１２４０は、ユーザ１２２０により話された言葉（例えば、「Ａｆｏｏｔｂａｌｌａｎｄｆｒｉｅｎｄｓｗｏｕｌｄｂｅｎｉｃｅ！」）を含んでもよい。デバイス２００／３００は、記録されたオーディオ１２４０を画像１２５０が撮影された頃に話された（例えば、ユーザ１２２０により）言葉を記録するオーディオクリップに短くしてもよい。オーディオクリップは、記録されたオーディオ１２４０間で無音期間を識別することにより、全文を含んでもよい。
【００８５】
デバイス２００／３００は、会話認識ソフトウェアを使用して記録されたオーディオ１２４０（例えば、オーディオクリップ）をテキストに変換してもよい。一実現例において、会話認識は、デバイス２００／３００に提供された（例えば、デバイス２００／３００の処理ユニット４１０及びメモリ４２０を介して）会話認識ソフトウェアを用いて記録されたオーディオ１２４０に対して実行されてもよい。別の実現例において、会話認識は、デバイス２００／３００と通信する（例えば、通信インタフェース４４０を介して）デバイス上に提供された会話認識ソフトウェアを用いて記録されたオーディオ１２４０に対して実行されてもよい。
【００８６】
デバイス２００／３００は、撮影された画像１２５０の被験者１２１０の頭の場所を判定するために顔検出ソフトウェアを使用してもよい。一実現例において、顔検出は、デバイス２００／３００に提供された（例えば、デバイス２００／３００の処理ユニット４１０及びメモリ４２０を介して）顔検出ソフトウェアを用いて撮影された画像１２５０に対して実行されてもよい。別の実現例において、顔検出は、デバイス２００／３００と通信する（例えば、通信インタフェース４４０を介して）デバイス上に提供された顔検出ソフトウェアを用いて撮影された画像５２０に対して実行されてもよい。
【００８７】
デバイス２００／３００は、記録されたオーディオ１２４０の変換されたテキストを含む思考の吹き出し１２６０を作成してもよい（例えば、音声コマンド１２３０に基づいて）。撮影された画像１２５０において判定された被験者１２１０の頭の場所に基づいて、デバイス２００／３００は、撮影された画像１２５０において思考の吹き出し１２６０を被験者１２１０の頭の隣に位置付けてもよい。一実現例において、ユーザ１２１０は、撮影された画像１２５０に応じて思考の吹き出し１２６０を手動で再位置付けしてもよく、且つ／あるいは思考の吹き出し１２６０に提供されたテキストを手動で編集してもよい。デバイス２００／３００は、被験者１２１０の位置付けられた思考の吹き出し１２６０と撮影された画像１２５０とを組み合わせて最終画像１２７０を形成してもよい。デバイス２００／３００は、画像１２７０を表示してもよく（例えば、ディスプレイ３３０を介して）、且つ／あるいは画像１２７０を格納してもよい（例えば、メモリ４２０に）。
【００８８】
図１２はデバイス２００／３００の例示的な構成要素を示すが、他の実現例において、デバイス２００／３００は、図１２に示されたものより少ない構成要素、図１２に示されたのとは異なる構成要素、図１２に示された以外の更なる構成要素又は図１２に示されたのとは異なる方法で配置された構成要素を含んでもよい。更に他の実現例において、デバイス２００／３００の１つ以上の構成要素は、デバイス２００／３００の１つ以上の他の構成要素により実行されるものとして説明された１つ以上の他のタスクを実行してもよい。
【００８９】
図１３は、デバイス２００／３００が実行できる例示的な音声制御画像編集及び翻訳動作１３００を示す図である。図示されるように、デバイス２００／３００は、第１の被験者１２０の画像を撮影できるように、第１の被験者１２０と共に配置されてもよい。デバイス２００／３００のユーザは、デバイス２００／３００と関連付けられた会話の吹き出しモード（例えば、画像撮影モード）を選択してもよく、デバイス２００／３００は、第１の被験者１２０と関連付けられ（例えば、マイク３６０／３９０を介して）且つ第１言語（例えば、スペイン語）で提供されたオーディオ１３１０を記録し始めてもよい。ユーザが写真を撮る場合、デバイス２００／３００は、第１の被験者１２０の画像１３２０を撮影してもよく、記録されたオーディオ１３１０（例えば、画像１３２０が撮影される時間に時間的に近接する）及び撮影された画像１３２０をデバイス２００／３００のメモリ４２０に格納してもよい。記録されたオーディオ１３１０は、デバイス２００／３００により画像１３２０が撮影される前及び後の双方に記録されるオーディオを含んでもよい。例えば記録されたオーディオ１３１０は、第１の被験者１２０により話された言葉（例えば、「Ｂａｒｃｅｌｏｎａ？Ｉｔｃｏｓｔｓ２０Ｅｕｒｏ．Ｈｕｒｒｙｔｈｅｔｒａｉｎｉｓｌｅａｖｉｎｇ！」という意味のスペイン語「Ｂａｒｃｅｌｏｎａ？Ｃｕｅｓｔａ２０ｅｕｒｏｓ．Ｒａｐｉｄｏｓｅｖａｅｌｔｒｅｎ！」）を含んでもよい。デバイス２００／３００は、記録されたオーディオ１３１０を画像１３２０が撮影された頃に話された（例えば、被験者１２０により）言葉を記録するオーディオクリップに短くしてもよい。オーディオクリップは、記録されたオーディオ１３１０間で無音期間を識別することにより、全文を含んでもよい。
【００９０】
デバイス２００／３００は、会話認識ソフトウェアを使用して記録されたオーディオ１３１０（例えば、オーディオクリップ）を第２言語（例えば、英語）でテキストに変換してもよい。一実現例において、会話認識及び言語翻訳は、デバイス２００／３００に提供された（例えば、デバイス２００／３００の処理ユニット４１０及びメモリ４２０を介して）会話認識ソフトウェアを用いて記録されたオーディオ１３１０に対して実行されてもよい。別の実現例において、会話認識及び言語翻訳は、デバイス２００／３００と通信する（例えば、通信インタフェース４４０を介して）デバイス上に提供された会話認識ソフトウェアを用いて記録されたオーディオ１３１０に対して実行されてもよい。
【００９１】
デバイス２００／３００は、撮影された画像１３２０において第１の被験者１２０の頭の場所を判定するために顔検出ソフトウェアを使用してもよい。一実現例において、顔検出は、デバイス２００／３００に提供された（例えば、デバイス２００／３００の処理ユニット４１０及びメモリ４２０を介して）顔検出ソフトウェアを用いて撮影された画像１３２０に対して実行されてもよい。別の実現例において、顔検出は、デバイス２００／３００と通信する（例えば、通信インタフェース４４０を介して）デバイス上に提供された顔検出ソフトウェアを用いて撮影された画像１３２０に対して実行されてもよい。
【００９２】
デバイス２００／３００は、記録されたオーディオ１３１０の翻訳されたテキスト（例えば、「Ｂａｒｃｅｌｏｎａ？Ｉｔｃｏｓｔｓ２０Ｅｕｒｏ．Ｈｕｒｒｙｔｈｅｔｒａｉｎｉｓｌｅａｖｉｎｇ！」）を含む第２言語（例えば、英語）で会話の吹き出し１３３０を作成してもよい。撮影された画像１３２０において判定された第１の被験者１２０の頭の場所に基づいて、デバイス２００／３００は、撮影された画像１３２０において会話の吹き出し１３３０を第１の被験者１２０の頭の隣に位置付けてもよい。一実現例において、デバイス２００／３００のユーザは、撮影された画像１３２０に応じて会話の吹き出し１３３０を手動で再位置付けしてもよく、且つ／あるいは会話の吹き出し１３３０に提供されたテキストを手動で編集してもよい。デバイス２００／３００は、第１の被験者１２０の位置付けられた会話の吹き出し１３３０と撮影された画像１３２０とを組み合わせて最終画像１３４０を形成してもよい。デバイス２００／３００は、画像１３４０を表示してもよく（例えば、ディスプレイ３３０を介して）、且つ／あるいは画像１３４０を格納してもよい（例えば、メモリ４２０に）。
【００９３】
会話の吹き出し１３３０（又は字幕）がデバイス２００／３００により表示される前に記録されたオーディオ１３１０を解釈し且つ翻訳する場合、何らかの遅延がある可能性がある。そのような遅延は、記録されたオーディオ１３１０が翻訳される際にその一部を表示することにより（例えば、記録されたオーディオ１３１０の完全な翻訳を待つのではなく）、減少するだろう。例えばデバイス２００／３００は、全文又は文の一部が解釈（及び翻訳）されるのを待つのではなく、記録されたオーディオ１３１０の言葉が解釈（及び翻訳）されるとすぐそれを表示してもよい。そのような構成において、デバイス２００／３００は殆ど遅延なく言葉を表示してもよく、ユーザは記録されたオーディオ１３１０を解釈し始めてもよい。全文又は文の一部がデバイス２００／３００により解釈（及び翻訳）されている場合、デバイス２００／３００は、言葉を再構成して文法的に正しい文又は文の一部を表示してもよい。デバイス２００／３００は、解釈（及び翻訳）されたテキストを複数の行で表示してもよく、新しく記録されたオーディオ１３１０がデバイス２００／３００により受信され、解釈され且つ表示されると、テキストの先の行を上方へスクロールするかあるいはフェードアウトしてもよい。
【００９４】
図１３はデバイス２００／３００の例示的な構成要素を示すが、他の実現例において、デバイス２００／３００は、図１３に示されたものより少ない構成要素、図１３に示されたのとは異なる構成要素、図１３に示された以外の更なる構成要素又は図１３に示されたのとは異なる方法で配置された構成要素を含んでもよい。更に他の実現例において、デバイス２００／３００の１つ以上の構成要素は、デバイス２００／３００の１つ以上の他の構成要素により実行されるものとして説明された１つ以上の他のタスクを実行してもよい図１４は、ビデオ眼鏡１４１０が実行できる例示的な音声制御画像編集及び翻訳動作１４００を示す図である。一実現例において、図１３に関連して上述した動作は、ビデオ眼鏡１４１０により実行されてもよい。ビデオ眼鏡１４１０は、フレーム、画像及び／又はビデオを表示するレンズ、フレーム内に隠蔽された小型カメラ、図４の構成要素等を含んでもよい。図１４に示されるように、ビデオ眼鏡１４１０は、第１の被験者１２０の画像を撮影できるように、第１の被験者１２０と共に配置されてもよい。ビデオ眼鏡１４１０をかけているユーザは、ビデオ眼鏡１４１０と関連付けられた会話の吹き出しモード（例えば、画像撮影モード）を選択してもよく、ビデオ眼鏡１４１０は、第１の被験者１２０と関連付けられ且つ第１言語（例えば、スペイン語）で提供されたオーディオ１４２０を記録し始めてもよい。ビデオ眼鏡１４１０は、第１の被験者１２０の画像１４３０を撮影してもよく、記録されたオーディオ１４２０（例えば、画像１４３０が撮影される時間に時間的に近接する）及び撮影された画像１４３０をビデオ眼鏡１４１０に格納してもよい。記録されたオーディオ１４２０は、ビデオ眼鏡１４１０により画像１４３０が撮影される前及び後の双方に記録されるオーディオを含んでもよい。例えば記録されたオーディオ１３１０は、第１の被験者１２０により話された言葉（例えば、「Ｔｈｅｍｅｅｔｉｎｇｗｉｌｌｂｅｇｉｎｗｉｔｈａｓｈｏｒｔｐｒｅｓｅｎｔａｔｉｏｎａｂｏｕｔ．．．」という意味のスペイン語「Ｌａｒｅｕｎｉｏｎｃｏｍｅｎｚａｒａｃｏｎｕｎａｂｒｅｖｅｐｒｅｓｅｎｔａｃｉｏｎａｃｅｒｃａｄｅ．．．」）を含んでもよい。ビデオ眼鏡１４１０は、記録されたオーディオ１４２０を画像１４３０が撮影された頃に話された（例えば、被験者１２０により）言葉を記録するオーディオクリップに短くしてもよい。オーディオクリップは、記録されたオーディオ１４２０間で無音期間を識別することにより、全文を含んでもよい。
【００９５】
ビデオ眼鏡１４１０は、会話認識ソフトウェアを使用して記録されたオーディオ１４２０（例えば、オーディオクリップ）を第２言語（例えば、英語）でテキストに変換してもよい。一実現例において、会話認識及び言語翻訳は、ビデオ眼鏡１４１０に提供された会話認識ソフトウェアを用いて記録されたオーディオ１４２０に対して実行されてもよい。別の実現例において、会話認識及び言語翻訳は、ビデオ眼鏡１４１０と通信するデバイス上に提供された会話認識ソフトウェアを用いて記録されたオーディオ１４２０に対して実行されてもよい。
【００９６】
ビデオ眼鏡１４１０は、第１の被験者１２０の頭の場所を判定するために顔検出ソフトウェアを使用してもよい。一実現例において、顔検出は、ビデオ眼鏡１４１０に提供された顔検出ソフトウェアを用いて撮影された画像１４３０に対して実行されてもよい。別の実現例において、顔検出は、ビデオ眼鏡１４１０と通信するデバイス上に提供された顔検出ソフトウェアを用いて撮影された画像１４３０に対して実行されてもよい。
【００９７】
ビデオ眼鏡１４１０は、記録されたオーディオ１４２０の翻訳されたテキスト（例えば、「Ｔｈｅｍｅｅｔｉｎｇｗｉｌｌｂｅｇｉｎｗｉｔｈａｓｈｏｒｔｐｒｅｓｅｎｔａｔｉｏｎａｂｏｕｔ．．．」）を含む第２言語（例えば、英語）で会話の吹き出し１３３０を作成してもよい。判定された第１の被験者１２０の頭の場所に基づいて、ビデオ眼鏡１４１０は、会話の吹き出し１４４０を第１の被験者１２０の頭の隣に位置付けてもよい。ビデオ眼鏡１４１０は、会話の吹き出し１４４０（例えば、レンズ上の）を第１の被験者１２０の頭の隣に表示してもよい。ビデオ眼鏡１４１０は、第１の被験者１２０、すなわちビデオ眼鏡１４１０をかけているユーザが移動する場合、第１の被験者１２０に対して会話の吹き出し１４４０の位置を自動的に更新してもよい。そのような構成により、ビデオ眼鏡１４１０をかけているユーザは実行中に言語翻訳を取得できる。ビデオ眼鏡１４１０は、リアルタイムのビデオを表示し且つ撮影してもよい（例えば、演劇を見ている難聴者に対して）。例えば、一実現例において、ビデオ眼鏡１４１０は、透明な眼鏡に会話の吹き出し１４４０（又は字幕）を表示してもよい。別の実現例において、ビデオ眼鏡１４１０は、会話の吹き出し１４４０（又は字幕）と共に被験者１２０のリアルタイムのビデオを表示してもよい。
【００９８】
図１４はビデオ眼鏡１４１０の例示的な構成要素を示すが、他の実現例において、ビデオ眼鏡１４１０は、図１４に示されたものより少ない構成要素、図１４に示されたのとは異なる構成要素、図１４に示された以外の更なる構成要素又は図１４に示されたのとは異なる方法で配置された構成要素を含んでもよい。更に他の実現例において、ビデオ眼鏡１４１０の１つ以上の構成要素は、ビデオ眼鏡１４１０の１つ以上の他の構成要素により実行されるものとして説明された１つ以上の他のタスクを実行してもよい。例えばビデオ眼鏡１４１０は、デバイス２００／３００により実行されるものとして本明細書において説明されたタスクを実行してもよい。
【００９９】
図１５は、デバイス２００／３００が実行できる複数の表現の場合の例示的な音声制御画像編集動作１５００を示す図である。図示されるように、デバイスが記録されたオーディオを介して複数の表現又は対話を受信する場合、デバイス２００／３００は、そのような表現又は対話をいくつかの会話の吹き出しに分割してもよく、会話の吹き出しを時間順の画像（例えば、フリップチャートのコマ割り漫画のような）と関連付けてもよい。例えば、図１５に示されるように、デバイス２００／３００は、第１の会話の吹き出し１５１０を作成してもよく、第１の会話の吹き出し１５１０を第１の撮影された画像と関連付けて第１の画像１５２０を作成してもよい。デバイス２００／３００は、第２の会話の吹き出し１５３０を作成してもよく、第２の会話の吹き出し１５３０を第２の撮影された画像と関連付けて第２の画像１５４０を作成してもよい。デバイス２００／３００は、第３の会話の吹き出し１５５０を作成してもよく、第３の会話の吹き出し１５５０を第３の撮影された画像と関連付けて第３の画像１５６０を作成してもよい。デバイス２００／３００は、画像１５２０と、１５４０と、１５６０とを組み合わせてもよく、その組合せを表示してもよく（例えば、ディスプレイ３３０を介して）、且つ／あるいはその組合せを格納してもよい（例えば、メモリ４２０に）。
【０１００】
図１５はデバイス２００／３００の例示的な構成要素を示すが、他の実現例において、デバイス２００／３００は、図１５に示されたものより少ない構成要素、図１５に示されたのとは異なる構成要素、図１５に示された以外の更なる構成要素又は図１５に示されたのとは異なる方法で配置された構成要素を含んでもよい。更に他の実現例において、デバイス２００／３００の１つ以上の構成要素は、デバイス２００／３００の１つ以上の他の構成要素により実行されるものとして説明された１つ以上の他のタスクを実行してもよい。
【０１０１】
例示的な処理
図１６〜図１８は、本明細書において説明する実現例に係る音声制御画像編集の例示的な処理１６００を示すフローチャートである。一実現例において、処理１６００は、デバイス２００／３００の１つ以上の構成要素により実行されてもよい。別の実現例において、処理１６００のうちのいくつか又は全ては、デバイス２００／３００を含むかあるいは除外する別のデバイス又はデバイスのグループにより実行されてもよい。
【０１０２】
図１６に示されるように、処理１６００は、デバイスにより被写体の画像を撮影し（ブロック１６１０）、且つ被写体が人物であるかを判定する（ブロック１６２０）ことから開始してもよい。被写体が人物でない場合（ブロック１６２０−ＮＯ）、処理１６００は図１７の「Ａ」に継続する。被写体が人物である場合（ブロック１６２０−ＹＥＳ）、被写体と関連付けられたオーディオが記録される（ブロック１６３０）。例えば、図５に関連して上述した実現例において、デバイス２００／３００のユーザは、デバイス２００／３００と関連付けられた会話の吹き出しモード（例えば、画像撮影モード）を選択してもよく、デバイス２００／３００は、第１の被験者１２０と関連付けられた（例えば、マイク３６０／３９０を介して）オーディオ５１０を記録し始めてもよい。ユーザが写真を撮る場合、デバイス２００／３００は、第１の被験者１２０の画像５２０を撮影してもよく、記録されたオーディオ５１０（例えば、画像５２０が撮影される時間に時間的に近接する）及び撮影された画像５２０をデバイス２００／３００のメモリ４２０に格納してもよい。記録されたオーディオ５１０は、デバイス２００／３００により画像５２０が撮影される前及び後の双方に記録されるオーディオを含んでもよい。デバイス２００／３００は、第１の被験者１２０が人物であるかを更に判定してもよい。
【０１０３】
図１６に更に示されるように、被写体が単一の人物であると判定されない場合（ブロック１６４０−ＮＯ）、処理１６００は図１８の「Ｂ」に継続する。被写体が単一の人物であると判定される場合（ブロック１６４０−ＹＥＳ）、人物の頭の場所は、撮影された画像に基づいて判定されてもよい（ブロック１６５０）。例えば、図５に関連して上述した実現例において、第１の被験者１２０が単一の人物であると判定した後、デバイス２００／３００は、撮影された画像５２０において第１の被験者１２０の頭の場所を判定するために顔検出ソフトウェアを使用してもよい。一例において、顔検出は、デバイス２００／３００に提供された（例えば、デバイス２００／３００の処理ユニット４１０及びメモリ４２０を介して）顔検出ソフトウェアを用いて撮影された画像５２０に対して実行されてもよい。別の例において、顔検出は、デバイス２００／３００と通信する（例えば、通信インタフェース４４０を介して）デバイス上に提供された顔検出ソフトウェアを用いて撮影された画像５２０に対して実行されてもよい。
【０１０４】
図１６に戻ると、オーディオはテキストに変換されてもよく（ブロック１６６０）、テキストを含む会話の吹き出しが作成されてもよく（ブロック１６７０）、会話の吹き出しは、人物の頭の場所の隣に位置付けられて最終画像を作成してもよく（ブロック１６８０）、最終画像は、デバイス上に表示され且つ／あるいは格納されてもよい（ブロック１６９０）。例えば、図５に関連して上述した実現例において、デバイス２００／３００は、会話認識ソフトウェアを使用して記録されたオーディオ５１０（例えば、オーディオクリップ）をテキストに変換してもよい。デバイス２００／３００は、記録されたオーディオ５１０の変換されたテキストを含む会話の吹き出し５３０を作成してもよい。撮影された画像５２０において判定された第１の被験者１２０の頭の場所に基づいて、デバイス２００／３００は、撮影された画像５２０において会話の吹き出し５３０を第１の被験者１２０の頭の隣に位置付けてもよい。一例において、デバイス２００／３００のユーザは、撮影された画像５２０に応じて会話の吹き出し５３０を手動で再位置付けしてもよく、且つ／あるいは会話の吹き出し５３０に提供されたテキストを手動で編集してもよい。デバイス２００／３００は、第１の被験者１２０の位置付けられた会話の吹き出し５３０と撮影された画像５２０とを組み合わせて最終画像５４０を形成してもよい。デバイス２００／３００は、画像５４０を表示してもよく（例えば、ディスプレイ３３０を介して）、且つ／あるいは画像５４０を格納してもよい（例えば、メモリ４２０に）。
【０１０５】
図１７に示されるように、被写体が人物でない場合（ブロック１６２０−ＮＯ）、被写体が動物であるかが判定されてもよい（ブロック１７０５）。被写体が動物である場合（ブロック１７０５−ＹＥＳ）、デバイスのユーザと関連付けられたオーディオが記録されてもよく（ブロック１７１０）、且つ動物の頭の場所が撮影された画像に基づいて判定されてもよい（ブロック１７１５）。例えば、図９に関連して上述した実現例において、被験者は動物であるとデバイス２００／３００が判定した後、ユーザ９２０は、デバイス２００／３００と関連付けられた会話の吹き出しモード（例えば、画像撮影モード）を選択してもよく、デバイス２００／３００は、ユーザ９２０により提供された（例えば、マイク３６０／３９０を介して）オーディオ９３０を記録し始めてもよい。ユーザ９２０が写真を撮る場合、デバイス２００／３００は、動物９１９０の画像９４０を撮影してもよく、記録されたオーディオ９３０（例えば、画像９４０が撮影される時間に時間的に近接する）及び撮影された画像９４０をデバイス２００／３００のメモリ４２０に格納してもよい。デバイス２００／３００は、会話認識ソフトウェアを使用して記録されたオーディオ９３０をテキストに変換してもよい。デバイス２００／３００は、撮影された画像９４０において動物９１０の頭の場所を判定するために顔検出ソフトウェアを使用してもよい。
【０１０６】
図１７に更に示されるように、テキストを含む会話の吹き出しが作成されてもよく（ブロック１７２５）、会話の吹き出しは、動物の頭の場所の隣に位置付けられて最終画像を作成してもよく（ブロック１７３０）、最終画像は、デバイス上に表示され且つ／あるいは格納されてもよい（ブロック１７４０）。例えば、図９に関連して上述した実現例において、デバイス２００／３００は、記録されたオーディオ９３０の変換されたテキストを含む会話の吹き出し９５０を作成してもよい。撮影された画像９４０において判定された動物９１０の頭の場所に基づいて、デバイス２００／３００は、撮影された画像９４０において会話の吹き出し９５０を動物９１０の頭の隣に位置付けてもよい。一例において、ユーザ９２０は、撮影された画像９４０に応じて会話の吹き出し９５０を手動で再位置付けしてもよく、且つ／あるいは会話の吹き出し９５０に提供されたテキストを手動で編集してもよい。デバイス２００／３００は、動物９１０の位置付けられた会話の吹き出し９５０と撮影された画像９４０とを組み合わせて最終画像９６０を形成してもよい。デバイス２００／３００は、画像９６０を表示してもよく（例えば、ディスプレイ３３０を介して）、且つ／あるいは画像９６０を格納してもよい（例えば、メモリ４２０に）。
【０１０７】
図１７に戻ると、被写体が動物でない場合（ブロック１７０５−ＮＯ）、デバイスのユーザと関連付けられたオーディオが記録されてもよく（ブロック１７４０）、且つオーディオがテキストに変換されてもよい（ブロック１７４５）。例えば、図１０に関連して上述した実現例において、ユーザ１０２０は、デバイス２００／３００と関連付けられた会話の吹き出しモード（例えば、画像撮影モード）を選択してもよく、デバイス２００／３００は、ユーザ１０２０により提供された（例えば、マイク３６０／３９０を介して）オーディオ１０３０を記録し始めてもよい。ユーザ１０２０が写真を撮る場合、デバイス２００／３００は、被写体１０１０の画像１０４０を撮影してもよく、記録されたオーディオ１０３０（例えば、画像１０４０が撮影される時間に時間的に近接する）及び撮影された画像１０４０をデバイス２００／３００のメモリ４２０に格納してもよい。デバイス２００／３００は、会話認識ソフトウェアを使用して記録されたオーディオ１０３０（例えば、オーディオクリップ）をテキストに変換してもよい。
【０１０８】
図１７に更に示されるように、テキストは、撮影された画像と関連付けられて最終画像を作成してもよく（ブロック１７５０）、最終画像は、デバイス上に表示され且つ／あるいは格納されてもよい（ブロック１７５５）。例えば、図１０に関連して上述した実現例において、デバイス２００／３００は、撮影された画像１０４０において頭の場所を判定するために顔検出ソフトウェアを使用してもよい。しかし、被写体１０１０が頭を有さないため、デバイス２００／３００は撮影された画像１０４０において頭を検出できない。撮影された画像１０４０において頭が検出されない場合、デバイス２００／３００は、記録されたオーディオ１０３０の変換されたテキストを含むタイトル１０５０（例えば、撮影された画像１０４０に対する）を作成してもよい。デバイス２００／３００は、撮影された画像１０４０においてタイトル１０５０を被写体１０１０の隣に位置付けてもよい（例えば、タイトルとして）。一例において、ユーザ１０２０は、撮影された画像１０４０に応じてタイトル１０５０を手動で再位置付けしてもよく、且つ／あるいはタイトル１０５０に提供されたテキストを手動で編集してもよい。デバイス２００／３００は、被写体１０１０の位置付けられたタイトル１０５０と撮影された画像１０４０とを組み合わせて最終画像１０６０を形成してもよい。デバイス２００／３００は、画像１０６０を表示してもよく（例えば、ディスプレイ３３０を介して）、且つ／あるいは画像１０６０を格納してもよい（例えば、メモリ４２０に）。
【０１０９】
図１８に示されるように、被写体が単一の人物でない場合（ブロック１６４０−ＮＯ）、被写体のビデオは、解析されて各人物の口の動きを判定してもよく（ブロック１８１０）、オーディオは、口の動きと比較されて各人物と関連付けられたオーディオの部分を判定してもよく（ブロック１８２０）、且つ／あるいはオーディオは、解析されて各人物と関連付けられたオーディオの部分を判定してもよい（ブロック１８３０）。例えば、図７に関連して上述した実現例において、２人以上の人物（例えば、被験者１２０／１３０）がデバイス２００／３００により撮影された画像７２０に存在し、且つ被験者１２０／１３０の双方が話している場合、デバイス２００／３００は、各被験者１２０／１３０に属する記録されたオーディオ７１０の部分を識別する必要があるだろう。これを達成するために、一例において、デバイス２００／３００は、被験者１２０／１３０のビデオ（又は複数の撮影された画像）を解析して被験者１２０／１３０の口の動きを判定してもよく、記録されたオーディオ７１０を口の動きと比較して各被験者１２０／１３０に属する記録されたオーディオ７１０の部分を判定してもよい。別の例において、デバイス２００／３００は、記録されたオーディオ７１０を解析して被験者１２０／１３０の声の違いを判定してもよく、各被験者１２０／１３０に属する記録されたオーディオ７１０の部分を判定するためにこの情報を使用してもよい。更に別の実現例において、デバイス２００／３００は、各被験者１２０／１３０に属する記録されたオーディオ７１０の部分を判定するために、上述の技術の組合せを利用してもよい。
【０１１０】
図１８に更に示されるように、各人物と関連付けられたオーディオ部分は、テキスト部分に変換されてもよく（ブロック１８４０）、各人物と関連付けられたテキスト部分を含む会話の吹き出しは、人物毎に作成されてもよい（ブロック１８５０）。例えば、図７に関連して上述した実現例において、デバイス２００／３００は、会話認識ソフトウェアを使用して記録されたオーディオ７１０をテキストに変換してもよい。デバイス２００／３００は、第１の被験者１２０に属する記録されたオーディオ７１０の部分の変換されたテキストを含む会話の吹き出し７３０を作成してもよく、第２の被験者１３０に属する記録されたオーディオ７１０の部分の変換されたテキストを含む会話の吹き出し７４０を作成してもよい。
【０１１１】
図１８に戻ると、各人物の頭の場所は、撮影された画像に基づいて判定されてもよく（ブロック１８６０）、会話の吹き出しの各々は、対応する各人物の頭の場所と共に位置付けられて最終画像を作成してもよく（ブロック１８７０）、最終画像は、デバイス上に表示され且つ／あるいは格納されてもよい（ブロック１８８０）。例えば、図７に関連して上述した実現例において、デバイス２００／３００は、撮影された画像７２０において各被験者１２０／１３０の頭の場所を判定するために顔検出ソフトウェアを使用してもよい。撮影された画像７２０において判定された第１の被験者１２０の頭の場所に基づいて、デバイス２００／３００は、撮影された画像７２０において会話の吹き出し７３０を第１の被験者１２０の頭の隣に位置付けてもよい。撮影された画像７２０において判定された第２の被験者１３０の頭の場所に基づいて、デバイス２００／３００は、撮影された画像７２０において会話の吹き出し７４０を第２の被験者１３０の頭の隣に位置付けてもよい。デバイス２００／３００は、被験者１２０／１３０の位置付けられた会話の吹き出し７３０／７４０と撮影された画像７２０とを組み合わせて最終画像７５０を形成してもよい。デバイス２００／３００は、画像７５０を表示してもよく（例えば、ディスプレイ３３０を介して）、且つ／あるいは画像７５０を格納してもよい（例えば、メモリ４２０に）。
【０１１２】
結論
本明細書において説明したシステム及び／又は方法は、音声制御画像編集を実行するデバイスを提供してもよい。
【０１１３】
実現例の上述の説明は、例示及び説明を提供するが、本発明を網羅すること、あるいは開示された厳密な形式に限定することを意図しない。変更及び変形は、上記教示に鑑みて可能であり、あるいは本発明の実施から得られてもよい。
【０１１４】
例えば、図１６〜図１８に対して一連のブロックを説明したが、ブロックの順序は他の実現例において変更されてもよい。更に、非依存ブロックは同時に実行されてもよい。
【０１１５】
本明細書において説明したように、態様が図に示された実現例においてソフトウェア、ファームウェア及びハードウェアの多くの異なる形態で実現されてもよいことは、明らかとなるだろう。これらの態様を実現するために使用された実際のソフトウェアコード又は専用の制御ハードウェアは、本発明を限定していない。従って、これらの態様の動作及び挙動は、特定のソフトウェアコードを参照せずに説明された。すなわち、ソフトウェア及び制御ハードウェアは、本明細書の説明に基づいてこれらの態様を実現するように設計されてもよいことが理解される。
【０１１６】
また、本発明のある特定の部分は、１つ以上の機能を実行する「論理」として実現されてもよい。この論理は、特定用途向け集積回路又はフィールドプログラマブルゲートアレイ等のハードウェア、あるいはハードウェアとソフトウェアとの組合せを含んでもよい。
【０１１７】
機能の特定の組み合わせが請求の範囲において説明され且つ／あるいは明細書において開示されるが、これらの組合せは本発明を限定することを意図しない。実際に、これらの特徴の多くは、具体的に請求の範囲において説明されない方法及び／又は明細書において開示されない方法で組み合わされてもよい。
【０１１８】
本明細書中で使用される場合の用語「備える」は、記載された特徴、数字、ステップ又は構成要素の存在を特定するために利用されるが、１つ以上の他の特徴、数字、ステップ、構成要素又はそれらの集合の存在又は追加を除外しないことが強調されるべきである。
【０１１９】
特に指定のない限り、本出願において使用された要素、動作又は命令は本発明に対して不可欠又は必須のものとして解釈されるべきではない。また、本明細書において使用されたように、単数形の冠詞は１つ以上の項目を含むことを意図する。１つの項目のみが意図される場合、「１つの」という用語又は同様の言語が使用される。更に、明示的な指定のない限り、「基づいて」という表現は「少なくとも部分的に基づいて」を意味することを意図する。

【特許請求の範囲】
【請求項１】
デバイスにより被写体の画像を撮影するステップと、
前記被写体と関連付けられたオーディオを前記デバイスのメモリに記録するステップと、
前記デバイスのプロセッサにより且つ前記被写体が人物である場合に前記撮影された画像において前記人物の頭の場所を判定するステップと、
前記プロセッサにより前記オーディオをテキストに変換するステップと、
前記プロセッサにより前記テキストを含む会話の吹き出しを作成するステップと、
前記プロセッサにより、前記撮影された画像において前記会話の吹き出しを前記人物の頭の前記場所の隣に位置付けて最終画像を作成するステップと、
を有することを特徴とする方法。
【請求項２】
前記最終画像を前記デバイスのディスプレイ上に表示するステップと、
前記最終画像を前記デバイスの前記メモリに格納するステップと、
を更に有することを特徴とする請求項１に記載の方法。
【請求項３】
前記被写体が動物である場合に前記デバイスのユーザにより提供されたオーディオを記録するステップと、
前記撮影された画像において前記動物の頭の場所を判定するステップと、
前記ユーザにより提供された前記オーディオをテキストに変換するステップと、
前記ユーザにより提供された前記オーディオから変換された前記テキストを含む会話の吹き出しを作成するステップと、
前記撮影された画像において前記ユーザにより提供された前記オーディオから変換された前記テキストを含む前記会話の吹き出しを前記動物の頭の前記場所の隣に位置付けて画像を作成するステップと、
を更に有することを特徴とする請求項１に記載の方法。
【請求項４】
前記被写体が無生物の被写体である場合に前記デバイスのユーザにより提供されたオーディオを記録するステップと、
前記ユーザにより提供された前記オーディオをユーザ提供テキストに変換するステップと、
前記ユーザ提供テキストを前記撮影された画像と関連付けてユーザ規定画像を作成するステップと、
を更に有することを特徴とする請求項１に記載の方法。
【請求項５】
前記被写体が複数の人物を含む場合に前記複数の人物のビデオを解析して各人物の口の動きを判定するステップと、
前記オーディオを各人物の前記口の動きと比較して各人物と関連付けられる前記オーディオの部分を判定するステップと、
各人物と関連付けられた前記オーディオ部分をテキスト部分に変換するステップと、
人物毎に各人物と関連付けられたテキスト部分を含む会話の吹き出しを作成するステップと、
前記撮影された画像に基づいて各人物の頭の場所を判定するステップと、
会話の吹き出しの各々を対応する各人物の頭の場所と共に位置付けて複数の人物の最終画像を作成するステップと、
を更に有することを特徴とする請求項１に記載の方法。
【請求項６】
前記オーディオを解析して各人物と関連付けられる前記オーディオの部分を判定するステップを更に有することを特徴とする請求項５に記載の方法。
【請求項７】
前記オーディオは第１言語で提供され、前記オーディオをテキストに変換するステップは、
前記オーディオを前記第１言語とは異なる第２言語に提供されるテキストに変換するステップを有することを特徴とする請求項１に記載の方法。
【請求項８】
前記被写体の複数の画像を撮影するステップと、
各々が前記テキストの部分を含む複数の会話の吹き出しを作成するステップと、
前記複数の会話の吹き出しの各々を対応する前記複数の画像のうちの１つと関連付けて時間順の画像を作成するステップと、
を更に有することを特徴とする請求項１に記載の方法。
【請求項９】
前記デバイスのユーザにより提供されたオーディオを記録するステップと、
前記ユーザにより提供された前記オーディオをユーザ提供テキストに変換するステップと、
前記ユーザ提供テキストを含む思考の吹き出しを作成するステップと、
前記撮影された画像において前記思考の吹き出しを前記人物の頭の前記場所の隣に位置付けて思考の吹き出しの画像を作成するステップと、
を更に有することを特徴とする請求項１に記載の方法。
【請求項１０】
前記デバイスは、
無線電話と、
パーソナル移動通信システム（ＰＣＳ）端末と、
カメラと、
カメラ機能を備えたビデオカメラと、
双眼鏡と、
ビデオ眼鏡とのうち少なくとも１つを含むことを特徴とする請求項１に記載の方法。
【請求項１１】
複数の命令を格納するメモリと、
前記メモリに格納された命令を実行するプロセッサと、
ここで、前記命令は前記プロセッサに、
被写体の画像を撮影させ、
前記被写体と関連付けられたオーディオを記録させ、
前記被写体が人物である場合に前記撮影された画像において前記人物の頭の場所を判定させ、
前記オーディオをテキストに変換させ、
前記テキストを含む会話の吹き出しを作成させ、
前記撮影された画像において前記会話の吹き出しを前記人物の頭の前記場所の隣に位置付けて最終画像を作成させ、
前記最終画像を前記デバイスのディスプレイ上に表示させる
を有することを特徴とするデバイス。
【請求項１２】
前記プロセッサは、前記メモリ中の命令を更に実行して、前記最終画像を前記メモリに格納することを特徴とする請求項１１に記載のデバイス。
【請求項１３】
前記プロセッサは、前記メモリ中の命令を更に実行して、
前記被写体が動物である場合に前記デバイスのユーザにより提供されたオーディオを記録し、
前記撮影された画像において前記動物の頭の場所を判定し、
前記ユーザにより提供された前記オーディオをテキストに変換し、
前記ユーザにより提供された前記オーディオから変換された前記テキストを含む会話の吹き出しを作成し、
前記撮影された画像において前記ユーザにより提供された前記オーディオから変換された前記テキストを含む前記会話の吹き出しを前記動物の頭の前記場所の隣に位置付けて画像を作成する
ことを特徴とする請求項１１に記載のデバイス。
【請求項１４】
前記プロセッサは、前記メモリ中の命令を更に実行して、
前記被写体が無生物の被写体である場合に前記デバイスのユーザにより提供されたオーディオを記録し、
前記ユーザにより提供された前記オーディオをユーザ提供テキストに変換し、
前記ユーザ提供テキストを前記撮影された画像と関連付けてユーザ規定画像を作成する
ことを特徴とする請求項１１に記載のデバイス。
【請求項１５】
前記プロセッサは、前記メモリ中の命令を更に実行して、
前記被写体が複数の人物を含む場合に前記複数の人物のビデオを解析して各人物の口の動きを判定し、
前記オーディオを各人物の前記口の動きと比較して各人物と関連付けられる前記オーディオの部分を判定し、
各人物と関連付けられた前記オーディオ部分をテキスト部分に変換し、
人物毎に各人物と関連付けられたテキスト部分を含む会話の吹き出しを作成し、
前記撮影された画像に基づいて各人物の頭の場所を判定し、
会話の吹き出しの各々を対応する各人物の頭の場所と共に位置付けて複数の人物の最終画像を作成する
ことを特徴とする請求項１１に記載のデバイス。
【請求項１６】
前記プロセッサは、前記メモリ中の命令を更に実行して、
前記オーディオを解析して各人物と関連付けられる前記オーディオの部分を判定する
ことを特徴とする請求項１５に記載のデバイス。
【請求項１７】
前記オーディオは第１言語で提供され、前記オーディオをテキストに変換する場合、前記プロセッサは、前記メモリ中の命令を更に実行して、
前記オーディオを前記第１言語とは異なる第２言語で提供されたテキストに変換する
ことを特徴とする請求項１１に記載のデバイス。
【請求項１８】
前記プロセッサは、前記メモリ中の命令を更に実行して、
前記被写体の複数の画像を撮影し、
各々が前記テキストの部分を含む複数の会話の吹き出しを作成し、
前記複数の会話の吹き出しの各々を対応する前記複数の画像のうちの１つと関連付けて時間順の画像を作成する
ことを特徴とする請求項１１に記載のデバイス。
【請求項１９】
前記プロセッサは、前記メモリ中の命令を更に実行して、
前記デバイスのユーザにより提供されたオーディオを記録し、
前記ユーザにより提供された前記オーディオをユーザ提供テキストに変換し、
前記ユーザ提供テキストを含む思考の吹き出しを作成し、
前記撮影された画像において前記思考の吹き出しを前記人物の頭の前記場所の隣に位置付けて思考の吹き出しの画像を作成する
ことを特徴とする請求項１１に記載のデバイス。
【請求項２０】
被写体の画像を撮影する手段と、
前記被写体と関連付けられたオーディオを記録する手段と、
前記被写体が人物である場合に前記撮影された画像において前記人物の頭の場所を判定する手段と、
前記オーディオをテキストに変換する手段と、
前記テキストを含む会話の吹き出しを作成する手段と、
前記撮影された画像において前記会話の吹き出しを前記人物の頭の前記場所の隣に位置付けて最終画像を作成する手段と、
前記最終画像を表示する手段と、
前記最終画像を格納する手段と、
を備えることを特徴とするデバイス。

【図１】

【図２】

【図３Ａ】

【図３Ｂ】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【図１３】

【図１４】

【図１５】

【図１６】

【図１７】

【図１８】

【公表番号】特表２０１２−５２１７０５（Ｐ２０１２−５２１７０５Ａ）
【公表日】平成２４年９月１３日（２０１２．９．１３）
【国際特許分類】

【出願番号】特願２０１２−５０１３９８（Ｐ２０１２−５０１３９８）
【出願日】平成２１年８月２５日（２００９．８．２５）
【国際出願番号】ＰＣＴ／ＩＢ２００９／０５３７３４
【国際公開番号】ＷＯ２０１０／１０９２７４
【国際公開日】平成２２年９月３０日（２０１０．９．３０）
【出願人】（５０２０８７５０７）ソニーモバイルコミュニケーションズ，　エービー (823)
【Ｆターム（参考）】

[ Back to top ]

音声制御画像編集

メニュー

スポンサーリンク

次の公報 »

« 前の公報

音声制御画像編集

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク