撮像装置及びその制御方法

【課題】動画中の選択されたフレーム画像と、音声認識された文字コードとは必ずしも一致したものにならず、ユーザが所望する動画の中のフレーム画像を選択するのは容易ではなかった。
【解決手段】動画に含まれる音声を認識する音声認識部１０５と、音声認識部１０５により認識された音声の区切りを基に印刷候補のフレーム画像を選択する画像選択部１０７と、画像選択部１０７により選択されたフレーム画像１０８と、音声認識部１０５により認識された音声を示すテキスト画像１１０とを画像合成部１１１で合成して出力する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、動画の再生が可能な撮像装置及びその制御方法に関するものである。
【背景技術】
【０００２】
動画の撮影及び再生が可能なデジタルカメラが市販されており、このような動画撮影・再生機能を利用することによりビデオカメラと同様な動画の録画・再生が可能になる。
【０００３】
またデジタルカメラには、その撮影した画像をプリンタ等に転送して印刷を行うことができる機能が設けられている。通常の静止画の場合は、所望の画像を選択してプリンタに出力することで、所望の画像の印刷を行うことができる。これに対して動画の場合には、画像が連続して変化しており、どのフレーム画像が印刷に最適であるかを判断するのは容易ではない。
【０００４】
特許文献１には、動画像の不連続点（カット点）を検出し、更に音声の無音部分を音声の切れ目として検出し、音声の切れ目でかつ動画像のカット点である部分を全体の切れ目として検出し、こうして切り分けられた部分ごとに代表フレームを選択して一覧表示することが記載されている。また特許文献２には、画像情報と共に音声情報が入力される場合、その画像の印刷が指示されると、その音声部分を音声認識し、その認識した結果を文字コードに変換して印刷用イメージに展開することが記載されている。
【特許文献１】特開平９−２１４８７９号公報
【特許文献２】特開２０００−３０１８０６号公報
【発明の開示】
【発明が解決しようとする課題】
【０００５】
しかしながら上記従来では、動画の印刷に際して、どのフレーム画像を選択して印刷するかはユーザの操作に依存しているのが現状であり、そのようにして選択されたフレーム画像と、音声認識された文字コードとは必ずしも一致したものにならず、ユーザが所望する動画の中のフレーム画像を選択するのは容易ではなかった。
【０００６】
本発明の目的は、上記従来技術の問題点を解決することにある。
【０００７】
本願発明の特徴は、動画中の音声を認識し、その音声に適したフレーム画像を選択して表示・出力できる撮像装置及びその制御方法を提供することにある。
【０００８】
また本願発明の特徴は、ユーザが入力した音声を検索キーワードとしてフレーム画像を選択し、その選択したフレーム画像に対応する音声イメージを合成して画像を印刷できる撮像装置及びその制御方法を提供することにある。
【課題を解決するための手段】
【０００９】
本発明の一態様に係る撮像装置は以下のような構成を備える。即ち、
動画の再生が可能な撮像装置であって、
動画に含まれる音声を認識する認識手段と、
前記認識手段により認識された音声の区切りを基に印刷候補のフレーム画像を選択する選択手段と、
前記選択手段により選択されたフレーム画像と、前記認識手段により認識された音声を示すテキスト情報とを合成して出力する出力制御手段とを有することを特徴とする。
【００１０】
本発明の一態様に係る撮像装置は以下のような構成を備える。即ち、
動画の再生が可能な撮像装置であって、
入力された音声情報を音声認識する音声認識手段と、
動画に含まれる音声を認識する認識手段と、
前記音声認識手段により音声認識された音声情報と、前記認識手段により音声認識された音声情報とを比較する比較手段と、
前記比較手段により一致していると判定されたフレーム画像を抽出する抽出手段と、
前記抽出手段により抽出されたフレーム画像と、前記音声情報を示すテキスト情報とを合成して出力する出力制御手段とを有することを特徴とする。
【００１１】
本発明の一態様に係る撮像装置は以下のような構成を備える。即ち、
動画の再生が可能な撮像装置であって、
動画に含まれる音声を認識する認識手段と、
前記認識手段により認識された音声の区切りを基に印刷候補のフレーム画像を選択する選択手段と、
前記認識手段により認識された音声を示すテキスト情報を分割するか否かを判別し、分割する場合は、当該分割されたテキストに対応する音声に対応するフレーム画像を選択する画像選択手段と、
前記テキスト情報を分割しない場合は前記選択手段により選択されたフレーム画像と、前記認識手段により認識された音声を示すテキスト情報とを合成して出力し、
前記テキスト情報を分割する場合は前記画像選択手段により選択されたフレーム画像と、前記分割されたテキストに対応するテキスト情報とを合成して出力する出力制御手段とを有することを特徴とする。
【００１２】
本発明の一態様に係る撮像装置の制御方法は以下のような工程を備える。即ち、
動画の再生が可能な撮像装置の制御方法であって、
動画に含まれる音声を認識する認識工程と、
前記認識工程で認識された音声の区切りを基に印刷候補のフレーム画像を選択する選択工程と、
前記選択工程で選択されたフレーム画像と、前記認識工程により認識された音声を示すテキスト情報とを合成して出力する出力制御工程とを有することを特徴とする。
【００１３】
本発明の一態様に係る撮像装置の制御方法は以下のような工程を備える。即ち、
動画の再生が可能な撮像装置の制御方法であって、
入力された音声情報を音声認識する音声認識工程と、
動画に含まれる音声を認識する認識工程と、
前記音声認識工程で音声認識された音声情報と、前記認識工程で音声認識された音声情報とを比較する比較工程と、
前記比較工程で一致していると判定されたフレーム画像を抽出する抽出工程と、
前記抽出工程で抽出されたフレーム画像と、前記音声情報を示すテキスト情報とを合成して出力する出力制御工程とを有することを特徴とする。
【００１４】
本発明の一態様に係る撮像装置の制御方法は以下のような工程を備える。即ち、
動画の再生が可能な撮像装置の制御方法であって、
動画に含まれる音声を認識する認識工程と、
前記認識工程で認識された音声の区切りを基に印刷候補のフレーム画像を選択する選択工程と、
前記認識工程で認識された音声を示すテキスト情報を分割するか否かを判別し、分割する場合は、当該分割されたテキストに対応する音声に対応するフレーム画像を選択する画像選択工程と、
前記テキスト情報を分割しない場合は前記選択工程で選択されたフレーム画像と、前記認識工程により認識された音声を示すテキスト情報とを合成して出力し、
前記テキスト情報を分割する場合は前記画像選択工程で選択されたフレーム画像と、前記分割されたテキストに対応するテキスト情報とを合成して出力する出力制御工程と、
を有することを特徴とする。
【発明の効果】
【００１５】
本発明によれば、動画中の音声を認識し、その音声に適したフレーム画像を選択して表示・出力できる。
【００１６】
また本願発明によれば、ユーザが入力した音声を検索キーワードとしてフレーム画像を選択し、その選択したフレーム画像に対応する音声イメージを合成して画像を印刷できるという効果がある。
【発明を実施するための最良の形態】
【００１７】
以下、添付図面を参照して本発明の好適な実施の形態を詳しく説明する。尚、以下の実施の形態は特許請求の範囲に係る発明を限定するものでなく、また本実施の形態で説明されている特徴の組み合わせの全てが発明の解決手段に必須のものとは限らない。
【００１８】
図１は、本発明の実施の形態に係る撮像装置の機能構成を示す機能ブロック図である。この撮像装置は、本実施の形態では例えばデジタルカメラ、或はデジタルビデオカメラ等の場合で説明する。
【００１９】
図において、動画ファイル１０１は、例えばメモリカード或はテープなどの記憶媒体に記憶されている。動画ファイルデマルチプレクサ１０２は、動画ファイルとして記憶されている例えばＭＰＥＧファイルから音声信号と画像信号とを分離する。画像デコーダ１０３は、デマルチプレクサ１０２で分離された画像信号を入力してデコードする。オーディオデコーダ１０４は、デマルチプレクサ１０２で分離された音声信号をデコードして音声認識部１０５に出力する。音声認識部１０５は、そのデコードされた音声信号を音声認識する。その音声認識の結果は文章・文節認識部１０６に送られ、文書、文節の区切りが検出される。こうして検出された文章、文節の区切りに基づいて、画像選択部１０７は、画像デコーダ１０３でデコードされた複数のフレーム画像の中から、その文章、文節の区切りに対応するフレーム画像を選択する。尚、この画像選択部１０７によるフレーム画像を選択するための選択基準は詳しく後述する。こうして選択されたフレーム画像は選択画像１０８となる。
【００２０】
一方、文章、文節認識部１０６で切り出された文章は、テキスト化部１０９でテキストデータに変換される。こうして変換されたテキストデータは、文字コードに対応する文字フォントに基づいてパターン展開されテキスト画像１１０となる。そして、このテキスト画像１１０と選択画像１０８とを画像合成部１１１で合成する。こうして合成された画像が表示され、或はプリンタ１１２に送信されて印刷される。尚、マイクロフォン１１３は、音声等の音響信号を入力するのに使用される。
【００２１】
図２は、こうしてプリンタ１１２で印刷された画像の印刷例を示す図である。
【００２２】
ここでは選択された選択画像１０８に、テキスト画像１１０が吹き出し２００で示すように合成されて印刷されている。
【００２３】
図３は、本実施の形態に係る撮像装置の構成を示すブロック図である。
【００２４】
制御部３０１は、この撮像装置全体の動作を統括して制御しており、ＣＰＵ３３０と、このＣＰＵ３３０により実行される制御プログラムを格納しているＲＯＭ３３１と、ＣＰＵ３３０による制御処理の実行時に、各種データを一時的に保存するＲＡＭ３３２等を備えている。この制御部３０１における制御対象は、入力部３０２からのシャッタ等のトリガを基にした撮像部３０３における画像撮影及びその画像データの記憶、撮影した画像データを有線通信部３０４を介して外部に送信すること、撮像部３０３により撮影されて記憶媒体３１３に記憶された画像の表示、撮像部３０３で撮影中の画像を表示部３０６に表示するなどの処理を含んでいる。
【００２５】
撮像部３０３は、撮像素子（ＣＣＤ）と画像バッファメモリ等を含み、撮影した画像を、一時バッファメモリに保存した後に、制御部３０１からの制御によって、メモリカード等の記憶媒体３１３に記憶したり、或は有線又は無線通信部３０４，３０８を経由して外部に送信することができる。入力部３０２は、ユーザにより操作されるスイッチやボタン等を含み、ＵＩを使用した操作、電源、シャッタ、カメラズーム等の操作を行うのに使用される。電池３０９は、この撮像装置全体への電力を供給する。尚、場合によっては、コネクタ３０５を経由して外部へ電力を供給するようにしてもよく、また外部から電力の供給を受けるようにしてもよい。電源監視部３１０は、電池３０９の電池容量を測定して制御部３０１に通知する。
【００２６】
有線通信部３０４は、コネクタ３０５のコントローラの役割を果たし、コネクタ３０５の接続状況の監視も行い、この監視結果を制御部３０１に通知する。コネクタ３０５は、複数の接続端子によって構成され、他の端末（例えばＰＣやプリンタ等）との間で、制御信号を受け渡し画像データを送信する。またこのコネクタ３０５には、電源線等が含まれる。無線通信部３０８は、無線通信に関する機能を有し、制御部３０１から受信した信号を受け取り、ＲＦ信号に変調した後送信する。また受信したＲＦ信号を復調して制御部３０１に渡す。音声処理部３１１は、マイクロフォン１１３から入力される音声信号を処理し、音声認識して出力する。尚、このマイクロフォン１１３は、動画録画時の音響信号の入力にも利用される。記憶／再生制御部３１２は記憶媒体３１３へのデータの書き込み、及び記憶媒体３１３からのデータの読み出しを制御する。ここで再生された音声信号は音声処理部３１１に送られて音声認識される。
【００２７】
［実施の形態１］
図４は、本発明の実施の形態１に係る撮像装置による処理を説明するフローチャートで、この処理を実行するプログラムはＲＯＭ３３１に記憶されており、ＣＰＵ３３０の制御の下に実行される。
【００２８】
まずステップＳ１で、選択タイムスタンプを決定する。これは選択対象の画像の中からどの画像を選択するかを決定する選択基準を設定するものである。
【００２９】
図５は、この選択タイムスタンプを選択する際に表示部３０６に表示されるメニュ画面例を示す図である。
（１）選択対象期間の画像の真中の画像を選択する。
【００３０】
音声認識をもとに文章、文節の区切りを検出した場合の、その文章或は文節に対応する画像期間の略中心のフレーム画像を選択するように指定する。
（２）対象期間の先頭から一定時間後の画像を選択する。
【００３１】
音声認識をもとに文章、文節の区切りを検出した場合の、その文章或は文節に対応する画像期間の先頭から一定時間後の画像を選択するように指定する。
（３）対象期間の最初の有音時の画像を選択する。
【００３２】
音声認識をもとに文章、文節の区切りを検出した場合の、その文章或は文節に対応する画像期間の最初の有音時の画像を選択するように指定する。
（４）動きベクトルが最小の画像を選択する。
【００３３】
音声認識をもとに文章、文節の区切りを検出した場合の、その文章或は文節に対応する画像期間内で、動きベクトルが最小の画像を選択するように指定する。またこの場合には、例えばイントラフレームだけを選択するようにしても良い。
（５）撮影パラメータから最適な画像を選択する。
【００３４】
音声認識をもとに文章、文節の区切りを検出した場合の、その文章或は文節に対応する画像期間内で、撮影パラメータが適切な画像を選択するように指定する。尚、この撮影パラメータが適切かどうかの判断としては、例えば画像中の輝度分布を解析するなどして撮影された画像の露出が良好か、ホワイトバランスが適正か、或はフォーカシングが最適か（画像の焦点がボケていないか）を判断すること等が考えられる。
【００３５】
これら５項目のいずれかを、入力部３０２を使用して選択することができる。
【００３６】
こうしてステップＳ１では、選択された選択タイムスタンプをＲＡＭ３３２に記憶する。次にステップＳ３で動画を入力し、ステップＳ４で、その入力した動画に含まれる音声を認識する。次にステップＳ５で、その音声認識に基づいて、文節／文章の区切りを認識そ、その認識した文節／文章をテキスト化する。そしてステップＳ７で、ステップＳ１で選択されステップＳ２で記憶された選択タイムスタンプに最も近いフレーム画像を選択する。そしてステップＳ８で、ステップＳ６でテキスト化された文字画像と、ステップＳ７で選択されたフレーム画像とを合成する。そしてステップＳ９で、この合成された画像をＲＡＭ３３２に記憶する。ステップＳ１０では、動画の最終画像かどうかを調べ、最後でないときはステップＳ１１に進み、選択用のタイムスタンプを変更するかどうかをみる。変更しないときはステップＳ３に進んで次の動画を入力するが、選択用のタイムスタンプを変更する場合はステップＳ１に戻り、前述の処理を実行する。
【００３７】
そしてステップＳ１０で、動画の最後であればステップＳ１２に進み、ステップＳ８で合成された画像を表示部３０６に表示する。ここでは複数の合成画像があれば複数の画像が表示部３０６に表示される。そしてステップＳ１３で、ユーザにより選択されたフレームを画像をプリンタ１１２に出力して印刷を実行する。
【００３８】
このように本実施の形態１によれば、動画再生期間の中から最適な画像を選択して印刷或は表示できる。
【００３９】
更にその選択した画像に、その画像に関連した音声の内容を、図２に示すようにテキストデータで吹き出しとして合成して出力・印刷できる。
【００４０】
［実施の形態２］
次に本発明の実施の形態２について説明する。この実施の形態２では、所望の画像を選択するための選択項目として、その動画に含まれている言葉をマイクロフォン１１３から入力する。そして、その入力された音声に一致する音声が発せられて時点の画像を選択画像として決定するものである。
【００４１】
図６は、本実施の形態２に係る撮像装置における処理を説明するフローチャートで、この処理を実行するプログラムは制御部３０１のＲＯＭ３３１に記憶されており、ＣＰＵ３２０の制御の下に実行される。
【００４２】
まずステップＳ２１で、動画の再生を開始し、ステップＳ２２で、ユーザの音声をマイクロフォン１１３から入力する。尚、この音声入力時には、デジタル次にステップＳ２３で、その入力された音声を認識し、ステップＳ２４で音声認識した動画の音声情報とステップＳ２５で比較する。この比較の結果、一致する音声が存在しないときはステップＳ２１に戻って次の動画に対して同様の処理を繰り返す。
【００４３】
ステップＳ２５で、一致する音声が見つかるとステップＳ２６に進み、その時点のフレーム画像を選択する。こうして選択された画像が決定されると、その音声をテキスト化し、ステップＳ２７で、そのテキストデータと、選択したフレーム画像と合成する。これにより例えば図２に示すような、画像に吹き出しで文字が追加された画像が生成される。そしてステップＳ２８で、その合成画像を表示部３０６に表示して、ユーザにその可否を問合せる。ここでユーザがＯＫと入力するとステップＳ２９に進んで、その合成画像を印刷或は出力画像として決定するが、ＯＫが入力されないときはステップＳ２１に戻り、再度同様の操作を行う。
【００４４】
［実施の形態２の変形例］
図７は、本実施の形態２に係る撮像装置における処理の変形例を説明するフローチャートで、この処理を実行するプログラムは制御部３０１のＲＯＭ３３１に記憶されており、ＣＰＵ３２０の制御の下に実行される。この変形例では、写真用のフレーム画像の選択に際しては、ユーザにより入力された音声を検索用キーワードとする点は前述の実施の形態２と同じであるが、そのフレーム画像の選択に際しては、実施の形態１における選択タイムスタンプを使用し、更に動画の再生においても、動画を全て再生してフレーム画像を選択するか、実施の形態１のステップＳ１２で抽出された合成に画像を含む画像期間（文節単位、文章単位に相当）毎に動画を再生して、所望のフレーム画像を選択する点が、前述の実施の形態２の構成と異なっている。
【００４５】
まずステップＳ３１で、再生したい動画及び選択タイムスタンプを選択する。この選択タイムスタンプは前述の実施の形態１の場合と同様である。ここで動画を選択する際、動画を全てを再生するように選択するか、或は前述のステップＳ１２で抽出されたフレーム画像が含まれている画像期間を再生するか、のいずれかを指定することができる。こうして抽出対象の動画が選択されるとステップＳ３２に進み、ユーザによる音声入力が行われる。この音声入力に際しては、ユーザは、このデジタルカメラを所定のモードに設定した後、特定のボタン（例えば、ファンクションキーなど）を押下しながらマイクロフォン１１２により音声を入力する。こうして入力されたユーザの音声はステップＳ３３で音声認識され、その結果がＲＡＭ３３２に記憶される。次にステップＳ３４で、ステップＳ１で指示された動画の再生が開始される。そしてステップＳ３５で、図４のステップＳ４と同様にして、その動画に含まれている音声情報が音声認識される。次にステップＳ３５で、ステップＳ３３で音声認識されて記憶されている音声情報と、ステップＳ３５で音声認識された結果とが一致するか、並びにステップＳ３１で指定された選択タイムスタンプに基づいて、音声情報が一致するフレーム画像を選択できるかどうかを判定する。これら条件に合うフレーム画像が選択できるとステップＳ３７に進むが、そうでない時はステップＳ３４に戻り、前述の処理を実行する。
【００４６】
ステップＳ３６でフレーム画像が選択できるとステップＳ３７で、その音声情報をテキスト化し、そのテキストデータを文字フォントを使用して文字画像に展開する。次にステップＳ３８で、そのフレーム画像に文字画像を合成し、その合成した画像を表示部３０６に表示する。次にステップＳ３９で、その合成画像がユーザが満足できるものであるかどうかがユーザにより判定され、満足できるとして「ＯＫ」が入力されるとステップＳ４０に進み、その合成画像をプリンタ１１２に出力して印刷を実行する。一方、ユーザが満足できない場合はステップＳ３１に進み、再度動画の指定、選択タイムスタンプの指定を行う。
【００４７】
尚、ステップＳ３８では、指定された選択タイムスタンプに近い複数の候補フレーム画像を抽出表示して、それら複数の候補フレーム画像の中からユーザが所望のフレーム画像を選択するようにしても良い。
【００４８】
［実施の形態３］
次に本発明の実施の形態３について説明する。この実施の形態３では、音声と画像の最適な組み合わせを選択し印刷するための手段として、文章或は文節の分割を行う。これによりテキスト化された文を、適度な文字数の文章或は文節として画像と共に印刷或は表示できる。
【００４９】
図８は、動画フレームと音声との関係の一例を説明する図である。
【００５０】
８０１〜８０６は、動画を構成している一連の画像フレームを示している。８０７，８０８は、これら一連の画像フレーム（８０１〜８０６）に同期した音声を示している。前述の実施の形態の場合、これら一連の音声は、文章或は文節として、８０７，８０８で示すように音声認識される。更に、それぞれの区間から画像フレーム８０９，８１０が、指定された選択タイムスタンプに基づいて選択される。
【００５１】
図９は、音声「みててね」に対応するフレームとして画像フレーム８０１が選択され、その画像に音声「みててね！」を示すテキストを含む吹き出し９０１が付された画像が印刷・出力されている。このように音声をテキスト化し、その音声を示す吹き出しと、選択された画像フレームとが合成された画像が印刷されている。
【００５２】
特に本実施の形態３では、図１０に示す印刷画像のテキスト部分を再分割する場合で説明する。
【００５３】
図１１は、本実施の形態３において、音声８０８を表すテキストを分割する例を説明する図で、前述の図８及び図９と共通する部分は同じ記号で示している。
【００５４】
９１０，９１１は、音声８０８を表すテキストを２分割したテキストを示している。このようなテキストの分割は、操作者の指示によって行われても良く、或は自動的に行っても良い。
【００５５】
図１２及び図１３は、本発明の実施の形態３に係る撮像装置による処理を説明するフローチャートである。
【００５６】
図１２において、まずステップＳ４１で動画を入力し、ステップＳ４２で、その動画と共に録音されている音声を音声処理部３１１で認識する。次にステップＳ４３で、その認識した音声をテキスト（文章／文節）で表し、ステップＳ４４で、その認識結果をテキストデータに変換する。次にステップＳ４５では、予め設定されたタイムスタンプの選択方法に基づいて、その認識した音声に対応している動画の中から、所定の画像フレームを選択する。次にステップＳ４６で、ステップＳ４４でテキスト化されたテキスト画像と、ステップＳ４５で選択した画像フレームの画像とを合成する。次にステップＳ４７で、ステップＳ４６で合成した画像と、テキスト化された文章／文節データとを記憶する。そしてステップＳ４８で、動画の最後のフレームかどうかを判断し、最後のフレームでない場合はステップＳ４１に戻り、前述の処理を繰り返す。
【００５７】
ステップＳ４８で、動画の最後のフレームと判断した場合はステップＳ４９に進み、ステップＳ４７で作成されて記憶された合成画像を読み出し、その一覧を表示部３０６に表示する。次にステップＳ５０で、操作者に各合成画像はこのままで良いか、或は編集をしたいかを問合せて処理を選択させる。このままで良い場合はステップＳ５１に進み、その選択された合成画像を印刷する。一方、ステップＳ５０で、その合成画像を編集するように選択した場合はステップＳ６１（図１３）に進む。
【００５８】
図１３は、編集処理を説明するフローで、まずステップＳ６１で、入力部３０２を使用して、表示部３０６に表示された合成画像の一覧から編集対象の画像が選択される。次にステップＳ６２で、その選択した合成画像の内の一つの合成画像を表示してステップＳ６３に進む。ステップＳ６３では、編集を終了するか（ＯＫ）、或はテキストである文章／文節を分割するか、また或はタイムスタンプ選択方法を変更するかが、入力部３０２からの指示により選択される。ここで編集を終了するように指示されるとステップＳ４９（図１２）に進み、合成画像の一覧表示を行う。
【００５９】
一方、文章／文節の再分割を行う場合はステップＳ６４に進み、選択された合成画像のテキストに対応する文章／文節を分割する。次にステップＳ６５で、その分割された各々の対象区間の動画より、設定されているタイムスタンプ選択方法に基づいて、合成画像の基になる画像フレームを再び選択する。次にステップＳ６６で、ステップＳ６４で分割されたテキストと、ステップＳ６５で再選択された画像フレームとを合成する。そしてステップＳ６７で、その合成した画像と、分割されたテキストを記憶する。そしてステップＳ６２に進み、その分割したテキストと再合成した画像を表示する。
【００６０】
またステップＳ６３で、タイムスタンプの選択方法の変更が選択された場合はステップＳ６８に進み、タイムスタンプの選択方法の選択画面を表示する。次にステップＳ６９で選択方法が変更されると、それを記憶する。次にステップＳ７０で、その音声の対象となる動画区間のフレームより、新たに設定されたタイムスタンプ選択方法に基づいて、合成対象の画像フレームを選択する。そしてステップＳ７１で、その選択されたフレームと、音声を示すテキストとを再合成する。このときテキストは、画像フレームを再度選択する前と同じテキストである。そしてステップＳ７２で、その合成画像とテキストとを記憶する。そしてステップＳ６２に進み、その再合成した画像を表示部３０６に表示する。
【００６１】
図１４は、本実施の形態３に係る一連の処理（図１２，図１３）によって分割、選択された画像フレームの一例を示す図で、前述の図８及び図１１と共通する部分は同じ記号で示している。
【００６２】
ここで９１０，９１１は、音声を示す文章及び文節（「お父さんお父さん乗れたよ」）を再分割をした結果を示している。ここでは音声８０８を表すテキストが、テキスト９１０と９１１に２分割されている。更に、これら分割されたテキスト９１０，９１１の各々に対応する一連の画像フレーム８０３，８０４、及び８０５，８０６より、各テキスト９１０，９１１に対応するフレームとして画像フレーム８０４および８０５がそれぞれ選択されている。
【００６３】
図１５及び図１６は、画像フレーム８０４，８０５の夫々に対応して、各分割されたテキスト９１０，９１１を合成して印刷した画像例を示す図である。この画像データは、各音声に対応するテキストを含む吹き出し１５０１，１５０２により、音声８０８が表示されている。
【００６４】
以上は文章／文節の再分割を編集フローにて操作者に判断させる例について説明したが、一枚の画像フレーム当たりの文章／文節の文字数、テキスト合成画像上の文字画像のレイアウト上の領域のサイズなどに基づいて、文章／文節の再分割、該当区間の画像フレームの再選択、画像の再合成処理を合成画像が最適化されるまで自動的に行うようにしても良い。
【００６５】
この場合は、文字をレイアウトできる領域のサイズに応じて、分割する文節の大きさを変えるようにするとよい。このためには、主要被写体を認識して、それ以外の領域の大きさに応じて、文字をレイアウトする吹き出し領域を設定すれば良い。この吹き出しにレイアウトする文字数によって、文節の分割位置が設定できる。これにより、吹き出し内の文字が認識しやすくなり、読みやすいテキストを含む合成画像を作成できる。
【００６６】
図１７は、本実施の形態に係る文章／文節の分割を自動で行うか否かを選択する際に表示部３０６に表示される設定画面例を示す図である。
【００６７】
図では、自動分割モードが設定された（「ＯＮ」が選択された）状態を示している。
【００６８】
以上、本発明の実施の形態を詳述したが、本発明は、複数の機器から構成されるシステムに適用しても良いし、または一つの機器からなる装置に適用しても良い。
【００６９】
なお本発明は、前述した実施の形態の機能を実現するソフトウェアのプログラムを、システム或いは装置に直接或いは遠隔から供給し、そのシステム或いは装置のコンピュータが、その供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。その場合、プログラムの機能を有していれば、その形態はプログラムである必要はない。従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明には、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等、プログラムの形態を問わない。
【００７０】
プログラムを供給するための記憶媒体としては、例えば、フロッピー（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ−ＲＯＭ，ＤＶＤ−Ｒ）などがある。その他のプログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記憶媒体にダウンロードすることによっても供給できる。また本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるＷＷＷサーバも、本発明のクレームに含まれるものである。
【００７１】
また、本発明のプログラムを暗号化してＣＤ−ＲＯＭ等の記憶媒体に格納してユーザに配布し、所定の条件を満足するユーザに対してインターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
【００７２】
またコンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているＯＳなどが、実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現され得る。
【００７３】
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現される。
【図面の簡単な説明】
【００７４】
【図１】本発明の実施の形態に係る撮像装置の機能構成を示す機能ブロック図である。
【図２】本実施の形態に係る撮像装置からの合成をプリンタで印刷した印刷例を示す図である。
【図３】本実施の形態に係る撮像装置の構成を示すブロック図である。
【図４】本発明の実施の形態１に係る撮像装置による処理を説明するフローチャートである。
【図５】本実施の形態１に係る選択タイムスタンプを選択する際に表示部に表示されるメニュ画面例を示す図である。
【図６】本実施の形態２に係る撮像装置における処理を説明するフローチャートである。
【図７】本実施の形態２に係る撮像装置における処理の変形例を説明するフローチャートである。
【図８】動画フレームと音声との関係の一例を説明する図である。
【図９】音声を示すテキストと画像フレームとを合成して印刷した印刷例を示す図である。
【図１０】音声を示すテキストと画像フレームとを合成して印刷した他の印刷例を示す図である。
【図１１】本実施の形態３において、音声を表すテキストを分割する例を説明する図である。
【図１２】、
【図１３】本発明の実施の形態３に係る撮像装置による処理を説明するフローチャートである。
【図１４】本実施の形態３に係る一連の処理（図１２，図１３）によって分割、選択された画像フレームの一例を示す図である。
【図１５】、
【図１６】本実施の形態３において、各画像フレームに対応して、各分割されたテキストを合成して印刷した画像例を示す図である。
【図１７】本実施の形態に係る文章／文節の分割を自動で行うか否かを選択する際に表示部に表示される設定画面例を示す図である。

【特許請求の範囲】
【請求項１】
動画の再生が可能な撮像装置であって、
動画に含まれる音声を認識する認識手段と、
前記認識手段により認識された音声の区切りを基に印刷候補のフレーム画像を選択する選択手段と、
前記選択手段により選択されたフレーム画像と、前記認識手段により認識された音声を示すテキスト情報とを合成して出力する出力制御手段と、
を有することを特徴とする撮像装置。
【請求項２】
前記選択手段は、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の略中心の画像を選択することを特徴とする請求項１に記載の撮像装置。
【請求項３】
前記選択手段は、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の最初の有音時のフレーム画像を選択することを特徴とする請求項１に記載の撮像装置。
【請求項４】
前記選択手段は、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の最初から所定時間後のフレーム画像を選択することを特徴とする請求項１に記載の撮像装置。
【請求項５】
前記選択手段は、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の内、動きベクトルの大きさが最小のフレーム画像を選択することを特徴とする請求項１に記載の撮像装置。
【請求項６】
前記選択手段は、フレーム画像の撮影パラメータを取得する手段を有し、前記撮影パラメータに基づいて前記印刷候補のフレーム画像を選択することを特徴とする請求項１に記載の撮像装置。
【請求項７】
動画の再生が可能な撮像装置であって、
入力された音声情報を音声認識する音声認識手段と、
動画に含まれる音声を認識する認識手段と、
前記音声認識手段により音声認識された音声情報と、前記認識手段により音声認識された音声情報とを比較する比較手段と、
前記比較手段により一致していると判定されたフレーム画像を抽出する抽出手段と、
前記抽出手段により抽出されたフレーム画像と、前記音声情報を示すテキスト情報とを合成して出力する出力制御手段と、
を有することを特徴とする撮像装置。
【請求項８】
前記抽出手段は、前記比較手段により一致していると判定された複数のフレーム画像の中から所定の条件を満足するフレーム画像を抽出することを特徴とする請求項７に記載の撮像装置。
【請求項９】
前記所定の条件を満足するフレーム画像は、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の略中心のフレーム画像であることを特徴とする請求項８に記載の撮像装置。
【請求項１０】
前記所定の条件を満足するフレーム画像は、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の最初の有音時のフレーム画像であることを特徴とする請求項８に記載の撮像装置。
【請求項１１】
前記所定の条件を満足するフレーム画像は、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の最初から所定時間後のフレーム画像であることを特徴とする請求項８に記載の撮像装置。
【請求項１２】
前記所定の条件を満足するフレーム画像は、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の内、動きベクトルの大きさが最小のフレーム画像であることを特徴とする請求項８に記載の撮像装置。
【請求項１３】
前記所定の条件を満足するフレーム画像は、当該フレーム画像の撮影パラメータに基づいて決定されることを特徴とする請求項８に記載の撮像装置。
【請求項１４】
動画の再生が可能な撮像装置であって、
動画に含まれる音声を認識する認識手段と、
前記認識手段により認識された音声の区切りを基に印刷候補のフレーム画像を選択する選択手段と、
前記認識手段により認識された音声を示すテキスト情報を分割するか否かを判別し、分割する場合は、当該分割されたテキストに対応する音声に対応するフレーム画像を選択する画像選択手段と、
前記テキスト情報を分割しない場合は前記選択手段により選択されたフレーム画像と、前記認識手段により認識された音声を示すテキスト情報とを合成して出力し、
前記テキスト情報を分割する場合は前記画像選択手段により選択されたフレーム画像と、前記分割されたテキストに対応するテキスト情報とを合成して出力する出力制御手段と、
を有することを特徴とする撮像装置。
【請求項１５】
前記選択手段は、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の略中心の画像を選択することを特徴とする請求項１４に記載の撮像装置。
【請求項１６】
前記選択手段は、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の最初の有音時のフレーム画像を選択することを特徴とする請求項１４に記載の撮像装置。
【請求項１７】
前記選択手段は、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の最初から所定時間後のフレーム画像を選択することを特徴とする請求項１４に記載の撮像装置。
【請求項１８】
前記選択手段は、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の内、動きベクトルの大きさが最小のフレーム画像を選択することを特徴とする請求項１４に記載の撮像装置。
【請求項１９】
前記選択手段は、フレーム画像の撮影パラメータを取得する手段を有し、前記撮影パラメータに基づいて前記印刷候補のフレーム画像を選択することを特徴とする請求項１４に記載の撮像装置。
【請求項２０】
前記画像選択手段は、前記認識手段により認識された音声の区切りまでの文節の文字数が所定の文字数より多いか否かに基づいて、前記音声を示すテキスト情報を分割するか否かを判別することを特徴とする請求項１４に記載の撮像装置。
【請求項２１】
前記画像選択手段は、前記認識手段により認識された音声の区切りまでの文節の文字が合成後の画像に収まるかに応じて分割するか否かを判別することを特徴とする請求項１４に記載の撮像装置。
【請求項２２】
動画の再生が可能な撮像装置の制御方法であって、
動画に含まれる音声を認識する認識工程と、
前記認識工程で認識された音声の区切りを基に印刷候補のフレーム画像を選択する選択工程と、
前記選択工程で選択されたフレーム画像と、前記認識工程により認識された音声を示すテキスト情報とを合成して出力する出力制御工程と、
を有することを特徴とする撮像装置の制御方法。
【請求項２３】
前記選択工程では、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の略中心の画像を選択することを特徴とする請求項２２に記載の撮像装置の制御方法。
【請求項２４】
前記選択工程では、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の最初の有音時のフレーム画像を選択することを特徴とする請求項２２に記載の撮像装置の制御方法。
【請求項２５】
前記選択工程では、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の最初から所定時間後のフレーム画像を選択することを特徴とする請求項２２に記載の撮像装置の制御方法。
【請求項２６】
前記選択工程では、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の内、動きベクトルの大きさが最小のフレーム画像を選択することを特徴とする請求項２２に記載の撮像装置の制御方法。
【請求項２７】
前記選択工程では、フレーム画像の撮影パラメータを取得し、前記撮影パラメータに基づいて前記印刷候補のフレーム画像を選択することを特徴とする請求項２２に記載の撮像装置の制御方法。
【請求項２８】
動画の再生が可能な撮像装置の制御方法であって、
入力された音声情報を音声認識する音声認識工程と、
動画に含まれる音声を認識する認識工程と、
前記音声認識工程で音声認識された音声情報と、前記認識工程で音声認識された音声情報とを比較する比較工程と、
前記比較工程で一致していると判定されたフレーム画像を抽出する抽出工程と、
前記抽出工程で抽出されたフレーム画像と、前記音声情報を示すテキスト情報とを合成して出力する出力制御工程と、
を有することを特徴とする撮像装置の制御方法。
【請求項２９】
前記抽出工程では、前記比較工程により一致していると判定された複数のフレーム画像の中から所定の条件を満足するフレーム画像を抽出することを特徴とする請求項２８に記載の撮像装置の制御方法。
【請求項３０】
前記所定の条件を満足するフレーム画像は、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の略中心のフレーム画像であることを特徴とする請求項２９に記載の撮像装置の制御方法。
【請求項３１】
前記所定の条件を満足するフレーム画像は、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の最初の有音時のフレーム画像であることを特徴とする請求項２９に記載の撮像装置の制御方法。
【請求項３２】
前記所定の条件を満足するフレーム画像は、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の最初から所定時間後のフレーム画像であることを特徴とする請求項２９に記載の撮像装置の制御方法。
【請求項３３】
前記所定の条件を満足するフレーム画像は、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の内、動きベクトルの大きさが最小のフレーム画像であることを特徴とする請求項２９に記載の撮像装置の制御方法。
【請求項３４】
前記所定の条件を満足するフレーム画像は、当該フレーム画像の撮影パラメータに基づいて決定されることを特徴とする請求項２９に記載の撮像装置の制御方法。
【請求項３５】
動画の再生が可能な撮像装置の制御方法であって、
動画に含まれる音声を認識する認識工程と、
前記認識工程で認識された音声の区切りを基に印刷候補のフレーム画像を選択する選択工程と、
前記認識工程で認識された音声を示すテキスト情報を分割するか否かを判別し、分割する場合は、当該分割されたテキストに対応する音声に対応するフレーム画像を選択する画像選択工程と、
前記テキスト情報を分割しない場合は前記選択工程で選択されたフレーム画像と、前記認識工程により認識された音声を示すテキスト情報とを合成して出力し、
前記テキスト情報を分割する場合は前記画像選択工程で選択されたフレーム画像と、前記分割されたテキストに対応するテキスト情報とを合成して出力する出力制御工程と、
を有することを特徴とする撮像装置の制御方法。
【請求項３６】
前記選択工程は、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の略中心の画像を選択することを特徴とする請求項３５に記載の撮像装置の制御方法。
【請求項３７】
前記選択工程は、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の最初の有音時のフレーム画像を選択することを特徴とする請求項３５に記載の撮像装置の制御方法。
【請求項３８】
前記選択工程は、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の最初から所定時間後のフレーム画像を選択することを特徴とする請求項３５に記載の撮像装置の制御方法。
【請求項３９】
前記選択工程は、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の内、動きベクトルの大きさが最小のフレーム画像を選択することを特徴とする請求項３５に記載の撮像装置の制御方法。
【請求項４０】
前記選択工程は、フレーム画像の撮影パラメータを取得する工程を有し、前記撮影パラメータに基づいて前記印刷候補のフレーム画像を選択することを特徴とする請求項３５に記載の撮像装置の制御方法。
【請求項４１】
前記画像選択工程では、前記認識工程で認識された音声の区切りまでの文節の文字数が所定の文字数より多いか否かに基づいて、前記音声を示すテキスト情報を分割するか否かを判別することを特徴とする請求項３５に記載の撮像装置の制御方法。
【請求項４２】
前記画像選択工程では、前記認識工程で認識された音声の区切りまでの文節の文字が合成後の画像に収まるかに応じて分割するか否かを判別することを特徴とする請求項３５に記載の撮像装置の制御方法。

【図１】