説明

撮像装置及びその制御方法

【課題】 動画中の選択されたフレーム画像と、音声認識された文字コードとは必ずしも一致したものにならず、ユーザが所望する動画の中のフレーム画像を選択するのは容易ではなかった。
【解決手段】 動画に含まれる音声を認識する音声認識部105と、音声認識部105により認識された音声の区切りを基に印刷候補のフレーム画像を選択する画像選択部107と、画像選択部107により選択されたフレーム画像108と、音声認識部105により認識された音声を示すテキスト画像110とを画像合成部111で合成して出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、動画の再生が可能な撮像装置及びその制御方法に関するものである。
【背景技術】
【0002】
動画の撮影及び再生が可能なデジタルカメラが市販されており、このような動画撮影・再生機能を利用することによりビデオカメラと同様な動画の録画・再生が可能になる。
【0003】
またデジタルカメラには、その撮影した画像をプリンタ等に転送して印刷を行うことができる機能が設けられている。通常の静止画の場合は、所望の画像を選択してプリンタに出力することで、所望の画像の印刷を行うことができる。これに対して動画の場合には、画像が連続して変化しており、どのフレーム画像が印刷に最適であるかを判断するのは容易ではない。
【0004】
特許文献1には、動画像の不連続点(カット点)を検出し、更に音声の無音部分を音声の切れ目として検出し、音声の切れ目でかつ動画像のカット点である部分を全体の切れ目として検出し、こうして切り分けられた部分ごとに代表フレームを選択して一覧表示することが記載されている。また特許文献2には、画像情報と共に音声情報が入力される場合、その画像の印刷が指示されると、その音声部分を音声認識し、その認識した結果を文字コードに変換して印刷用イメージに展開することが記載されている。
【特許文献1】特開平9−214879号公報
【特許文献2】特開2000−301806号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら上記従来では、動画の印刷に際して、どのフレーム画像を選択して印刷するかはユーザの操作に依存しているのが現状であり、そのようにして選択されたフレーム画像と、音声認識された文字コードとは必ずしも一致したものにならず、ユーザが所望する動画の中のフレーム画像を選択するのは容易ではなかった。
【0006】
本発明の目的は、上記従来技術の問題点を解決することにある。
【0007】
本願発明の特徴は、動画中の音声を認識し、その音声に適したフレーム画像を選択して表示・出力できる撮像装置及びその制御方法を提供することにある。
【0008】
また本願発明の特徴は、ユーザが入力した音声を検索キーワードとしてフレーム画像を選択し、その選択したフレーム画像に対応する音声イメージを合成して画像を印刷できる撮像装置及びその制御方法を提供することにある。
【課題を解決するための手段】
【0009】
本発明の一態様に係る撮像装置は以下のような構成を備える。即ち、
動画の再生が可能な撮像装置であって、
動画に含まれる音声を認識する認識手段と、
前記認識手段により認識された音声の区切りを基に印刷候補のフレーム画像を選択する選択手段と、
前記選択手段により選択されたフレーム画像と、前記認識手段により認識された音声を示すテキスト情報とを合成して出力する出力制御手段とを有することを特徴とする。
【0010】
本発明の一態様に係る撮像装置は以下のような構成を備える。即ち、
動画の再生が可能な撮像装置であって、
入力された音声情報を音声認識する音声認識手段と、
動画に含まれる音声を認識する認識手段と、
前記音声認識手段により音声認識された音声情報と、前記認識手段により音声認識された音声情報とを比較する比較手段と、
前記比較手段により一致していると判定されたフレーム画像を抽出する抽出手段と、
前記抽出手段により抽出されたフレーム画像と、前記音声情報を示すテキスト情報とを合成して出力する出力制御手段とを有することを特徴とする。
【0011】
本発明の一態様に係る撮像装置は以下のような構成を備える。即ち、
動画の再生が可能な撮像装置であって、
動画に含まれる音声を認識する認識手段と、
前記認識手段により認識された音声の区切りを基に印刷候補のフレーム画像を選択する選択手段と、
前記認識手段により認識された音声を示すテキスト情報を分割するか否かを判別し、分割する場合は、当該分割されたテキストに対応する音声に対応するフレーム画像を選択する画像選択手段と、
前記テキスト情報を分割しない場合は前記選択手段により選択されたフレーム画像と、前記認識手段により認識された音声を示すテキスト情報とを合成して出力し、
前記テキスト情報を分割する場合は前記画像選択手段により選択されたフレーム画像と、前記分割されたテキストに対応するテキスト情報とを合成して出力する出力制御手段とを有することを特徴とする。
【0012】
本発明の一態様に係る撮像装置の制御方法は以下のような工程を備える。即ち、
動画の再生が可能な撮像装置の制御方法であって、
動画に含まれる音声を認識する認識工程と、
前記認識工程で認識された音声の区切りを基に印刷候補のフレーム画像を選択する選択工程と、
前記選択工程で選択されたフレーム画像と、前記認識工程により認識された音声を示すテキスト情報とを合成して出力する出力制御工程とを有することを特徴とする。
【0013】
本発明の一態様に係る撮像装置の制御方法は以下のような工程を備える。即ち、
動画の再生が可能な撮像装置の制御方法であって、
入力された音声情報を音声認識する音声認識工程と、
動画に含まれる音声を認識する認識工程と、
前記音声認識工程で音声認識された音声情報と、前記認識工程で音声認識された音声情報とを比較する比較工程と、
前記比較工程で一致していると判定されたフレーム画像を抽出する抽出工程と、
前記抽出工程で抽出されたフレーム画像と、前記音声情報を示すテキスト情報とを合成して出力する出力制御工程とを有することを特徴とする。
【0014】
本発明の一態様に係る撮像装置の制御方法は以下のような工程を備える。即ち、
動画の再生が可能な撮像装置の制御方法であって、
動画に含まれる音声を認識する認識工程と、
前記認識工程で認識された音声の区切りを基に印刷候補のフレーム画像を選択する選択工程と、
前記認識工程で認識された音声を示すテキスト情報を分割するか否かを判別し、分割する場合は、当該分割されたテキストに対応する音声に対応するフレーム画像を選択する画像選択工程と、
前記テキスト情報を分割しない場合は前記選択工程で選択されたフレーム画像と、前記認識工程により認識された音声を示すテキスト情報とを合成して出力し、
前記テキスト情報を分割する場合は前記画像選択工程で選択されたフレーム画像と、前記分割されたテキストに対応するテキスト情報とを合成して出力する出力制御工程と、
を有することを特徴とする。
【発明の効果】
【0015】
本発明によれば、動画中の音声を認識し、その音声に適したフレーム画像を選択して表示・出力できる。
【0016】
また本願発明によれば、ユーザが入力した音声を検索キーワードとしてフレーム画像を選択し、その選択したフレーム画像に対応する音声イメージを合成して画像を印刷できるという効果がある。
【発明を実施するための最良の形態】
【0017】
以下、添付図面を参照して本発明の好適な実施の形態を詳しく説明する。尚、以下の実施の形態は特許請求の範囲に係る発明を限定するものでなく、また本実施の形態で説明されている特徴の組み合わせの全てが発明の解決手段に必須のものとは限らない。
【0018】
図1は、本発明の実施の形態に係る撮像装置の機能構成を示す機能ブロック図である。この撮像装置は、本実施の形態では例えばデジタルカメラ、或はデジタルビデオカメラ等の場合で説明する。
【0019】
図において、動画ファイル101は、例えばメモリカード或はテープなどの記憶媒体に記憶されている。動画ファイルデマルチプレクサ102は、動画ファイルとして記憶されている例えばMPEGファイルから音声信号と画像信号とを分離する。画像デコーダ103は、デマルチプレクサ102で分離された画像信号を入力してデコードする。オーディオデコーダ104は、デマルチプレクサ102で分離された音声信号をデコードして音声認識部105に出力する。音声認識部105は、そのデコードされた音声信号を音声認識する。その音声認識の結果は文章・文節認識部106に送られ、文書、文節の区切りが検出される。こうして検出された文章、文節の区切りに基づいて、画像選択部107は、画像デコーダ103でデコードされた複数のフレーム画像の中から、その文章、文節の区切りに対応するフレーム画像を選択する。尚、この画像選択部107によるフレーム画像を選択するための選択基準は詳しく後述する。こうして選択されたフレーム画像は選択画像108となる。
【0020】
一方、文章、文節認識部106で切り出された文章は、テキスト化部109でテキストデータに変換される。こうして変換されたテキストデータは、文字コードに対応する文字フォントに基づいてパターン展開されテキスト画像110となる。そして、このテキスト画像110と選択画像108とを画像合成部111で合成する。こうして合成された画像が表示され、或はプリンタ112に送信されて印刷される。尚、マイクロフォン113は、音声等の音響信号を入力するのに使用される。
【0021】
図2は、こうしてプリンタ112で印刷された画像の印刷例を示す図である。
【0022】
ここでは選択された選択画像108に、テキスト画像110が吹き出し200で示すように合成されて印刷されている。
【0023】
図3は、本実施の形態に係る撮像装置の構成を示すブロック図である。
【0024】
制御部301は、この撮像装置全体の動作を統括して制御しており、CPU330と、このCPU330により実行される制御プログラムを格納しているROM331と、CPU330による制御処理の実行時に、各種データを一時的に保存するRAM332等を備えている。この制御部301における制御対象は、入力部302からのシャッタ等のトリガを基にした撮像部303における画像撮影及びその画像データの記憶、撮影した画像データを有線通信部304を介して外部に送信すること、撮像部303により撮影されて記憶媒体313に記憶された画像の表示、撮像部303で撮影中の画像を表示部306に表示するなどの処理を含んでいる。
【0025】
撮像部303は、撮像素子(CCD)と画像バッファメモリ等を含み、撮影した画像を、一時バッファメモリに保存した後に、制御部301からの制御によって、メモリカード等の記憶媒体313に記憶したり、或は有線又は無線通信部304,308を経由して外部に送信することができる。入力部302は、ユーザにより操作されるスイッチやボタン等を含み、UIを使用した操作、電源、シャッタ、カメラズーム等の操作を行うのに使用される。電池309は、この撮像装置全体への電力を供給する。尚、場合によっては、コネクタ305を経由して外部へ電力を供給するようにしてもよく、また外部から電力の供給を受けるようにしてもよい。電源監視部310は、電池309の電池容量を測定して制御部301に通知する。
【0026】
有線通信部304は、コネクタ305のコントローラの役割を果たし、コネクタ305の接続状況の監視も行い、この監視結果を制御部301に通知する。コネクタ305は、複数の接続端子によって構成され、他の端末(例えばPCやプリンタ等)との間で、制御信号を受け渡し画像データを送信する。またこのコネクタ305には、電源線等が含まれる。無線通信部308は、無線通信に関する機能を有し、制御部301から受信した信号を受け取り、RF信号に変調した後送信する。また受信したRF信号を復調して制御部301に渡す。音声処理部311は、マイクロフォン113から入力される音声信号を処理し、音声認識して出力する。尚、このマイクロフォン113は、動画録画時の音響信号の入力にも利用される。記憶/再生制御部312は記憶媒体313へのデータの書き込み、及び記憶媒体313からのデータの読み出しを制御する。ここで再生された音声信号は音声処理部311に送られて音声認識される。
【0027】
[実施の形態1]
図4は、本発明の実施の形態1に係る撮像装置による処理を説明するフローチャートで、この処理を実行するプログラムはROM331に記憶されており、CPU330の制御の下に実行される。
【0028】
まずステップS1で、選択タイムスタンプを決定する。これは選択対象の画像の中からどの画像を選択するかを決定する選択基準を設定するものである。
【0029】
図5は、この選択タイムスタンプを選択する際に表示部306に表示されるメニュ画面例を示す図である。
(1)選択対象期間の画像の真中の画像を選択する。
【0030】
音声認識をもとに文章、文節の区切りを検出した場合の、その文章或は文節に対応する画像期間の略中心のフレーム画像を選択するように指定する。
(2)対象期間の先頭から一定時間後の画像を選択する。
【0031】
音声認識をもとに文章、文節の区切りを検出した場合の、その文章或は文節に対応する画像期間の先頭から一定時間後の画像を選択するように指定する。
(3)対象期間の最初の有音時の画像を選択する。
【0032】
音声認識をもとに文章、文節の区切りを検出した場合の、その文章或は文節に対応する画像期間の最初の有音時の画像を選択するように指定する。
(4)動きベクトルが最小の画像を選択する。
【0033】
音声認識をもとに文章、文節の区切りを検出した場合の、その文章或は文節に対応する画像期間内で、動きベクトルが最小の画像を選択するように指定する。またこの場合には、例えばイントラフレームだけを選択するようにしても良い。
(5)撮影パラメータから最適な画像を選択する。
【0034】
音声認識をもとに文章、文節の区切りを検出した場合の、その文章或は文節に対応する画像期間内で、撮影パラメータが適切な画像を選択するように指定する。尚、この撮影パラメータが適切かどうかの判断としては、例えば画像中の輝度分布を解析するなどして撮影された画像の露出が良好か、ホワイトバランスが適正か、或はフォーカシングが最適か(画像の焦点がボケていないか)を判断すること等が考えられる。
【0035】
これら5項目のいずれかを、入力部302を使用して選択することができる。
【0036】
こうしてステップS1では、選択された選択タイムスタンプをRAM332に記憶する。次にステップS3で動画を入力し、ステップS4で、その入力した動画に含まれる音声を認識する。次にステップS5で、その音声認識に基づいて、文節/文章の区切りを認識そ、その認識した文節/文章をテキスト化する。そしてステップS7で、ステップS1で選択されステップS2で記憶された選択タイムスタンプに最も近いフレーム画像を選択する。そしてステップS8で、ステップS6でテキスト化された文字画像と、ステップS7で選択されたフレーム画像とを合成する。そしてステップS9で、この合成された画像をRAM332に記憶する。ステップS10では、動画の最終画像かどうかを調べ、最後でないときはステップS11に進み、選択用のタイムスタンプを変更するかどうかをみる。変更しないときはステップS3に進んで次の動画を入力するが、選択用のタイムスタンプを変更する場合はステップS1に戻り、前述の処理を実行する。
【0037】
そしてステップS10で、動画の最後であればステップS12に進み、ステップS8で合成された画像を表示部306に表示する。ここでは複数の合成画像があれば複数の画像が表示部306に表示される。そしてステップS13で、ユーザにより選択されたフレームを画像をプリンタ112に出力して印刷を実行する。
【0038】
このように本実施の形態1によれば、動画再生期間の中から最適な画像を選択して印刷或は表示できる。
【0039】
更にその選択した画像に、その画像に関連した音声の内容を、図2に示すようにテキストデータで吹き出しとして合成して出力・印刷できる。
【0040】
[実施の形態2]
次に本発明の実施の形態2について説明する。この実施の形態2では、所望の画像を選択するための選択項目として、その動画に含まれている言葉をマイクロフォン113から入力する。そして、その入力された音声に一致する音声が発せられて時点の画像を選択画像として決定するものである。
【0041】
図6は、本実施の形態2に係る撮像装置における処理を説明するフローチャートで、この処理を実行するプログラムは制御部301のROM331に記憶されており、CPU320の制御の下に実行される。
【0042】
まずステップS21で、動画の再生を開始し、ステップS22で、ユーザの音声をマイクロフォン113から入力する。尚、この音声入力時には、デジタル次にステップS23で、その入力された音声を認識し、ステップS24で音声認識した動画の音声情報とステップS25で比較する。この比較の結果、一致する音声が存在しないときはステップS21に戻って次の動画に対して同様の処理を繰り返す。
【0043】
ステップS25で、一致する音声が見つかるとステップS26に進み、その時点のフレーム画像を選択する。こうして選択された画像が決定されると、その音声をテキスト化し、ステップS27で、そのテキストデータと、選択したフレーム画像と合成する。これにより例えば図2に示すような、画像に吹き出しで文字が追加された画像が生成される。そしてステップS28で、その合成画像を表示部306に表示して、ユーザにその可否を問合せる。ここでユーザがOKと入力するとステップS29に進んで、その合成画像を印刷或は出力画像として決定するが、OKが入力されないときはステップS21に戻り、再度同様の操作を行う。
【0044】
[実施の形態2の変形例]
図7は、本実施の形態2に係る撮像装置における処理の変形例を説明するフローチャートで、この処理を実行するプログラムは制御部301のROM331に記憶されており、CPU320の制御の下に実行される。この変形例では、写真用のフレーム画像の選択に際しては、ユーザにより入力された音声を検索用キーワードとする点は前述の実施の形態2と同じであるが、そのフレーム画像の選択に際しては、実施の形態1における選択タイムスタンプを使用し、更に動画の再生においても、動画を全て再生してフレーム画像を選択するか、実施の形態1のステップS12で抽出された合成に画像を含む画像期間(文節単位、文章単位に相当)毎に動画を再生して、所望のフレーム画像を選択する点が、前述の実施の形態2の構成と異なっている。
【0045】
まずステップS31で、再生したい動画及び選択タイムスタンプを選択する。この選択タイムスタンプは前述の実施の形態1の場合と同様である。ここで動画を選択する際、動画を全てを再生するように選択するか、或は前述のステップS12で抽出されたフレーム画像が含まれている画像期間を再生するか、のいずれかを指定することができる。こうして抽出対象の動画が選択されるとステップS32に進み、ユーザによる音声入力が行われる。この音声入力に際しては、ユーザは、このデジタルカメラを所定のモードに設定した後、特定のボタン(例えば、ファンクションキーなど)を押下しながらマイクロフォン112により音声を入力する。こうして入力されたユーザの音声はステップS33で音声認識され、その結果がRAM332に記憶される。次にステップS34で、ステップS1で指示された動画の再生が開始される。そしてステップS35で、図4のステップS4と同様にして、その動画に含まれている音声情報が音声認識される。次にステップS35で、ステップS33で音声認識されて記憶されている音声情報と、ステップS35で音声認識された結果とが一致するか、並びにステップS31で指定された選択タイムスタンプに基づいて、音声情報が一致するフレーム画像を選択できるかどうかを判定する。これら条件に合うフレーム画像が選択できるとステップS37に進むが、そうでない時はステップS34に戻り、前述の処理を実行する。
【0046】
ステップS36でフレーム画像が選択できるとステップS37で、その音声情報をテキスト化し、そのテキストデータを文字フォントを使用して文字画像に展開する。次にステップS38で、そのフレーム画像に文字画像を合成し、その合成した画像を表示部306に表示する。次にステップS39で、その合成画像がユーザが満足できるものであるかどうかがユーザにより判定され、満足できるとして「OK」が入力されるとステップS40に進み、その合成画像をプリンタ112に出力して印刷を実行する。一方、ユーザが満足できない場合はステップS31に進み、再度動画の指定、選択タイムスタンプの指定を行う。
【0047】
尚、ステップS38では、指定された選択タイムスタンプに近い複数の候補フレーム画像を抽出表示して、それら複数の候補フレーム画像の中からユーザが所望のフレーム画像を選択するようにしても良い。
【0048】
[実施の形態3]
次に本発明の実施の形態3について説明する。この実施の形態3では、音声と画像の最適な組み合わせを選択し印刷するための手段として、文章或は文節の分割を行う。これによりテキスト化された文を、適度な文字数の文章或は文節として画像と共に印刷或は表示できる。
【0049】
図8は、動画フレームと音声との関係の一例を説明する図である。
【0050】
801〜806は、動画を構成している一連の画像フレームを示している。807,808は、これら一連の画像フレーム(801〜806)に同期した音声を示している。前述の実施の形態の場合、これら一連の音声は、文章或は文節として、807,808で示すように音声認識される。更に、それぞれの区間から画像フレーム809,810が、指定された選択タイムスタンプに基づいて選択される。
【0051】
図9は、音声「みててね」に対応するフレームとして画像フレーム801が選択され、その画像に音声「みててね!」を示すテキストを含む吹き出し901が付された画像が印刷・出力されている。このように音声をテキスト化し、その音声を示す吹き出しと、選択された画像フレームとが合成された画像が印刷されている。
【0052】
特に本実施の形態3では、図10に示す印刷画像のテキスト部分を再分割する場合で説明する。
【0053】
図11は、本実施の形態3において、音声808を表すテキストを分割する例を説明する図で、前述の図8及び図9と共通する部分は同じ記号で示している。
【0054】
910,911は、音声808を表すテキストを2分割したテキストを示している。このようなテキストの分割は、操作者の指示によって行われても良く、或は自動的に行っても良い。
【0055】
図12及び図13は、本発明の実施の形態3に係る撮像装置による処理を説明するフローチャートである。
【0056】
図12において、まずステップS41で動画を入力し、ステップS42で、その動画と共に録音されている音声を音声処理部311で認識する。次にステップS43で、その認識した音声をテキスト(文章/文節)で表し、ステップS44で、その認識結果をテキストデータに変換する。次にステップS45では、予め設定されたタイムスタンプの選択方法に基づいて、その認識した音声に対応している動画の中から、所定の画像フレームを選択する。次にステップS46で、ステップS44でテキスト化されたテキスト画像と、ステップS45で選択した画像フレームの画像とを合成する。次にステップS47で、ステップS46で合成した画像と、テキスト化された文章/文節データとを記憶する。そしてステップS48で、動画の最後のフレームかどうかを判断し、最後のフレームでない場合はステップS41に戻り、前述の処理を繰り返す。
【0057】
ステップS48で、動画の最後のフレームと判断した場合はステップS49に進み、ステップS47で作成されて記憶された合成画像を読み出し、その一覧を表示部306に表示する。次にステップS50で、操作者に各合成画像はこのままで良いか、或は編集をしたいかを問合せて処理を選択させる。このままで良い場合はステップS51に進み、その選択された合成画像を印刷する。一方、ステップS50で、その合成画像を編集するように選択した場合はステップS61(図13)に進む。
【0058】
図13は、編集処理を説明するフローで、まずステップS61で、入力部302を使用して、表示部306に表示された合成画像の一覧から編集対象の画像が選択される。次にステップS62で、その選択した合成画像の内の一つの合成画像を表示してステップS63に進む。ステップS63では、編集を終了するか(OK)、或はテキストである文章/文節を分割するか、また或はタイムスタンプ選択方法を変更するかが、入力部302からの指示により選択される。ここで編集を終了するように指示されるとステップS49(図12)に進み、合成画像の一覧表示を行う。
【0059】
一方、文章/文節の再分割を行う場合はステップS64に進み、選択された合成画像のテキストに対応する文章/文節を分割する。次にステップS65で、その分割された各々の対象区間の動画より、設定されているタイムスタンプ選択方法に基づいて、合成画像の基になる画像フレームを再び選択する。次にステップS66で、ステップS64で分割されたテキストと、ステップS65で再選択された画像フレームとを合成する。そしてステップS67で、その合成した画像と、分割されたテキストを記憶する。そしてステップS62に進み、その分割したテキストと再合成した画像を表示する。
【0060】
またステップS63で、タイムスタンプの選択方法の変更が選択された場合はステップS68に進み、タイムスタンプの選択方法の選択画面を表示する。次にステップS69で選択方法が変更されると、それを記憶する。次にステップS70で、その音声の対象となる動画区間のフレームより、新たに設定されたタイムスタンプ選択方法に基づいて、合成対象の画像フレームを選択する。そしてステップS71で、その選択されたフレームと、音声を示すテキストとを再合成する。このときテキストは、画像フレームを再度選択する前と同じテキストである。そしてステップS72で、その合成画像とテキストとを記憶する。そしてステップS62に進み、その再合成した画像を表示部306に表示する。
【0061】
図14は、本実施の形態3に係る一連の処理(図12,図13)によって分割、選択された画像フレームの一例を示す図で、前述の図8及び図11と共通する部分は同じ記号で示している。
【0062】
ここで910,911は、音声を示す文章及び文節(「お父さんお父さん乗れたよ」)を再分割をした結果を示している。ここでは音声808を表すテキストが、テキスト910と911に2分割されている。更に、これら分割されたテキスト910,911の各々に対応する一連の画像フレーム803,804、及び805,806より、各テキスト910,911に対応するフレームとして画像フレーム804および805がそれぞれ選択されている。
【0063】
図15及び図16は、画像フレーム804,805の夫々に対応して、各分割されたテキスト910,911を合成して印刷した画像例を示す図である。この画像データは、各音声に対応するテキストを含む吹き出し1501,1502により、音声808が表示されている。
【0064】
以上は文章/文節の再分割を編集フローにて操作者に判断させる例について説明したが、一枚の画像フレーム当たりの文章/文節の文字数、テキスト合成画像上の文字画像のレイアウト上の領域のサイズなどに基づいて、文章/文節の再分割、該当区間の画像フレームの再選択、画像の再合成処理を合成画像が最適化されるまで自動的に行うようにしても良い。
【0065】
この場合は、文字をレイアウトできる領域のサイズに応じて、分割する文節の大きさを変えるようにするとよい。このためには、主要被写体を認識して、それ以外の領域の大きさに応じて、文字をレイアウトする吹き出し領域を設定すれば良い。この吹き出しにレイアウトする文字数によって、文節の分割位置が設定できる。これにより、吹き出し内の文字が認識しやすくなり、読みやすいテキストを含む合成画像を作成できる。
【0066】
図17は、本実施の形態に係る文章/文節の分割を自動で行うか否かを選択する際に表示部306に表示される設定画面例を示す図である。
【0067】
図では、自動分割モードが設定された(「ON」が選択された)状態を示している。
【0068】
以上、本発明の実施の形態を詳述したが、本発明は、複数の機器から構成されるシステムに適用しても良いし、または一つの機器からなる装置に適用しても良い。
【0069】
なお本発明は、前述した実施の形態の機能を実現するソフトウェアのプログラムを、システム或いは装置に直接或いは遠隔から供給し、そのシステム或いは装置のコンピュータが、その供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。その場合、プログラムの機能を有していれば、その形態はプログラムである必要はない。従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明には、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等、プログラムの形態を問わない。
【0070】
プログラムを供給するための記憶媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM,DVD−R)などがある。その他のプログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記憶媒体にダウンロードすることによっても供給できる。また本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明のクレームに含まれるものである。
【0071】
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布し、所定の条件を満足するユーザに対してインターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
【0072】
またコンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現され得る。
【0073】
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現される。
【図面の簡単な説明】
【0074】
【図1】本発明の実施の形態に係る撮像装置の機能構成を示す機能ブロック図である。
【図2】本実施の形態に係る撮像装置からの合成をプリンタで印刷した印刷例を示す図である。
【図3】本実施の形態に係る撮像装置の構成を示すブロック図である。
【図4】本発明の実施の形態1に係る撮像装置による処理を説明するフローチャートである。
【図5】本実施の形態1に係る選択タイムスタンプを選択する際に表示部に表示されるメニュ画面例を示す図である。
【図6】本実施の形態2に係る撮像装置における処理を説明するフローチャートである。
【図7】本実施の形態2に係る撮像装置における処理の変形例を説明するフローチャートである。
【図8】動画フレームと音声との関係の一例を説明する図である。
【図9】音声を示すテキストと画像フレームとを合成して印刷した印刷例を示す図である。
【図10】音声を示すテキストと画像フレームとを合成して印刷した他の印刷例を示す図である。
【図11】本実施の形態3において、音声を表すテキストを分割する例を説明する図である。
【図12】、
【図13】本発明の実施の形態3に係る撮像装置による処理を説明するフローチャートである。
【図14】本実施の形態3に係る一連の処理(図12,図13)によって分割、選択された画像フレームの一例を示す図である。
【図15】、
【図16】本実施の形態3において、各画像フレームに対応して、各分割されたテキストを合成して印刷した画像例を示す図である。
【図17】本実施の形態に係る文章/文節の分割を自動で行うか否かを選択する際に表示部に表示される設定画面例を示す図である。

【特許請求の範囲】
【請求項1】
動画の再生が可能な撮像装置であって、
動画に含まれる音声を認識する認識手段と、
前記認識手段により認識された音声の区切りを基に印刷候補のフレーム画像を選択する選択手段と、
前記選択手段により選択されたフレーム画像と、前記認識手段により認識された音声を示すテキスト情報とを合成して出力する出力制御手段と、
を有することを特徴とする撮像装置。
【請求項2】
前記選択手段は、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の略中心の画像を選択することを特徴とする請求項1に記載の撮像装置。
【請求項3】
前記選択手段は、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の最初の有音時のフレーム画像を選択することを特徴とする請求項1に記載の撮像装置。
【請求項4】
前記選択手段は、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の最初から所定時間後のフレーム画像を選択することを特徴とする請求項1に記載の撮像装置。
【請求項5】
前記選択手段は、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の内、動きベクトルの大きさが最小のフレーム画像を選択することを特徴とする請求項1に記載の撮像装置。
【請求項6】
前記選択手段は、フレーム画像の撮影パラメータを取得する手段を有し、前記撮影パラメータに基づいて前記印刷候補のフレーム画像を選択することを特徴とする請求項1に記載の撮像装置。
【請求項7】
動画の再生が可能な撮像装置であって、
入力された音声情報を音声認識する音声認識手段と、
動画に含まれる音声を認識する認識手段と、
前記音声認識手段により音声認識された音声情報と、前記認識手段により音声認識された音声情報とを比較する比較手段と、
前記比較手段により一致していると判定されたフレーム画像を抽出する抽出手段と、
前記抽出手段により抽出されたフレーム画像と、前記音声情報を示すテキスト情報とを合成して出力する出力制御手段と、
を有することを特徴とする撮像装置。
【請求項8】
前記抽出手段は、前記比較手段により一致していると判定された複数のフレーム画像の中から所定の条件を満足するフレーム画像を抽出することを特徴とする請求項7に記載の撮像装置。
【請求項9】
前記所定の条件を満足するフレーム画像は、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の略中心のフレーム画像であることを特徴とする請求項8に記載の撮像装置。
【請求項10】
前記所定の条件を満足するフレーム画像は、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の最初の有音時のフレーム画像であることを特徴とする請求項8に記載の撮像装置。
【請求項11】
前記所定の条件を満足するフレーム画像は、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の最初から所定時間後のフレーム画像であることを特徴とする請求項8に記載の撮像装置。
【請求項12】
前記所定の条件を満足するフレーム画像は、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の内、動きベクトルの大きさが最小のフレーム画像であることを特徴とする請求項8に記載の撮像装置。
【請求項13】
前記所定の条件を満足するフレーム画像は、当該フレーム画像の撮影パラメータに基づいて決定されることを特徴とする請求項8に記載の撮像装置。
【請求項14】
動画の再生が可能な撮像装置であって、
動画に含まれる音声を認識する認識手段と、
前記認識手段により認識された音声の区切りを基に印刷候補のフレーム画像を選択する選択手段と、
前記認識手段により認識された音声を示すテキスト情報を分割するか否かを判別し、分割する場合は、当該分割されたテキストに対応する音声に対応するフレーム画像を選択する画像選択手段と、
前記テキスト情報を分割しない場合は前記選択手段により選択されたフレーム画像と、前記認識手段により認識された音声を示すテキスト情報とを合成して出力し、
前記テキスト情報を分割する場合は前記画像選択手段により選択されたフレーム画像と、前記分割されたテキストに対応するテキスト情報とを合成して出力する出力制御手段と、
を有することを特徴とする撮像装置。
【請求項15】
前記選択手段は、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の略中心の画像を選択することを特徴とする請求項14に記載の撮像装置。
【請求項16】
前記選択手段は、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の最初の有音時のフレーム画像を選択することを特徴とする請求項14に記載の撮像装置。
【請求項17】
前記選択手段は、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の最初から所定時間後のフレーム画像を選択することを特徴とする請求項14に記載の撮像装置。
【請求項18】
前記選択手段は、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の内、動きベクトルの大きさが最小のフレーム画像を選択することを特徴とする請求項14に記載の撮像装置。
【請求項19】
前記選択手段は、フレーム画像の撮影パラメータを取得する手段を有し、前記撮影パラメータに基づいて前記印刷候補のフレーム画像を選択することを特徴とする請求項14に記載の撮像装置。
【請求項20】
前記画像選択手段は、前記認識手段により認識された音声の区切りまでの文節の文字数が所定の文字数より多いか否かに基づいて、前記音声を示すテキスト情報を分割するか否かを判別することを特徴とする請求項14に記載の撮像装置。
【請求項21】
前記画像選択手段は、前記認識手段により認識された音声の区切りまでの文節の文字が合成後の画像に収まるかに応じて分割するか否かを判別することを特徴とする請求項14に記載の撮像装置。
【請求項22】
動画の再生が可能な撮像装置の制御方法であって、
動画に含まれる音声を認識する認識工程と、
前記認識工程で認識された音声の区切りを基に印刷候補のフレーム画像を選択する選択工程と、
前記選択工程で選択されたフレーム画像と、前記認識工程により認識された音声を示すテキスト情報とを合成して出力する出力制御工程と、
を有することを特徴とする撮像装置の制御方法。
【請求項23】
前記選択工程では、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の略中心の画像を選択することを特徴とする請求項22に記載の撮像装置の制御方法。
【請求項24】
前記選択工程では、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の最初の有音時のフレーム画像を選択することを特徴とする請求項22に記載の撮像装置の制御方法。
【請求項25】
前記選択工程では、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の最初から所定時間後のフレーム画像を選択することを特徴とする請求項22に記載の撮像装置の制御方法。
【請求項26】
前記選択工程では、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の内、動きベクトルの大きさが最小のフレーム画像を選択することを特徴とする請求項22に記載の撮像装置の制御方法。
【請求項27】
前記選択工程では、フレーム画像の撮影パラメータを取得し、前記撮影パラメータに基づいて前記印刷候補のフレーム画像を選択することを特徴とする請求項22に記載の撮像装置の制御方法。
【請求項28】
動画の再生が可能な撮像装置の制御方法であって、
入力された音声情報を音声認識する音声認識工程と、
動画に含まれる音声を認識する認識工程と、
前記音声認識工程で音声認識された音声情報と、前記認識工程で音声認識された音声情報とを比較する比較工程と、
前記比較工程で一致していると判定されたフレーム画像を抽出する抽出工程と、
前記抽出工程で抽出されたフレーム画像と、前記音声情報を示すテキスト情報とを合成して出力する出力制御工程と、
を有することを特徴とする撮像装置の制御方法。
【請求項29】
前記抽出工程では、前記比較工程により一致していると判定された複数のフレーム画像の中から所定の条件を満足するフレーム画像を抽出することを特徴とする請求項28に記載の撮像装置の制御方法。
【請求項30】
前記所定の条件を満足するフレーム画像は、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の略中心のフレーム画像であることを特徴とする請求項29に記載の撮像装置の制御方法。
【請求項31】
前記所定の条件を満足するフレーム画像は、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の最初の有音時のフレーム画像であることを特徴とする請求項29に記載の撮像装置の制御方法。
【請求項32】
前記所定の条件を満足するフレーム画像は、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の最初から所定時間後のフレーム画像であることを特徴とする請求項29に記載の撮像装置の制御方法。
【請求項33】
前記所定の条件を満足するフレーム画像は、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の内、動きベクトルの大きさが最小のフレーム画像であることを特徴とする請求項29に記載の撮像装置の制御方法。
【請求項34】
前記所定の条件を満足するフレーム画像は、当該フレーム画像の撮影パラメータに基づいて決定されることを特徴とする請求項29に記載の撮像装置の制御方法。
【請求項35】
動画の再生が可能な撮像装置の制御方法であって、
動画に含まれる音声を認識する認識工程と、
前記認識工程で認識された音声の区切りを基に印刷候補のフレーム画像を選択する選択工程と、
前記認識工程で認識された音声を示すテキスト情報を分割するか否かを判別し、分割する場合は、当該分割されたテキストに対応する音声に対応するフレーム画像を選択する画像選択工程と、
前記テキスト情報を分割しない場合は前記選択工程で選択されたフレーム画像と、前記認識工程により認識された音声を示すテキスト情報とを合成して出力し、
前記テキスト情報を分割する場合は前記画像選択工程で選択されたフレーム画像と、前記分割されたテキストに対応するテキスト情報とを合成して出力する出力制御工程と、
を有することを特徴とする撮像装置の制御方法。
【請求項36】
前記選択工程は、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の略中心の画像を選択することを特徴とする請求項35に記載の撮像装置の制御方法。
【請求項37】
前記選択工程は、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の最初の有音時のフレーム画像を選択することを特徴とする請求項35に記載の撮像装置の制御方法。
【請求項38】
前記選択工程は、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の最初から所定時間後のフレーム画像を選択することを特徴とする請求項35に記載の撮像装置の制御方法。
【請求項39】
前記選択工程は、前記音声の区切りまでの文節の長さに対応する期間内の対象画像の内、動きベクトルの大きさが最小のフレーム画像を選択することを特徴とする請求項35に記載の撮像装置の制御方法。
【請求項40】
前記選択工程は、フレーム画像の撮影パラメータを取得する工程を有し、前記撮影パラメータに基づいて前記印刷候補のフレーム画像を選択することを特徴とする請求項35に記載の撮像装置の制御方法。
【請求項41】
前記画像選択工程では、前記認識工程で認識された音声の区切りまでの文節の文字数が所定の文字数より多いか否かに基づいて、前記音声を示すテキスト情報を分割するか否かを判別することを特徴とする請求項35に記載の撮像装置の制御方法。
【請求項42】
前記画像選択工程では、前記認識工程で認識された音声の区切りまでの文節の文字が合成後の画像に収まるかに応じて分割するか否かを判別することを特徴とする請求項35に記載の撮像装置の制御方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate


【公開番号】特開2006−166407(P2006−166407A)
【公開日】平成18年6月22日(2006.6.22)
【国際特許分類】
【出願番号】特願2005−249954(P2005−249954)
【出願日】平成17年8月30日(2005.8.30)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】