説明

撮像装置、その制御方法及びプログラム並びに記憶媒体

【課題】
撮影シーンに適したテキストを記録画像に付加する。
【解決手段】
ユーザは、シーン設定部(115)に撮影シーンを設定する。シーン設定部(115)は撮影シーンに応じた典型テキストを複数記憶する。音声認識部(106)は、撮影中の音声入力部(102)による入力音声を音声認識する。テキスト化部(107)は、音声認識部(106)により音声認識されたテキストを、シーン設定部(115)の、撮影シーンに応じた典型テキストと退避して類似度を算出し、最も類似度の高い典型テキストを、記録画像とともに記録媒体(116)に記録すべきテキストデータと決定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、撮像装置、その制御方法及びプログラム並びに記憶媒体に関する。
【背景技術】
【0002】
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開平11−289517号公報
【特許文献2】特開平9−130736号公報
【0004】
デジタルビデオカメラ及びデジタルスチルカメラ等の撮像装置では、記録媒体として、光ディスク、ハードディスク装置(以下HDD)又は半導体メモリなどのランダムアクセス可能な記録媒体が使用されている。これらの記録媒体は大容量であり、多くの画像を保存できる。多くの記録画像中から所望の画像を探索する方法として、記録画像の縮小画像を一覧表示するいわゆるサムネイル表示が有効である。特許文献1には、サムネイル表示を用いる撮像装置が記載されている。
【0005】
特許文献2には、撮影と同時に取得する撮影者の音声をキーワードとして検索する技術が記載されている。具体的には、撮影と同時に撮影者の音声を音声認識してテキストに変換し、そのテキストを撮影画像と関連付けて記録する。そして、撮影時に同時入力した音声に対応するテキストを入力して、所望の画像を検索する。
【発明の概要】
【発明が解決しようとする課題】
【0006】
サムネイル画像の一覧表示では、同時に表示できるサムネイル数が限定されるので、記録画像数が多くなると、一覧画面を順送りすることになり、所望の画像を発見するのが困難になる。動画像の場合、シーン単位又は一定時間単位でサムネイルが作成されることがある。この場合、全記録画像のサムネイル数は膨大になりうるので、なおさら、所望動画像の所望シーンを発見するのは困難になる。
【0007】
また、類似した画面の場合、再生して見なければわからない。すなわち、類似したサムネイルで個々のシーンを識別するのは難しく。可能性ある画像を再生してみるしかない。サムネイルの表示だけでは効率的に画像を検索するのは困難である。
【0008】
特許文献2に記載の技術では、撮影者の音声を無作為に取り込み、テキストデータ化して記録するので、動画の特徴を表していないような音声テキストも記録してしまう。これでは、有効な検索が難しく、好ましくない動画が検索されてしまう。
【0009】
本発明は、多数の記録画像から所望の画像を迅速且つ適切に検索できるようにした撮像装置、その制御方法及びプログラム並びに記憶媒体を提示することを目的とする。
【課題を解決するための手段】
【0010】
本発明に係る撮像装置は、映像入力手段と、音声入力手段と、前記音声入力手段による入力音声を音声認識し、前記入力音声の示すテキストを出力する音声認識手段と、撮影シーンごとの典型テキストを記憶するシーン設定手段と、前記音声認識手段による前記テキストと、前記シーン設定手段に記憶される前記典型テキストとの類似度を算出し、前記類似度に従う前記テキスト又は前記典型テキストを、前記映像入力手段により入力される映像とともに記録すべきテキストとして決定するテキスト化手段と、前記映像入力手段により入力される映像と、前記テキスト化手段により決定された記録すべきテキストとを記録媒体に記録する記録手段とを有することを特徴とする。
【0011】
本発明に係る撮像装置の制御方法は、映像入力手段、音声入力手段、及び、撮影シーンごとの典型テキストを記憶する記憶手段を有する撮像装置の制御方法であって、撮影シーンを設定するステップと、撮影時の前記音声入力手段による入力音声を音声認識し、前記入力音声の示すテキストを出力する音声認識ステップと、前記音声認識ステップによる前記テキストと、設定された撮影シーンに対応する前記典型テキストとの類似度を算出し、前記類似度に従う前記テキスト又は前記典型テキストを、前記前記映像入力手段により入力される映像とともに記録すべきテキストとして決定するテキスト化ステップと、前記映像入力手段により入力される映像と、前記テキスト化ステップにより決定された記録すべきテキストとを記録媒体に記録する記録ステップとを有することを特徴とする。
【0012】
本発明に係る撮像装置の制御プログラムは、映像入力手段、音声入力手段、及び、撮影シーンごとの典型テキストを記憶する記憶手段を有する撮像装置を制御するプログラムであって、前記撮像装置に撮影シーンを設定する機能と、前記撮像装置に、撮影時の前記音声入力手段による入力音声を音声認識させ、前記入力音声の示すテキストを出力させる音声認識機能と、前記撮像装置に、前記音声認識機能による前記テキストと、設定された撮影シーンに対応する前記典型テキストとの類似度を算出させ、前記類似度に従う前記テキスト又は前記典型テキストを、前記映像入力手段により入力される映像とともに記録すべきテキストとして決定させるテキスト化機能と、前記撮像装置に、前記映像入力手段により入力される映像と、前記テキスト化機能により決定された記録すべきテキストとを記録媒体に記録させる記録機能とを有することを特徴とする。
【0013】
本発明に係る記憶媒体は、映像入力手段、音声入力手段、及び、撮影シーンごとの典型テキストを記憶する記憶手段を有する撮像装置を制御するプログラムを記憶する記憶媒体であって、前記プログラムが、前記撮像装置に撮影シーンを設定する機能と、前記撮像装置に、撮影時の前記音声入力手段による入力音声を音声認識させ、前記入力音声の示すテキストを出力させる音声認識機能と、前記撮像装置に、前記音声認識機能による前記テキストと、設定された撮影シーンに対応する前記典型テキストとの類似度を算出させ、前記類似度に従う前記テキスト又は前記典型テキストを、前記映像入力手段により入力される映像とともに記録すべきテキストとして決定させるテキスト化機能と、前記撮像装置に、前記映像入力手段により入力される映像と、前記テキスト化機能により決定された記録すべきテキストとを記録媒体に記録させる記録機能とを有することを特徴とする。
【発明の効果】
【0014】
本発明によれば、撮影シーンに応じた、画像の内容を示すテキストを撮影時の音声から自動的に付与できる。これにより、記録画像の一覧、又は特定のキーワード条件で抽出した一覧から、所望の画像を効率的に検索できる。再生装置側には音声認識機能が不要になる。
【図面の簡単な説明】
【0015】
【図1】本発明の一実施例の概略構成ブロック図である。
【図2】本実施例の入力音声をテキスト化する処理のフローチャートである。
【図3】テキストデータのフォーマット例である。
【図4】本実施例の再生時の動作フローチャートである。
【図5】テキストを使った一覧表示の画面例である。
【図6】動画に対するサムネイルとテキストの関係を示す模式図である。
【発明を実施するための形態】
【0016】
以下、図面を参照して、本発明の実施例を詳細に説明する。
【実施例1】
【0017】
図1は、本発明に係る撮像装置の一実施例の概略構成ブロック図を示す。図1に示す撮像装置100の制御部113は、操作部109によるユーザ操作及び動作状態に従い、撮像装置100の全体的な動作を制御する。制御部113は、たとえば、CPU(Central Processing Unit)などからなる。
【0018】
操作部109は、撮像装置100に付随するボタンやジョイスティック等で代表される入力装置であり、その操作を示す信号は制御部113に供給される。操作部109は、表示部108の前面に設置されるタッチパネルを含んでもよい。この場合、表示部108に操作対象を示すボタン等が表示され、そのボタンに向けたユーザ操作が、操作部109の操作となる。操作部109は、撮影時には、撮影の開始と停止、撮影モードの変更、及びズーム操作等に使用される。操作部109は、再生時には、再生すべき画像の選択、再生の開始と停止、及び再生画像の切り替え等に使用される。
【0019】
表示部108は、例えば、液晶ディスプレイ(Liquid Crystal Display)であり、撮影時は被写体画像を表示し、再生時には再生画像を表示する。表示部108はまた、撮像装置100の動作モード及び動作パラメータ等を設定する種々の設定画面も表示する。
【0020】
映像入力部101は、撮影レンズ、撮像素子、及び撮像素子による画像信号を所定形式の映像データに変換するカメラ信号処理回路からなる。撮像素子は、CCD(Charge Coupled Device)型でも、CMOS(Complementary Metal-Oxide Semiconductor)型でもよい。記録(撮影)モードにおいて、映像入力部101は、被写体を撮像した映像データを出力する。映像入力部101から出力される映像データは、メモリ103の映像信号用領域に一時格納される。
【0021】
音声入力部102は、マイクに代表される音声入力装置であり、記録モードにおいて、周囲の音声を電気信号に変換する。音声入力部102は、取り込んだ音声信号をデジタル信号に変換し、メモリ103の音声信号用領域に一時格納する。
【0022】
符号化部104は、メモリ103の映像データと音声データを所定の方式で圧縮符号化し、圧縮データをメモリ103の圧縮データ用領域に書き戻す。映像符号化として、MPEG(Moving Picture Experts Group)やH.264が知られている。制御部113は、メモリ103の圧縮映像データと圧縮音声データを読み出して所定のフォーマットで多重化し、メディアI/F105を介して記録媒体116に動画像データとして記録する。記録媒体116は、光ディスク、半導体メモリ又はハードディスク等のランダムアクセス媒体からなる。
【0023】
撮像装置100は、音声入力部102,音声認識部106,テキスト化部107及びシーン設定部115を使って、再生時の検索に使用できるテキストデータを作成する。図2は、その処理フローチャートを示す。
【0024】
ユーザは、撮影前又は撮影中に、撮影シーンを予め撮像装置100に登録できる。制御部113は、操作部109を使って入力された撮影シーンを示すテキストを、シーン設定部115に格納する。例えば結婚式を撮影する場合、ユーザは、そのシーンを示す「結婚式」というテキストを、操作部109を用いて文字入力するか選択し、制御部113がシーン設定部115に設定する。「結婚式」以外にも、例えば、「運動会」、「旅行」、及び「誕生日」などの代表的なイベントに対するシーン名をテンプレートとして用意しておけば、設定が容易になる。
【0025】
シーン設定部115は、代表的な各シーンに対して頻出する音声に対応するテキスト(典型テキスト)を内部ROM(Read Only Memory)に保持する。例えば、結婚式に対して、「おめでとう」、「入場」及び「乾杯」等の典型テキストが予め登録されている。この点で、シーン設定部115は、典型テキスト記憶手段として機能する。
【0026】
記録モードにおいて、音声入力部102が周囲の音声を入力する(S1)。入力された音声データは、メモリ103の音声信号用領域に一時格納される。音声認識部106は、一定の条件の下で、メモリ103の音声信号用領域に一時格納された音声データを読み出して音声認識する(S2)。音声認識の対象は、例えば、一定レベル以上の音声が入力する場合のその音声である。他にも、一定レベル以上の笑い声がある場合の、前後数秒間の音声、一定以上の期間、無音が継続した後の音声、予め登録したユーザの音声等である。登録ユーザの音声か否かを、別途登録した音紋等との照合で判定すればよい。音声認識部106は、音声認識の結果のテキスト情報をテキスト化部107に供給する。
【0027】
撮影シーンが設定されている場合(S3)、テキスト化部107は、音声認識部106の認識結果からのテキストを、設定シーンに対してシーン設定部115に記憶されるテキストと比較し、類似度を算出する(S4)。例えば、音声認識結果とシーン設定部115に登録されるテキストが全く同じであれば、類似度は最も高い。音声認識結果と同じテキストがシーン設定部115に登録されていないにない場合、類似度が最も低い。例えば、音声認識結果が「おめでとさん」であるのに対し、シーン設定部115に登録されるテキストが「おめでとう」である場合、前から順に比較して4文字、一致する。6文字中4文字まで一致するので、類似度は65%と設定する。逆に、シーン設定部115に登録されている文字の5文字に対する類似度を算出しても良い。この場合、5文字のうちの4文字「おめでと」が一致するので、類似度は80%となる。
【0028】
一定以上の類似度が得られる場合には(S5)、音声認識部106の認識結果を、シーン設定部115に記憶されるテキストで置換する(S6)。これにより、音声認識のぶれを解消でき、統一的な文言をテキストとして撮影画像に付加できることになる。類似度が低い場合(S5)、音声認識部106による音声認識結果のみ、又は、これとシーン設定部115からの最も類似するテキストの両方を、記録用に決定する。
【0029】
撮影シーンが設定されていない場合(S3)、テキスト化部107は、音声認識部106の認識結果からのテキストを、記録用に決定する。類似度を0とする。
【0030】
テキスト化部107は、記録用に決定したテキストと類似度に、制御部113からの撮影時刻情報をタイムスタンプとして付加した図3に示すようなデータ構造に整える。この明細書では、音声認識結果のテキスト情報にタイムスタンプを付加したデータを、音声認識テキストデータと呼ぶ。
【0031】
テキスト化部107は、このように生成したテキストデータをメディアI/F部105を介して記録媒体116のテキストデータ用領域に記録する。記録媒体116上では、音声認識テキストデータは、同時の撮影で記録媒体116に記録される動画像データと関連付けられている。シーン設定部115を設けることで、音声認識が困難な状況、又は、音声認識で適切な結果が得られないような状況でも、適切なテキストを撮影画像に付加して記録媒体116に記録できる。
【0032】
テキスト化部107はまた、記録時間が所定時間以上の場合で、無音状態が一定期間以上、継続するときに、無音を示すキーワードを含むテキストデータを生成してもよい。
【0033】
復号化部111は、再生モードにおいて、ユーザにより指定された動画像データを記録媒体116から読み出し、圧縮映像データ及び圧縮音声データを復号化する。メモリ103は、復号化前の圧縮データの一時保存用として、また、復号化後の再生映像データ及び再生音声データの一時保存用に使用される。再生映像データは表示部108により画像表示でき、また、再生音声データは、音声出力部117から音響出力することができる。
【0034】
再生モードにおける記録画像のサムネイルによる一覧表示では、復号化部111とサムネイル作成部110が、協働する。具体的には、復号化部111が記録媒体116から所定数の画像データを読み出して復号化し、サムネイル作成部110に供給する。動画像データの場合には、動画像の先頭フレーム等の特定フレームの画像がサムネイルの作成に使用され、制御部113が、その特定フレームを指定する。サムネイル作成部110は、復号化部111で復号化された画像データのサイズを縮小してサムネイル画像を作成する。サムネイルは、その原画像データを記録媒体116に記録する際に同時に又は前後して作成してもよいし、一覧表示等の必要時に作成してもよい。
【0035】
本実施例では、再生モードにおいて、テキストによる一覧表示のインデックス画面又は一覧画面とサムネイルによる一覧表示のインデックス画面又は一覧画面を選択できる。図4は、その動作フローチャートを示す。ユーザは、事前に又は再生モードに入った時点で、一覧画面としてテキスト一覧かサムネイル一覧かを設定する。
【0036】
制御部113は、インデックス画面としてテキスト一覧かサムネイル一覧のどちらが選択されているかを調べる(S11)。サムネイル一覧の場合(S11)、インデックス作成部112は、一覧表示する記録画像に対するサムネイルを記録媒体116から読み込む(S12)。もちろん、サムネイルが事前に作成されていない場合には、復号化部111及びサムネイル作成部110が、先に説明したように、必要な記録画像のサムネイルを生成する。そして、インデックス作成部112は、読み込んだ所定数のサムネイルを使って、一覧表示のインデックス画面を生成する(S13)。
【0037】
テキスト一覧の場合(S11)、インデックス作成部112は、一覧表示する各記録画像に対して、付属するテキストデータを記録媒体116から読み込む(S14)。そして、読み込んだ所定数のテキストデータを使って、一覧表示のインデックス画面を生成する(S15)。
【0038】
制御部113は、インデックス作成部112により生成されたインデックス画面を表示部108に供給して、表示させる(S16)。図5は、テキストデータによるインデックス画面例を示す。各記録画像に対して、年月日と、入力音声から生成されたテキストが並記される。
【0039】
ユーザが、インデックス画面上で特定の記録画像を選択した場合(S17)、先に説明したように、制御部113は、復号化部111に指示して、選択された記録画像(及び音声)を再生させる(S18)。再生画像信号は表示部108又は外部の映像表示装置により表示され、再生音声信号は図示しないスピーカから出力される。再生の中止又は終了により、インデックス画面に戻る。
【0040】
また、インデックス画面の表示中に、ユーザが操作部109により画面送りを指示すると(S19)、指示された次の一群の記録画像に対してインデックス画面を作成し、表示する(S11〜S16)。
【0041】
ユーザが、インデックス画面の作成方法の変更を指示する場合には(S20)、テキスト一覧だった場合にはサムネイル一覧で、また、サムネイル一覧だった場合にはテキスト一覧で、インデックス画面を作成し直す(S11〜S16)。
【0042】
図6は、動画に対するサムネイルとテキストデータの対応例を示す。記録された動画像50に対し、一定時間ごとにサムネイル52が作成され、図5に示す例と同様の、音声入力によるテキスト54が付加されている。
【0043】
図6に示すような一連の動画中の途中の画面が再生用に選択された場合、制御部113は、再生開始点として、選択位置(又はフレーム)、選択位置より一定時間前(例えば、数秒前)、及び先頭のいずれかを選択できる。再生開始点は、操作部109により制御部113に事前に設定しておいても、その都度、指定してもよい。選択位置より一定時間前が先頭位置を超える場合、先頭位置からの再生になるのは当然である。通常、見どころは、音声入力の直前から開始していることが多いことから、選択位置より一定時間前から再生開始するのをデフォルトとするのが好ましい。これにより、ユーザの希望する場面を見逃すことなく再生できる。また、動画像50の記録時間が短い場合には一律に先頭から再生を開始するようにしてもよい。
【0044】
本実施例では、撮影時に音声入力したテキストを使うので、所望の画像又はシーンを効率的に検索できる。
【0045】
音声認識結果とシーン設定部115に予め登録したテキストとの類似度も記録することにより、次のような利点がある。すなわち、記録媒体116に大量の映像信号が記録されている場合、シーン毎にインデックス表示を行うと検索性が向上する。例えば、シーン「結婚式」の記録画像を抽出して、一覧表示する。このとき、シーン設定部115に予め登録されているいわば定型文での絞り込み検索が可能になり、検索性が向上する。また、類似度順に一覧を表示することで、検索性が向上する。もちろん、記録媒体116に記録されている全画像を同じテキストで検索でき、様々なシーンの「おめでとう」というテキストが付加された画像を一覧表示できる。
【0046】
制御部113の制御は1つのハードウェアが行ってもよいし、複数のハードウェアが処理を分担することで、装置全体の制御を行ってもよい。例えば、音声認識部106に対応する音声認識機能、テキスト化部107に対応するテキスト化機能、種々のデータを記録媒体116に記録する記録機能などが、制御プログラムとしてソフトウエアでも実現されうる。
【0047】
また、本発明をその好適な実施形態に基づいて詳述してきたが、本発明はこれら特定の実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の様々な形態も本発明に含まれる。さらに、上述した各実施形態は本発明の一実施形態を示すものにすぎず、各実施形態を適宜組み合わせることも可能である。
【0048】
また、上記実施形態では、撮像装置での撮像の際に音声認識してキーワードを付与する例を説明したが、再生装置に音声を認識する機能があれば、上記実施の形態で説明した各種キーワードの付与を再生装置で動画を再生することにより行ってもよい。
【0049】
本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)をネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(又はCPUやMPU等)が実行する。この場合、そのプログラム、及び該プログラムを記憶した記憶媒体は本発明を構成することになる。

【特許請求の範囲】
【請求項1】
映像入力手段と、
音声入力手段と、
前記音声入力手段による入力音声を音声認識し、前記入力音声の示すテキストを出力する音声認識手段と、
撮影シーンごとの典型テキストを記憶するシーン設定手段と、
前記音声認識手段による前記テキストと、前記シーン設定手段に記憶される前記典型テキストとの類似度を算出し、前記類似度に従う前記テキスト又は前記典型テキストを、前記映像入力手段により入力される映像とともに記録すべきテキストとして決定するテキスト化手段と、
前記映像入力手段により入力される映像と、前記テキスト化手段により決定された記録すべきテキストとを記録媒体に記録する記録手段
とを有することを特徴とする撮像装置。
【請求項2】
さらに、
前記記録媒体に記録された前記テキストを使う一覧画面を生成する手段と、
前記一覧画面で選択された画像を再生する再生手段
とを有することを特徴とする請求項1に記載の撮像装置。
【請求項3】
前記再生手段は、前記選択された画像が動画像の場合、その記録時間に応じて、記録を開始する位置を変更することを特徴とする請求項2に記載の撮像装置。
【請求項4】
映像入力手段、音声入力手段、及び、撮影シーンごとの典型テキストを記憶する記憶手段を有する撮像装置の制御方法であって、
撮影シーンを設定するステップと、
撮影時の前記音声入力手段による入力音声を音声認識し、前記入力音声の示すテキストを出力する音声認識ステップと、
前記音声認識ステップによる前記テキストと、設定された撮影シーンに対応する前記典型テキストとの類似度を算出し、前記類似度に従う前記テキスト又は前記典型テキストを、前記映像入力手段により入力される映像とともに記録すべきテキストとして決定するテキスト化ステップと、
前記映像入力手段により入力される映像と、前記テキスト化ステップにより決定された記録すべきテキストとを記録媒体に記録する記録ステップ
とを有することを特徴とする撮像装置の制御方法。
【請求項5】
映像入力手段、音声入力手段、及び、撮影シーンごとの典型テキストを記憶する記憶手段を有する撮像装置を制御するプログラムであって、
前記撮像装置に撮影シーンを設定する機能と、
前記撮像装置に、撮影時の前記音声入力手段による入力音声を音声認識させ、前記入力音声の示すテキストを出力させる音声認識機能と、
前記撮像装置に、前記音声認識機能による前記テキストと、設定された撮影シーンに対応する前記典型テキストとの類似度を算出させ、前記類似度に従う前記テキスト又は前記典型テキストを、前記映像入力手段により入力される映像とともに記録すべきテキストとして決定させるテキスト化機能と、
前記撮像装置に、前記映像入力手段により入力される映像と、前記テキスト化機能により決定された記録すべきテキストとを記録媒体に記録させる記録機能
とを有することを特徴とする撮像装置の制御プログラム。
【請求項6】
映像入力手段、音声入力手段、及び、撮影シーンごとの典型テキストを記憶する記憶手段を有する撮像装置を制御するプログラムを記憶する記憶媒体であって、前記プログラムが、
前記撮像装置に撮影シーンを設定する機能と、
前記撮像装置に、撮影時の前記音声入力手段による入力音声を音声認識させ、前記入力音声の示すテキストを出力させる音声認識機能と、
前記撮像装置に、前記音声認識機能による前記テキストと、設定された撮影シーンに対応する前記典型テキストとの類似度を算出させ、前記類似度に従う前記テキスト又は前記典型テキストを、前記映像入力手段により入力される映像とともに記録すべきテキストとして決定させるテキスト化機能と、
前記撮像装置に、前記映像入力手段により入力される映像と、前記テキスト化機能により決定された記録すべきテキストとを記録媒体に記録させる記録機能
とを有することを特徴とする記憶媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate