説明

情報記録再生装置およびビデオカメラ

【課題】カメラ本体だけで音声認識による字幕つきのディスク作成し、かつ顔認識により人別に表示できるようなメニューを生成することで、ユーザにとって使い勝手の良い情報記録再生装置を提供する。
【解決手段】複数の記録媒体に対応したドライブ装置を複数搭載し、前記記録媒体に応じた規格に準拠した記録再生を行なうことが可能な情報記録再生装置において、前記情報記録再生装置内に入力された映像信号から顔や人を認識する顔及び人物認識装置と、入力された音声信号から人の声を認識する音声認識装置と、前記顔及び人物認識装置と前記音声認識装置からの認識された結果を管理する認識制御部と、前記音声認識装置で認識された言葉をテキスト化する音声テキスト化装置と、複数の媒体同士でのデータのやり取りを管理するダビング管理装置とから構成されており、ダビング時に音声から字幕を生成する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、BDやHDDなど複数の媒体を搭載したディスク記録再生装置に関するものである。
【背景技術】
【0002】
本技術分野の背景技術として、例えば、特開2007-027990(特許文献1)がある。該公報には「[課題]吹き出しや字幕スーパーの作成、編集を容易化する。[解決手段]動画データは顔検出手段103に入力されて顔特徴量と顔位置が検出され、音声識別手段104に入力されて音声特徴量が検出される。検出された各特徴量は話者特定手段107に送られ、音声・顔対応データ記憶手段106に登録されている話者の特徴量と比較されて特定話者の位置が特定される。特定された話者の音声は、音声認識手段105によりテキスト化される。話者の位置とテキストデータにより吹き出し作成手段112により吹き出しが作成され、動画像作成手段114により動画データと音声データと吹き出しデータとをまとめて新たな動画データが作成される。」と記載されている(要約参照)。
【0003】
また、本技術分野の背景技術として、例えば、特開2007-266793(特許文献2)がある。該公報には「[課題]画像中の適正位置に音に対応する表示データを合成する。[解決手段]動画再生時に音声があるか否かを判断し(ステップS325)、ある場合には、口が存在するか否かを判断する(ステップS326)。口が存在する場合には、複数の口が存在するか否かを判断する(ステップS328)。この判断がNOであって単一の口のみが写っている場合には、吹き出し合成処理を実行する(ステップS332)。また、複数の口が存在する場合には、動いている口があるか否か(ステップS329)、及び動いている口は1つであるか否かを判断し(ステップS330)、動いている口が1つである場合には、吹き出し合成処理を実行する(ステップS332)。この吹き出し合成処理により、吹き出し内にテキストデータを合成した吹き出しテキストデータを、前記単一の口又は動いていると判断された口の近傍であって背景に合成する。」と記載されている(要約参照)。
【0004】
【特許文献1】特開2007-027990
【特許文献2】特開2007-266793
【発明の開示】
【発明が解決しようとする課題】
【0005】
昨今、ビデオカメラの市場では、上書きの心配がないことや映像の検索の容易さなどから、記録媒体はテープからディスクへと移行してきている。また、記録媒体はDVDだけでなく、HDD(Hard Disc Drive)や半導体メモリを搭載する製品も登場してきている。更に最近では大容量化と高画質化を実現すべく、Blu-ray Disc Association(BDA)で策定された次世代光ディスク規格Blu−rayDisc(BD)を採用した記録機も登場してきている。HDDやBDとの組み合わせのハイブリッド型のビデオカメラも存在し、データのやり取りなども容易に行なうことが可能となっている。しかし、媒体の大容量化に伴い、撮影はしたものの、そのコンテンツを観ないというユーザも多くなっている。更に目的の映像を探すのに時間がかかるという問題も多くなっていくはずである。今後もこのような傾向は続いていくと考えられる。
【0006】
また一方で、デジタルカメラの市場では、顔認識によるアプリケーションがトレンドとなっている。例えば、顔の位置を検出して顔に合わせた露光制御やフォーカス制御を行うものがある。最近では、ビデオカメラにも顔認識を応用したアプリケーションが応用されてきている。例えば、顔検出露光制御やフォーカス制御だけでなく、画像の認識により撮影をアシスト(パンが早すぎる、とか暗いとか)するようなビデオカメラまで登場している。このようにビデオカメラの世界でも認識技術が差別化技術としてトレンドになってきていることがわかる。また、今後は、映像だけでなく音声認識も応用されていくと予想する。実際に携帯の世界では音声をテキスト化するようなアプリケーションなども応用されている。また、他にもTVの番組などでは被写体の会話などが字幕として現れるのは一般的であり観ていて楽しい。
【0007】
上記説明したように、記憶容量の大容量化に伴った問題が増加していくと思われるが、それを解決する為には、いかに撮影した映像に興味を持たせるかがポイントである。もう一度観たいと思うような映像を作成できれば何度も映像を楽しみたいと思うはずである。現状でもPC上で映像を編集することが可能であるが、やはり手間がかかり、それなりの経験や知識がないとなかなか何度も観たくなる映像を編集することはむずかしい。
【0008】
そこで手軽にカメラ本体で楽しめるような映像を作成することを提案する。具体的には、HDDとBDを媒体としたカメラの場合で、撮影中は特に意識なくHDDに撮影してもらい、BDへのダビング時に撮影された会話や話声をテキスト化し、その情報を元に字幕付きの映像を作成する。この字幕はBDの規格に準拠させておくことで、汎用のプレーヤでも字幕付きの映像が楽しめる。TVなどのプログラムではお馴染みの字幕表示付きの映像を手軽にカメラ本体で実現できればユーザはいつでも楽しい映像を楽しむことができる。また、顔認識なども組み合わせることで登場した人の識別が可能となる。その情報を利用して人別に表示するようなメニューを生成できれば、映像の探索の際の検索性向上も狙える。
【0009】
本発明では、例えば、上記説明したように、カメラ本体だけで音声認識による字幕つきのディスク作成し、かつ顔認識により人別に表示できるようなメニューを生成することで、ユーザにとって使い勝手の良い情報記録再生装置を提供する。
【課題を解決するための手段】
【0010】
上記装置を実現する為に、特許請求の範囲に記載の構成を採用する。
【0011】
例えば、複数の記録媒体に対応したドライブ装置を複数搭載し、前記記録媒体に応じた規格に準拠した記録再生を行なうことが可能な情報記録再生装置において、前記情報記録装置内に入力された映像信号から顔や人を認識する顔及び人物認識装置と、入力された音声信号から人の声を認識する音声認識装置と、前記顔及び人物認識装置と前記音声認識装置からの認識された結果を管理する認識制御部と前記音声認識装置で認識された言葉をテキスト化する音声テキスト化装置と複数の媒体同士でのデータのやり取りを管理するダビング管理装置とから構成されており、ダビング時に音声から字幕を生成することが可能な装置を提供する。
【発明の効果】
【0012】
本発明によれば、使い勝手を向上した情報記録再生装置を提供できる。例えば、手間をかけずにカメラ本体だけで音声認識により字幕付きのディスクを作成できるので、汎用のプレーヤで字幕付きの映像が楽しめる。また、顔認識された情報により人別に表示できるようなメニューを生成することで、映像の検索性能が上がる。その為コンテンツの中の登場人物をすぐに検索できる。
【発明を実施するための最良の形態】
【0013】
以下、図面を参照して本発明の第一の実施形態について説明する。
【0014】
図1はカメラ一体型記録装置のブロック図である。
図1において、100は、ユーザが操作する操作部であり、認識を行なう為のキーであり、録画/停止キーやズームキー、記録モードの選択キーなども含む。
101はシステム制御部であり、多重/分離処理や各種フォーマット制御、媒体へのリードライトの制御、その他各部を統括して制御する。110は被写体の像を結像するための光学レンズと結像した光を電気信号に変換するための光電変換手段であるCCDセンサもしくはCMOSセンサ、111は映像の電気信号をデジタル信号に変換するA/D変換器、112はデジタル信号に変換された画像情報を映像信号に変換するための処理を行う信号処理部、113は映像信号をMPEG2やH.264のような所定の符号化方式に従って圧縮及び伸張処理する映像圧縮伸張部である。114は、映像を表示する表示部である。尚、この表示部114ファインダ内の表示部と、ビデオカメラの筐体の外側に設けられた可動式の表示部とに分けてもよい。また、120は集音した音声を電気的な音声信号に変換するマイク、124は音声を発生するスピーカ、121は音声信号を増幅するアンプ、122は音声の電気信号をデジタル信号に変換するA/D変換器(D/A変換器)、123は、デジタル音声を、DolbyDigitalやMpegのような所定の符号化方式に従って圧縮及び伸張処理する音声圧縮伸張部、131は映像圧縮伸張部113で生成された動画圧縮ストリーム、及び音声圧縮伸張部123で生成された音声圧縮ストリームとを多重化する多重化部、130は映像圧縮伸張部113が圧縮処理した画像データ、及び音声圧縮伸張部123により圧縮処理された音声データ、及びこれらの多重化されたデータを一時的に記憶する大容量のメモリであり、緩衝用のバッファとして使用する。また、ATAPI/ATA部132は特定の規格に従ったインターフェース部、141は光ディスク、例えばBDであり、DVD等である。また、142はHDD(ハードディスク)等の記録媒体である。媒体R/W制御部133は、記録媒体141や142に記録再生するための動画像のデータファイルを、所定のファイル形式でリードライトする為の制御を行う。
【0015】
150は、信号処理部からの映像信号を取りこみ、顔や人物を認識する顔人物認識部、151は、音声圧縮伸張部123の入力、もしくは出力のPCMデータから音声の認識を行なう音声認識部である。160は人物認識部150と音声認識部151の認識結果を管理する管理部、170はダビングを管理する管理部、180はテキストを生成するテキスト生成部、190は規格に準拠したメニューを生成するメニュー生成部である。
【0016】
134は、MMC制御部であり、SDカードのようなMMCインターフェースをもつ媒体143に記録する場合に使用される。通常は静止画の記録を行なうが、多重/分離部の結果を所定のフォーマットに変換してから動画データを記録しても良い。特にAVCHDの記録を行う。
【0017】
ここで、映像圧縮伸張部113、音声圧縮伸張部123、多重/分離部131、フォーマット制御部150、及びシステム制御部100の各機能は、好ましくはマイクロプロセッサでプログラムが実行されることにより実現されるが、それらの一部又は全部がハードウェアで構成されてもよい。また、図1では制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成ユニットが相互に接続されていると考えてよい。
【0018】
図2は記録時における顔や人物を認識した時のシーンと管理情報の対応を示した図である。一回の記録の単位をシーンと呼び、200はシーン1であり、201と202はそれぞれ2シーン目と3シーン目を表している。また、203は1シーン目で顔や人物認識により取得された管理情報を示す。204と205は、それぞれ2シーン目と3シーン目の管理情報を示している。ここでは1シーン目のAフレームからBフレームまでの間に1人、登録名が”ひとみ”が認識されている状態を示している。また2シーン目は顔や人物が認識されていないシーンである。3シーン目は、顔や人物が登場している部分が2ヶ所存在している状態である。一つは”佐藤と田中”であり、もう一つが”ゆりこ”を認識しているシーンである。
【0019】
次に、記録時の認識動作について図1と図2を用いて説明する。
【0020】
図1の操作部100の操作によって動画撮影モードが選択された場合、システム制御部100はその選択を認識してシステム全体が以下のように制御する。CCDもしくはCMOSセンサ110は駆動部(図示せず)により動画信号発生モードに駆動される。そして、光学レンズによって結像された像は、CCDもしくはCMOSセンサ110で電気信号に変換され、A/D変換器111でデジタル信号に変換された後、信号処理部112で映像データに変換処理されて、その後、映像データは映像圧縮伸張部113で圧縮処理されるが、この圧縮処理はメモリ130と映像圧縮伸張部113との間で圧縮行程中の映像データをやりとりしながら、順次動画圧縮ストリームに変換処理する。圧縮と同時に信号処理部112からの映像信号から人物顔認識部150にて画像の中から顔や人物を検出する。この時の画像は1フレーム単位の映像であり、認識に必要なサイズにリサイズしてから認識を行なっても良い。認識された結果は、認識管理部160に送られ、シーン毎に管理される。例えば、1シーン目で一箇所顔や人物の認識が行なわれた場合、その管理情報は、図2の203の情報となる。認識が行なわれたかどうかの情報を1(有)、0(無)で管理し、また、認識された区間の最初と最後の映像のフレーム情報を記録しておき、事前に登録した顔と一致した場合にはその名前を記録しておく。ここでは認識が行なわれ、認識区間がAからBフレーム(これはストリーム中の時間情報でもかまわない)であり、その認識された顔、もしくは人物は”ひとみ”ということであることがわかる。204は2シーン目の情報であり、認識しなかったので全て無しとなっている。205は3シーン目の管理情報であるが、この時には、認識された顔もしくは人物が登場している部分は2ヶ所であり、その一つはCからDフレームの間に”佐藤と田中”が認識されているシーンであり、もう一つはEからFフレームの間に”ゆりこ”だけが認識されている状態を示している。記録時には図2のような管理情報を記録しておく。
【0021】
一方、マイク120で集音された音声は、AMP121とA/D変換器122を通して音声圧縮伸張部123で圧縮処理され、メモリ130に一時記憶される。その後、メモリ130に記憶されている映像圧縮伸張部113で生成された動画圧縮ストリームと音声圧縮伸張部123で生成された音声圧縮ストリームは多重/分離部131で多重化処理され、その多重処理データはメモリ130に一時記憶される。この時、フォーマット制御部が規格に準拠したフォーマットを構築して、最終的に、多重処理データはメモリ130から出力され、媒体R/W制御部133及びATAPI/ATA部132を介して、所定の記録フォーマットで記録媒体141、及び142に記録される。本実施例では、HDDに記録しておくとする。
【0022】
次に、記録時の管理情報を元にして、ダビング時に字幕を付加したディスクを作成する動作について図1と図3を用いて説明する。
【0023】
図3は、ダビング時のテキスト化について説明した図である。
300はシーン1であり、301と302はそれぞれ2シーン目と3シーン目を表している。また、303は1シーン目で顔や人物認識により取得された期間に音声認識を行ない、その結果をテキストとしている状態を示す。304と305は、それぞれ2シーン目と3シーン目の音声認識とそのテキスト化について示している。
【0024】
ダビングは、HDD上にあるコンテンツを光ディスク、及びSDカードにコピー、もしくはムーブ(移動)動作する機能である。更に詳しく言うとHDD上のデータを一旦読み出し、映像や音声などに分離する、その後、ダビング先のフォーマットに合わせて再度圧縮、多重化することでダビングを実現する。この分離したデータを伸張したタイミングで音声認識を行い、テキスト化を実行、その結果を再多重化の際に映像と音声に多重化する。多重化とは再生時間などの情報を付加してパケットの構成にすることである。またこの多重化方法は、BDならBlu-ray Disc Association(BDA)の規格に準拠した方法で行なうことにより汎用のプレーヤで字幕の表示が可能となるので、規格に準拠させることが必須である。例えば、DVD,SDカードでは、それぞれAVCHDなどの規格に準拠した記録を行なう必要がある。もしシステムパフォーマンスに余裕があれば、記録時に管理情報取得と同時に音声認識を行なっても良い。
【0025】
具体的にHDD142から光ディスク141にダビングする動作を図1と図3で説明する。図1の操作部100でダビングの支持をうけたら、システム制御部101は、ダビング管理部170にどのようなディスクに記録するか知らせる。指示は操作部だけでなく、プルダウンメニューのような指示の仕方でもかまわない。ダビング管理部170は、ダビング先がBDであればBDの規格に準拠するように多重化の準備(必要なライブラリを準備するなど)をする。その後、HDD142からコンテンツが媒体R/W制御部133の指示によりATAPI/ATA部132を通して多重/分離部131に送られる。ここで一旦映像と音声が分離されるが、分離された情報は、一旦大容量メモリに格納される。また、映像と音声のレートを変換したい場合などは、一旦映像圧縮伸張部113や音声圧縮伸張部123により必要なレートに再圧縮すればよい。ここでシステム制御部101は、認識管理部160が記録時に作成した管理情報を参照して顔や人物がシーン中のどのあたりのフレームに存在するかの情報を得る。例えば図3の音声認識区間303がこれに相当する。このフレーム部分の分離を行なっている時に、多重分離部131で分離された音声圧縮ストリームを大容量メモリを介して音声圧縮伸張部でPCM(無圧縮データ)に変換する。この変換されたPCMデータに対して音声認識部151で音声認識を行ない喋っている言葉を認識する。この認識情報は、認識管理部160で一旦管理してその後テキスト生成部180で喋っている言葉をテキスト化する。ここでは、うまく認識できなかった言葉などをはじいてもかまわない。その後多重/分離部がテキスト化された言葉を字幕化して映像と音声に多重化する。BDの場合では、TS(トランスポートストリーム)の形式で多重化され、字幕についてはPresentation Graphic(PG) Streamとして多重化すれば良い。同様に図3の音声認識区間の304、305に対してテキスト化の307と308が対応して生成され、再多重化の際に使用される。DVDの時も規格に準拠した字幕の生成を行なうことで対応することができるはず。
【0026】
次に、生成された字幕付きのディスク効果について図4に示す。
図4は、字幕再生をしている例を示した図である。400は、規格に準拠した汎用のプレーヤで再生した画面であり、401はプレーヤの字幕再生機能を入れて字幕を表示している図である。
【0027】
図4に示すように、規格に準拠した汎用のプレーヤであれば、プレーヤに付いている字幕再生機能を入れることで字幕を確認することができる。これは図2の管理情報205の(佐藤、田中)の二人を想定しているものだが、会話が字幕になっていることがわかる。今回タイミングに関しては特に触れないが、リップシンクと合わせて会話と字幕のタイミングを厳密に管理しても良い。
【0028】
上記説明したように、記録中に生成した管理情報を元にダビング時に所望の期間の音声解析とテキスト化を行ない、そのテキスト情報を字幕として再多重化することで汎用プレーヤで楽しめる字幕付きのディスクが生成できる。会話が字幕となるので観ていて楽しい。
【0029】
以下、図1と図5と図6を参照して本発明の第二の実施形態について説明する。
図5は、顔や人に合わせたメニューを生成する時のダビング元とダビング先の関係を示している図である。500は、ダビング元の1シーン目である。501と502は、それぞれダビング元の2シーン目と3シーン目を示している。503は、ダビング先の1シーン目を表しており、”ひとみ”が登場している部分を1シーン目としている。同様に503と504は、”佐藤と田中”と”ゆりこ”をダビング先の2シーン目と3シーン目としていることを表示している図である。
【0030】
図6は、BDやDVDの規格に準拠したメニューの画面である。このメニューは規格に準拠している為汎用のプレーヤで表示が可能である。
600は、メニュー全体を示しており、601は、図5の503に相当するシーンのサムネール、同様に602と603は、図5の504と505に相当するシーンのサムネールである。605はメニューのコマンドを示している。
【0031】
図1の操作部100にてメニュー生成の支持があった場合には、システム制御部101からメニュー生成部190に指示がされ必要なサムネールや背景などを準備し多重/分離部にて規格に準拠した多重化をしつつディスクにメニューデータを記録していく。
【0032】
一般的なメニューでは、撮影したシーン毎にサムネールが表示されるが、今回は、それだけでなく顔や人が登場しているところを集めたメニューを生成できる。具体的には図5の503、504、505のように人が登場している部分を新たなシーンとして認識、例えばダビング元の500から記録時の管理情報から顔、人の登場部分を分割、抜き出する。同様にして504と505を準備する。この新たなシーンを第一の実施例で示したようにダビングを行う。この場合は字幕をつけてもつけなくても良い。その後ダビング先の新たなシーンに対して、規格に準拠したメニューを生成することで、人や顔だけをあつめたメニューを生成することが可能となる。
【0033】
規格に準拠したメニューの生成方法については特に言及しないが、最終的に規格に準拠できれば良いので特に方法についてはこだわらない。
上記を実現して生成したのが、図6であり、サムネールの下の表示も作成の仕方はこだわらないが、メニュー生成時に”ちゃん”や”さん”を追加したものである。
【0034】
上記説明したように、顔と人が登場している部分のメニューを生成できるところから、ユーザは汎用のプレーヤでお目当ての被写体をすぐに見つけることが可能となる。
【図面の簡単な説明】
【0035】
【図1】本システムの構成図である。
【図2】記録時の動作を示した図。
【図3】ダビングの動作を示した図。
【図4】字幕付きのコンテンツを再生していることを示す図。
【図5】ダビング元とダビング先の関係を示した図。
【図6】規格に準拠したメニューを示した図。
【符号の説明】
【0036】
100・・・操作部
101・・・システム制御部
110・・・映像入力部
111・・・AD/DA
112・・・信号処理部
113・・・映像圧縮伸張部
114・・・表示部
120・・・マイク
121・・・AMP
122・・・AD/DA
123・・・音声圧縮伸張部
124・・・スピーカ
130・・・大容量メモリ
131・・・多重分離部
132・・・ATAPI/ATA部
133・・・媒体R/W制御部
134・・・MMC制御部
141・・・DVD/BD
142・・・HDD
143・・・SDカード
150・・・人物顔認識部
151・・・音声認識部
160・・・認識管理部
170・・・ダビング管理部
180・・・テキスト生成部
190・・・メニュー生成部
200・・・1シーン目
201・・・2シーン目
202・・・3シーン目
203・・・1シーン目の管理情報
204・・・2シーン目の管理情報
205・・・3シーン目の管理情報
300・・・1シーン目
301・・・2シーン目
302・・・3シーン目
303・・・1シーン目の音声認識期間
304・・・2シーン目の音声認識期間
305・・・3シーン目の音声認識期間
306・・・1シーン目のテキスト化
307・・・2シーン目のテキスト化
308・・・3シーン目のテキスト化
400・・・字幕付き表示
401・・・字幕
500・・・ダビング元1シーン目
501・・・ダビング元2シーン目
502・・・ダビング元3シーン目
503・・・ダビング先1シーン目
504・・・ダビング先2シーン目
505・・・ダビング先3シーン目
600・・・メニュー
601・・・1シーン目のサムネール
602・・・2シーン目のサムネール
603・・・3シーン目のサムネール
604・・・表示バー
605・・・コマンドメニュー

【特許請求の範囲】
【請求項1】
複数の記録媒体に対応したドライブ装置を複数搭載し、前記記録媒体に応じた規格に準拠した記録再生を行なうことが可能な情報記録再生装置において、
前記情報記録再生装置内に入力された映像信号から顔または人を認識する顔及び人物認識装置と、
入力された音声信号から人の声を認識する音声認識装置と、
前記顔及び人物認識装置と前記音声認識装置からの認識された結果を管理する認識制御部と、
前記音声認識装置で認識された言葉をテキスト化する音声テキスト化装置と、
複数の媒体同士でのデータのやり取りを管理するダビング管理装置と、
を備えており、ダビング時に音声から字幕を生成することを特徴とした情報記録再生装置。
【請求項2】
請求項1において、
前記複数の記録媒体は、BD、DVD、HDD、SDカードのいずれかであり、更にはSDカードとDVDの場合にはAVCHD規格のフォーマットでも記録することを特徴とした情報記録再生装置。
【請求項3】
請求項1または2において、記録中に前記顔認識装置にて顔を認識した位置やサイズの情報を前記認識管理部で記録毎に管理することを特徴とした情報記録再生装置。
【請求項4】
請求項3において、前記顔及び人物認識装置は、事前に登録された顔も判断できる機能を有し、前記認識管理部で管理する情報は、その撮影したシーンの中に顔が存在したかどうかの情報と、顔が記録されていた期間と、登録済みの人名などの識別できる情報であることを特徴とした情報記録再生装置。
【請求項5】
請求項4において、ダビング元の映像を再生しながら前記音声認識装置により音声を認識し、前記認識された音声を前記音声テキスト化装置にてテキスト化することを特徴とした情報記録再生装置。
【請求項6】
請求項5において、前記ダビング管理装置がダビングを行なう際に、前記テキスト化されたデータを規格に準拠したフォーマットで多重化することことを特徴とした情報記録再生装置。
【請求項7】
請求項6において、前記認識管理情報に管理されている前記顔が記録されていた期間の映像を新たなシーンとする、もしくは分割して独立のシーンとすることを特徴とした情報記録再生装置。
【請求項8】
請求項7において、前記独立したシーンだけを前記ダビング装置でダビングを行なうことを特徴とした情報記録再生装置。
【請求項9】
請求項8において、前記ダビング装置でダビングを行った後、前記認識管理情報に管理されている前記登録されていた名前をメニューに付加することを特徴とした情報記録再生装置。
【請求項10】
BD、DVD、HDD(ハードディスク)、SDカードに対応したドライブ装置を複数搭載し、規格に準拠した記録再生を行なうビデオカメラにおいて、
HDDに記録する場合に、顔や人物が認識された位置やその期間を管理情報として保持しておき、前記保持された管理情報から顔や人物が存在する映像部分の音声解析によりテキスト化されたデータを多重化してBD、DVD、またはSDカードにダビングすることにより、汎用のプレーヤで再生が可能な字幕付きのディスクを生成することを特徴としたビデオカメラ。
【請求項11】
被写体を撮像し映像信号を生成する撮像手段と、
音声を集音し音声信号を生成する集音手段と、
該映像信号と該音声信号を第1の記録媒体に記録再生する第1の記録再生手段と、
該映像信号と該音声信号を第2の記録媒体に記録再生する第2の記録再生手段と、
該映像信号から特定の被写体を認識する認識手段と、
該音声信号のうち該認識手段が認識した特定の被写体に対応する音声を文字に変換する変換手段と、
該第1及び第2の記録再生手段と該認識手段と該変換手段とを制御し、該第1の記録媒体から該映像信号と該音声信号を再生し、該再生された映像信号と音声信号とともに該変換手段で変換された文字を該第2の記録媒体に記録するように制御する制御手段と、 を備えることを特徴とするビデオカメラ。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2010−81457(P2010−81457A)
【公開日】平成22年4月8日(2010.4.8)
【国際特許分類】
【出願番号】特願2008−249494(P2008−249494)
【出願日】平成20年9月29日(2008.9.29)
【出願人】(000005108)株式会社日立製作所 (27,607)
【Fターム(参考)】