説明

映像検索装置、編集装置、映像検索方法およびプログラム

【課題】ユーザが所望の映像シーンを容易に検索可能とする。
【解決手段】ユーザが例えば他のモニタに表示されている映像タイムラインから所定のクリップ(対象クリップ)を選択するとき、モニタ115Bに、当該対象クリップの対応する音声テキストを、クリップ毎に表示する。このモニタ115Bの画面には、音声テキストの表示領域の他に、サムネールの表示領域が設けられている。サムネールの表示領域には、各クリップの音声テキストに対応したサムネール(代表画像)を表示する。ユーザは、モニタ115Bに表示されている音声テキストからマウス等を用いた操作により、重要なポイント部分である音声テキスト区間を選択することで、対応するサムネールの表示、さらには、プレビューが可能となる。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、映像検索装置、編集装置、映像検索方法およびプログラムに関する。詳しくは、この発明は、音声テキストデータが関連付けされた映像データを取り扱うものであって、映像データに対応した音声テキストを表示すると共に、この表示された音声テキストに対応した代表画像を表示することにより、ユーザが所望の映像シーンを容易に検索できるようにした映像検索装置等に係るものである。
【背景技術】
【0002】
人は本の何処にどのようなことを書いてあるかを探す際、本を斜めに読み、あるいは、ページをパラパラとめくることで、文字の検索が可能である。しかしながら、映像と音声を主な記録情報としてきた従来の動画映像の世界では1つの素材から、所望のシーンを検索する場合に、困難が伴う。
【0003】
例えば、従来VTR(Video Tape Recorder)では、高速サーチで映像シーンを探す場合、概ねの動画像を認識することはできる、しかし、細かなフレーム単位の内容までは確認できない。また、このように高速サーチで映像シーンを探す場合、音声はミュートされるため聞くこともできないし、仮に聞いても早すぎて内容を理解できない。
【0004】
音声について補足すると、例えば比較的低速な3〜4倍速での再生速度は、人の聴覚では音声を聞いてどのようなことを話しているのか、映像の内容を理解できる境目となっている。そのため、音声内容を高速に確認する手段はいままでなかった。
【0005】
ノンリニア(Non-Linear)編集機(例えば、特許文献1参照)では、検索のための表示方法として、サムネール画像を複数表示し選択する手法が採られている。通常、ノンリニア編集機では連続した映像のサムネールを表示することはなく、飛び飛びのサムネールを表示するため、これから所望のシーンを探し出すのは困難を伴う。
【0006】
また、サムネール画像の情報量は圧倒的に音声よりも多く、仮にモニタに全てのフレーム(29.94frame/sec)のサムネール画像を表示したとしても、人がサムネール画像を斜めに見ることにより所望の映像シーンを探すことは困難である。
【0007】
また、仮に、所望の映像シーンの近傍にあるシーンを見つけても、最終的な編集点を決めるには更に困難を伴う。すなわち、ノンリニア編集機のモニタでは、通常、音声エンベロープ波形(縦:振幅、横:時間軸)をタイムラインに表示し、編集点の決定のために役立てている。
【0008】
しかし、人が音声エンベロープ波形を見て、音の始まりや音声の強弱を認識できても、音声の意味/内容は理解できなかった。このため、編集オペレータは編集点付近で素材をリアルタイムでプレビュー(pre-view)し、音声の意味/内容を確認しながら、編集点を決めていた。
【0009】
例えば、特許文献2には、動画を構成する各ブロックについてのタイトルもしくはその他のテキスト情報を時間順に一覧表示をすることが記載されている。このように各ブロックについてのテキスト情報を一覧表示するものにあっては、当該テキスト情報から所望の映像シーンの近傍にあるシーンを見つけても、最終的な編集点を決めるには、編集オペレータは編集点付近で素材をリアルタイムでプレビューすること等が必要となる。
【特許文献1】WO96/32722号公報
【特許文献2】特開2005−94709号公報
【発明の開示】
【発明が解決しようとする課題】
【0010】
上述したように、従来のノンリニア編集機等では、映像と音声を主な記録情報とした動画映像素材の内容を確認し、編集点、を決め、制作意図に沿った編集を行う行為には多くの工数を必要としていた。
【0011】
この発明の目的は、例えば編集点とすべき所望の映像シーンの検索を容易とすることにある。
【課題を解決するための手段】
【0012】
この発明の概念は、
音声テキストデータが関連付けされた映像データを取り扱う映像検索装置であって、
上記音声テキストデータに基づいて、モニタに、上記映像データに対応した音声テキストを表示するテキスト表示制御部と、
上記映像データに基づいて、モニタに、上記テキスト表示制御部で表示された音声テキストに対応した代表画像を表示する画像表示制御部と
を備えることを特徴とする映像検索装置にある。
【0013】
この発明においては、音声テキストデータが関連付けされた映像データを取り扱う。ここで、音声テキストデータとは、映像データに対応した音声データによる音声の内容を示すテキストデータである。映像データおよび音声テキストデータは、例えば、HDD(Hard Disk Drive)等のデータ保持部に保持されている。
【0014】
テキスト表示制御部により、音声テキストデータに基づいて、モニタに、映像データに対応した音声テキストが表示される。また、画像表示制御部により、モニタに、表示された音声テキストに対応した代表画像(サムネール)が表示される。このように、モニタに、映像データに対応した音声テキスト、およびその音声テキストに対応した代表画像が表示されることで、ユーザは、所望の映像シーンの検索を容易に行うことができる。ここで、音声テキストが表示されるモニタと代表画像が表示されるモニタは同じ場合もあり、違い場合もある。
【0015】
この発明において、例えば、ユーザがテキスト表示制御部で表示された音声テキストから所定の音声テキスト区間を選択する音声テキスト区間選択部をさらに備え、画像表示制御部は、さらに、映像データに基づいて、音声テキスト区間選択部で選択された所定の音声テキスト区間に対応した代表画像をモニタに表示する、ようにされてもよい。この場合、音声テキスト区間選択部で所定の音声テキスト区間が選択されるとき、モニタに当該選択された所定の音声テキスト区間に対応した代表画像が表示されるため、ユーザは、モニタに表示される代表画像に基づいて、例えば、プレビューをするための音声テキスト区間の選択を適切におこなうことができる。
【0016】
また、この発明において、ユーザがテキスト表示制御部で表示された音声テキストデータから所定の音声テキスト区間を選択する音声テキスト区間選択部と、ユーザが再生を指示する再生指示部とをさらに備え、画像表示制御部は、さらに、音声テキスト区間選択部で所定の音声テキスト区間が選択された状態で、再生指示部により再生が指示されたとき、映像データに基づいて、所定の音声テキスト区間に対応した映像をモニタに表示する、ようにされてもよい。この場合、ユーザにより選択された所定の音声テキスト区間に対応した映像がモニタに表示されることで、ユーザは、表示された音声テキストの任意の区間の映像シーンを容易に確認できる。
【0017】
また、この発明において、ユーザがキーワードを入力するキーワード入力部と、音声テキストデータからキーワード入力部に入力されたキーワードを検索するキーワード検索部とをさらに備え、テキスト表示制御部は、キーワード検索部の検索結果に基づいて、モニタに表示されている音声テキストのうち、キーワードに対応するテキスト部分をインテンド表示する、ようにされてもよい。ここで、キーワードに対応したテキスト部分とは、キーワードと一致しているテキスト部分に限定されるものではなく、キーワードを含む所定範囲のテキスト部分、あるいはキーワードに似通ったテキスト部分等をも含むものである。
【0018】
例えば、キーワード入力部は、モニタに表示されるグラフィカルユーザインタフェース画面を用いて、キーワードを入力する、構成とされている。このようにグラフィカルユーザインタフェース画面を用いてキーワードを入力する構成とすることで、ユーザは、キーワードの入力を、容易、かつ誤りなく行うことができる。
【0019】
キーワード検索部の検索結果に基づいて、モニタに表示されている音声テキストのキーワードに対応する部分がインテンド表示されることで、ユーザは、所望の映像シーンの検索を容易に行うことができる。
【0020】
なお、上述したようにモニタに表示されている音声テキストのキーワード部分に対応したテキスト部分がインテンド表示される際に、さらに、画像表示制御部は、当該インテンド表示されたテキスト部分に対応した代表画像をモニタに表示する、ようにされてもよい。インテンド表示されたテキスト部分に対応した代表画像がモニタに表示されることで、ユーザは、所望の映像シーンの検索をより容易に行うことができる。
【0021】
また、この発明において、例えば、ユーザがモニタに表示されている音声テキストのインテンド表示されたテキスト部分から所定のテキスト部分を選択するテキスト部分選択部をさらに備え、テキスト表示制御部は、さらに、テキスト部分選択部で選択された所定のテキスト部分を、他のテキスト部分とは異なるようにインテンド表示し、画像表示制御部は、さらに、テキスト部分選択部で選択された所定のテキスト部分に対応した代表画像を他の代表画像とは異なるようにインテンド表示する、ようにされてもよい。これにより、ユーザは、インテンド表示された各テキスト部分と代表画像を容易に対応付けできる。
【0022】
また、この発明において、例えば、テキスト表示制御部は、さらに、テキスト部分選択部で選択された所定のテキスト部分を含む所定範囲の部分を拡大して表示する、ようにされてもよい。この場合、ユーザは、所定のテキスト部分を含む所定範囲の音声テキストの内容を容易に把握でき、所望の映像シーンの検索をより容易に行うことができる。
【0023】
また、この発明において、例えば、ユーザがモニタにインテンド表示されている音声テキストの各テキスト部分から所定のテキスト部分を選択するテキスト部分選択部と、ユーザが再生を指示する再生指示部とをさらに備え、画像表示制御部は、さらに、テキスト部分選択部で所定のテキスト部分が選択された状態で、再生指示部により再生が指示されたとき、映像データに基づいて、所定のテキスト部分に対応した映像をモニタに表示する、ようにされてもよい。この場合、ユーザにより選択された所定のテキスト部分に対応した映像がモニタに表示されることで、ユーザは、インテンド表示された音声テキストの任意のテキスト部分の映像シーンを容易に確認できる。
【発明の効果】
【0024】
この発明によれば、映像データに対応する音声テキストを表示すると共に、表示された音声テキストに対応した代表画像を表示するものであり、ユーザは、所望の映像シーンを容易に検索できる。
【発明を実施するための最良の形態】
【0025】
以下、図面を参照しながら、この発明の実施の形態について説明する。
【0026】
「編集装置の構成」
【0027】
図1は、実施の形態としてのノンリニア編集機100の構成例を示している。このノンリニア編集機100は、CPU(Central Processing Unit)111と、ROM(Read OnlyMemory)112と、RAM(Random Access Memory)113と、表示コントローラ114と、モニタ115A,115Bと、HDDインタフェース116と、HDD117と、ドライブコントローラ118と、メディアドライブ119と、入力インタフェース120と、入力部121と、音声出力インタフェース122と、スピーカ123と、システムバス124とを有している。
【0028】
CPU111、ROM112、RAM113は、システムバス124により相互に接続されている。システムバス124には、さらに、表示コントローラ114、HDDインタフェース116、ドライブコントローラ118、入力インタフェース120および音声出力インタフェース122が接続されている。
【0029】
CPU111は、ノンリニア編集機100の各部の動作を制御する。このCPU111は、ROM112、あるいはHDD117に記憶されているプログラムを、RAM113にロードして実行することで、各部の動作を制御する。
【0030】
モニタ115A,115Bは、表示コントローラ114を介して、バス124に接続されている。モニタ115A,115Bは、例えば、LCD(Liquid Crystal Display)、PDP(Plasma DisplayPanel)等で構成されている。表示コントローラ114は、CPU111の制御のもと、モニタ115A,115Bに表示される画像、およびGUI用の表示を制御する。
【0031】
HDD117は、HDDインタフェース116を介して、システムバス124に接続されている。HDD117は、CPU111の制御のためのプログラム、編集素材としての映像データおよび音声データ等を格納する。
【0032】
なお、この実施の形態においては、音声テキストデータが関連付けされた映像データが取り扱われる。音声テキストデータは、映像データに対応した音声データによる音声の内容を示すテキストデータである。従って、HDD117に保持される各動画映像コンテンツの映像データには、それに対応する音声データの他に、さらに音声テキストデータが付加されている。この場合、映像データと、音声データおよび音声テキストデータとの関連付けは、タイムコードを介して行われている。
【0033】
メディアドライブ119は、ドライブコントローラ118を介して、システムバス124に接続されている。このメディアドライブ119は、各種記録メディアに対応するドライブ機能部であり、当該記録メディアに対する記録再生動作を行う。記録メディアとしては、例えば、CD、MD、CD−R、CD−RW、DVD、DVD−R、DVD−RW、Blu-ray Disc等の光ディスク、あるいはメモリカードがある。このメディアドライブ119は、例えば、編集素材としての映像データ等を入力し、また、編集後の映像データ等を出力するために使用される。
【0034】
入力部121は、入力インタフェース120を介して、システムバス124に接続されている。この入力部121は、ユーザが、各種の操作入力のため、さらにはデータ入力のために、使用する。この入力部121は、キーボード、マウス、リモートコマンダ、その他の入力デバイスで構成されている。
【0035】
スピーカ123は、音声出力インタフェース122を介して、システムバス124に接続されている。
【0036】
「映像および音声テキストのインデックスファイル、データファイル」
【0037】
次に、図1に示すノンリニア編集機100のHDD117に保持されている映像データ、音声テキストデータについて説明する。
【0038】
図2(a)、(b)は、映像のインデックスファイル、データファイルの構造の一例を示している。インデックスファイルは、データファイルとは独立したファイルとして作成される場合と、データファイルに含まれる場合とがある。この例は、インデックスファイルがデータファイルとは独立して作成される場合の例である。
【0039】
映像インデックスファイルは、HDD117のどのアドレスに何フレーム目のデータを記録してあるかを示す管理データである。この映像インデックスファイルには、インデックス総数、インデックス領域のサイズ、データファイルに含まれる全ての映像フレームデータのサイズと映像データファイル内のアドレスが含まれている。
【0040】
映像データファイルには、全ての映像フレームデータがそのサイズと共に含まれている。また、この映像データファイルには、映像ファイルヘッダが含まれている。さらに、映像データは圧縮されている場合が多く、この映像データファイルには、圧縮された映像データの圧縮を解くための情報も含まれている。
【0041】
なお、図示および説明は省略するが、音声データも同様に、タイムコード(TC)と同期して記録されている。この実施の形態において、タイムコードは全て連続に記録されたもので、映像フレーム(frame)番号と等価な情報である。
【0042】
本来、タイムコードは、時、分、秒、フレームの情報であるが、カムコーダ等により記録メディアに記録された素材には複数のクリップ(clip)がある。ここで、クリップとは、記録スタート(REC START)から記録ポーズ(REC PAUSE)までの記録部分を意味する。このクリップとクリップとのタイムコードが不連続であったり、あるいは別の記録メディアの間ではタイムコードが重複したりする場合もある。
【0043】
図1に示すノンリニア編集機100で、これらの素材をメディアドライブ119から入力してHDD117に記録する際、元のタイムコードとは別に、連続したフレーム番号を割り当てて記録する。この場合、0,1,2・・・とフレーム番号で管理してもよいし、連続したタイムコードを新たに割り当てて記録してもよい。
【0044】
図2のインデックスファイルで「オフセット」と書いてあるのは、基準点のアドレスを0としたときの、そこからの距離を意味しており、いわゆるオフセットアドレスである。「オフセット」の値から各映像フレームの先頭アドレスが解り、「オフセット」と「映像サイズ(圧縮記録のため、フレーム毎にデータ量は異なる)」から各映像フレームの終わりのアドレスが解る。
【0045】
図3(a),(b)は、音声テキストのインデックスファイル、データファイルの構造の一例を示している。インデックスファイルは、データファイルとは独立したファイルとして作成される場合と、データファイルに含まれる場合がある。この例は、インデックスファイルがデータファイルとは独立して作成された場合の例である。
【0046】
音声テキストインデックスファイルは、HDD117のどのアドレスに何番目の文、あるいは何番目のフレーズ(区)のテキストデータを記録してあるかを示す管理データである。この音声テキストインデックスファイルには、インデックス総数、インデックス領域のサイズ、文単位またはフレーズ単位の、in点およびout点のタイムコード、音声テキストデータのサイズが含まれている。
【0047】
音声テキストデータファイルには、各文または各フレーズに含まれる文字のテキストデータが、当該ワードのin点およびout点のタイムコードと共に含まれている。また、この音声テキストデータファイルには、文またはフレーズ毎に、データヘッダおよびデータサイズが含まれている。また、この音声テキストデータファイルには、音声テキストファイルヘッダが含まれている。
【0048】
検索システムとしてのCPU111は、音声テキストインデックスファイルからタイムコードに対応する音声テキストデータファイルのアドレスを知り、このアドレスにアクセスすることにより、音声テキストのデータファイルを読むことができる。また、検索システムとしてのCPU111は、読み込んだ音声テキストのデータをキーワードと比較することにより、音声テキストのキーワードとその位置(タイムコード)を検索することができる。
【0049】
図4(a)は、映像記録装置におけるタイムコードに音声テキストデータを織りいれた構成概念を示している。ここで、タイムコードは連続した時間、フレーム番号となっている。ここでは、不連続なタイムコード、同じタイムコードを含まないと仮定してある。この図4(a)において、タイムコードは一例として625/50フォーマットにて記載してあり、25フレーム/secである。
【0050】
「Plane Text」とは、コンピュータ上で文章を扱うための一般的なファイルフォーマット、または文字列の形式である。ここでは、説明の便宜上「文字」そのものを書いてある。実際には、テキストコード(漢字は2バイトデータ)で表されるが、ここでは、タイムコードとテキストデータの構成を説明するのが目的であるため、詳細なテキストコード、制御情報は省略している。
【0051】
図4(a)では、「新聞を取って」という日本語の例を示している。図の上から下へ縦方向に時間軸が定義されており、人の音声は無音(灰色)、有音(文字情報)にて表されている。人の発声はある時間幅をもっているため、ある時間区間(00:00:00:01〜00:00:00:17)は新(しん)を発声している区間を表している。図中の「text制御情報」は文字として表示されないテキストの制御情報を表す。例えば、タブ、垂直タブ、改行、改ページ、ファイル終端マーク、Byte Order Mark等があるが、ここでは、詳細は省略する。
【0052】
「文字in/out」は、文字のin点、out点を示し、タイムコード(timecode)で結び付けられている。「フレーズ」は文字により構成されるフレーズまたは文を表し、「フレーズin/out」は、フレーズのin点、out点を示す。このように、文字単位、または、文単位のin/out点をタイムコードで定義することにより、さまざまな動画、音声の制御が可能となる。すなわち、あるテキスト文字に対応する映像サムネール画を表示したり、対応する音声を再生したり、該当テキスト文字を含む文章の先頭(フレーズin点)にキューアップ(cue up)して再生し、out点で再生を停止する、等が可能となる。また、あるテキスト文(例「新聞」)を検索し、素材の中から一致する複数の該当箇所を表示することが可能となる。さらに、複数の文章を塊として検索し、似た文章がある候補の場所を検索することも可能である。
【0053】
図4(b)は、図4(a)から、エッセンス、つまり文字のin点、out点を抜き出したもので、この状態で音声テキストのデータファイルを構成する(図3(b)参照)。
【0054】
「音声テキストとサムネールを融合したGUI画面」
【0055】
図1に示すノンリニア編集機100においては、ユーザが所望の映像シーンを検索する際、モニタ115Bには映像データの選択されたクリップに対応する音声テキストがクリップ毎に表示されると共に、このモニタ115Bには映像データの選択されたクリップの代表画像であるサムネールが表示される。
【0056】
図5は、モニタ115Aに表示されるユーザインタフェース画面を示している。このユーザインタフェース画面には、上部に画像を表示するための2つの画像表示位置(1),(2)が設けられている。また、このユーザインタフェース画面には、下部にタイムライン(3)、映像タイムライン(4)、音声タイムライン(5),(7)、および音声テキストタイムライン(6),(8)が設けられている。映像タイムライン(4)におけるa,b,c,dはクリップを示している。
【0057】
音声タイムライン(5),(7)には、映像タイムライン(4)に表示された各クリップに対応した音声信号の波形が表示される。また、音声テキストタイムライン(6),(8)には、映像タイムライン(4)に表示された各クリップに対応した音声の内容が表示される。
【0058】
また、このユーザインタフェース画面には、さらに、下部に、キーワード検索時にキーワードを入力するためのキーワード枠(9)と共に、さらに、検索釦(10)、Previous釦(11)、再生釦(12)、Next釦(13)、および再生停止釦(14)が設けられている。
【0059】
ユーザ(編集オペレータ)は、入力部121のマウス等を操作して、映像タイムライン(4)から、音声テキストを表示する対象としての、一つまたは複数のクリップを選択できる。
【0060】
図6は、モニタ115Bに表示されるユーザインタフェース画面を示している。このユーザインタフェース画面には、左部に、サムネールの表示領域が形成されており、その他の領域は音声テキストの表示領域とされている。音声テキストの表示領域には、上述したようにユーザにより音声テキストを表示する対象として選択されたクリップに対応する音声テキスト(例えば、チャネル1の音声テキスト)が、クリップ毎に表示される。図6の例は、#1〜#3の3個のクリップが選択された場合を示している。
【0061】
各クリップの音声テキストの表示領域の左側に位置するサムネールの表示領域には、各クリップの音声テキストの最初位置および最後位置に対応したサムネール(代表画像)が表示される。例えば、#1のクリップに関しては、当該クリップの音声テキストの最初位置aおよび最後位置zに対応したサムネールが表示される。
【0062】
また、ユーザは、図6に示すユーザインタフェース画面において、表示された各クリップの音声テキストを斜め読みし、入力部121のマウス等を用いた操作により、重要なポイント部分である音声テキスト区間を選択できる。このようにユーザにより選択された音声テキスト区間は、インテンド表示される。図6の表示例においては、#2のクリップの(1)から(2)までの区間、(3)から(4)までの区間、#3のクリップの(5)から(6)までの区間が選択されている。
【0063】
このようにユーザの操作により選択されてインテンド表示された音声テキスト区間は、タイムコードにて管理されており(図3参照)、映像のタイムコード(図2参照)と関連付けられており、後に、キューアップ(cue up)、プレビュー(preview)が可能な仕組みが備えられている。ユーザは、図6に示すように、複数個所の音声テキスト区間の選択が可能であり、また、選択した後に取り消しを行うこともできる。
【0064】
上述したように、重要なポイント部分である音声テキスト区間を選択した状態で、当該音声テキスト区間のプレビューを行うことで、ユーザは、所望の映像シーンを効率よく検索でき、編集点を決定できる。なお、選択した音声テキスト区間をプレビューする前に、当該音声テキスト区間の代表画像であるサムネールが、モニタ115Aの画像表示位置(1)およびモニタ115Bの該当するクリップのサムネール表示領域に、表示される。これにより、ユーザは、各音声テキスト区間の大まかな映像をプレビュー前に知ることができ、無駄なプレビュー動作を回避することも可能となる。
【0065】
なお、上述したようにユーザが選択区間を指定する操作を行う代わりに、選択しない区間を削除する操作を行うようにしてもよい。この場合、削除せずに残っている区間が選択された区間ということになる。
【0066】
「テキスト文字画面表示」
【0067】
次に、図1に示すノンリニア編集機100におけるテキスト文字画面表示について説明する。図7のフローチャートを用いて、CPU111のテキスト表示処理を説明する。
【0068】
CPU111は、ステップST1において、テキスト表示処理を開始し、その後に、ステップST2の処理に移る。このステップST2において、ユーザの入力部121の操作によってテキスト表示する対象のクリップが選択されると、CPU111は、ステップST3の処理に移る。
【0069】
上述したように、ユーザは、図5に示すようにモニタ115Aに表示されているユーザインタフェース画面(第1のGUI表示画面)に基づき、映像選択ライン(4)から対象クリップを選択できる。この場合、1クリップ毎にキーボードの「Shift」キーを押しながら複数のクリップを選択でき、また、映像選択ライン(4)をマウスのカーソルでドラッグすることによって所定数のクリップを一括して選択できる。
【0070】
ステップST3において、ユーザの入力部121の操作によってユーザインタフェース画面上の検索釦(10)が押されると、CPU111は、ステップST4の処理に移る。検索釦(10)は、実行キーとして機能する。ステップST4において、CPU111は、ステップST2で選択された対象クリップのうち、最初のクリップの音声テキストインデックスファイルを読み出して、当該最初のクリップの音声テキストデータの記録アドレスを取得する。
【0071】
そして、CPU111は、ステップST5において、ステップST4で取得したアドレスを用いて、音声テキストデータファイルからテキストコードを読み文字変換した後、モニタ115Bに表示されるユーザインタフェース画面(第2のGUI表示画面)のテキスト表示領域に、音声テキストを表示する。
【0072】
次に、CPU111は、ステップST6において、該当クリップのデータを全て読んだか否かを判断する。該当クリップのデータを全て読んでいないとき、CPU111は、ステップST5に戻って、上述したと同様に、音声テキストデータファイルからテキストコードを読み文字変換した後、モニタ115Bに音声テキストを表示することを繰り返す。
【0073】
ステップST6で該当クリップのデータを全て読んだとき、CPU111は、ステップST7の処理に移る。このステップST7において、CPU111は、映像インデックスファイルから、該当クリップの映像データの最初位置(in),最後位置(out)のアドレスを読む。そして、CPU111は、ステップST8において、該当クリップのサムネール(in,out)を、モニタ115のユーザインタフェース画面(第2のGUI表示画面)のサムネール表示領域に表示する。
【0074】
次に、CPU111は、ステップST9において、ステップST2で選択した全ての対象クリップの処理を終了したか否かを判断する。全ての対象クリップの処理を終了していないとき、CPU111は、ステップST10において、次の選択クリップの音声テキストインデックスファイルを読み出して、当該クリップの音声テキストデータの記録アドレスを取得する。
【0075】
そして、CPU111は、ステップST10の処理の後、ステップST5の処理に戻り、上述したと同様に、音声テキストデータファイルからテキストコードを読み、文字変換した後、モニタ115Bのテキスト表示領域に音声テキストを表示することを繰り返す。
【0076】
一方、ステップST9で選択した全ての対象クリップの処理を終了したとき、CPU111は、ステップST11において、テキスト表示処理を終了する。
【0077】
「所望シーンの検索」
【0078】
次に、図1に示すノンリニア編集機100における所望シーン検索について説明する。図8のフローチャートを用いて、CPU111の所望シーンの検索処理を説明する。
【0079】
CPU111は、ステップST21において、所望シーンの検索処理を開始し、その後に、ステップST22の処理に移る。このステップST22において、CPU111は、ユーザが、入力部121を操作し、モニタ115Bに表示されている各クリップの音声テキストから所定の音声テキスト区間を選択したか否かを判断する。
【0080】
例えば、ユーザは、マウスにより音声テキストにカーソルを合わせてドラッグすることで、所定の音声テキスト区間を選択できる。また、例えば、ユーザは、マウスで所定の文字にカーソルを合わせてクリックすることで、当該所定の文字を含む文またはフレーズを、所定の音声テキスト区間として選択できる。なお、このように選択された所定の音声テキスト区間は、他と区別可能に、例えば、背景が灰色にインテンド表示される(図6参照)。なお、この音声テキスト区間は、1個だけでなく、複数個の選択も可能とされている。
【0081】
ステップST22で音声テキスト区間が選択されたとき、CPU111は、ステップST23において、選択された音声テキスト区間に対応するサムネール(代表画像)を、モニタ115Aの画像表示位置(1)に表示する。このように、サムネールが表示されることで、ユーザは当該音声テキスト区間に対応した映像シーンの内容のおおよそを理解することが可能となる。
【0082】
この場合、CPU111は、選択された音声テキスト区間の先頭の文字位置のテキストデータからタイムコードを取得し、このタイムコードに基づいて映像インデックスファイルのアドレスを読み、このアドレスに基づいて映像データファイルからサムネールデータを読み出し、表示する。ここで、CPU111は、HDD117における映像データの読み出し位置を、上述の音声テキスト区間の先頭の文字位置のタイムコードに対応した位置にキューアップ(cue up)して、再生スタンバイ状態とする。なお、上述せずも、映像データとしては、高精細映像データと、低精細映像データを備えている。サムネールは、低精細映像データを用いて、簡単に表示できる。
【0083】
CPU111は、このようにモニタ115Aの画像表示位置(1)にサムネールを表示するとき、同時に、モニタ115Bのサムネール表示領域にも、同様のサムネールを表示する。この場合、サムネール表示領域には、例えば、選択された音声テキスト区間の開始点映像および終点映像を表示する。
【0084】
次に、CPU111は、ステップST24において、ユーザによる再生テキスト区間の再選択操作、あるいは再生操作があるか否かを判断する。再選択操作があるとき、CPU111は、ステップST22に戻って、音声テキスト区間が選択されたか否かを判断する。上述したように、ユーザは、表示されたサムネールにより選択した音声テキスト区間に対応した映像シーンの内容のおおよそを理解できるため、もはやプレビュー(preview)の必要がないときは、音声テキスト区間の再選択操作を行うことができ、無駄なプレビュー動作を省略できる。
【0085】
ステップST24で再生操作があったときは、CPU111は、ステップST25の処理に移る。このステップST25において、CPU111は、HDD117を制御し、ステップST22で選択された音声テキスト区間に対応した映像、音声、音声テキストを再生する。この場合、再生映像は、図5のユーザインタフェース画面の画像表示位置(2)に表示される。また、再生映像に同期した音声出力が音声タイムライン(6)に拡大表示され、再生映像に同期した音声テキストがテキストタイムライン(8)に拡大表示される。なお、スピーカ123からも再生音声が出力される。これにより、ユーザ(編集オペレータ)は、選択された音声テキスト区間に対応した映像、音声、音声テキストを確認できる。なお、音声タイムライン(6)には、音声波形が表示される。
【0086】
例えば、図6に示すように、選択された音声テキスト区間が、#2のクリップの(1)から(2)までの区間、(3)から(4)までの区間、および#3のクリップの(5)から(6)までの区間であるとき、これらの区間が連続して再生される。なお、図5のユーザインタフェース画面に存在する再生停止釦(14)を操作することで、再生を途中で止めることができる。
【0087】
次に、CPU111は、ステップST26において、ユーザによる再生テキスト区間の再選択操作があるか否かを判断する。再選択操作があるとき、CPU111は、ステップST22に戻って、音声テキスト区間が選択されたか否かを判断する。一方、再選択操作がないとき、CPU111は、ステップST27において、所望シーンの検索処理を終了する。
【0088】
上述したCPU111の所望シーンの検索処理の動作に基づいて、ユーザは、モニタ115Bに表示された各クリップの音声テキスト上に音声テキスト区間を順次設定し、音声テキスト区間のサムネール(代表画像)の表示、さらには音声テキスト区間の映像等のプレビューにより、所望の映像シーンを容易に検索できる。
【0089】
図9は、編集アプリケーションプログラムから見たテキスト表示処理の流れを概念的に示したものである。なお、[n]は、図7のフローチャートのステップ番号に対応している。編集アプリケーションプログラムに含まれる「GUI」は入力操作を含め、GUI表示を行う。
【0090】
「検索機能」は、音声テキストインデックスファイルから、選択されたクリップ(対象クリップ)に対応するアドレスを取得すると共に、このアドレスを用いて、音声テキストデータファイルから選択されたクリップのテキストコードを読み込んでモニタ115Bに表示する。また、映像インデックスファイルから、選択されたクリップ(対象クリップ)に対応するタイムコードを取得すると共に、このタイムコードを用いて、映像データファイルから選択されたクリップのサムネール(代表画像)を読み込んでモニタ115Bに表示する。
【0091】
「コマンド発行」はインデックスファイルを読み出し、データファイルの読むべきアドレスを知った上で、キューアップ(Cue up)、読み込み等のコマンドをストレージに対し発行する。
【0092】
また、図10は、編集アプリケーションプログラムから見た所望シーンの検索処理の流れを概念的に示したものである。なお、[n]は、図8のフローチャートのステップ番号に対応している。編集アプリケーションプログラムに含まれる「GUI」は入力操作を含め、GUI表示を行う。
【0093】
「実行」は、音声テキストインデックスファイルから、選択された音声テキスト区間に対応したタイムコードを取得し、このタイムコードを用いて、映像データファイルから選択された音声テキスト区間のサムネール(代表画像)を読み込んでモニタ115A、115Bに表示し、さらに、再生指示に基づいて、選択された音声テキスト区間に対応した映像データ部分にキューアップして再生する。
【0094】
「コマンド発行」はインデックスファイルを読み出し、データファイルの読むべきアドレスを知った上で、キューアップ(Cue up)、読み込み等のコマンドをストレージに対し発行する。
【0095】
以上説明したように、図1に示すノンリニア編集機100においては、音声テキストデータが関連付けされた映像データを取り扱うものであって、モニタ115Bに、映像データに対応した音声テキストをモニタ115Bに表示すると共に、このように表示される音声テキストに対応した代表画像(サムネール)を表示するものであり、ユーザは、例えば編集点とすべき所望の映像シーンを容易に検索できる。
【0096】
また、図1に示すノンリニア編集機100においては、モニタ115Bに表示された音声テキストからユーザが所定の音声テキスト区間(再生区間)を選択するとき、この所定の音声テキスト区間に対応したサムネール(代表画像)が、モニタ115Aの画像表示位置(1)およびモニタ115Bのサムネール表示領域に表示される。したがって、ユーザは、これらのサムネールに基づいて、音声テキスト区間(再生区間)の選択を適切に行うことができる。また、ユーザは、これらのサムネールにより、選択した所定の音声テキスト区間に対応したおおよその映像を把握でき、無駄なプレビューを行うこと等を回避できる。
【0097】
また、図1に示すノンリニア編集機100においては、ユーザにより所定の音声テキスト区間(再生区間)が設定されて、再生が指示されるとき、当該所定の音声テキスト区間に対応した映像、音声、音声テキストが再生され、モニタ115Aに表示される。したがって、ユーザは、各クリップの任意の区間の映像シーンを容易に確認でき、例えば編集点とすべき所望シーンを容易に検索できる。
【0098】
「他の実施の形態」
【0099】
次に、この発明の他の実施の形態について説明する。図11は、他の実施の形態としてのノンリニア編集機100Aを示している。この図11において、図1と対応する部分には同一符号を付し、その詳細説明は省略する。
【0100】
このノンリニア編集機100Aは、CPU(Central Processing Unit)111と、ROM(Read OnlyMemory)112と、RAM(Random Access Memory)113と、表示コントローラ114と、モニタ115A,115B,115Cと、HDDインタフェース116と、HDD117と、ドライブコントローラ118と、メディアドライブ119と、入力インタフェース120と、入力部121と、音声出力インタフェース122と、スピーカ123と、システムバス124とを有している。
【0101】
ノンリニア編集機100Aは、3個のモニタを備えることを除けば、図1に示すノンリニア編集機100と同様の構成とされている。モニタ115Bおよびモニタ115Cは、近傍(例えば、上下あるいは左右)に設置されるものとする。
【0102】
モニタ115Bには、図12に示すように、図5の映像タイムライン(4)の映像データに対応した、例えばチャネル1の音声テキストが表示される。この実施の形態では、ユーザのキーワード入力に対応してキーワード検索が行われ、図12に示すように、モニタ115Bに表示された音声テキストのうち、キーワードに一致するテキスト部分が、全てインテンド表示される。図12に示す例は、キーワードが「春一番」であった場合を示している。
【0103】
また、この実施の形態では、図12に示すように、モニタ115Cに、上述したようにモニタ115Bに表示された音声テキストのキーワードに一致する各テキスト部分に対応したサムネール(代表画像)が表示される。そして、この状態で、ユーザの入力部121の操作により、モニタ115Bに表示された音声テキストのキーワードに一致する各テキスト部分から所定のテキスト部分が選択されるとき、図13に示すように、当該選択されたテキスト部分は色等の変化によりさらにインテンド表示される。
【0104】
また、当該選択された所定のテキスト部分に対応したモニタ115Cのサムネールがインテンド表示される。この場合、サムネールの画枠の色等の変化により、インテンド表示が行われる。これにより、ユーザは、モニタ115Bにおけるテキスト部分とモニタ115Cにおけるサムネールとの対応関係をよりよく把握できる。
【0105】
なお、上述とは逆の順番であっても同様の表示となる。すなわち、ユーザの入力部121の操作により、モニタ115Cに表示されている複数のサムネールから所定のサムネールが選択されるとき、当該選択されたサムネールの画枠がインテンド表示され、また、当該サムネールに対応したモニタ115Bのテキスト部分は色等の変化によりさらにインテンド表示される。
【0106】
また、上述したように、モニタ115Bに表示された音声テキストのキーワードに一致する各テキスト部分から所定のテキスト部分が選択されるとき、図13に示すように、当該所定のテキスト部分を含む所定範囲(例えば、文またはフレーズ)が、モニタ115Bに拡大して表示される。
【0107】
<キーワード検索>
【0108】
図14のフローチャートを用いて、CPU111のキーワード検索処理を説明する。
【0109】
CPU111は、ステップST31において、キーワード検索処理を開始し、その後に、ステップST32の処理に移る。このステップST32において、ユーザの入力部121の操作によってキーワードが入力されると、CPU111は、ステップST33の処理に移る。
【0110】
ユーザは、図5に示すようなユーザインタフェース画面におけるキーワード枠(9)へキーワード(この例では、「春一番」)を、入力部121のマウス、キーボードを使って入力する。このGUIプログラムでは、日本語が用意されており、キーワードが入力されると、図15に示すように、キーワード枠(9)にキーワードが表示される。
【0111】
ステップST33において、ユーザの入力部121の操作によってユーザインタフェース画面上の検索釦(10)が押されると、CPU111は、ステップST34の処理に移る。このステップST34において、CPU111は、キーワードを、テキストコードに変換する。
【0112】
次に、CPU111は、ステップST35において、キーワードのテキストコードと、図3の音声テキストデータファイルのテキストコードを、RAM113に取り込み、比較する。CPU111は、ステップST36において、一致したか否かを判断する。一致していないとき、CPU111は、ステップST37において順次比較のためキーワードを1文字移動し、その後に、ステップST35に戻って、上述したと同様の動作を繰り返す。
【0113】
図3は、#1、#2、・・・#Nまでのフレーズまたは文のテキストデータである。キーワード検索をする場合、目的とする「テキストコード」と、「図3の#1の丸1,丸2,丸3,丸4,丸5,・・・,#Nの最後のテキストコード」と一致するデータを順次比較して検出する。この処理を、上述のステップST35〜ST37により行っている。図16は、キーワードを音声テキストと比較する様子を、横軸を時間軸として、模式的に示している。
【0114】
ステップST36で一致したと判断したとき、CPU111は、ステップST38において、一致したテキストコードのin,outのタイムコードを読む。そして、CPU111は、ステップST39において、該当テキスト部分(キーワード部分)をインテンド表示する。すなわち、CPU111は、図15に示すように、映像タイムライン(4)上に、検索されたキーワード位置を、色、明暗で区別した線(棒線、丸、楕円等)によりインテンド表示する。また、CPU111は、図12に示すように、モニタ115Bに表示された音声テキストのうち、検索されたキーワードと一致するテキスト部分を、色、明暗等でインテンド表示する。また、CPU111は、ステップST39において、検索されたキーワードと一致するテキスト部分に対応したサムネール(代表画像)を、モニタ115Cに表示する。
【0115】
次に、CPU111は、ステップST40において、最終テキストコードか否かを判断する。最終テキストコードでないとき、CPU111は、ステップST37において、順次比較のため、キーワードを1文字移動し、その後に、ステップST35の処理に戻る。一方、ステップST40で最終テキストコードであるとき、CPU111は、ステップST41において、キーワード検索を終了する。
【0116】
なお、キーワードが複数ある場合、CPU111は、それぞれ異なる色、輝度で識別可能なインテンド方法を自動的に選択し、表示を行う。また、図14のフローチャートは一例であって、これに限定されるものではない。例えば、予め同じ熟語(文字)がある場所(タイムコード)を検索して表にしておき、検索実行コマンドにより表から場所を読み出す方法もある。
【0117】
<所望シーンの確認>
【0118】
ユーザ(編集オペレータ)は、上述したように検索された各キーワード位置から、所望の映像シーンを検索し、編集点を決定できる。図17のフローチャートを用いて、CPU111の映像シーンの検索処理を説明する。
【0119】
CPU111は、ステップST51において、映像シーンの検索処理を開始し、その後に、ステップST52の処理に移る。このステップST52において、ユーザの入力部121の操作によって、モニタ115Bに表示された音声テキストのキーワードに一致する各テキスト部分(キーワード部分)から所定のテキスト部分が選択されるとき、CPU111は、ステップST53において、当該選択されたテキスト部分を色等の変化によりさらにインテンド表示すると共に、当該選択されたテキスト部分を含む所定範囲(例えば、選択されたテキスト部分を含む文またはフレーズ等)を、モニタ115Bに拡大して表示する(図13参照)。
【0120】
ここで、ユーザは、入力部121のマウスを用いて、モニタ115Bにインテンド表示されている各テキスト部分から、所定のテキスト部分を選択できる。なお、あるテキスト部分が選択されている状態で、モニタ115Aのユーザインタフェース画面のNext釦(13)、または、Previous釦(11)を操作することでも、次の、あるいは前のテキスト部分を選択できる。
【0121】
そして、CPU111は、ステップST54において、当該選択されたテキスト部分に対応したモニタ115Cのサムネールをインテンド表示する(図13参照)。例えば、CPU111は、サムネールの画枠の色等を変化させることで、インテンド表示を行う。これにより、ユーザは、インテンド表示された各キーワード部分に対応した代表画像を容易に対応付けできる。
【0122】
次に、CPU111は、ステップST55において、ユーザの入力部121の操作によって、テキスト部分の再選択操作があったか、あるいは再生操作があったか否かを判断する。ユーザは、モニタ115Aのユーザインタフェース画面の再生釦(12)を操作することで、再生操作を行うことができる。
【0123】
他のテキスト部分の再選択操作があるとき、CPU111は、ステップST52の処理に戻り、上述したと同様の処理を繰り返す。一方、再生操作があるとき、ステップST56の処理に移る。このステップST56において、CPU111は、選択されたテキスト部分を含む所定範囲、例えば文またはフレーズに対応した映像、音声、音声テキストを再生する。
【0124】
この場合、再生映像は、図7のユーザインタフェース画面の画像表示位置(2)に表示される。また、再生映像に同期した音声出力が音声タイムライン(6)に拡大表示され、再生映像に同期した音声テキストがテキストタイムライン(8)に拡大表示される。これにより、ユーザ(編集オペレータ)は、選択されたテキスト部分に対応した映像、音声、音声テキストを確認できる。なお、スピーカ123からも再生音声が出力される。
【0125】
次に、CPU111は、ステップST57において、テキスト部分の再選択操作があるか否かを判断する。テキスト部分の再選択操作があるとき、CPU111は、ステップST52の処理に戻り、上述したと同様の処理を繰り返す。一方、再選択操作がないとき、CPU111は、ステップST58において、所望シーンの検索処理を終了する。
【0126】
図18は、編集アプリケーションプログラムから見たキーワード検索の処理の流れを概念的に示したものである。なお、[n]は、図14のフローチャートのステップ番号に対応している。編集アプリケーションプログラムに含まれる「GUI」は入力操作を含め、GUI表示を行う。
【0127】
「検索機能」はGUI入力されたキーワードのテキスト文字をテキストコードに変換し、データファイルとテキストコードを比較し、一致したタイムコードを読み、表示された音声テキストのうちキーワードと一致するテキスト部分をインテンド表示し、また、インテンド表示した各テキスト部分のサムネールを表示する。「コマンド発行」はインデックスファイルを読み出し、データファイルの読むべきアドレスを知った上で、キューアップ(Cue up)再生、停止などのコマンドをストレージに対し行う。
【0128】
また、図19は、編集アプリケーションプログラムから見た所望シーンの検索処理の流れを概念的に示したものである。なお、[n]は、図17のフローチャートのステップ番号に対応している。編集アプリケーションプログラムに含まれる「GUI」は入力操作を含め、GUI表示を行う。
【0129】
「実行」は、音声テキストインデックスファイルから、再生指示に基づいて、選択されたテキスト部分に対応したタイムコードを取得し、このタイムコードを用いて、映像データファイルから選択されたテキスト部分に対応した映像データ部分にキューアップして再生する。
【0130】
「コマンド発行」はインデックスファイルを読み出し、データファイルの読むべきアドレスを知った上で、キューアップ(Cue up)、読み込み等のコマンドをストレージに対し発行する。
【0131】
以上説明したように、図11に示すノンリニア編集機100Aにおいては、音声テキストデータが関連付けされた映像データを取り扱うものであって、映像データに対応した音声テキストをモニタ115Bに表示すると共に、このように表示される音声テキストのうち、入力されたキーワードと一致するテキスト部分に対応した代表画像(サムネール)をモニタ115C表示するものであり、ユーザは、例えば編集点とすべき所望の映像シーンを容易に検索できる。
【0132】
また、図11に示すノンリニア編集機100Aにおいては、キーワード検索結果に基づいて、モニタ115Bに表示されている音声テキストのキーワードの部分がインテンド表示されるものであり、ユーザは、所望の映像シーンの検索を容易に行うことができる。また、この場合、ユーザは、キーワードの入力をモニタ115Aに表示されたグラフィカルユーザインタフェース画面を用いて行うことができ、キーワードの入力を、容易、かつ誤りなく行うことができる。
【0133】
また、図11に示すノンリニア編集機100Aにおいては、ユーザがモニタ115Bにインテンド表示されている音声テキストの各テキスト部分から所定のテキスト部分を選択した場合、当該所定のテキスト部分は、他のインテンド表示されたテキスト部分とは異なるようにインテンド表示され、また、この所定のテキスト部分に対応してモニタ115Cに表示されているサムネール(代表画像)もインテンド表示される。したがって、ユーザは、インテンド表示された各テキスト部分とサムネール(代表画像)を容易に対応付けできる。
【0134】
また、図11に示すノンリニア編集機100Aにおいては、ユーザがモニタ115Bにインテンド表示されている音声テキストの各テキスト部分から所定のテキスト部分を選択した場合、そのテキスト部分を含む所定範囲の部分が拡大表示される。したがって、ユーザは、所定のテキスト部分を含む所定範囲の音声テキストの内容を容易に把握でき、所望の映像シーンの検索をより容易に行うことができる。
【0135】
また、図11に示すノンリニア編集機100Aにおいては、ユーザによりインテンド表示されている各テキスト部分から所定のテキスト部分が選択されて、再生が指示されるとき、当該所定のテキスト部分に対応した映像、音声、音声テキストが再生され、モニタ115Aに表示される。したがって、ユーザは、任意のテキスト部分の映像シーンを容易に確認でき、例えば編集点とすべき所望シーンを容易に検索できる。
【0136】
なお、上述実施の形態においては、1つの単語、例えば「春一番」を用いて行う単純なキーワード検索を示したが、キーワード検索は単数、複数の単語による条件式を用いて行うことも可能である。例えば、「日米野球」or「イチロー」を条件式とする場合、音声テキストから「日米野球」と「イチロー」を検索し、別々の色、または同色でインテンド表示する。また、例えば、「天気」and 「女性」を条件式とする場合、女性の声で「天気」を検索し、インテンド表示する。この場合、音声は高速フーリエ変換により男女別に判定する。また、例えば、「春一番が吹き」を条件式として、フレーズで検索する。また、例えば、「weather forecast」を条件式として、英語で検索する。
【0137】
また、上述したように検索された結果、すなわち「キーワード」、キーワード部分のタイムコード等を保存し、2次利用するようにしてもよい。
【0138】
また、キーワード検索は、完全一致のテキスト部分を検索するだけでなく、一致率の高いテキスト部分を検索し、例えば一致率の高い順に色分けして表示するようにしてもよい。また、インテンド表示されるキーワードに対応したテキスト部分は、キーワードに一致するテキスト部分だけに限定されるものではなく、キーワードを含む所定範囲のテキスト部分、あるいはキーワードに似通ったテキスト部分等であってもよい。
【0139】
また、上述実施の形態においては、この発明をノンリニア編集機に適用したものであるが、この発明は、音声テキストデータが関連づけされて記録されている映像データを取り扱う、その他の映像機器にも同様に適用できる。
【産業上の利用可能性】
【0140】
この発明は、所望の映像シーンを容易に検索できるものであり、例えば、ノンリニア編集機等に適用できる。
【図面の簡単な説明】
【0141】
【図1】この発明の実施の形態としてのノンリニア編集機の構成例を示すブロック図である。
【図2】映像のインデックスファイルおよびデータファイルの構造の一例を示す図である。
【図3】音声テキストのインデックスファイルおよびデータファイルの構造の一例を示す図である。
【図4】映像記録装置におけるタイムコードに音声テキストデータを織りいれた構成概念を示す図である。
【図5】モニタに表示されているユーザインタフェース画面の一例を示す図である。
【図6】モニタに表示されているユーザインタフェース画面の一例を示す図である。
【図7】CPUのテキスト表示処理の一例を示すフローチャートである。
【図8】CPUの所望シーンの検索処理の一例を示すフローチャートである。
【図9】編集アプリケーションプログラムから見たテキスト表示処理の流れを概念的に示した図である。
【図10】編集アプリケーションプログラムから見た所望シーンの検索処理の流れを概念的に示した図である。
【図11】この発明の他の実施の形態としてのノンリニア編集機の構成例を示すブロック図である。
【図12】モニタに表示されているユーザインタフェース画面の一例を示す図である。
【図13】モニタに表示されているユーザインタフェース画面の一例を示す図である。
【図14】CPUのキーワード検索処理の一例を示すフローチャートである。
【図15】モニタに表示されているユーザインタフェース画面の一例を示す図である。
【図16】キーワードを音声テキストと比較する様子を、横軸を時間軸として、模式的に示した図である。
【図17】CPUの所望シーンの検索処理の一例を示すフローチャートである。
【図18】編集アプリケーションプログラムから見たキーワード検索処理の流れを概念的に示した図である。
【図19】編集アプリケーションプログラムから見た所望シーンの検索処理の流れを概念的に示した図である。
【符号の説明】
【0142】
100,100A・・・ノンリニア編集機、111・・・CPU、112・・・ROM、113・・・RAM、114・・・表示コントローラ、115A,115B,115C・・・モニタ、116・・・HDDインタフェース、117・・・HDD、118・・・ドライブコントローラ、119・・・メディアドライブ、120・・・入力インタフェース、121・・・入力部、122・・・音声入力インタフェース、123・・・スピーカ

【特許請求の範囲】
【請求項1】
音声テキストデータが関連付けされた映像データを取り扱う映像検索装置であって、
上記音声テキストデータに基づいて、モニタに、上記映像データに対応した音声テキストを表示するテキスト表示制御部と、
上記映像データに基づいて、モニタに、上記テキスト表示制御部で表示された音声テキストに対応した代表画像を表示する画像表示制御部と
を備えることを特徴とする映像検索装置。
【請求項2】
ユーザが上記テキスト表示制御部で表示された音声テキストから所定の音声テキスト区間を選択する音声テキスト区間選択部をさらに備え、
上記画像表示制御部は、さらに、
上記映像データに基づいて、上記音声テキスト区間選択部で選択された所定の音声テキスト区間に対応した代表画像を上記モニタに表示する
ことを特徴とする請求項1に記載の映像検索装置。
【請求項3】
ユーザが上記テキスト表示制御部で表示された音声テキストから所定の音声テキスト区間を選択する音声テキスト区間選択部と、
ユーザが再生を指示する再生指示部とをさらに備え、
上記画像表示制御部は、さらに、
上記音声テキスト区間選択部で所定の音声テキスト区間が選択された状態で、上記再生指示部により再生が指示されたとき、上記映像データに基づいて、上記所定の音声テキスト区間に対応した映像を上記モニタに表示する
ことを特徴とする請求項1に記載の映像検索装置。
【請求項4】
ユーザがキーワードを入力するキーワード入力部と、
上記音声テキストデータから上記キーワード入力部に入力されたキーワードを検索するキーワード検索部とをさらに備え、
上記テキスト表示制御部は、
上記キーワード検索部の検索結果に基づいて上記モニタに表示されている音声テキストのうち、上記キーワードに対応するテキスト部分をインテンド表示する
ことを特徴とする請求項1に記載の映像検索装置。
【請求項5】
上記キーワード入力部は、
上記モニタに表示されるグラフィカルユーザインタフェース画面を用いて上記キーワードを入力する
ことを特徴とする請求項4に記載の映像検索装置。
【請求項6】
上記画像表示制御部は、
モニタに、上記映像データに基づいて、上記モニタに表示されている上記音声テキストの上記インテンド表示されたテキスト部分に対応した代表画像を表示する
ことを特徴とする請求項4に記載の映像検索装置。
【請求項7】
ユーザが上記モニタに表示されている上記音声テキストの上記インテンド表示されたテキスト部分から所定のテキスト部分を選択するテキスト部分選択部をさらに備え、
上記テキスト表示制御部は、さらに、
上記テキスト部分選択部で選択された上記所定のテキスト部分を、他のテキスト部分とは異なるようにインテンド表示し、上記画像表示制御部は、さらに、上記テキスト部分選択部で選択された上記所定のテキスト部分に対応した代表画像を他の代表画像とは異なるようにインテンド表示する
ことを特徴とする請求項6に記載の映像検索装置。
【請求項8】
上記テキスト表示制御部は、さらに、上記テキスト部分選択部で選択された上記所定のテキスト部分を含む所定範囲の部分を拡大して表示する
ことを特徴とする請求項7に記載の映像検索装置。
【請求項9】
ユーザが上記モニタに表示されている上記音声テキストの上記インテンド表示されたテキスト部分から所定のテキスト部分を選択するテキスト部分選択部と、
ユーザが再生を指示する再生指示部とをさらに備え、
上記画像表示制御部は、さらに、
上記テキスト部分選択部で所定のテキスト部分が選択された状態で、上記再生指示部により再生が指示されたとき、上記映像データに基づいて、上記所定のテキスト部分に対応した映像を上記モニタに表示する
ことを特徴とする請求項1に記載の映像検索装置。
【請求項10】
音声テキストデータが関連付けされた映像データを取り扱う映像検索部を有する編集装置であって、
上記映像検索部は、
上記音声テキストデータに基づいて、モニタに、上記映像データに対応した音声テキストを表示するテキスト表示制御部と、
上記映像データに基づいて、モニタに、上記テキスト表示制御部で表示された音声テキストに対応した代表画像を表示する画像表示制御部と
を備えることを特徴とする編集装置。
【請求項11】
音声テキストデータが関連付けされた映像データを取り扱う映像検索方法であって、
上記音声テキストデータに基づいて、モニタに、上記映像データに対応した音声テキストを表示するテキスト表示制御ステップと、
上記映像データに基づいて、モニタに、上記表示制御ステップで表示された音声テキストに対応した代表画像を表示する画像表示制御ステップと
を備えることを特徴とする映像検索方法。
【請求項12】
コンピュータを、
映像データに関連付けされて記憶されている音声テキストデータに基づいて、モニタに、上記映像データに対応した音声テキストを表示するテキスト表示制御手段と、
上記映像データに基づいて、モニタに、上記テキスト表示制御手段で表示された音声テキストに対応した代表画像を表示する画像表示制御手段と
して機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図5】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図4】
image rotate

【図6】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2009−163644(P2009−163644A)
【公開日】平成21年7月23日(2009.7.23)
【国際特許分類】
【出願番号】特願2008−2659(P2008−2659)
【出願日】平成20年1月9日(2008.1.9)
【出願人】(000002185)ソニー株式会社 (34,172)
【Fターム(参考)】