映像検索装置、編集装置、映像検索方法およびプログラム
【課題】ユーザが所望の映像シーンを容易に検索可能とする。
【解決手段】ユーザがキーワードを入力して、検索釦を操作すると(ST2,ST3)。CPUは、キーワードをテキストコードに変換し、キーワードのテキストコードと、音声テキストのテキストコードとを、キーワード位置を1文字ずつ順次移動して比較していく(ST5〜ST7)。キーワードと音声テキストが一致する毎に、一致したテキストコードのin,outのタイムコードを読み、該当タイムコード、つまり、キーワード位置を、モニタの映像タイムライン上にインテンド表示する(ST8,ST9)。ユーザにより映像タイムライン上の所定のキーワード位置が選択されるとき、CPUはモニタに選択されたキーワード位置に対応した代表画像を表示し、また、ユーザによりさらに再生指示が行われるとき、CPUはモニタに所定のキーワード位置に対応した映像を表示する。
【解決手段】ユーザがキーワードを入力して、検索釦を操作すると(ST2,ST3)。CPUは、キーワードをテキストコードに変換し、キーワードのテキストコードと、音声テキストのテキストコードとを、キーワード位置を1文字ずつ順次移動して比較していく(ST5〜ST7)。キーワードと音声テキストが一致する毎に、一致したテキストコードのin,outのタイムコードを読み、該当タイムコード、つまり、キーワード位置を、モニタの映像タイムライン上にインテンド表示する(ST8,ST9)。ユーザにより映像タイムライン上の所定のキーワード位置が選択されるとき、CPUはモニタに選択されたキーワード位置に対応した代表画像を表示し、また、ユーザによりさらに再生指示が行われるとき、CPUはモニタに所定のキーワード位置に対応した映像を表示する。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、映像検索装置、編集装置、映像検索方法およびプログラムに関する。詳しくは、この発明は、音声テキストデータが関連付けされた映像データを取り扱うものにあって、入力されたキーワードが音声テキストデータから検索され、タイムライン上に検索されたキーワード位置が表示されることにより、ユーザが所望の映像シーンを容易に検索できるようにした映像検索装置等に係るものである。
【背景技術】
【0002】
人は本の何処にどのようなことを書いてあるかを探す際、本を斜めに読み、あるいは、ページをパラパラとめくることで、文字の検索が可能である。しかしながら、映像と音声を主な記録情報としてきた従来の動画映像の世界では1つの素材から、所望のシーンを検索する場合に、困難が伴う。
【0003】
例えば、従来VTR(Video Tape Recorder)では、高速サーチで映像シーンを探す場合、概ねの動画像を認識することはできる、しかし、細かなフレーム単位の内容までは確認できない。また、このように高速サーチで映像シーンを探す場合、音声はミュートされるため聞くこともできないし、仮に聞いても早すぎて内容を理解できない。
【0004】
音声について補足すると、例えば比較的低速な3〜4倍速での再生速度は、人の聴覚では音声を聞いてどのようなことを話しているのか、映像の内容を理解できる境目となっている。そのため、音声内容を高速に確認する手段はいままでなかった。
【0005】
ノンリニア(Non-Linear)編集機(例えば、特許文献1参照)では、検索のための表示方法として、サムネール画像を複数表示し選択する手法が採られている。通常、ノンリニア編集機では連続した映像のサムネールを表示することはなく、飛び飛びのサムネールを表示するため、これから所望のシーンを探し出すのは困難を伴う。
【0006】
また、サムネール画像の情報量は圧倒的に音声よりも多く、仮にモニタに全てのフレーム(29.94frame/sec)のサムネール画像を表示したとしても、人がサムネール画像を斜めに見ることにより所望の映像シーンを探すことは困難である。
【0007】
また、仮に、所望の映像シーンの近傍にあるシーンを見つけても、最終的な編集点を決めるには更に困難を伴う。すなわち、ノンリニア編集機のモニタでは、通常、音声エンベロープ波形(縦:振幅、横:時間軸)をタイムラインに表示し、編集点の決定のために役立てている。
【0008】
しかし、人が音声エンベロープ波形を見て、音の始まりや音声の強弱を認識できても、音声の意味/内容は理解できなかった。このため、編集オペレータは編集点付近で素材をリアルタイムでプレビュー(pre-view)し、音声の意味/内容を確認しながら、編集点を決めていた。
【0009】
例えば、特許文献2には、動画を構成する各ブロックについてのタイトルもしくはその他のテキスト情報を時間順に一覧表示をすることが記載されている。このように各ブロックについてのテキスト情報を一覧表示するものにあっては、当該テキスト情報から所望の映像シーンの近傍にあるシーンを見つけても、最終的な編集点を決めるには、編集オペレータは編集点付近で素材をリアルタイムでプレビューすること等が必要となる。
【特許文献1】WO96/32722号公報
【特許文献2】特開2005−94709号公報
【発明の開示】
【発明が解決しようとする課題】
【0010】
上述したように、従来のノンリニア編集機等では、映像と音声を主な記録情報とした動画映像素材の内容を確認し、編集点、を決め、制作意図に沿った編集を行う行為には多くの工数を必要としていた。
【0011】
この発明の目的は、例えば編集点とすべき所望の映像シーンの検索を容易とすることにある。
【課題を解決するための手段】
【0012】
この発明の概念は、
音声テキストデータが関連付けされている映像データを取り扱う映像検索装置であって、
ユーザがキーワードを入力するキーワード入力部と、
上記音声テキストデータから上記キーワード入力部に入力されたキーワードを検索するキーワード検索部と、
モニタに、タイムラインを表示し、該タイムライン上に上記キーワード検索部で検索されたキーワード位置を表示する情報表示制御部と
を備えることを特徴とする映像検索装置にある。
【0013】
この発明においては、音声テキストデータが関連付けされた映像データを取り扱う。ここで、音声テキストデータとは、映像信号に対応した音声信号による音声の内容を示すテキストデータである。映像データおよび音声テキストデータは、例えば、HDD等のデータ保持部に保持されている。
【0014】
キーワード入力部にキーワードが入力されることで、キーワード検索部により、音声テキストデータから当該キーワードが検索される。例えば、キーワード入力部は、モニタに表示されるグラフィカルユーザインタフェース画面を用いて、キーワードを入力する、構成とされている。このようにグラフィカルユーザインタフェース画面を用いてキーワードを入力する構成とすることで、ユーザは、キーワードの入力を、容易、かつ誤りなく行うことができる。
【0015】
上述したようにキーワード検索が行われた後、情報表示制御部により、タイムライン上、例えば映像タイムライン上に、検索されたキーワード位置が表示される。このように、映像タイムライン上にユーザが入力したキーワード位置が表示されることで、ユーザは、所望の映像シーンの検索を容易に行うことができる。
【0016】
この発明において、例えば、ユーザがモニタの映像タイムライン上に表示されたキーワード位置から所定のキーワード位置を選択する位置選択部と、データ保持部に保持されている映像データに基づいて、位置選択部で選択されたキーワード位置に対応した代表画像をモニタに表示する画像表示制御部とをさらに備える、ようにされてもよい。この場合、ユーザにより選択されたキーワード位置に対応した代表画像がモニタに表示されることで、ユーザは、各キーワード位置に対応した映像シーンを容易に確認できる。
【0017】
また、この発明において、例えば、ユーザがモニタに表示された映像タイムライン上に表示されたキーワード位置から所定のキーワード位置を選択する位置選択部と、ユーザが再生を指示するための再生指示部と、位置選択部で所定のキーワード位置が選択された状態で、再生指示部で再生が指示されたとき、映像データに基づいて、所定のキーワード位置に対応した映像をモニタに表示する画像表示制御部とをさらに備える、ようにされてもよい。この場合、ユーザにより選択されたキーワード位置に対応した映像がモニタに表示されることで、ユーザは、各キーワード位置に対応した映像シーンを容易に確認できる。
【発明の効果】
【0018】
この発明によれば、音声テキストデータが関連付けされた映像データを取り扱うものにあって、入力されたキーワードが音声テキストデータから検索され、タイムライン上に検索されたキーワード位置が表示されるものであり、ユーザは、所望の映像シーンを容易に探すことができる。
【発明を実施するための最良の形態】
【0019】
以下、図面を参照しながら、この発明の実施の形態について説明する。
【0020】
「編集装置の構成」
【0021】
図1は、実施の形態としてのノンリニア編集機100の構成例を示している。このノンリニア編集機100は、CPU(Central Processing Unit)111と、ROM(Read OnlyMemory)112と、RAM(Random Access Memory)113と、表示コントローラ114と、モニタ115と、HDDインタフェース116と、HDD117と、ドライブコントローラ118と、メディアドライブ119と、入力インタフェース120と、入力部121と、音声出力インタフェース122と、スピーカ123と、システムバス124とを有している。
【0022】
CPU111、ROM112、RAM113は、システムバス124により相互に接続されている。システムバス124には、さらに、表示コントローラ114、HDDインタフェース116、ドライブコントローラ118、入力インタフェース120および音声出力インタフェース122が接続されている。
【0023】
CPU111は、ノンリニア編集機100の各部の動作を制御する。このCPU111は、ROM112、あるいはHDD117に記憶されているプログラムを、RAM113にロードして実行することで、各部の動作を制御する。
【0024】
モニタ115は、表示コントローラ114を介して、バス124に接続されている。モニタ115は、例えば、LCD(Liquid Crystal Display)、PDP(Plasma DisplayPanel)等で構成されている。表示コントローラ114は、CPU111の制御のもと、モニタ115に表示される画像、およびGUI用の表示を制御する。
【0025】
HDD117は、HDDインタフェース116を介して、システムバス124に接続されている。HDD117は、CPU111の制御のためのプログラム、編集素材としての映像データおよび音声データ等を格納する。
【0026】
なお、この実施の形態においては、音声テキストデータが関連付けされた映像データが取り扱われる。音声テキストデータは、映像データに対応した音声データによる音声の内容を示すテキストデータである。従って、HDD117に保持される各動画映像コンテンツの映像データには、それに対応する音声データの他に、さらに音声テキストデータが付加されている。この場合、映像データと、音声データおよび音声テキストデータとの関連付けは、タイムコードを介して行われている。
【0027】
メディアドライブ119は、ドライブコントローラ118を介して、システムバス124に接続されている。このメディアドライブ119は、各種記録メディアに対応するドライブ機能部であり、当該記録メディアに対する記録再生動作を行う。記録メディアとしては、例えば、CD、MD、CD−R、CD−RW、DVD、DVD−R、DVD−RW、Blu-ray Disc等の光ディスク、あるいはメモリカードがある。このメディアドライブ119は、例えば、編集素材としての映像データ等を入力し、また、編集後の映像データ等を出力するために使用される。
【0028】
入力部121は、入力インタフェース120を介して、システムバス124に接続されている。この入力部121は、ユーザが、各種の操作入力のため、さらにはデータ入力のために、使用する。この入力部121は、キーボード、マウス、リモートコマンダ、その他の入力デバイスで構成されている。
【0029】
スピーカ123は、音声出力インタフェース122を介して、システムバス124に接続されている。
【0030】
「映像および音声テキストのインデックスファイル、データファイル」
【0031】
次に、図1に示すノンリニア編集機100のHDD117に保持されている映像データ、音声テキストデータについて説明する。
【0032】
図2(a)、(b)は、映像のインデックスファイル、データファイルの構造の一例を示している。インデックスファイルは、データファイルとは独立したファイルとして作成される場合と、データファイルに含まれる場合とがある。この例は、インデックスファイルがデータファイルとは独立して作成された場合の例である。
【0033】
映像インデックスファイルは、HDD117のどのアドレスに何フレーム目のデータを記録してあるかを示す管理データである。この映像インデックスファイルには、インデックス総数、インデックス領域のサイズ、データファイルに含まれる全ての映像フレームデータのサイズと映像データファイル内のアドレスが含まれている。
【0034】
映像データファイルには、全ての映像フレームデータがそのサイズと共に含まれている。また、この映像データファイルには、映像ファイルヘッダが含まれている。さらに、映像データは圧縮されている場合が多く、この映像データファイルには、圧縮された映像データの圧縮を解くための情報も含まれている。
【0035】
なお、図示および説明は省略するが、音声データも同様に、タイムコード(TC)と同期して記録されている。この実施の形態において、タイムコードは全て連続に記録されたもので、映像フレーム(frame)番号と等価な情報である。
【0036】
本来、タイムコードは、時、分、秒、フレームの情報であるが、カムコーダ等により記録メディアに記録された素材には複数のクリップ(clip)がある。ここで、クリップとは、記録スタート(REC START)から記録ポーズ(REC PAUSE)までの記録部分を意味する。このクリップとクリップとのタイムコードが不連続であったり、あるいは別の記録メディアの間ではタイムコードが重複したりする場合もある。
【0037】
図1に示すノンリニア編集機100で、これらの素材をメディアドライブ119から入力してHDD117に記録する際、元のタイムコードとは別に、連続したフレーム番号を割り当てて記録する。この場合、0,1,2・・・とフレーム番号で管理してもよいし、連続したタイムコードを新たに割り当てて記録してもよい。
【0038】
図2のインデックスファイルで「オフセット」と書いてあるのは、例えば、基準点のアドレスを0としたときの、そこからの距離を意味しており、いわゆるオフセットアドレスである。「オフセット」の値から各映像フレームの先頭アドレスが解り、「オフセット」と「映像サイズ(圧縮記録のため、フレーム毎にデータ量は異なる)」から各映像フレームの終わりのアドレスが解る。
【0039】
図3(a),(b)は、音声テキストのインデックスファイル、音声テキストデータファイルの構造の一例を示している。インデックスファイルは、データファイルとは独立したファイルとして作成される場合と、データファイルに含まれる場合がある。この例は、インデックスファイルがデータファイルとは独立して作成される場合の例である。インデックスファイルには、インデックス総数、インデックス領域のサイズ、文単位またはフレーズ(区)単位の、in点およびout点のタイムコード、音声テキストデータのサイズが含まれている。
【0040】
音声テキストデータファイルには、各文または各フレーズに含まれる文字のテキストデータが、当該ワードのin点およびout点のタイムコードと共に含まれている。また、この音声テキストデータファイルには、文またはフレーズ毎に、データヘッダおよびデータサイズが含まれている。また、この音声テキストデータファイルには、音声テキストファイルヘッダが含まれている。
【0041】
検索システムとしてのCPU111は、音声テキストインデックスファイルからタイムコードに対応する音声テキストデータファイルのアドレスを知り、このアドレスにアクセスすることにより、音声テキストのデータファイルを読むことができる。また、検索システムとしてのCPU111は、読み込んだ音声テキストのデータをキーワードと比較することにより、音声テキストのキーワードとその位置(タイムコード)を検索することができる。
【0042】
図4(a)は、映像記録装置におけるタイムコードに音声テキストデータを織りいれた構成概念を示している。ここで、タイムコードは連続した時間、フレーム番号となっている。ここでは、不連続なタイムコード、同じタイムコードを含まないと仮定してある。この図4(a)において、タイムコードは一例として625/50フォーマットにて記載してあり、25フレーム/secである。
【0043】
「Plane Text」とは、コンピュータ上で文章を扱うための一般的なファイルフォーマット、または文字列の形式である。ここでは、説明の便宜上「文字」そのものを書いてある。実際には、テキストコード(漢字は2バイトデータ)で表されるが、ここでは、タイムコードとテキストデータの構成を説明するのが目的であるため、詳細なテキストコード、制御情報は省略している。
【0044】
図4(a)では、「新聞を取って」という日本語の例を示している。図の上から下へ縦方向に時間軸が定義されており、人の音声は無音(灰色)、有音(文字情報)にて表されている。人の発声はある時間幅をもっているため、ある時間区間(00:00:00:01〜00:00:00:17)は新(しん)を発声している区間を表している。図中の「text制御情報」は文字として表示されないテキストの制御情報を表す。例えば、タブ、垂直タブ、改行、改ページ、ファイル終端マーク、Byte Order Mark等があるが、ここでは、詳細は省略する。
【0045】
「文字in/out」は、文字のin点、out点を示し、タイムコード(time code)で結び付けられている。「フレーズ」は文字により構成されるフレーズまたは文を表し、「フレーズin/out」は、フレーズのin点、out点を示す。このように、文字単位、または、文単位のin/out点をタイムコードで定義することにより、さまざまな動画、音声の制御が可能となる。すなわち、あるテキスト文字に対応する映像サムネール画を表示したり、対応する音声を再生したり、該当テキスト文字を含む文章の先頭(フレーズin点)にキューアップ(cue up)して再生し、out点で再生を停止する、等が可能となる。また、あるテキスト文(例「新聞」)を検索し、素材の中から一致する複数の該当箇所を表示することが可能となる。さらに、複数の文章を塊として検索し、似た文章がある候補の場所を検索することも可能である。
【0046】
図4(b)は、図4(a)から、エッセンス、つまり文字のin点、out点を抜き出したもので、この状態で音声テキストのデータファイルを構成する(図3(b)参照)。
【0047】
「音声テキストを用いたキーワードによる動画検索」
【0048】
次に、図1に示すノンリニア編集機100における動画検索について説明する。ノンリニア編集機100においては、取り込んだ動画素材を編集する際、編集点を決めるため、所望の映像シーンを、音声テキストを用いて検索できる。
【0049】
<キーワード検索>
【0050】
ユーザ(編集オペレータ)がキーワードとなる文字を入力して、素材の中から所望映像シーンを効率よく選択し、確認することにより、編集作業の前工程を行う。図5のフローチャートを用いて、CPU111のキーワード検索処理を説明する。
【0051】
CPU111は、ステップST1において、キーワード検索処理を開始し、その後に、ステップST2の処理に移る。このステップST2において、ユーザの入力部121の操作によってキーワードが入力されると、CPU111は、ステップST3の処理に移る。
【0052】
図6は、モニタ115に表示されているユーザインタフェース画面を示している。このユーザインタフェース画面には、上部側に画像を表示するための2つの画像表示位置(1),(2)が設けられている。また、このユーザインタフェース画面には、下部側にタイムライン(3)、映像タイムライン(4)、音声タイムライン(5),(7)、および音声テキストタイムライン(6),(8)が設けられている。映像タイムライン(4)におけるa,b,c,dはクリップを示している。音声タイムライン(5),(7)には、映像タイムライン(4)に表示された各クリップに対応した音声信号の波形が表示される。また、音声テキストタイムライン(6),(8)には、映像タイムライン(4)に表示された各クリップに対応した音声の内容が表示される。
【0053】
また、このユーザインタフェース画面には、下部側に、キーワード検索時にキーワードを入力するためのキーワード枠(9)と共に、さらに、検索開始を指示する検索釦(10)、Previous釦(11)、再生釦(12)、Next釦(13)、および再生停止釦(14)が設けられている。
【0054】
ユーザは、図6に示すようなユーザインタフェース画面におけるキーワード枠(9)へキーワード(この例では、「春一番」)を、入力部121のマウス、キーボードを使って入力する。このGUIプログラムでは、日本語が用意されており、キーワードが入力されると、図7に示すように、キーワード枠(9)にキーワードが表示される。
【0055】
ステップST3において、ユーザの入力部121の操作によってユーザインタフェース画面上の検索釦(10)が押されると、CPU111は、ステップST4の処理に移る。このステップST4において、CPU111は、キーワードを、テキストコードに変換する。
【0056】
次に、CPU111は、ステップST5において、キーワードのテキストコードと、図3の音声テキストデータファイルのテキストコードを、RAM113に取り込み、比較する。CPU111は、ステップST6において、一致したか否かを判断する。一致していないとき、CPU111は、ステップST7において順次比較のためキーワードを1文字移動し、その後に、ステップST5に戻って、上述したと同様の動作を繰り返す。
【0057】
図3は、#1、#2、・・・#Nまでのフレーズまたは文のテキストデータである。キーワード検索をする場合、目的とする「テキストコード」と、「図3の#1の丸1,丸2,丸3,丸4,丸5,・・・,#Nの最後のテキストコード」と一致するデータを順次比較して検出する。この処理を、上述のステップST5〜ST7により行っている。図8は、キーワードを音声テキストと比較する様子を、横軸を時間軸として、模式的に示している。
【0058】
ステップST6で一致したと判断したとき、CPU111は、ステップST8において、一致したテキストコードのin,outのタイムコードを読む。そして、CPU111は、ステップST9において、該当タイムコードをインテンド表示する。例えば、CPU111は、映像タイムライン上に、検索されたキーワード位置を、色、明暗で区別した線(棒線、丸、楕円等)によりインテンド表示する(図7の映像タイムライン(4)参照)。
【0059】
ここで、1本の線の太さは、ユーザ(編集オペレータ)に目視可能な太さに自動的に設定される。すなわち、1本の線の太さは、タイムライン表示幅、時間刻み幅をパラメータとして自動設定される。この結果、タイムラインの縮尺に応じて一致した場所を表示する線の太さを変えることができる。例えば、映像タイムラインが1フレーム時間幅を目視可能な十分な拡大表示を行った場合は1フレームの時間幅と一致させるが、これは稀なケースである。
【0060】
なお、この実施の形態においては、図7に示すように、映像タイムライン(4)上に検索されたキーワード位置が表示されているが、検索されたキーワード位置を例えばタイムライン(3)上にインテンド表示されるようにしてもよい。また、インテンド表示は、図7に示すように、複数の棒で頻度を表してもよいし、ヒストグラム(頻度を表す棒グラフ)で表してもよい。
【0061】
次に、CPU111は、ステップST10において、最終テキストコードか否かを判断する。最終テキストコードでないとき、CPU111は、ステップST7において、順次比較のため、キーワードを1文字移動し、その後に、ステップST5の処理に戻る。一方、ステップST10で最終テキストコードであるとき、CPU111は、ステップST11において、キーワード検索を終了する。
【0062】
キーワードとの一致の頻度が高いタイムライン部分(図7のクリップd参照)では一致したキーワードの各点のインテンド表示は繋がり、帯状の表示になる。また、キーワードの頻度が低いタイムラインの部分(図7のクリップa,b参照)では棒線で表示され、ユーザは一目しただけで所望のキーワードポイントの統計分布と近傍クリップとの関係を理解できる。
【0063】
なお、キーワードが複数ある場合、CPU111は、それぞれ異なる色、輝度で識別可能なインテンド方法を自動的に選択し、表示を行う。また、図5のフローチャートは一例であって、これに限定されるものではない。例えば、予め同じ熟語(文字)がある場所(タイムコード)を検索して表にしておき、検索実行コマンドにより表から場所を読み出す方法もある。
【0064】
<所望シーンの確認>
【0065】
ユーザ(編集オペレータ)は、上述したように検索された各キーワード位置から、所望の映像シーンを検索し、編集点を決定できる。図9のフローチャートを用いて、CPU111の映像シーンの検索処理を説明する。
【0066】
CPU111は、ステップST21において、映像シーンの検索処理を開始し、その後に、ステップST22の処理に移る。このステップST22において、CPU111は、カーソル位置の文またはフレーズのin点にキューアップ(cue up)し、対応するサムネールを表示する。
【0067】
例えば、図7のユーザインタフェース画面において、カーソルCAは図示のように、映像タイムライン(4)等に直交した状態で表示される。このカーソルCAの位置は固定とされ、最初、検索されたキーワード位置のうち1番目のキーワード位置がカーソルCAと一致した状態で表示される。この場合、最初のキーワード位置が、図3(b)に示す音声テキストデータファイルの#1の文またはフレーズに対応する場合、in点(t1)にキューアップし、このin点(t1)のタイムコードに対応するサムネールを、例えばHDD117から読み出し、図7のユーザインタフェース画面の画像表示位置(1)に表示する。
【0068】
次に、CPU111は、ステップST23において、ユーザの入力部121の操作によってユーザインタフェース画面上のNext釦(13)、または、Previous釦(11)が押されたか、さらには、再生釦(12)が押されたか、判断する。Next釦(13)、または、Previous釦(11)が押されたとき、CPU111は、ステップST22に戻る。
【0069】
この場合、Next釦(13)が押されるときは、CPU111は、カーソルCAに次のキーワード位置が一致した状態となるようにユーザインタフェース画面を変更し、カーソル位置の文またはフレーズのin点にキューアップ(cue up)し、対応するサムネールを表示する。なお、カーソルCAが最後のキーワード位置にあるときには、Next釦(13)が押されても、同じ状態を維持する。
【0070】
一方、Previous釦(11)が押されるときは、CPU111は、カーソルCAに前のキーワード位置が一致した状態となるようにユーザインタフェース画面を変更し、カーソル位置の文またはフレーズのin点にキューアップ(cue up)し、対応するサムネールを表示する。なお、カーソルCAが最初のキーワード位置にあるときには、Previous釦(11)が押されても、同じ状態を維持する。
【0071】
また、ステップST23で再生釦(12)が押されるときは、CPU111は、ステップST24において、HDD117を制御し、in点からout点まで、映像、音声、音声テキストを再生する。この場合、再生映像は、図7のユーザインタフェース画面の画像表示位置(2)に表示される。また、再生映像に同期した音声出力が音声タイムライン(6)に拡大表示され、再生映像に同期した音声テキストがテキストタイムライン(8)に拡大表示される。これにより、ユーザ(編集オペレータ)は、カーソルCAが位置するキーワード位置に対応した映像、音声、音声テキストを確認できる。なお、音声タイムライン(6)には、音声波形が表示される。
【0072】
例えば、キーワード位置が、図3(b)に示す音声テキストデータファイルの#1の文またはフレーズに対応する場合、当該#1の文またはフレーズのin点(t1)からout点(t2)までに対応した映像、音声、音声テキストをユーザは確認できる。なお、再生終了後は、図7のユーザインタフェース画面の画像表示位置(2)に、out点の静止画像が表示された状態におかれる。
【0073】
次に、CPU111は、ステップST25において、ユーザの入力部121の操作によってユーザインタフェース画面上のNext釦(13)、または、Previous釦(11)が押されたか判断する。これらの釦が押されたとき、CPU111は、ステップST22の処理に戻り、上述したと同様の処理を繰り返す。一方、ステップST25でNext釦(13)、または、Previous釦(11)の操作がないとき、CPU111は、ステップST26において、映像シーンの検索処理を終了する。
【0074】
ユーザ(編集オペレータ)は、上述の図9のフローチャートに基づく、映像シーンの検索を行うことで、編集点とすべき所望の映像シーンを検索できる。なお、ユーザ(編集オペレータ)は、図7の映像タイムライン(4)における、キーワード位置の頻度の高い帯状部分をマウスを用いてドラッグして所定区間をインテンド表示し、当該区間を連続的に再生して映像、音声内容を確認することもできる。
【0075】
図10は、編集アプリケーションプログラムから見たキーワード検索の処理の流れを概念的に示したものである。なお、[n]は、図5のフローチャートのステップ番号に対応している。編集アプリケーションプログラムに含まれる「GUI」は入力操作を含め、GUI表示を行う。「検索機能」はGUI入力されたキーワードのテキスト文字をテキストコードに変換し、データファイルとテキストコードを比較し、一致したタイムコードを読み、GUI表示させる。「コマンド発行」はインデックスファイルを読み出し、データファイルの読むべきアドレスを知った上で、キューアップ(Cue up)再生、停止などのコマンドをストレージに対し発行する。
【0076】
同様に、図11、図12は、編集アプリケーションプログラムから見た映像シーン検索の処理の流れを概念的に示したものである。なお、[n]は、図9のフローチャートのステップ番号に対応している。
【0077】
以上説明したように、図1に示すノンリニア編集機100においては、音声テキストデータが関連付けされた映像データを取り扱うものであって、ユーザ(編集オペレータ)により入力されたキーワードが音声テキストデータから検索され、映像タイムライン上に検索されたキーワード位置が表示される(図7参照)。したがって、ユーザは、例えば編集点とすべき所望の映像シーンを容易に探すことができる。
【0078】
また、図1に示すノンリニア編集機100においては、ユーザ(編集オペレータ)は、モニタ115に表示されるグラフィカルユーザインタフェース画面(図6、図7参照)を用いて、キーワードを入力するものであり、キーワードの入力を、容易、かつ誤りなく行うことができる。
【0079】
また、図1に示すノンリニア編集機100においては、ユーザ(編集オペレータ)が、モニタ115の映像タイムライン上に表示されたキーワード位置から所定のキーワード位置を選択したとき、選択された代表画像(サムネール)がモニタ115の画像表示位置(1)にされるものであり、ユーザ(編集オペレータ)は、各キーワード位置に対応した映像シーンを容易に確認できる。
【0080】
また、図1に示すノンリニア編集機100においては、ユーザ(編集オペレータ)が、モニタ115の映像タイムライン上に表示されたキーワード位置から所定のキーワード位置を選択し、再生を指示したとき、映像データに基づいて、所定のキーワード位置に対応した映像がモニタ115の画像表示位置(2)に表示されるものであり、ユーザ(編集オペレータ)は各キーワード位置に対応した映像シーンを容易に確認できる。
【0081】
なお、上述実施の形態においては、1つの単語、例えば「春一番」を用いて行う単純なキーワード検索を示したが、キーワード検索は単数、複数の単語による条件式で可能である。例えば、「日米野球」or「イチロー」を条件式とする場合、音声テキストから「日米野球」と「イチロー」を検索し、別々の色、または同色でインテンド表示する。また、例えば、「天気」and 「女性」を条件式とする場合、女性の声で「天気」を検索し、インテンド表示する。この場合、音声は高速フーリエ変換により男女別に判定する。また、例えば、「春一番が吹き」を条件式として、フレーズで検索する。また、例えば、「weather forecast」を条件式として、英語で検索する。
【0082】
また、上述したように検索された結果、すなわち「キーワード」、キーワード部分のタイムコード等を保存し、2次利用するようにしてもよい。
【0083】
また、キーワード検索は、完全一致のテキスト部分を検索するだけでなく、一致率の高いテキスト部分を検索し、例えば一致率の高い順に色分けして表示するようにしてもよい。
【0084】
また、上述実施の形態においては、この発明をノンリニア編集機に適用したものであるが、この発明は、音声テキストデータが関連づけされて記録されている映像データを取り扱う、その他の映像機器にも同様に適用できる。
【産業上の利用可能性】
【0085】
この発明は、所望の映像シーンを容易に検索できるものであり、例えば、ノンリニア編集機等に適用できる。
【図面の簡単な説明】
【0086】
【図1】この発明の実施の形態としてのノンリニア編集機の構成例を示すブロック図である。
【図2】映像のインデックスファイルおよびデータファイルの構造の一例を示す図である。
【図3】音声テキストのインデックスファイルおよびデータファイルの構造の一例を示す図である。
【図4】映像記録装置におけるタイムコードに音声テキストデータを織りいれた構成概念を示す図である。
【図5】CPUのキーワード検索処理の一例を示すフローチャートである。
【図6】モニタに表示されているユーザインタフェース画面の一例を示す図である。
【図7】モニタに表示されているユーザインタフェース画面の一例を示す図である。
【図8】キーワードを音声テキストと比較する様子を、横軸を時間軸として、模式的に示した図である。
【図9】CPUの映像シーンの検索処理の一例を示すフローチャートである。
【図10】編集アプリケーションプログラムから見たキーワード検索の処理の流れを概念的に示した図である。
【図11】編集アプリケーションプログラムから見た映像シーン検索の処理の流れを概念的に示した図である。
【図12】編集アプリケーションプログラムから見た映像シーン検索の処理の流れを概念的に示した図である。
【符号の説明】
【0087】
100・・・ノンリニア編集機、111・・・CPU、112・・・ROM、113・・・RAM、114・・・表示コントローラ、115・・・モニタ、116・・・HDDインタフェース、117・・・HDD、118・・・ドライブコントローラ、119・・・メディアドライブ、120・・・入力インタフェース、121・・・入力部、122・・・音声入力インタフェース、123・・・スピーカ
【技術分野】
【0001】
この発明は、映像検索装置、編集装置、映像検索方法およびプログラムに関する。詳しくは、この発明は、音声テキストデータが関連付けされた映像データを取り扱うものにあって、入力されたキーワードが音声テキストデータから検索され、タイムライン上に検索されたキーワード位置が表示されることにより、ユーザが所望の映像シーンを容易に検索できるようにした映像検索装置等に係るものである。
【背景技術】
【0002】
人は本の何処にどのようなことを書いてあるかを探す際、本を斜めに読み、あるいは、ページをパラパラとめくることで、文字の検索が可能である。しかしながら、映像と音声を主な記録情報としてきた従来の動画映像の世界では1つの素材から、所望のシーンを検索する場合に、困難が伴う。
【0003】
例えば、従来VTR(Video Tape Recorder)では、高速サーチで映像シーンを探す場合、概ねの動画像を認識することはできる、しかし、細かなフレーム単位の内容までは確認できない。また、このように高速サーチで映像シーンを探す場合、音声はミュートされるため聞くこともできないし、仮に聞いても早すぎて内容を理解できない。
【0004】
音声について補足すると、例えば比較的低速な3〜4倍速での再生速度は、人の聴覚では音声を聞いてどのようなことを話しているのか、映像の内容を理解できる境目となっている。そのため、音声内容を高速に確認する手段はいままでなかった。
【0005】
ノンリニア(Non-Linear)編集機(例えば、特許文献1参照)では、検索のための表示方法として、サムネール画像を複数表示し選択する手法が採られている。通常、ノンリニア編集機では連続した映像のサムネールを表示することはなく、飛び飛びのサムネールを表示するため、これから所望のシーンを探し出すのは困難を伴う。
【0006】
また、サムネール画像の情報量は圧倒的に音声よりも多く、仮にモニタに全てのフレーム(29.94frame/sec)のサムネール画像を表示したとしても、人がサムネール画像を斜めに見ることにより所望の映像シーンを探すことは困難である。
【0007】
また、仮に、所望の映像シーンの近傍にあるシーンを見つけても、最終的な編集点を決めるには更に困難を伴う。すなわち、ノンリニア編集機のモニタでは、通常、音声エンベロープ波形(縦:振幅、横:時間軸)をタイムラインに表示し、編集点の決定のために役立てている。
【0008】
しかし、人が音声エンベロープ波形を見て、音の始まりや音声の強弱を認識できても、音声の意味/内容は理解できなかった。このため、編集オペレータは編集点付近で素材をリアルタイムでプレビュー(pre-view)し、音声の意味/内容を確認しながら、編集点を決めていた。
【0009】
例えば、特許文献2には、動画を構成する各ブロックについてのタイトルもしくはその他のテキスト情報を時間順に一覧表示をすることが記載されている。このように各ブロックについてのテキスト情報を一覧表示するものにあっては、当該テキスト情報から所望の映像シーンの近傍にあるシーンを見つけても、最終的な編集点を決めるには、編集オペレータは編集点付近で素材をリアルタイムでプレビューすること等が必要となる。
【特許文献1】WO96/32722号公報
【特許文献2】特開2005−94709号公報
【発明の開示】
【発明が解決しようとする課題】
【0010】
上述したように、従来のノンリニア編集機等では、映像と音声を主な記録情報とした動画映像素材の内容を確認し、編集点、を決め、制作意図に沿った編集を行う行為には多くの工数を必要としていた。
【0011】
この発明の目的は、例えば編集点とすべき所望の映像シーンの検索を容易とすることにある。
【課題を解決するための手段】
【0012】
この発明の概念は、
音声テキストデータが関連付けされている映像データを取り扱う映像検索装置であって、
ユーザがキーワードを入力するキーワード入力部と、
上記音声テキストデータから上記キーワード入力部に入力されたキーワードを検索するキーワード検索部と、
モニタに、タイムラインを表示し、該タイムライン上に上記キーワード検索部で検索されたキーワード位置を表示する情報表示制御部と
を備えることを特徴とする映像検索装置にある。
【0013】
この発明においては、音声テキストデータが関連付けされた映像データを取り扱う。ここで、音声テキストデータとは、映像信号に対応した音声信号による音声の内容を示すテキストデータである。映像データおよび音声テキストデータは、例えば、HDD等のデータ保持部に保持されている。
【0014】
キーワード入力部にキーワードが入力されることで、キーワード検索部により、音声テキストデータから当該キーワードが検索される。例えば、キーワード入力部は、モニタに表示されるグラフィカルユーザインタフェース画面を用いて、キーワードを入力する、構成とされている。このようにグラフィカルユーザインタフェース画面を用いてキーワードを入力する構成とすることで、ユーザは、キーワードの入力を、容易、かつ誤りなく行うことができる。
【0015】
上述したようにキーワード検索が行われた後、情報表示制御部により、タイムライン上、例えば映像タイムライン上に、検索されたキーワード位置が表示される。このように、映像タイムライン上にユーザが入力したキーワード位置が表示されることで、ユーザは、所望の映像シーンの検索を容易に行うことができる。
【0016】
この発明において、例えば、ユーザがモニタの映像タイムライン上に表示されたキーワード位置から所定のキーワード位置を選択する位置選択部と、データ保持部に保持されている映像データに基づいて、位置選択部で選択されたキーワード位置に対応した代表画像をモニタに表示する画像表示制御部とをさらに備える、ようにされてもよい。この場合、ユーザにより選択されたキーワード位置に対応した代表画像がモニタに表示されることで、ユーザは、各キーワード位置に対応した映像シーンを容易に確認できる。
【0017】
また、この発明において、例えば、ユーザがモニタに表示された映像タイムライン上に表示されたキーワード位置から所定のキーワード位置を選択する位置選択部と、ユーザが再生を指示するための再生指示部と、位置選択部で所定のキーワード位置が選択された状態で、再生指示部で再生が指示されたとき、映像データに基づいて、所定のキーワード位置に対応した映像をモニタに表示する画像表示制御部とをさらに備える、ようにされてもよい。この場合、ユーザにより選択されたキーワード位置に対応した映像がモニタに表示されることで、ユーザは、各キーワード位置に対応した映像シーンを容易に確認できる。
【発明の効果】
【0018】
この発明によれば、音声テキストデータが関連付けされた映像データを取り扱うものにあって、入力されたキーワードが音声テキストデータから検索され、タイムライン上に検索されたキーワード位置が表示されるものであり、ユーザは、所望の映像シーンを容易に探すことができる。
【発明を実施するための最良の形態】
【0019】
以下、図面を参照しながら、この発明の実施の形態について説明する。
【0020】
「編集装置の構成」
【0021】
図1は、実施の形態としてのノンリニア編集機100の構成例を示している。このノンリニア編集機100は、CPU(Central Processing Unit)111と、ROM(Read OnlyMemory)112と、RAM(Random Access Memory)113と、表示コントローラ114と、モニタ115と、HDDインタフェース116と、HDD117と、ドライブコントローラ118と、メディアドライブ119と、入力インタフェース120と、入力部121と、音声出力インタフェース122と、スピーカ123と、システムバス124とを有している。
【0022】
CPU111、ROM112、RAM113は、システムバス124により相互に接続されている。システムバス124には、さらに、表示コントローラ114、HDDインタフェース116、ドライブコントローラ118、入力インタフェース120および音声出力インタフェース122が接続されている。
【0023】
CPU111は、ノンリニア編集機100の各部の動作を制御する。このCPU111は、ROM112、あるいはHDD117に記憶されているプログラムを、RAM113にロードして実行することで、各部の動作を制御する。
【0024】
モニタ115は、表示コントローラ114を介して、バス124に接続されている。モニタ115は、例えば、LCD(Liquid Crystal Display)、PDP(Plasma DisplayPanel)等で構成されている。表示コントローラ114は、CPU111の制御のもと、モニタ115に表示される画像、およびGUI用の表示を制御する。
【0025】
HDD117は、HDDインタフェース116を介して、システムバス124に接続されている。HDD117は、CPU111の制御のためのプログラム、編集素材としての映像データおよび音声データ等を格納する。
【0026】
なお、この実施の形態においては、音声テキストデータが関連付けされた映像データが取り扱われる。音声テキストデータは、映像データに対応した音声データによる音声の内容を示すテキストデータである。従って、HDD117に保持される各動画映像コンテンツの映像データには、それに対応する音声データの他に、さらに音声テキストデータが付加されている。この場合、映像データと、音声データおよび音声テキストデータとの関連付けは、タイムコードを介して行われている。
【0027】
メディアドライブ119は、ドライブコントローラ118を介して、システムバス124に接続されている。このメディアドライブ119は、各種記録メディアに対応するドライブ機能部であり、当該記録メディアに対する記録再生動作を行う。記録メディアとしては、例えば、CD、MD、CD−R、CD−RW、DVD、DVD−R、DVD−RW、Blu-ray Disc等の光ディスク、あるいはメモリカードがある。このメディアドライブ119は、例えば、編集素材としての映像データ等を入力し、また、編集後の映像データ等を出力するために使用される。
【0028】
入力部121は、入力インタフェース120を介して、システムバス124に接続されている。この入力部121は、ユーザが、各種の操作入力のため、さらにはデータ入力のために、使用する。この入力部121は、キーボード、マウス、リモートコマンダ、その他の入力デバイスで構成されている。
【0029】
スピーカ123は、音声出力インタフェース122を介して、システムバス124に接続されている。
【0030】
「映像および音声テキストのインデックスファイル、データファイル」
【0031】
次に、図1に示すノンリニア編集機100のHDD117に保持されている映像データ、音声テキストデータについて説明する。
【0032】
図2(a)、(b)は、映像のインデックスファイル、データファイルの構造の一例を示している。インデックスファイルは、データファイルとは独立したファイルとして作成される場合と、データファイルに含まれる場合とがある。この例は、インデックスファイルがデータファイルとは独立して作成された場合の例である。
【0033】
映像インデックスファイルは、HDD117のどのアドレスに何フレーム目のデータを記録してあるかを示す管理データである。この映像インデックスファイルには、インデックス総数、インデックス領域のサイズ、データファイルに含まれる全ての映像フレームデータのサイズと映像データファイル内のアドレスが含まれている。
【0034】
映像データファイルには、全ての映像フレームデータがそのサイズと共に含まれている。また、この映像データファイルには、映像ファイルヘッダが含まれている。さらに、映像データは圧縮されている場合が多く、この映像データファイルには、圧縮された映像データの圧縮を解くための情報も含まれている。
【0035】
なお、図示および説明は省略するが、音声データも同様に、タイムコード(TC)と同期して記録されている。この実施の形態において、タイムコードは全て連続に記録されたもので、映像フレーム(frame)番号と等価な情報である。
【0036】
本来、タイムコードは、時、分、秒、フレームの情報であるが、カムコーダ等により記録メディアに記録された素材には複数のクリップ(clip)がある。ここで、クリップとは、記録スタート(REC START)から記録ポーズ(REC PAUSE)までの記録部分を意味する。このクリップとクリップとのタイムコードが不連続であったり、あるいは別の記録メディアの間ではタイムコードが重複したりする場合もある。
【0037】
図1に示すノンリニア編集機100で、これらの素材をメディアドライブ119から入力してHDD117に記録する際、元のタイムコードとは別に、連続したフレーム番号を割り当てて記録する。この場合、0,1,2・・・とフレーム番号で管理してもよいし、連続したタイムコードを新たに割り当てて記録してもよい。
【0038】
図2のインデックスファイルで「オフセット」と書いてあるのは、例えば、基準点のアドレスを0としたときの、そこからの距離を意味しており、いわゆるオフセットアドレスである。「オフセット」の値から各映像フレームの先頭アドレスが解り、「オフセット」と「映像サイズ(圧縮記録のため、フレーム毎にデータ量は異なる)」から各映像フレームの終わりのアドレスが解る。
【0039】
図3(a),(b)は、音声テキストのインデックスファイル、音声テキストデータファイルの構造の一例を示している。インデックスファイルは、データファイルとは独立したファイルとして作成される場合と、データファイルに含まれる場合がある。この例は、インデックスファイルがデータファイルとは独立して作成される場合の例である。インデックスファイルには、インデックス総数、インデックス領域のサイズ、文単位またはフレーズ(区)単位の、in点およびout点のタイムコード、音声テキストデータのサイズが含まれている。
【0040】
音声テキストデータファイルには、各文または各フレーズに含まれる文字のテキストデータが、当該ワードのin点およびout点のタイムコードと共に含まれている。また、この音声テキストデータファイルには、文またはフレーズ毎に、データヘッダおよびデータサイズが含まれている。また、この音声テキストデータファイルには、音声テキストファイルヘッダが含まれている。
【0041】
検索システムとしてのCPU111は、音声テキストインデックスファイルからタイムコードに対応する音声テキストデータファイルのアドレスを知り、このアドレスにアクセスすることにより、音声テキストのデータファイルを読むことができる。また、検索システムとしてのCPU111は、読み込んだ音声テキストのデータをキーワードと比較することにより、音声テキストのキーワードとその位置(タイムコード)を検索することができる。
【0042】
図4(a)は、映像記録装置におけるタイムコードに音声テキストデータを織りいれた構成概念を示している。ここで、タイムコードは連続した時間、フレーム番号となっている。ここでは、不連続なタイムコード、同じタイムコードを含まないと仮定してある。この図4(a)において、タイムコードは一例として625/50フォーマットにて記載してあり、25フレーム/secである。
【0043】
「Plane Text」とは、コンピュータ上で文章を扱うための一般的なファイルフォーマット、または文字列の形式である。ここでは、説明の便宜上「文字」そのものを書いてある。実際には、テキストコード(漢字は2バイトデータ)で表されるが、ここでは、タイムコードとテキストデータの構成を説明するのが目的であるため、詳細なテキストコード、制御情報は省略している。
【0044】
図4(a)では、「新聞を取って」という日本語の例を示している。図の上から下へ縦方向に時間軸が定義されており、人の音声は無音(灰色)、有音(文字情報)にて表されている。人の発声はある時間幅をもっているため、ある時間区間(00:00:00:01〜00:00:00:17)は新(しん)を発声している区間を表している。図中の「text制御情報」は文字として表示されないテキストの制御情報を表す。例えば、タブ、垂直タブ、改行、改ページ、ファイル終端マーク、Byte Order Mark等があるが、ここでは、詳細は省略する。
【0045】
「文字in/out」は、文字のin点、out点を示し、タイムコード(time code)で結び付けられている。「フレーズ」は文字により構成されるフレーズまたは文を表し、「フレーズin/out」は、フレーズのin点、out点を示す。このように、文字単位、または、文単位のin/out点をタイムコードで定義することにより、さまざまな動画、音声の制御が可能となる。すなわち、あるテキスト文字に対応する映像サムネール画を表示したり、対応する音声を再生したり、該当テキスト文字を含む文章の先頭(フレーズin点)にキューアップ(cue up)して再生し、out点で再生を停止する、等が可能となる。また、あるテキスト文(例「新聞」)を検索し、素材の中から一致する複数の該当箇所を表示することが可能となる。さらに、複数の文章を塊として検索し、似た文章がある候補の場所を検索することも可能である。
【0046】
図4(b)は、図4(a)から、エッセンス、つまり文字のin点、out点を抜き出したもので、この状態で音声テキストのデータファイルを構成する(図3(b)参照)。
【0047】
「音声テキストを用いたキーワードによる動画検索」
【0048】
次に、図1に示すノンリニア編集機100における動画検索について説明する。ノンリニア編集機100においては、取り込んだ動画素材を編集する際、編集点を決めるため、所望の映像シーンを、音声テキストを用いて検索できる。
【0049】
<キーワード検索>
【0050】
ユーザ(編集オペレータ)がキーワードとなる文字を入力して、素材の中から所望映像シーンを効率よく選択し、確認することにより、編集作業の前工程を行う。図5のフローチャートを用いて、CPU111のキーワード検索処理を説明する。
【0051】
CPU111は、ステップST1において、キーワード検索処理を開始し、その後に、ステップST2の処理に移る。このステップST2において、ユーザの入力部121の操作によってキーワードが入力されると、CPU111は、ステップST3の処理に移る。
【0052】
図6は、モニタ115に表示されているユーザインタフェース画面を示している。このユーザインタフェース画面には、上部側に画像を表示するための2つの画像表示位置(1),(2)が設けられている。また、このユーザインタフェース画面には、下部側にタイムライン(3)、映像タイムライン(4)、音声タイムライン(5),(7)、および音声テキストタイムライン(6),(8)が設けられている。映像タイムライン(4)におけるa,b,c,dはクリップを示している。音声タイムライン(5),(7)には、映像タイムライン(4)に表示された各クリップに対応した音声信号の波形が表示される。また、音声テキストタイムライン(6),(8)には、映像タイムライン(4)に表示された各クリップに対応した音声の内容が表示される。
【0053】
また、このユーザインタフェース画面には、下部側に、キーワード検索時にキーワードを入力するためのキーワード枠(9)と共に、さらに、検索開始を指示する検索釦(10)、Previous釦(11)、再生釦(12)、Next釦(13)、および再生停止釦(14)が設けられている。
【0054】
ユーザは、図6に示すようなユーザインタフェース画面におけるキーワード枠(9)へキーワード(この例では、「春一番」)を、入力部121のマウス、キーボードを使って入力する。このGUIプログラムでは、日本語が用意されており、キーワードが入力されると、図7に示すように、キーワード枠(9)にキーワードが表示される。
【0055】
ステップST3において、ユーザの入力部121の操作によってユーザインタフェース画面上の検索釦(10)が押されると、CPU111は、ステップST4の処理に移る。このステップST4において、CPU111は、キーワードを、テキストコードに変換する。
【0056】
次に、CPU111は、ステップST5において、キーワードのテキストコードと、図3の音声テキストデータファイルのテキストコードを、RAM113に取り込み、比較する。CPU111は、ステップST6において、一致したか否かを判断する。一致していないとき、CPU111は、ステップST7において順次比較のためキーワードを1文字移動し、その後に、ステップST5に戻って、上述したと同様の動作を繰り返す。
【0057】
図3は、#1、#2、・・・#Nまでのフレーズまたは文のテキストデータである。キーワード検索をする場合、目的とする「テキストコード」と、「図3の#1の丸1,丸2,丸3,丸4,丸5,・・・,#Nの最後のテキストコード」と一致するデータを順次比較して検出する。この処理を、上述のステップST5〜ST7により行っている。図8は、キーワードを音声テキストと比較する様子を、横軸を時間軸として、模式的に示している。
【0058】
ステップST6で一致したと判断したとき、CPU111は、ステップST8において、一致したテキストコードのin,outのタイムコードを読む。そして、CPU111は、ステップST9において、該当タイムコードをインテンド表示する。例えば、CPU111は、映像タイムライン上に、検索されたキーワード位置を、色、明暗で区別した線(棒線、丸、楕円等)によりインテンド表示する(図7の映像タイムライン(4)参照)。
【0059】
ここで、1本の線の太さは、ユーザ(編集オペレータ)に目視可能な太さに自動的に設定される。すなわち、1本の線の太さは、タイムライン表示幅、時間刻み幅をパラメータとして自動設定される。この結果、タイムラインの縮尺に応じて一致した場所を表示する線の太さを変えることができる。例えば、映像タイムラインが1フレーム時間幅を目視可能な十分な拡大表示を行った場合は1フレームの時間幅と一致させるが、これは稀なケースである。
【0060】
なお、この実施の形態においては、図7に示すように、映像タイムライン(4)上に検索されたキーワード位置が表示されているが、検索されたキーワード位置を例えばタイムライン(3)上にインテンド表示されるようにしてもよい。また、インテンド表示は、図7に示すように、複数の棒で頻度を表してもよいし、ヒストグラム(頻度を表す棒グラフ)で表してもよい。
【0061】
次に、CPU111は、ステップST10において、最終テキストコードか否かを判断する。最終テキストコードでないとき、CPU111は、ステップST7において、順次比較のため、キーワードを1文字移動し、その後に、ステップST5の処理に戻る。一方、ステップST10で最終テキストコードであるとき、CPU111は、ステップST11において、キーワード検索を終了する。
【0062】
キーワードとの一致の頻度が高いタイムライン部分(図7のクリップd参照)では一致したキーワードの各点のインテンド表示は繋がり、帯状の表示になる。また、キーワードの頻度が低いタイムラインの部分(図7のクリップa,b参照)では棒線で表示され、ユーザは一目しただけで所望のキーワードポイントの統計分布と近傍クリップとの関係を理解できる。
【0063】
なお、キーワードが複数ある場合、CPU111は、それぞれ異なる色、輝度で識別可能なインテンド方法を自動的に選択し、表示を行う。また、図5のフローチャートは一例であって、これに限定されるものではない。例えば、予め同じ熟語(文字)がある場所(タイムコード)を検索して表にしておき、検索実行コマンドにより表から場所を読み出す方法もある。
【0064】
<所望シーンの確認>
【0065】
ユーザ(編集オペレータ)は、上述したように検索された各キーワード位置から、所望の映像シーンを検索し、編集点を決定できる。図9のフローチャートを用いて、CPU111の映像シーンの検索処理を説明する。
【0066】
CPU111は、ステップST21において、映像シーンの検索処理を開始し、その後に、ステップST22の処理に移る。このステップST22において、CPU111は、カーソル位置の文またはフレーズのin点にキューアップ(cue up)し、対応するサムネールを表示する。
【0067】
例えば、図7のユーザインタフェース画面において、カーソルCAは図示のように、映像タイムライン(4)等に直交した状態で表示される。このカーソルCAの位置は固定とされ、最初、検索されたキーワード位置のうち1番目のキーワード位置がカーソルCAと一致した状態で表示される。この場合、最初のキーワード位置が、図3(b)に示す音声テキストデータファイルの#1の文またはフレーズに対応する場合、in点(t1)にキューアップし、このin点(t1)のタイムコードに対応するサムネールを、例えばHDD117から読み出し、図7のユーザインタフェース画面の画像表示位置(1)に表示する。
【0068】
次に、CPU111は、ステップST23において、ユーザの入力部121の操作によってユーザインタフェース画面上のNext釦(13)、または、Previous釦(11)が押されたか、さらには、再生釦(12)が押されたか、判断する。Next釦(13)、または、Previous釦(11)が押されたとき、CPU111は、ステップST22に戻る。
【0069】
この場合、Next釦(13)が押されるときは、CPU111は、カーソルCAに次のキーワード位置が一致した状態となるようにユーザインタフェース画面を変更し、カーソル位置の文またはフレーズのin点にキューアップ(cue up)し、対応するサムネールを表示する。なお、カーソルCAが最後のキーワード位置にあるときには、Next釦(13)が押されても、同じ状態を維持する。
【0070】
一方、Previous釦(11)が押されるときは、CPU111は、カーソルCAに前のキーワード位置が一致した状態となるようにユーザインタフェース画面を変更し、カーソル位置の文またはフレーズのin点にキューアップ(cue up)し、対応するサムネールを表示する。なお、カーソルCAが最初のキーワード位置にあるときには、Previous釦(11)が押されても、同じ状態を維持する。
【0071】
また、ステップST23で再生釦(12)が押されるときは、CPU111は、ステップST24において、HDD117を制御し、in点からout点まで、映像、音声、音声テキストを再生する。この場合、再生映像は、図7のユーザインタフェース画面の画像表示位置(2)に表示される。また、再生映像に同期した音声出力が音声タイムライン(6)に拡大表示され、再生映像に同期した音声テキストがテキストタイムライン(8)に拡大表示される。これにより、ユーザ(編集オペレータ)は、カーソルCAが位置するキーワード位置に対応した映像、音声、音声テキストを確認できる。なお、音声タイムライン(6)には、音声波形が表示される。
【0072】
例えば、キーワード位置が、図3(b)に示す音声テキストデータファイルの#1の文またはフレーズに対応する場合、当該#1の文またはフレーズのin点(t1)からout点(t2)までに対応した映像、音声、音声テキストをユーザは確認できる。なお、再生終了後は、図7のユーザインタフェース画面の画像表示位置(2)に、out点の静止画像が表示された状態におかれる。
【0073】
次に、CPU111は、ステップST25において、ユーザの入力部121の操作によってユーザインタフェース画面上のNext釦(13)、または、Previous釦(11)が押されたか判断する。これらの釦が押されたとき、CPU111は、ステップST22の処理に戻り、上述したと同様の処理を繰り返す。一方、ステップST25でNext釦(13)、または、Previous釦(11)の操作がないとき、CPU111は、ステップST26において、映像シーンの検索処理を終了する。
【0074】
ユーザ(編集オペレータ)は、上述の図9のフローチャートに基づく、映像シーンの検索を行うことで、編集点とすべき所望の映像シーンを検索できる。なお、ユーザ(編集オペレータ)は、図7の映像タイムライン(4)における、キーワード位置の頻度の高い帯状部分をマウスを用いてドラッグして所定区間をインテンド表示し、当該区間を連続的に再生して映像、音声内容を確認することもできる。
【0075】
図10は、編集アプリケーションプログラムから見たキーワード検索の処理の流れを概念的に示したものである。なお、[n]は、図5のフローチャートのステップ番号に対応している。編集アプリケーションプログラムに含まれる「GUI」は入力操作を含め、GUI表示を行う。「検索機能」はGUI入力されたキーワードのテキスト文字をテキストコードに変換し、データファイルとテキストコードを比較し、一致したタイムコードを読み、GUI表示させる。「コマンド発行」はインデックスファイルを読み出し、データファイルの読むべきアドレスを知った上で、キューアップ(Cue up)再生、停止などのコマンドをストレージに対し発行する。
【0076】
同様に、図11、図12は、編集アプリケーションプログラムから見た映像シーン検索の処理の流れを概念的に示したものである。なお、[n]は、図9のフローチャートのステップ番号に対応している。
【0077】
以上説明したように、図1に示すノンリニア編集機100においては、音声テキストデータが関連付けされた映像データを取り扱うものであって、ユーザ(編集オペレータ)により入力されたキーワードが音声テキストデータから検索され、映像タイムライン上に検索されたキーワード位置が表示される(図7参照)。したがって、ユーザは、例えば編集点とすべき所望の映像シーンを容易に探すことができる。
【0078】
また、図1に示すノンリニア編集機100においては、ユーザ(編集オペレータ)は、モニタ115に表示されるグラフィカルユーザインタフェース画面(図6、図7参照)を用いて、キーワードを入力するものであり、キーワードの入力を、容易、かつ誤りなく行うことができる。
【0079】
また、図1に示すノンリニア編集機100においては、ユーザ(編集オペレータ)が、モニタ115の映像タイムライン上に表示されたキーワード位置から所定のキーワード位置を選択したとき、選択された代表画像(サムネール)がモニタ115の画像表示位置(1)にされるものであり、ユーザ(編集オペレータ)は、各キーワード位置に対応した映像シーンを容易に確認できる。
【0080】
また、図1に示すノンリニア編集機100においては、ユーザ(編集オペレータ)が、モニタ115の映像タイムライン上に表示されたキーワード位置から所定のキーワード位置を選択し、再生を指示したとき、映像データに基づいて、所定のキーワード位置に対応した映像がモニタ115の画像表示位置(2)に表示されるものであり、ユーザ(編集オペレータ)は各キーワード位置に対応した映像シーンを容易に確認できる。
【0081】
なお、上述実施の形態においては、1つの単語、例えば「春一番」を用いて行う単純なキーワード検索を示したが、キーワード検索は単数、複数の単語による条件式で可能である。例えば、「日米野球」or「イチロー」を条件式とする場合、音声テキストから「日米野球」と「イチロー」を検索し、別々の色、または同色でインテンド表示する。また、例えば、「天気」and 「女性」を条件式とする場合、女性の声で「天気」を検索し、インテンド表示する。この場合、音声は高速フーリエ変換により男女別に判定する。また、例えば、「春一番が吹き」を条件式として、フレーズで検索する。また、例えば、「weather forecast」を条件式として、英語で検索する。
【0082】
また、上述したように検索された結果、すなわち「キーワード」、キーワード部分のタイムコード等を保存し、2次利用するようにしてもよい。
【0083】
また、キーワード検索は、完全一致のテキスト部分を検索するだけでなく、一致率の高いテキスト部分を検索し、例えば一致率の高い順に色分けして表示するようにしてもよい。
【0084】
また、上述実施の形態においては、この発明をノンリニア編集機に適用したものであるが、この発明は、音声テキストデータが関連づけされて記録されている映像データを取り扱う、その他の映像機器にも同様に適用できる。
【産業上の利用可能性】
【0085】
この発明は、所望の映像シーンを容易に検索できるものであり、例えば、ノンリニア編集機等に適用できる。
【図面の簡単な説明】
【0086】
【図1】この発明の実施の形態としてのノンリニア編集機の構成例を示すブロック図である。
【図2】映像のインデックスファイルおよびデータファイルの構造の一例を示す図である。
【図3】音声テキストのインデックスファイルおよびデータファイルの構造の一例を示す図である。
【図4】映像記録装置におけるタイムコードに音声テキストデータを織りいれた構成概念を示す図である。
【図5】CPUのキーワード検索処理の一例を示すフローチャートである。
【図6】モニタに表示されているユーザインタフェース画面の一例を示す図である。
【図7】モニタに表示されているユーザインタフェース画面の一例を示す図である。
【図8】キーワードを音声テキストと比較する様子を、横軸を時間軸として、模式的に示した図である。
【図9】CPUの映像シーンの検索処理の一例を示すフローチャートである。
【図10】編集アプリケーションプログラムから見たキーワード検索の処理の流れを概念的に示した図である。
【図11】編集アプリケーションプログラムから見た映像シーン検索の処理の流れを概念的に示した図である。
【図12】編集アプリケーションプログラムから見た映像シーン検索の処理の流れを概念的に示した図である。
【符号の説明】
【0087】
100・・・ノンリニア編集機、111・・・CPU、112・・・ROM、113・・・RAM、114・・・表示コントローラ、115・・・モニタ、116・・・HDDインタフェース、117・・・HDD、118・・・ドライブコントローラ、119・・・メディアドライブ、120・・・入力インタフェース、121・・・入力部、122・・・音声入力インタフェース、123・・・スピーカ
【特許請求の範囲】
【請求項1】
音声テキストデータが関連付けされた映像データを取り扱う映像検索装置であって、
ユーザがキーワードを入力するためのキーワード入力部と、
上記音声テキストデータから上記キーワード入力部により入力されたキーワードを検索するキーワード検索部と、
モニタに、タイムラインを表示し、該タイムライン上に上記キーワード検索部で検索されたキーワード位置をインテンド表示する情報表示制御部と
を備えることを特徴とする映像検索装置。
【請求項2】
上記キーワード入力部は、
上記モニタに表示されるグラフィカルユーザインタフェース画面を用いて、上記キーワードを入力する
ことを特徴とする請求項1に記載の映像検索装置。
【請求項3】
ユーザが上記モニタに表示された上記タイムライン上に表示されたキーワード位置から所定のキーワード位置を選択する位置選択部と、
上記映像データに基づいて、上記位置選択部で選択されたキーワード位置が存在する音声テキスト部分に対応した代表画像を上記モニタに表示する画像表示制御部とをさらに備える
ことを特徴とする請求項1に記載の映像検索装置。
【請求項4】
ユーザが上記モニタに表示された上記タイムライン上に表示されたキーワード位置から所定のキーワード位置を選択する位置選択部と、
ユーザが再生を指示するための再生指示部と、
上記位置選択部で所定のキーワード位置が選択された状態で、上記再生指示部で再生が指示されたとき、上記映像データに基づいて、上記所定のキーワード位置に対応した映像を上記モニタに表示する画像表示制御部とをさらに備える
ことを特徴とする請求項1に記載の映像検索装置。
【請求項5】
音声テキストデータが関連付けされた映像データを取り扱う映像検索部を有する編集装置であって、
上記映像検索部は、
ユーザがキーワードを入力するキーワード入力部と、
上記音声テキストデータから上記キーワード入力部に入力されたキーワードを検索するキーワード検索部と、
モニタに、タイムラインを表示し、該タイムライン上に上記キーワード検索部で検索されたキーワード位置を表示する情報表示制御部とを備える
ことを特徴とする編集装置。
【請求項6】
音声テキストデータが関連付けされた映像データを取り扱う映像検索方法であって、
ユーザがキーワードを入力するキーワード入力ステップと、
上記音声テキストデータから上記キーワード入力ステップで入力されたキーワードを検索するキーワード検索ステップと、
モニタに、タイムラインを表示し、該タイムライン上に上記キーワード検索ステップで検索されたキーワード位置をインテンド表示する情報表示制御ステップと
を備えることを特徴とする映像検索方法。
【請求項7】
コンピュータを、
映像データに関連付けされて記憶されている音声テキストデータから入力されたキーワードを検索するキーワード検索手段と、
モニタに、上記映像データに対応したタイムラインを表示し、該タイムライン上に上記キーワード検索手段で検索されたキーワード位置を表示する情報表示制御手段と
して機能させるためのプログラム。
【請求項1】
音声テキストデータが関連付けされた映像データを取り扱う映像検索装置であって、
ユーザがキーワードを入力するためのキーワード入力部と、
上記音声テキストデータから上記キーワード入力部により入力されたキーワードを検索するキーワード検索部と、
モニタに、タイムラインを表示し、該タイムライン上に上記キーワード検索部で検索されたキーワード位置をインテンド表示する情報表示制御部と
を備えることを特徴とする映像検索装置。
【請求項2】
上記キーワード入力部は、
上記モニタに表示されるグラフィカルユーザインタフェース画面を用いて、上記キーワードを入力する
ことを特徴とする請求項1に記載の映像検索装置。
【請求項3】
ユーザが上記モニタに表示された上記タイムライン上に表示されたキーワード位置から所定のキーワード位置を選択する位置選択部と、
上記映像データに基づいて、上記位置選択部で選択されたキーワード位置が存在する音声テキスト部分に対応した代表画像を上記モニタに表示する画像表示制御部とをさらに備える
ことを特徴とする請求項1に記載の映像検索装置。
【請求項4】
ユーザが上記モニタに表示された上記タイムライン上に表示されたキーワード位置から所定のキーワード位置を選択する位置選択部と、
ユーザが再生を指示するための再生指示部と、
上記位置選択部で所定のキーワード位置が選択された状態で、上記再生指示部で再生が指示されたとき、上記映像データに基づいて、上記所定のキーワード位置に対応した映像を上記モニタに表示する画像表示制御部とをさらに備える
ことを特徴とする請求項1に記載の映像検索装置。
【請求項5】
音声テキストデータが関連付けされた映像データを取り扱う映像検索部を有する編集装置であって、
上記映像検索部は、
ユーザがキーワードを入力するキーワード入力部と、
上記音声テキストデータから上記キーワード入力部に入力されたキーワードを検索するキーワード検索部と、
モニタに、タイムラインを表示し、該タイムライン上に上記キーワード検索部で検索されたキーワード位置を表示する情報表示制御部とを備える
ことを特徴とする編集装置。
【請求項6】
音声テキストデータが関連付けされた映像データを取り扱う映像検索方法であって、
ユーザがキーワードを入力するキーワード入力ステップと、
上記音声テキストデータから上記キーワード入力ステップで入力されたキーワードを検索するキーワード検索ステップと、
モニタに、タイムラインを表示し、該タイムライン上に上記キーワード検索ステップで検索されたキーワード位置をインテンド表示する情報表示制御ステップと
を備えることを特徴とする映像検索方法。
【請求項7】
コンピュータを、
映像データに関連付けされて記憶されている音声テキストデータから入力されたキーワードを検索するキーワード検索手段と、
モニタに、上記映像データに対応したタイムラインを表示し、該タイムライン上に上記キーワード検索手段で検索されたキーワード位置を表示する情報表示制御手段と
して機能させるためのプログラム。
【図1】
【図2】
【図3】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図4】
【図2】
【図3】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図4】
【公開番号】特開2009−163643(P2009−163643A)
【公開日】平成21年7月23日(2009.7.23)
【国際特許分類】
【出願番号】特願2008−2658(P2008−2658)
【出願日】平成20年1月9日(2008.1.9)
【出願人】(000002185)ソニー株式会社 (34,172)
【Fターム(参考)】
【公開日】平成21年7月23日(2009.7.23)
【国際特許分類】
【出願日】平成20年1月9日(2008.1.9)
【出願人】(000002185)ソニー株式会社 (34,172)
【Fターム(参考)】
[ Back to top ]