映像データ処理装置、映像データ処理方法、プログラム及び記録媒体

【課題】映像データの内容記述に際し、情報を入力する者の意図が反映されるようにして、自由度のある映像検索が行えるようにする。
【解決手段】映像データを編集し、検索するための映像データ編集・検索装置１において、映像における画像特徴量、音声特徴量の解析を行う特徴量解析部３０９を内部に持ち、その解析結果によりシーン変化の検出を行うシーン変化検出部３０８と、文字及び音声によって装置からの質問項目を出力するメッセージ作成部３０１と、質問項目に答える形で文字及び音声によってユーザーからの内容記述入力を受けつける入力部３１２とを備え、更に質問項目作成部３１０により自由記述事項を質問項目として追加されるようにした。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、映像データ処理に関し、特に大量の映像の中から所望の映像を選択的に視聴することを可能にする、映像の構造化を行うための映像データ処理に関するものである。
【背景技術】
【０００２】
近年、通信技術の発達及びハードディスクの大容量化にともない映像データを大量に蓄積し、この映像データの中から所望の映像を選択視聴できるようなシステムの開発がなされている。即ち、撮影された映像を再活用するために映像情報に対して内容記述を行い、この記述情報を基に映像検索を行うといったシステムが従来より提案されている。このようなシステムにおいては一般に、記述を行うためにはビデオを再生して、内容がまとまったところで停止して、その部分の記述を行うという方法をとることが多い。通常撮影されたビデオは一度はその撮影関係者がそろった状態で見られるものであり、その際には撮影時の状況について撮影関係者間で語られたり、あるいはその状況を知らない第三者に説明を行うといったことが行われる。
このようなシステムにおいては、所望の映像データを選択するために映像データに対して予め意味ベースに構造を区切り、これに対する情報を記述することが必要である。このように、映像データに内容記述するためには、まず映像を巻き戻して、再生しながら、意味的に区切れるシーンを検出し、さらにその映像シーンに合わせた内容を入力しなければならないため、映像データの実時間に対して少なくともその数倍の時間を要し、多大な労力を要するものであった。
上記問題に対しては、内容記述の単位となるシーンの切り替わりを自動検出することにより、内容記述の時間や労力を低減し、内容記述の際にも、映像内容を知らない第三者に、映像が撮影された状況を語るという設定をモニター上に登場するキャラクターに受け持たせることにより、家族で撮影されたビデオを視聴する際に、子供でもモニター上に現れるキャラクターとの対話を楽しみながら、内容記述を行うことができる映像データ編集・検索装置が提案されている（特許文献１参照）。
【特許文献１】特開２００３−１７８０７６公報
【非特許文献１】ITU-T G729 AnnexB A silence compressoion scheme for G.729 optimized for terminals conforming to Recommendation V.70
【非特許文献２】ドラマにおける話者インデキシングの検討、西田他、音響学会１９９９春
【非特許文献３】基本周波数パターンのパラメータの個人差、藤崎、大野他、音響学会１９９９春
【非特許文献４】画像処理アルゴリズムの最新動向、新技術コミュニケーションズ
【非特許文献５】Ｃ言語で学ぶ実践画像処理、オーム社
【非特許文献６】明るさ不安定環境下における人物検知法、１９９６年電子情報通信学ソサイエティ大会論文集
【非特許文献７】横山敏明著「テレビ番組記述言語ＴＶＭＬに基づく番組生成／対話型編集システム」
【非特許文献８】第３回知能情報メディアシンポジュウム、１９９７年１２月
【非特許文献９】横山敏明著「テレビ番組記述言語ＴＶＭＬのマシンインタフェースの開発」電子情報ソサイエティ大会、１９９７年
【発明の開示】
【発明が解決しようとする課題】
【０００３】
しかしながら、上記従来技術は、映像データの特徴量を利用して質問内容を生成し、この質問に対する回答という形でしか内容記述ができず、情報を入力する者の意図が反映されないという問題があった。
本発明はこのような問題を解消し、映像データの内容記述に際し、情報を入力する者の意図が反映されるようにして、自由度のある映像検索が行えるようにすることを目的とする。
【課題を解決するための手段】
【０００４】
上記の課題を解決するために、請求項１に記載の発明は、音声と共に記録されている映像データにシーン毎に映像内容情報を付加する映像データ処理装置において、シーンに関する質問項目を作成する質問項目作成手段と、前記質問項目に対応させて文字または音声によってユーザーからの内容記述入力を受付ける入力手段とを備え、前記質問項目作成手段は、自由記述で入力された記述項目を質問項目に追加することを特徴とする。
また、請求項２は、請求項１記載の映像データ処理装置において、前記質問項目作成手段は、前記入力部より質問項目に対する情報が入力されなかった質問項目を削除することを特徴とする。
また、請求項３は、請求項１または２記載の映像データ処理装置において、前記内容記述された部分を検索する検索手段を設け、前記検索手段が検索したシーンまたはシーンの部分から映像データを再生するようにしたことを特徴とする。
また、請求項４は、請求項３記載の映像データ処理装置において、前記検索手段は、ネットワーク上の他の映像データ処理装置にある前記映像データの内容記述された部分の検索を可能にする通信手段を備えたことを特徴とする。
また、請求項５は、音声と共に記録されている映像データにシーン毎に映像内容情報を付加する映像データ処理方法において、シーンに関する質問項目を作成する質問項目作成するステップと、前記質問項目に対応させて文字または音声によってユーザーからの内容記述入力を受付ける入力ステップとを有し、前記質問項目作成ステップは、自由記述で入力された記述項目を質問項目に追加することを特徴とする。
また、請求項６は、請求項５記載の映像データ処理方法において、前記質問項目作成ステップは、前記入力部より質問項目に対する情報が入力されなかった質問項目を削除することを特徴とする。
また、請求項７は、請求項５または６記載の映像データ処理方法において、前記内容記述された部分を検索する検索ステップを設け、検索したシーンまたはシーンの部分から映像データを再生するようにしたことを特徴とする。
また、請求項８は、請求項７記載の映像データ処理方法において、前記検索ステップは、ネットワーク上の他の映像データ処理装置にある前記映像データの内容記述された部分の検索を可能にする通信機能を備えたことを特徴とする。
また、請求項９は、コンピュータを、請求項１、２、３または４に記載の映像データ処理装置として機能させるためのプログラムであることを特徴とする。
また、請求項１０は、請求項９に記載の映像データ処理プログラムを記録したコンピュータ読み取り可能な記録媒体であることを特徴とする。
【発明の効果】
【０００５】
以上説明したように、映像シーンの切り替わり毎にディスプレイ上に表示される文字や音声での質問による内容記述事項以外にも編集者の意図に応じて自由な内容記述を行うことができ、自由に記述された事項が質問項目として追加されるので、次回編集する際には編集者の意図に応じた記述事項を提示することができる。
また、質問事項に対して入力されなかった記述項目が削除されるので、効率的に必要な内容記述項目だけを入力することができる。
また、単体での映像データの処理と検索、さらにネットワーク上に接続された映像データ処理装置に登録された情報から所望の映像を検索、再生することができる。
【発明を実施するための最良の形態】
【０００６】
以下、本発明の実施の形態を詳細に説明する。まず本発明の概要について述べる。前述したように、通常撮影されたビデオは、一度はその撮影関係者がそろった状態で見られるものであり、その際には撮影時の状況について撮影関係者間で語られたり、あるいはその状況を知らない第三者に説明を行うといったことが行われる。
本発明の映像データ処理装置は、この状況を知らない第三者に語るという設定をモニター上に登場するキャラクター（ＴＶＭＬなどにより実現される）に受け持たせることにより、家族で撮影されたビデオを視聴する際に子供でも、モニター上に現れるキャラクターとの対話を楽しみながら、内容記述を行うものである。なお、本実施例では本発明の映像データ処理装置を、映像データそのものを編集・加工する訳ではないが、映像データに関連付けて情報の付加や検索を行うので、映像データ編集・検索システム（装置）として説明する。
まず、内容記述を行う場合には映像データ編集・検索装置で内容記述モードの選択を行う。すると、これから内容記述を始めることを知らせるメッセージが音声、またはディスプレイ上に表示される。そして、テープが再生されるとともに、映像データはシーン変化検出装置によってシーン変化の解析が行われる。変化点が検出されるとテープが停止し、変化点情報に対応した内容記述を行うための情報（５Ｗ１Ｈなど）の質問が行われる。
つまり、“いつ行ったの？”とキャラクターから質問が行われる。この質問に対して“２０ＸＸ年１２月○日。”とマイクに向かって答える。さらにキャラクターは、“どこに行ったの？”とか、“誰と？”、“何したの？”などと言った記述内容のための問い掛けを行う。１つのシーンに対する内容記述項目の質問が一通りなされると、“それは楽しかったねえ。もう僕に話すことはないかな”などと、キャラクターから現在のシーンに対する内容記述の入力を終了してもよいかの質問がなされる。
【０００７】
これに対して“おしまい。”などと終了する旨の応答を返した場合には、次のシーンが再生され、前述したような映像に対する内容記述に対する質問が繰り返し行われるとともに記述した結果が記録される。もし、さらに入力したい内容がある場合は、“もっとある。”というような返答を返すと、“どんなこと？”と音声でキャラクターが質問してくるとともにモニター上には、入力項目のリストが表示され、表示されている項目の中から選んで答えるように指示がなされる。この中から“何を”を選択すると、“何をしたの？”とキャラクターから質問がなされる。これに答えると、再度内容記述を終了してもいいか確認が行われ、さらに、質問項目以外に編集者がシーンに関して記述したい事柄を自由に入力することができる。
このように対話をしながら内容記述が行われ、映像が最後まで再生されると、終了のメッセージを出力して内容記述メニューを終了する。
映像データ検索装置においてはこのように内容記述されたデータに対してユーザーが検索要求を入力すると、検索部によって内容記述データに対して要求と一致するものがないか探索が行われ、一致したものが見つかった場合その情報を表示する。
【０００８】
次に本発明の詳細を図面を用いて説明する。本発明による映像データの編集及び検索を実施する対話型映像データ編集・検索装置のシステム構成の一例を図１に示す。また、映像データ編集・検索装置における処理フローを図２に示す。図３には映像データ編集・検索装置の構成を示す。図４に映像データ編集・検索装置で映像の編集を行う際にディスプレイに表示される内容記述インタフェイス画面の例を示す。図５にはシーン変化検出処理ブロックを示す。図６に映像の変化と質問事項の生成フローを示す。また、図７に質問事項とフラグビットパターンを示す。図８にＴＶＭＬ作成ブロックの例を示す。図９にメタ情報ファイル作成部構成を示す。図１０にＴＶＭＬ台本の例を示す。図１１〜図１３にＭＰＥＧ−７内容記述ファイル例を示す。
まず本システムの構成を図１に基づいて説明する。本システムは、映像データ編集・検索装置１と、映像データと作成されたＴＶＭＬ情報のうち、視覚に係わる情報（画像情報）を表示するためのディスプレイ装置２と、映像データとＴＶＭＬ情報のうち、音声に係わる情報（音声情報）を提示するためのスピーカー３と、映像データに対して作成された構造情報、内容記述情報を格納するための記録媒体であるディスクを駆動するディスクドライブ装置（以下、単にディスク装置という）４と、記述内容や検索条件を音声により入力するための入力装置５とを備えている。
映像データ編集・検索装置１とディスプレイ装置２との間は、ビデオ信号ケーブル９によって接続され、映像データ編集・検索装置１とスピーカー３との間は、オーディオ信号ケーブル６により接続されている。映像データ編集・検索装置１とディスク装置４との間は、例えばＳＣＳＩ（Small Computer System Interface）仕様のデータケーブル７により接続されている。入力装置５は、音声信号ケーブル８によって映像データ編集・検索装置１に接続されている。
【０００９】
映像データ編集・検索装置１のその内部構成は、後述する図３に示すようになっている。ディスプレイ装置２は、例えば１９インチ型のＣＲＴ（陰極線管）が用いられる。ディスク装置４としては、例えば、磁気ディスクを記録媒体として使用してデータの記録及び再生を行うものが使用される。この磁気ディスクには、この動画ファイルに関連付けられた１つまたは複数のメタ情報ファイルが格納されるようになっている。なお、メタ情報ファイルについては後述する。
ここで、記録媒体は、磁気ディスクに限らず、他の記録媒体であってもよい。例えば、ＣＤ−Ｒ（書き込み可能ＣＤ）やＣＤ−ＲＷ（書き替え可能ＣＤ）、ＤＶＤ（ディジタルビデオディスク）等の光ディスク、あるいは光磁気ディスク等であってもよい。また、ディスク装置４は、本体に内蔵されたものであってもよい。
映像データ編集・検索装置１に入力装置５を接続する音声信号ケーブル８は、映像データ編集・検索装置１の内部で図３の音声信号入出力部３１２と直結されており、これにより、入力装置５から入力された音声は、そのまま映像データ編集・検索装置１に供給されるようになっている。
【００１０】
図３は、映像データ編集・検索装置１の内部構成を表すものである。この図に示したように、映像データ編集・検索装置１は、この装置全体の動作を制御するＣＰＵ３００、ビデオテープの再生を行うビデオデッキ３２０、画像、音声特徴量を用いて自動的にシーンの変化点を検出する、シーン変化検出部３０８、ビデオ駆動制御部３１４、ビデオ信号入出力部３１３、音声信号入出力部３１２から入力された音声信号をディジタル信号に変換するＡ／Ｄ変換器３１１、映像データから所望のデータを検索するための検索を行う映像データ検索部３１５、対話型インタフェイスによるメッセージ出力プログラムの作成を行うメッセージ作成部３０１、シーン変化点による映像の構造・内容記述情報をメタ情報としてメタ情報ファイルとして作成するメタ情報作成部３０２、メモリ３０６、ＯＳやアプリケーションプログラム等が格納されたハードディスク装置（ＨＤＤ）３０７、ディスプレイ装置２とのインタフェイスとして機能するディスプレイ接続部３１７を備えている。
また、ＨＤＤ３０７に格納されたＯＳは、いわゆるＧＵＩ機能を備えたもので、これにより、ユーザーは、主として入力装置５とディスプレイ装置２の画面表示とによってインタラクティブに（対話形式で）操作ができるようになっている。ビデオ駆動制御部３１４はビデオ駆動に関する制御信号の入出力を行う。そして、映像データ編集・検索装置を構成する各部とはシステムバス３１６によって相互に接続されている。
【００１１】
以上のような構成の映像データ編集、検索装置の動作について、図２に示す映像データ編集・検索装置における処理フローにより説明する。まず、図２の２０１で映像の再生が行われ、テープは図３に示すビデオデッキ３２０で再生される。そして、ビデオ映像は図２の２０３で音声・画像特徴量の解析が行われる。図３に示すようにビデオ信号と音声信号とに分離され、音声信号入出力部３１２とビデオ信号入出力部３１３からそれぞれの信号が出力される。次に、分離された音声信号とビデオ信号の解析方法について説明する。
音声信号入出力部３１２から出力された音声信号はＡ／Ｄ変換器３１１によりアナログ信号からディジタル信号へと変換される。このとき、通常の音声帯域は４ｋＨｚ程度と考えられるので、８ｋＨｚでサンプリングが行われる。ディジタル化された音声信号はシーン変化検出部３０８に入力される。
次に、映像変化と質問事項の生成フローを図６を用いて説明する。６０３において、音声信号はおよそ数ｍｓ〜４０ｍｓのフレームに分割される。次にフレーム分割されたディジタル音声信号を用いて、映像変化の検出として、有音／無音区間検出、音声区間の検出、話者の切り変わりの判別を行う。
一定時間の無音の後に音が聞こえた場合の判別は、６０４において音のパワー（０次の自己相関関数）の大きさを算出し、６０５においてこの大きさにより有音／無音区間の検出を行い、無音区間が検出された時刻Ｔと有音区間が検出された時刻ｔとの時間Ｔ−ｔが閾値τより大きい場合、音声区間フラグ６４０を１とする。
また、“ITU-T G729 AnnexB A silence compressoion scheme for G.729 optimized for terminals conforming to Recommendation V.70”で述べられているＶＡＤによる方法（スペクトラム歪み、エネルギー差分、低域エネルギー差分、零交差数差分に対して予め設定された閾値により判別を行うことにより、有音区間の判別を行う）を適用することができる。音声区間の検出においては“ドラマにおける話者インデキシングの検討、西田他、音響学会１９９９春”に示されているような方法が適用できる。
【００１２】
図６の６０３においてフレーム分割されたディジタル音声から６０８において１次のケプストラムの分散値を算出する。音声である場合は音楽、雑音に比べて、ケプストラムの１次係数の分散が大きくなることから、６０９において予め設定された閾値により、音声区間を検出することができる。音声区間が検出された場合は、６１１において音声区間フラグを１とする。
さらに、この音声区間に対して、話者の切り変わりの判別を行う。話者の判別方法としては、“基本周波数パターンのパラメータの個人差、藤崎、大野他、音響学会１９９９春”で述べられている方法が適用できる。この方法は、モデルの物理的、生理的特性に密接に関係する音声の基本周波数とフレーズ制御機構、アクセント制御機構の時定数の値は同一の話者ではほぼ一定の値を持つことを利用して、話者の判別を行うものである。６１２〜６１５はこの方法を用いた解析である。
まず、６１２において基本周波数の算出を行う。基本周波数の算出は、自己相関法、変形相関法、あるいはケプストラムによって算出できる。ケプストラムは波形の短時間振幅スペクトルの対数の逆フーリエ変換として定義され、スペクトル包絡と微細構造を近似的に分離することにより算出するものである。詳細については東海大学出版会、ディジタル音声処理に記載されている。
さらに６１３において基本周波数のパターン生成過程のモデルに基づいてAnalysis-by-Synthesis法による逐次近似を行い、基底周波数、フレーズ指令の大きさと生起時点、アクセント指令の大きさと生起時点、及びフレーズのアクセント各制御機構の時定数を求める。これらの値の大きさにより６１４において、話者の切り変わり判別を行う。話者が切り変わったことが判定された場合、６１５において話者切り変わりフラグを１とする。
【００１３】
次に、ビデオ信号の解析方法について説明する。図３のビデオ信号入出力部３１３から入力されたビデオ信号はシーン変化検出部３０８に入力され、図６に示す６１７においてフレーム分割が行われる。フレーム分割された画像に対して、まず、シーン変化の検出を行う。シーン変化の検出にあたっては、輝度平均値よりシーン変化を検出する方法がある。ディスプレイ上の各画素は、走査に応じて時間的に変化する輝度値をもっており、６１８において１フレーム中の輝度値の平均値（あるフレームにおける相加平均）を算出することにより、１フレーム内で全ての画素（ｘ，ｙ）における座標において相加平均を算出する。
映像においては、急に場面が変わった場合この平均値が大きく変わり得ることから、各フレーム毎の輝度平均値を算出し、６３９においてその変化が予め決められた閾値α以上であった場合、シーン変化があったものと判定し、６３８においてシーン変化フラグを１とする。
さらに、物体の存在領域候補を抽出するために、６１９においてエッジ抽出を行う。エッジ抽出方法としてはゼロクロシングによる方法（２次微分における零交差点が新のステップエッジの位置に一致するという性質を利用した方法）、マスクオペレーターによる（Jacobusらによる、マスク内の分散と平均を考慮した閾値画像を作成するという方法）方法が適用できる。エッジ抽出方法の詳細については、“画像処理アルゴリズムの最新動向、新技術コミュニケーションズ”に記述されている。
【００１４】
さらに、エッジ抽出された領域に対して曲率、ＲＧＢの色分布を算出し、これらの値の変化を利用して画像を切り出すことによって、物体の存在を検出することができる。詳細は“Ｃ言語で学ぶ実践画像処理、オーム社”に記述されている。また、人物の存在の判別を行う場合、“明るさ不安定環境下における人物検地法、１９９６年電子情報通信学ソサイエティ大会論文集”に記述されている方法を適用することができる。
エッジ抽出された領域に対して、６２１において、各座標位置での方向ベクトルの変化量として勾配方向差を求める。まず、２枚の画像を比較して輝度の差が一定値以上となる領域を抽出し、その変化領域にソーベルオペレータにより一次微分処理を施すことにより、水平成分と垂直成分とからエッジの向きとして勾配ベクトルを作成する。そして、座標位置が同じ勾配ベクトルを比較して向きの違いとしての勾配方向差を検出し、６２４において勾配方向差ヒストグラムを作成する。
このヒストグラムにおいて、人物が存在する場合には人物が占める領域において成分の変化（図６の６２５）が大きくなる。この時、ヒストグラム上の各点からの距離の総和が最小となる横軸に平行な直線をもとめることによって評価値を得る。この評価値の大きさにより人物の存在の判別を行う。人物が存在していると確認された場合、６３４において人物存在フラグを１とする。
さらに、別の人物の存在判定を行う。６２５における現在のフレーム成分変化値βと前のフレームで算出された成分変化値γとの差が予め定めたられた閾値κとの大きさにより違う人物か判別を行い、違う人物であると判定された場合は６３１の別人物存在フラグを１とする。
物体の動きに対する判別は、“画像処理アルゴリズムの最新動向、新技術コミュニケーションズ”に記述されている方法を適用することができる。図６の６１７においてフレーム間差分法（現フレームの画素の濃淡値から前フレームの各画素の濃淡値を引くことにより対象の前後に暗い領域と明るい領域ができ、対象移動方向と移動量が推定できる）、さらに、差分画像から動物体の輪郭を検出するためには連続差分画像を利用することにより判別することができる。差分の正（または負）の成分のみを利用し、連続フレームで論理和をとる。これは動物体が複数個あり、前フレームで１つの物体が占める領域に次の物体が入ってくることによる影響を除くためである。このようにして動物体の候補を検出する。
【００１５】
次に特徴点の対応づけ６２９を行う。画面のある部分が次の画面のどこに対応するかについては特徴点に基づく方法がある。特徴点としてガウスの曲率を利用しスポットの抽出を行う、MoravecのInterest operatorとNagelらによる方法がある。Moravecのオペレーターでは、小領域内で、上下、左右、対角四方向に、隣接画素間の濃度分散を算出し、その最小値で、オペレーターの初期値を与え、次にこれらの値の最大点を特徴点とするものである。
Nagelらの方法では、濃度をｚ軸方向の高さとするｘｙｚ空間内の面を考え、ガウスの曲率の性質から特徴点を求めている。特徴点が求まると、現画面内の特徴点に対応する特徴点を次の画面内で探索する。探索にあたっては動物体の最大移動速度が既知であれば探索範囲を狭めることができる。
また、Barnardらによる弛緩法を用いた方法では、第一画面の特徴的近傍で、対応する第二画面の特徴点候補リストを作る。候補の各要素が対応付けられる確率を対応する特徴点がない場合を考慮した重み付けによる相関値によって決定する。各特長点のベクトルは局所的にはよく似た傾向をもつと考えられるため、近傍で速度ベクトルが同じ傾向をもつかどうかの確率を計算する。このようにして近傍の速度ベクトルの傾向を伝播させて行き、全ての特徴点に対して、１つのラベルに対する確率がある閾値を越えたところで換算を停止する。
このようにして特徴点の対応付けを行い、動物体を検出する。動物体が検出された場合、６３６において動物体フラグを１にする。これらのフラグに変化があった場合、フラグビットパターン６３２によって、図７に示すような条件の判定を行い、各質問事項を決定する。
【００１６】
次に、図７に示す質問事項とフラグビットパターンの表について説明する。表を列毎に見たときのフラグビットパターンがそろったとき、質問事項に示す質問を行う。例えば、“Who”の質問事項として、“Who”を質問する条件は、音声区間検出フラグとシーン変化フラグがともに１である場合と、別人物存在フラグが１である場合と、人物存在フラグとシーン変化フラグがともに１である場合と、話者切り変わりフラグが１である場合である。
“WhatObject”の質問を行う条件は、音声区間検出フラグとシーン変化フラグがともに１である場合と、話者切り変わりフラグが１である場合、人物存在フラグとシーン変化フラグがともに１である場合、シーン変化フラグと物体検出フラグがともに１である場合である。
“WhatAction”の質問を行う条件は、話者切り変わりフラグが１である場合と、動物体検出フラグが１である場合と、別人物存在フラグが１である場合と、音声区間検出フラグとシーン変化フラグがともに１である場合と、人物存在フラグとシーン変化フラグがともに１である場合である。
“When”、“Where”の質問を行う条件は、話者切り替えフラグが１である場合と、有音フラグが１である場合と、シーン変化フラグが１である場合である。
“Why”、“How”の質問を行う条件は、話者切り変わりフラグが１である場合と、物体検出フラグが１である場合と、音声区間検出フラグとシーン変化フラグがともに１である場合と、人物存在フラグとシーン変化フラグがともに１である場合である。
以上の音声、映像解析により、図２の２０４で特徴量変化を検出する。図３のＣＰＵ３００はビデオ駆動制御部３１４にビデオの再生に関する制御信号を送り、ビデオデッキ３２０で映像の再生を停止する（図２では２０５）。さらに、変化シーンに関する情報、例えば映像ブロックの先頭フレームと最終フレーム番号、時間などの映像データ構造に関する情報と質問事項を図９に示すメタ情報ファイル作成部３０２内の構造記憶部５０２によって記憶する（図２では２０６）。
【００１７】
次に、上述した質問を行うために図２のＴＶＭＬの作成２０７が実行される。ＴＶＭＬとはテレビ番組１本を記述することができるように考案されたテキストベースの言語であり、このＴＶＭＬ言語により作成された番組台本は、ＴＶＭＬプレーヤーにより解釈が行われ、リアルタイムでテレビ番組を作り出す。ＴＶＭＬプレーヤーはパソコンやグラフィックワークステーションの上で動くソフトウェアで、これに、ＴＶＭＬ台本と各種のデータ（動画、オーディオなど）を与えるとＴＶＭＬプレーヤーの持つ次の機能によりテレビ番組を作成できる。
ＴＶＭＬの機能は、リアルタイムフルＣＧによるスタジオショットを背景に合成音声機能により話すＣＧキャスターと動き、カメラワーク、テキストのスーパーインポーズ、ＨＴＭＬの記述によるタイトルの表示、動画ファイルの再生、オーディオファイルの再生、音声合成ナレーション等である。
詳細は、http://www.strl.nhk.or.jp/TVML/Japanese/Jsitemap.html、横山敏明著「テレビ番組記述言語ＴＶＭＬに基づく番組生成／対話型編集システム」、第３回知能情報メディアシンポジュウム、１９９７年１２月、及び横山敏明著「テレビ番組記述言語ＴＶＭＬのマシンインタフェースの開発」電子情報ソサイエティ大会、１９９７年に記載されている。
【００１８】
図８（ａ）の質問事項の表示に示すＴＶＭＬ作成部３１９について説明する。上記処理により映像データからシーン変化点が検出されると、さらにＣＰＵ３００はメッセージ作成部３０１内のＴＶＭＬ作成部３１９を起動し、図８のＴＶＭＬプログラム作成部５００により、シーン変化点などの映像データの構造に関する情報と質問事項をシーン変化検出部３０８に問い合わせ、これらの情報に基づいて映像に対する質問事項の問い掛けを行うためのＴＶＭＬ台本を作成する。図１０にＴＶＭＬ台本の例を示す。
ＴＶＭＬプログラム作成部５００で作成された台本は、図２の２０８で質問事項の表示を行うため、図８に示すＴＶＭＬプレーヤー５０１から、音声信号は音声入出力部３１２、映像信号はビデオ信号入出力部３１３を経て、スピーカー３、ディスプレイ装置２より再生され内容記述者に質問が行われる。
ＴＶＭＬによる出力結果により、内容記述者は図２の２０９で情報の入力を図３に示す入力装置５に向かって発する。図２の２１０で入力情報の認識を行うため、図３に示す入力装置５によって取得された音声信号はＡ／Ｄ変換器３１１により、所定のサンプリング周波数のディジタル信号に変換する。このＡ／Ｄ変換器３１１が出力するディジタル信号を、図３の音声認識処理部３０３内のディジタル音声処理回路３０４に供給する。
このディジタル音声処理回路３０４では帯域分割、フィルタリングなどの処理で、ディジタル音声信号をベクトルデータとし、このベクトル音声信号を音声認識回路３０５に供給する。この音声認識回路３０５には音声認識データ記憶用ＲＯＭが接続され、ＲＯＭに記憶された音声認識用データと、ディジタル音声処理回路から供給されるベクトルデータとの比較を行い、所定の条件に基づいて一致を検出したとき、そのベクトルデータに対応して記憶されたテキストデータを読み出す。
この比較には、例えば隠れマルコフモデル（ＨＭＭ）などを用いる。これらの処理には例えば、ＤＳＰ（デジタルシグナルプロセッサ）を用いる。このような音声認識技術に関しては古井貞煕、「ディジタル音声処理」に記載されている。
【００１９】
読み出されたテキストデータは図２の２１１で入力情報の表示を行うため、図３に示すメッセージ作成部３０１内のＴＶＭＬ作成部３１９に入力され、図８の入力された情報の表示に示すＴＶＭＬプログラム作成部５００により入力された情報の確認表示を行うためのＴＶＭＬ台本が作成される。ＴＶＭＬ台本はＴＶＭＬプレーヤー５０１によって読み取りが行われ、音声信号は音声信号入出力部３１２、ビデオ信号はビデオ信号入出力部３１３を経て、スピーカー３、ディスプレイ装置２より出力する。
さらに、図２の２１２で入力情報の確認として、出力情報が正しいか内容記述者によって確認が行われる。入力装置５により、記述者から入力情報に対する確認が入力されると、図３の音声認識処理部３０３内の音声認識回路によって入力情報が読み出され、入力情報に問題がない場合は図２のメタ情報ファイル作成２１３が行われる。また、入力情報に問題がある場合は、図２の２０８で質問事項の表示に戻り、処理が再度行われる。
入力情報に問題がなかった場合について説明をする。この場合、図２のメタ情報ファイル作成２１３の処理に進む。図３の音声認識処理部３０３内の音声認識回路３０５によって読み出されたテキストデータは図９の内容記憶部５０３により記憶される。
【００２０】
次に、検出されたシーン変化点によるフレームのまとまり毎の構造情報（フレーム数、時間など）、質問事項と入力情報のメタ情報を所定のデータ構造をもつメタ情報ファイルに変換し、記憶するメタ情報ファイル作成部（図９に示す）について説明する。
メタ情報ファイル作成部３０２内の構造記憶部５０２に記憶されている構造情報、質問事項と内容記憶部５０３に記憶されている入力情報はメタ情報スキーマ記憶部５０４に記憶されているデータ構造情報に従うデータ構造に変換され、メタ情報記憶部５０６により情報が記憶される。メタ情報記憶部５０６により記憶された情報はさらにディスク装置４に送られ記憶される。
メタ情報スキーマとしては映像に対する構造化、内容記述情報を示すための標準として現在標準化が行われているＭＰＥＧ−７が知られている。図１１〜図１３にＭＰＥＧ−７によるデータ構造情報の記述例を示す。
このようにして、映像中に変化点が検出されるとＴＶＭＬ作成プログラムが起動し、ＴＶＭＬプログラムの実行、メタ情報ファイルの作成テープの再生が終了するまで繰り返される。これらＴＶＭＬプログラムによる内容記述インタフェイスを図４に示す。
さらに質問項目に対して情報の入力が行われなかった場合、質問項目作成部３１０により質問項目が削除される。質問事項による内容記述情報のメタ情報ファイルの作成が行われると、図２の自由記述事項の入力が表示され（２１４）、内容記述事項の入力が行われる。質問事項による入力情報の処理と同様に、入力情報の認識２１６と入力情報の表示２１７、入力情報の確認２１８を行う。入力情報に問題がなければ、メタ情報ファイルの作成２１９を行う。また、自由記述事項を質問項目として質問項目作成部３１０により質問項目が追加される。
メタ情報ファイルの作成が行われると、図２のテープ終了２２０の確認が行われる。受信した映像信号からＣＰＵ３００において同期信号の有無の検出を行い、同期信号が一定時間途切れると映像が終了したとみなし、ビデオ駆動制御部３１４にビデオの再生を停止する信号を送り、ビデオデッキ３２０でビデオの再生を停止する。そして、図２において記述終了のメッセージ２２１の処理として、本装置を終了するメッセージをＴＶＭＬに表示させることにより処理の終了となる（図２の２２２）。
上記に説明したように構造化、内容記述が行われた映像データに対して、さらに本システムでは検索インタフェイスを提供する。ユーザーが図３の入力装置５より検索条件を入力すると、映像データ検索部３１５において要求に対応する映像データをディスク装置４より探索し、一致するものがあった場合、例えばディスプレイ２やスピーカー３によって提示される。なお、質問事項の追加／削除をメタ情報ファイルの作成時に行うようにしたが、テープの終了時２２０もしくは次回映像データの編集を行うスタート時２００に行うようにしてもよい。
【００２１】
以上本発明の一実施形態について述べたが、本発明のシステムでは次のような構成をとるようにしてもよい。映像を再生するための装置としては、例えば映像がビデオテープに収録されている場合はビデオデッキ、ＣＤ−ＲＯＭの場合はＣＤ−Ｒドライブ、ＤＶＤの場合はＤＶＤドライブ、ｍｐｅｇ形式などによりハードディスク上に映像が記憶されている場合はＰＣやハードディスクレコーダーなどでよい。
入力装置としては本実施例ではマイクを例に用いて説明を行ったが、その他にキーボード、タッチパネル、電子ペンなどでよい。この場合、図３の音声信号入出力部３１２は装置に応じた適当な装置に追加変更する。記憶装置としては映像再生装置内の記憶部、あるいはハードディスクのような記憶装置であってもよい。ディスク装置はローカルでもよいし、ネットワーク上に置き、映像データの内容記述情報を管理するようにしてもよい。さらに、検索インタフェイスのみをネットワーク上に置くようにしてもよい。図１４はネットワーク構成の例を示す図である。それぞれ機能構成の異なる映像データ編集装置１１０１、映像データ編集検索装置１１０２、映像データ管理装置１１０３、映像データ検索装置１１０４がネットワーク１１００を介して、それぞれ他の装置のディスク装置にもアクセスできるようになっている。勿論、同種の映像データ編集検索装置１１０２同士での情報交換も可能である。
【００２２】
また、予めオプションとして、質問事項の追加／削除のＯＮ／ＯＦＦの設定や、応答状況の設定、映像シーンの切り替わりの精度を高めることを支援するためのセグメンテーション設定を行うことができるような場合も考えられる。その場合、内容記述に対するメッセージの出力のための応答状況の設定として、キャラクター登場の有無の選択、音声によるメッセージ出力あるいは文字表示による出力の選択、登場するキャラクターの選択、キャラクターに対する応答者が予め決まっている場合は応答者に対する情報（名前、年齢、性別など）、内容記述項目（いつ、どこで、誰がなど）、キャラクターからの質問に対する応答時間の設定が行えるようにする。
セグメンテーション設定としては映像の特徴量（色、位置、テクスチャ、タイムコードのずれなど）に対する数値設定が行える。また、映像に対する情報もここで予め入力することもできる。オプションによる設定を行わない場合は標準値として設定されているモードに従って処理が行われる。
オプションで設定した応答者情報の例として“８歳、○男君、男”、映像情報として、“場所：遊園地、誰：お父さん、お母さん、○男君”を登録した場合について説明する。映像が収録されたビデオテープを挿入し、再生ボタンを押すとモニター上にキャラクターが登場し“こんにちは、○男君。○男君はお父さんお母さんと一緒に遊園地に行ったんだってね。いいなあ。僕が質問するからどんなことがあったか話してくれるかな。”というように内容記述を行うメッセージが流れる。
【図面の簡単な説明】
【００２３】
【図１】映像データ編集・検索システムの構成図。
【図２】映像データ編集・検索装置における処理フローを示す図。
【図３】本発明の実施の形態に係る映像データ編集・検索装置の構成図。
【図４】映像データ編集・検索装置で映像の編集を行う際にディスプレイに表示される内容記述インタフェイス画面の例を示す図。
【図５】シーン変化検出処理ブロック図。
【図６】映像の変化と質問事項の生成フロー図。
【図７】質問事項とフラグビットパターンを示す図。
【図８】ＴＶＭＬ作成ブロック図。
【図９】メタ情報ファイル作成ブロック図。
【図１０】ＴＶＭＬ台本の例を示す図。
【図１１】ＭＰＥＧ−７内容記述ファイル例を示す図。
【図１２】ＭＰＥＧ−７内容記述ファイル例を示す図。
【図１３】ＭＰＥＧ−７内容記述ファイル例を示す図。
【図１４】ネットワーク構成の例を示す図。
【符号の説明】
【００２４】
１映像データ編集・検索装置、２ディスプレイ装置、３スピーカー、４ディスク装置、５入力装置、６オーディオ信号ケーブル、７データケーブル、８音声信号ケーブル、９ビデオ信号ケーブル、３００ＣＰＵ、３０１メッセージ作成部、３０２メタ情報ファイル作成部、３０３音声認識処理部、３０４ディジタル音声処理回路、３０５音声認識回路、３０６メモリ、３０７ＨＤＤ、３０８シーン変化検出部、３０９特徴量解析部、３１０質問項目作成部、３１１Ａ／Ｄ変換器、３１２音声信号入出力部（入力部）、３１３ビデオ信号入出力部、３１４ビデオ駆動制御部、３１５映像データ検索部、３１６システムバス、３１７ディスプレイ接続部、３１９ＴＶＭＬ作成部、３２０ビデオデッキ、５００ＴＶＭＬプログラム作成部、５０１ＴＶＭＬプレーヤー、５０２構造記憶部、５０３内容記憶部、５０４メタ情報スキーマ記憶部、５０６メタ情報記憶部、６３２フラグビットパターン、６４０音声区間フラグ、１１００ネットワーク

【特許請求の範囲】
【請求項１】
音声と共に記録されている映像データにシーン毎に映像内容情報を付加する映像データ処理装置において、シーンに関する質問項目を作成する質問項目作成手段と、前記質問項目に対応させて文字または音声によってユーザーからの内容記述入力を受付ける入力手段とを備え、前記質問項目作成手段は、自由記述で入力された記述項目を質問項目に追加することを特徴とする映像データ処理装置。
【請求項２】
前記質問項目作成手段は、前記入力部より質問項目に対する情報が入力されなかった質問項目を削除することを特徴とする請求項１記載の映像データ処理装置。
【請求項３】
請求項１または２記載の映像データ処理装置において、前記内容記述された部分を検索する検索手段を設け、前記検索手段が検索したシーンまたはシーンの部分から映像データを再生するようにしたことを特徴とする映像データ処理装置。
【請求項４】
前記検索手段は、ネットワーク上の他の映像データ処理装置にある前記映像データの内容記述された部分の検索を可能にする通信手段を備えたことを特徴とする請求項３記載の映像データ処理装置。
【請求項５】
音声と共に記録されている映像データにシーン毎に映像内容情報を付加する映像データ処理方法において、シーンに関する質問項目を作成する質問項目作成するステップと、前記質問項目に対応させて文字または音声によってユーザーからの内容記述入力を受付ける入力ステップとを有し、前記質問項目作成ステップは、自由記述で入力された記述項目を質問項目に追加することを特徴とする映像データ処理方法。
【請求項６】
前記質問項目作成ステップは、前記入力部より質問項目に対する情報が入力されなかった質問項目を削除することを特徴とする請求項５記載の映像データ処理方法。
【請求項７】
請求項５または６記載の映像データ処理方法において、前記内容記述された部分を検索する検索ステップを設け、検索したシーンまたはシーンの部分から映像データを再生するようにしたことを特徴とする映像データ処理方法。
【請求項８】
前記検索ステップは、ネットワーク上の他の映像データ処理装置にある前記映像データの内容記述された部分の検索を可能にする通信機能を備えたことを特徴とする請求項７記載の映像データ処理方法。
【請求項９】
コンピュータを、請求項１、２、３または４に記載の映像データ処理装置として機能させるためのプログラム。
【請求項１０】
請求項９に記載の映像データ処理プログラムを記録したコンピュータ読み取り可能な記録媒体。

【図１】