説明

映像データ処理装置、映像データ処理方法、プログラム及び記録媒体

【課題】 映像データの内容記述に際し、情報を入力する者の意図が反映されるようにして、自由度のある映像検索が行えるようにする。
【解決手段】 映像データを編集し、検索するための映像データ編集・検索装置1において、映像における画像特徴量、音声特徴量の解析を行う特徴量解析部309を内部に持ち、その解析結果によりシーン変化の検出を行うシーン変化検出部308と、文字及び音声によって装置からの質問項目を出力するメッセージ作成部301と、質問項目に答える形で文字及び音声によってユーザーからの内容記述入力を受けつける入力部312とを備え、更に質問項目作成部310により自由記述事項を質問項目として追加されるようにした。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像データ処理に関し、特に大量の映像の中から所望の映像を選択的に視聴することを可能にする、映像の構造化を行うための映像データ処理に関するものである。
【背景技術】
【0002】
近年、通信技術の発達及びハードディスクの大容量化にともない映像データを大量に蓄積し、この映像データの中から所望の映像を選択視聴できるようなシステムの開発がなされている。即ち、撮影された映像を再活用するために映像情報に対して内容記述を行い、この記述情報を基に映像検索を行うといったシステムが従来より提案されている。このようなシステムにおいては一般に、記述を行うためにはビデオを再生して、内容がまとまったところで停止して、その部分の記述を行うという方法をとることが多い。通常撮影されたビデオは一度はその撮影関係者がそろった状態で見られるものであり、その際には撮影時の状況について撮影関係者間で語られたり、あるいはその状況を知らない第三者に説明を行うといったことが行われる。
このようなシステムにおいては、所望の映像データを選択するために映像データに対して予め意味ベースに構造を区切り、これに対する情報を記述することが必要である。このように、映像データに内容記述するためには、まず映像を巻き戻して、再生しながら、意味的に区切れるシーンを検出し、さらにその映像シーンに合わせた内容を入力しなければならないため、映像データの実時間に対して少なくともその数倍の時間を要し、多大な労力を要するものであった。
上記問題に対しては、内容記述の単位となるシーンの切り替わりを自動検出することにより、内容記述の時間や労力を低減し、内容記述の際にも、映像内容を知らない第三者に、映像が撮影された状況を語るという設定をモニター上に登場するキャラクターに受け持たせることにより、家族で撮影されたビデオを視聴する際に、子供でもモニター上に現れるキャラクターとの対話を楽しみながら、内容記述を行うことができる映像データ編集・検索装置が提案されている(特許文献1参照)。
【特許文献1】特開2003−178076公報
【非特許文献1】ITU-T G729 AnnexB A silence compressoion scheme for G.729 optimized for terminals conforming to Recommendation V.70
【非特許文献2】ドラマにおける話者インデキシングの検討、西田他、音響学会1999春
【非特許文献3】基本周波数パターンのパラメータの個人差、藤崎、大野他、音響学会1999春
【非特許文献4】画像処理アルゴリズムの最新動向、新技術コミュニケーションズ
【非特許文献5】C言語で学ぶ実践画像処理、オーム社
【非特許文献6】明るさ不安定環境下における人物検知法、1996年電子情報通信学ソサイエティ大会論文集
【非特許文献7】横山敏明著「テレビ番組記述言語TVMLに基づく番組生成/対話型編集システム」
【非特許文献8】第3回知能情報メディアシンポジュウム、1997年12月
【非特許文献9】横山敏明著「テレビ番組記述言語TVMLのマシンインタフェースの開発」電子情報ソサイエティ大会、1997年
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかしながら、上記従来技術は、映像データの特徴量を利用して質問内容を生成し、この質問に対する回答という形でしか内容記述ができず、情報を入力する者の意図が反映されないという問題があった。
本発明はこのような問題を解消し、映像データの内容記述に際し、情報を入力する者の意図が反映されるようにして、自由度のある映像検索が行えるようにすることを目的とする。
【課題を解決するための手段】
【0004】
上記の課題を解決するために、請求項1に記載の発明は、音声と共に記録されている映像データにシーン毎に映像内容情報を付加する映像データ処理装置において、シーンに関する質問項目を作成する質問項目作成手段と、前記質問項目に対応させて文字または音声によってユーザーからの内容記述入力を受付ける入力手段とを備え、前記質問項目作成手段は、自由記述で入力された記述項目を質問項目に追加することを特徴とする。
また、請求項2は、請求項1記載の映像データ処理装置において、前記質問項目作成手段は、前記入力部より質問項目に対する情報が入力されなかった質問項目を削除することを特徴とする。
また、請求項3は、請求項1または2記載の映像データ処理装置において、前記内容記述された部分を検索する検索手段を設け、前記検索手段が検索したシーンまたはシーンの部分から映像データを再生するようにしたことを特徴とする。
また、請求項4は、請求項3記載の映像データ処理装置において、前記検索手段は、ネットワーク上の他の映像データ処理装置にある前記映像データの内容記述された部分の検索を可能にする通信手段を備えたことを特徴とする。
また、請求項5は、音声と共に記録されている映像データにシーン毎に映像内容情報を付加する映像データ処理方法において、シーンに関する質問項目を作成する質問項目作成するステップと、前記質問項目に対応させて文字または音声によってユーザーからの内容記述入力を受付ける入力ステップとを有し、前記質問項目作成ステップは、自由記述で入力された記述項目を質問項目に追加することを特徴とする。
また、請求項6は、請求項5記載の映像データ処理方法において、前記質問項目作成ステップは、前記入力部より質問項目に対する情報が入力されなかった質問項目を削除することを特徴とする。
また、請求項7は、請求項5または6記載の映像データ処理方法において、前記内容記述された部分を検索する検索ステップを設け、検索したシーンまたはシーンの部分から映像データを再生するようにしたことを特徴とする。
また、請求項8は、請求項7記載の映像データ処理方法において、前記検索ステップは、ネットワーク上の他の映像データ処理装置にある前記映像データの内容記述された部分の検索を可能にする通信機能を備えたことを特徴とする。
また、請求項9は、コンピュータを、請求項1、2、3または4に記載の映像データ処理装置として機能させるためのプログラムであることを特徴とする。
また、請求項10は、請求項9に記載の映像データ処理プログラムを記録したコンピュータ読み取り可能な記録媒体であることを特徴とする。
【発明の効果】
【0005】
以上説明したように、映像シーンの切り替わり毎にディスプレイ上に表示される文字や音声での質問による内容記述事項以外にも編集者の意図に応じて自由な内容記述を行うことができ、自由に記述された事項が質問項目として追加されるので、次回編集する際には編集者の意図に応じた記述事項を提示することができる。
また、質問事項に対して入力されなかった記述項目が削除されるので、効率的に必要な内容記述項目だけを入力することができる。
また、単体での映像データの処理と検索、さらにネットワーク上に接続された映像データ処理装置に登録された情報から所望の映像を検索、再生することができる。
【発明を実施するための最良の形態】
【0006】
以下、本発明の実施の形態を詳細に説明する。まず本発明の概要について述べる。前述したように、通常撮影されたビデオは、一度はその撮影関係者がそろった状態で見られるものであり、その際には撮影時の状況について撮影関係者間で語られたり、あるいはその状況を知らない第三者に説明を行うといったことが行われる。
本発明の映像データ処理装置は、この状況を知らない第三者に語るという設定をモニター上に登場するキャラクター(TVMLなどにより実現される)に受け持たせることにより、家族で撮影されたビデオを視聴する際に子供でも、モニター上に現れるキャラクターとの対話を楽しみながら、内容記述を行うものである。なお、本実施例では本発明の映像データ処理装置を、映像データそのものを編集・加工する訳ではないが、映像データに関連付けて情報の付加や検索を行うので、映像データ編集・検索システム(装置)として説明する。
まず、内容記述を行う場合には映像データ編集・検索装置で内容記述モードの選択を行う。すると、これから内容記述を始めることを知らせるメッセージが音声、またはディスプレイ上に表示される。そして、テープが再生されるとともに、映像データはシーン変化検出装置によってシーン変化の解析が行われる。変化点が検出されるとテープが停止し、変化点情報に対応した内容記述を行うための情報(5W1Hなど)の質問が行われる。
つまり、“いつ行ったの?”とキャラクターから質問が行われる。この質問に対して“20XX年12月○日。”とマイクに向かって答える。さらにキャラクターは、“どこに行ったの?”とか、“誰と?”、“何したの?”などと言った記述内容のための問い掛けを行う。1つのシーンに対する内容記述項目の質問が一通りなされると、“それは楽しかったねえ。もう僕に話すことはないかな”などと、キャラクターから現在のシーンに対する内容記述の入力を終了してもよいかの質問がなされる。
【0007】
これに対して“おしまい。”などと終了する旨の応答を返した場合には、次のシーンが再生され、前述したような映像に対する内容記述に対する質問が繰り返し行われるとともに記述した結果が記録される。もし、さらに入力したい内容がある場合は、“もっとある。”というような返答を返すと、“どんなこと?”と音声でキャラクターが質問してくるとともにモニター上には、入力項目のリストが表示され、表示されている項目の中から選んで答えるように指示がなされる。この中から“何を”を選択すると、“何をしたの?”とキャラクターから質問がなされる。これに答えると、再度内容記述を終了してもいいか確認が行われ、さらに、質問項目以外に編集者がシーンに関して記述したい事柄を自由に入力することができる。
このように対話をしながら内容記述が行われ、映像が最後まで再生されると、終了のメッセージを出力して内容記述メニューを終了する。
映像データ検索装置においてはこのように内容記述されたデータに対してユーザーが検索要求を入力すると、検索部によって内容記述データに対して要求と一致するものがないか探索が行われ、一致したものが見つかった場合その情報を表示する。
【0008】
次に本発明の詳細を図面を用いて説明する。本発明による映像データの編集及び検索を実施する対話型映像データ編集・検索装置のシステム構成の一例を図1に示す。また、映像データ編集・検索装置における処理フローを図2に示す。図3には映像データ編集・検索装置の構成を示す。図4に映像データ編集・検索装置で映像の編集を行う際にディスプレイに表示される内容記述インタフェイス画面の例を示す。図5にはシーン変化検出処理ブロックを示す。図6に映像の変化と質問事項の生成フローを示す。また、図7に質問事項とフラグビットパターンを示す。図8にTVML作成ブロックの例を示す。図9にメタ情報ファイル作成部構成を示す。図10にTVML台本の例を示す。図11〜図13にMPEG−7内容記述ファイル例を示す。
まず本システムの構成を図1に基づいて説明する。本システムは、映像データ編集・検索装置1と、映像データと作成されたTVML情報のうち、視覚に係わる情報(画像情報)を表示するためのディスプレイ装置2と、映像データとTVML情報のうち、音声に係わる情報(音声情報)を提示するためのスピーカー3と、映像データに対して作成された構造情報、内容記述情報を格納するための記録媒体であるディスクを駆動するディスクドライブ装置(以下、単にディスク装置という)4と、記述内容や検索条件を音声により入力するための入力装置5とを備えている。
映像データ編集・検索装置1とディスプレイ装置2との間は、ビデオ信号ケーブル9によって接続され、映像データ編集・検索装置1とスピーカー3との間は、オーディオ信号ケーブル6により接続されている。映像データ編集・検索装置1とディスク装置4との間は、例えばSCSI(Small Computer System Interface)仕様のデータケーブル7により接続されている。入力装置5は、音声信号ケーブル8によって映像データ編集・検索装置1に接続されている。
【0009】
映像データ編集・検索装置1のその内部構成は、後述する図3に示すようになっている。ディスプレイ装置2は、例えば19インチ型のCRT(陰極線管)が用いられる。ディスク装置4としては、例えば、磁気ディスクを記録媒体として使用してデータの記録及び再生を行うものが使用される。この磁気ディスクには、この動画ファイルに関連付けられた1つまたは複数のメタ情報ファイルが格納されるようになっている。なお、メタ情報ファイルについては後述する。
ここで、記録媒体は、磁気ディスクに限らず、他の記録媒体であってもよい。例えば、CD−R(書き込み可能CD)やCD−RW(書き替え可能CD)、DVD(ディジタルビデオディスク)等の光ディスク、あるいは光磁気ディスク等であってもよい。また、ディスク装置4は、本体に内蔵されたものであってもよい。
映像データ編集・検索装置1に入力装置5を接続する音声信号ケーブル8は、映像データ編集・検索装置1の内部で図3の音声信号入出力部312と直結されており、これにより、入力装置5から入力された音声は、そのまま映像データ編集・検索装置1に供給されるようになっている。
【0010】
図3は、映像データ編集・検索装置1の内部構成を表すものである。この図に示したように、映像データ編集・検索装置1は、この装置全体の動作を制御するCPU300、ビデオテープの再生を行うビデオデッキ320、画像、音声特徴量を用いて自動的にシーンの変化点を検出する、シーン変化検出部308、ビデオ駆動制御部314、ビデオ信号入出力部313、音声信号入出力部312から入力された音声信号をディジタル信号に変換するA/D変換器311、映像データから所望のデータを検索するための検索を行う映像データ検索部315、対話型インタフェイスによるメッセージ出力プログラムの作成を行うメッセージ作成部301、シーン変化点による映像の構造・内容記述情報をメタ情報としてメタ情報ファイルとして作成するメタ情報作成部302、メモリ306、OSやアプリケーションプログラム等が格納されたハードディスク装置(HDD)307、ディスプレイ装置2とのインタフェイスとして機能するディスプレイ接続部317を備えている。
また、HDD307に格納されたOSは、いわゆるGUI機能を備えたもので、これにより、ユーザーは、主として入力装置5とディスプレイ装置2の画面表示とによってインタラクティブに(対話形式で)操作ができるようになっている。ビデオ駆動制御部314はビデオ駆動に関する制御信号の入出力を行う。そして、映像データ編集・検索装置を構成する各部とはシステムバス316によって相互に接続されている。
【0011】
以上のような構成の映像データ編集、検索装置の動作について、図2に示す映像データ編集・検索装置における処理フローにより説明する。まず、図2の201で映像の再生が行われ、テープは図3に示すビデオデッキ320で再生される。そして、ビデオ映像は図2の203で音声・画像特徴量の解析が行われる。図3に示すようにビデオ信号と音声信号とに分離され、音声信号入出力部312とビデオ信号入出力部313からそれぞれの信号が出力される。次に、分離された音声信号とビデオ信号の解析方法について説明する。
音声信号入出力部312から出力された音声信号はA/D変換器311によりアナログ信号からディジタル信号へと変換される。このとき、通常の音声帯域は4kHz程度と考えられるので、8kHzでサンプリングが行われる。ディジタル化された音声信号はシーン変化検出部308に入力される。
次に、映像変化と質問事項の生成フローを図6を用いて説明する。603において、音声信号はおよそ数ms〜40msのフレームに分割される。次にフレーム分割されたディジタル音声信号を用いて、映像変化の検出として、有音/無音区間検出、音声区間の検出、話者の切り変わりの判別を行う。
一定時間の無音の後に音が聞こえた場合の判別は、604において音のパワー(0次の自己相関関数)の大きさを算出し、605においてこの大きさにより有音/無音区間の検出を行い、無音区間が検出された時刻Tと有音区間が検出された時刻tとの時間T−tが閾値τより大きい場合、音声区間フラグ640を1とする。
また、“ITU-T G729 AnnexB A silence compressoion scheme for G.729 optimized for terminals conforming to Recommendation V.70”で述べられているVADによる方法(スペクトラム歪み、エネルギー差分、低域エネルギー差分、零交差数差分に対して予め設定された閾値により判別を行うことにより、有音区間の判別を行う)を適用することができる。音声区間の検出においては“ドラマにおける話者インデキシングの検討、西田他、音響学会1999春”に示されているような方法が適用できる。
【0012】
図6の603においてフレーム分割されたディジタル音声から608において1次のケプストラムの分散値を算出する。音声である場合は音楽、雑音に比べて、ケプストラムの1次係数の分散が大きくなることから、609において予め設定された閾値により、音声区間を検出することができる。音声区間が検出された場合は、611において音声区間フラグを1とする。
さらに、この音声区間に対して、話者の切り変わりの判別を行う。話者の判別方法としては、“基本周波数パターンのパラメータの個人差、藤崎、大野他、音響学会1999春”で述べられている方法が適用できる。この方法は、モデルの物理的、生理的特性に密接に関係する音声の基本周波数とフレーズ制御機構、アクセント制御機構の時定数の値は同一の話者ではほぼ一定の値を持つことを利用して、話者の判別を行うものである。612〜615はこの方法を用いた解析である。
まず、612において基本周波数の算出を行う。基本周波数の算出は、自己相関法、変形相関法、あるいはケプストラムによって算出できる。ケプストラムは波形の短時間振幅スペクトルの対数の逆フーリエ変換として定義され、スペクトル包絡と微細構造を近似的に分離することにより算出するものである。詳細については東海大学出版会、ディジタル音声処理に記載されている。
さらに613において基本周波数のパターン生成過程のモデルに基づいてAnalysis-by-Synthesis法による逐次近似を行い、基底周波数、フレーズ指令の大きさと生起時点、アクセント指令の大きさと生起時点、及びフレーズのアクセント各制御機構の時定数を求める。これらの値の大きさにより614において、話者の切り変わり判別を行う。話者が切り変わったことが判定された場合、615において話者切り変わりフラグを1とする。
【0013】
次に、ビデオ信号の解析方法について説明する。図3のビデオ信号入出力部313から入力されたビデオ信号はシーン変化検出部308に入力され、図6に示す617においてフレーム分割が行われる。フレーム分割された画像に対して、まず、シーン変化の検出を行う。シーン変化の検出にあたっては、輝度平均値よりシーン変化を検出する方法がある。ディスプレイ上の各画素は、走査に応じて時間的に変化する輝度値をもっており、618において1フレーム中の輝度値の平均値(あるフレームにおける相加平均)を算出することにより、1フレーム内で全ての画素(x,y)における座標において相加平均を算出する。
映像においては、急に場面が変わった場合この平均値が大きく変わり得ることから、各フレーム毎の輝度平均値を算出し、639においてその変化が予め決められた閾値α以上であった場合、シーン変化があったものと判定し、638においてシーン変化フラグを1とする。
さらに、物体の存在領域候補を抽出するために、619においてエッジ抽出を行う。エッジ抽出方法としてはゼロクロシングによる方法(2次微分における零交差点が新のステップエッジの位置に一致するという性質を利用した方法)、マスクオペレーターによる(Jacobusらによる、マスク内の分散と平均を考慮した閾値画像を作成するという方法)方法が適用できる。エッジ抽出方法の詳細については、“画像処理アルゴリズムの最新動向、新技術コミュニケーションズ”に記述されている。
【0014】
さらに、エッジ抽出された領域に対して曲率、RGBの色分布を算出し、これらの値の変化を利用して画像を切り出すことによって、物体の存在を検出することができる。詳細は“C言語で学ぶ実践画像処理、オーム社”に記述されている。また、人物の存在の判別を行う場合、“明るさ不安定環境下における人物検地法、1996年電子情報通信学ソサイエティ大会論文集”に記述されている方法を適用することができる。
エッジ抽出された領域に対して、621において、各座標位置での方向ベクトルの変化量として勾配方向差を求める。まず、2枚の画像を比較して輝度の差が一定値以上となる領域を抽出し、その変化領域にソーベルオペレータにより一次微分処理を施すことにより、水平成分と垂直成分とからエッジの向きとして勾配ベクトルを作成する。そして、座標位置が同じ勾配ベクトルを比較して向きの違いとしての勾配方向差を検出し、624において勾配方向差ヒストグラムを作成する。
このヒストグラムにおいて、人物が存在する場合には人物が占める領域において成分の変化(図6の625)が大きくなる。この時、ヒストグラム上の各点からの距離の総和が最小となる横軸に平行な直線をもとめることによって評価値を得る。この評価値の大きさにより人物の存在の判別を行う。人物が存在していると確認された場合、634において人物存在フラグを1とする。
さらに、別の人物の存在判定を行う。625における現在のフレーム成分変化値βと前のフレームで算出された成分変化値γとの差が予め定めたられた閾値κとの大きさにより違う人物か判別を行い、違う人物であると判定された場合は631の別人物存在フラグを1とする。
物体の動きに対する判別は、“画像処理アルゴリズムの最新動向、新技術コミュニケーションズ”に記述されている方法を適用することができる。図6の617においてフレーム間差分法(現フレームの画素の濃淡値から前フレームの各画素の濃淡値を引くことにより対象の前後に暗い領域と明るい領域ができ、対象移動方向と移動量が推定できる)、さらに、差分画像から動物体の輪郭を検出するためには連続差分画像を利用することにより判別することができる。差分の正(または負)の成分のみを利用し、連続フレームで論理和をとる。これは動物体が複数個あり、前フレームで1つの物体が占める領域に次の物体が入ってくることによる影響を除くためである。このようにして動物体の候補を検出する。
【0015】
次に特徴点の対応づけ629を行う。画面のある部分が次の画面のどこに対応するかについては特徴点に基づく方法がある。特徴点としてガウスの曲率を利用しスポットの抽出を行う、MoravecのInterest operatorとNagelらによる方法がある。Moravecのオペレーターでは、小領域内で、上下、左右、対角四方向に、隣接画素間の濃度分散を算出し、その最小値で、オペレーターの初期値を与え、次にこれらの値の最大点を特徴点とするものである。
Nagelらの方法では、濃度をz軸方向の高さとするxyz空間内の面を考え、ガウスの曲率の性質から特徴点を求めている。特徴点が求まると、現画面内の特徴点に対応する特徴点を次の画面内で探索する。探索にあたっては動物体の最大移動速度が既知であれば探索範囲を狭めることができる。
また、Barnardらによる弛緩法を用いた方法では、第一画面の特徴的近傍で、対応する第二画面の特徴点候補リストを作る。候補の各要素が対応付けられる確率を対応する特徴点がない場合を考慮した重み付けによる相関値によって決定する。各特長点のベクトルは局所的にはよく似た傾向をもつと考えられるため、近傍で速度ベクトルが同じ傾向をもつかどうかの確率を計算する。このようにして近傍の速度ベクトルの傾向を伝播させて行き、全ての特徴点に対して、1つのラベルに対する確率がある閾値を越えたところで換算を停止する。
このようにして特徴点の対応付けを行い、動物体を検出する。動物体が検出された場合、636において動物体フラグを1にする。これらのフラグに変化があった場合、フラグビットパターン632によって、図7に示すような条件の判定を行い、各質問事項を決定する。
【0016】
次に、図7に示す質問事項とフラグビットパターンの表について説明する。表を列毎に見たときのフラグビットパターンがそろったとき、質問事項に示す質問を行う。例えば、“Who”の質問事項として、“Who”を質問する条件は、音声区間検出フラグとシーン変化フラグがともに1である場合と、別人物存在フラグが1である場合と、人物存在フラグとシーン変化フラグがともに1である場合と、話者切り変わりフラグが1である場合である。
“WhatObject”の質問を行う条件は、音声区間検出フラグとシーン変化フラグがともに1である場合と、話者切り変わりフラグが1である場合、人物存在フラグとシーン変化フラグがともに1である場合、シーン変化フラグと物体検出フラグがともに1である場合である。
“WhatAction”の質問を行う条件は、話者切り変わりフラグが1である場合と、動物体検出フラグが1である場合と、別人物存在フラグが1である場合と、音声区間検出フラグとシーン変化フラグがともに1である場合と、人物存在フラグとシーン変化フラグがともに1である場合である。
“When”、“Where”の質問を行う条件は、話者切り替えフラグが1である場合と、有音フラグが1である場合と、シーン変化フラグが1である場合である。
“Why”、“How”の質問を行う条件は、話者切り変わりフラグが1である場合と、物体検出フラグが1である場合と、音声区間検出フラグとシーン変化フラグがともに1である場合と、人物存在フラグとシーン変化フラグがともに1である場合である。
以上の音声、映像解析により、図2の204で特徴量変化を検出する。図3のCPU300はビデオ駆動制御部314にビデオの再生に関する制御信号を送り、ビデオデッキ320で映像の再生を停止する(図2では205)。さらに、変化シーンに関する情報、例えば映像ブロックの先頭フレームと最終フレーム番号、時間などの映像データ構造に関する情報と質問事項を図9に示すメタ情報ファイル作成部302内の構造記憶部502によって記憶する(図2では206)。
【0017】
次に、上述した質問を行うために図2のTVMLの作成207が実行される。TVMLとはテレビ番組1本を記述することができるように考案されたテキストベースの言語であり、このTVML言語により作成された番組台本は、TVMLプレーヤーにより解釈が行われ、リアルタイムでテレビ番組を作り出す。TVMLプレーヤーはパソコンやグラフィックワークステーションの上で動くソフトウェアで、これに、TVML台本と各種のデータ(動画、オーディオなど)を与えるとTVMLプレーヤーの持つ次の機能によりテレビ番組を作成できる。
TVMLの機能は、リアルタイムフルCGによるスタジオショットを背景に合成音声機能により話すCGキャスターと動き、カメラワーク、テキストのスーパーインポーズ、HTMLの記述によるタイトルの表示、動画ファイルの再生、オーディオファイルの再生、音声合成ナレーション等である。
詳細は、http://www.strl.nhk.or.jp/TVML/Japanese/Jsitemap.html、横山敏明著「テレビ番組記述言語TVMLに基づく番組生成/対話型編集システム」、第3回知能情報メディアシンポジュウム、1997年12月、及び横山敏明著「テレビ番組記述言語TVMLのマシンインタフェースの開発」電子情報ソサイエティ大会、1997年に記載されている。
【0018】
図8(a)の質問事項の表示に示すTVML作成部319について説明する。上記処理により映像データからシーン変化点が検出されると、さらにCPU300はメッセージ作成部301内のTVML作成部319を起動し、図8のTVMLプログラム作成部500により、シーン変化点などの映像データの構造に関する情報と質問事項をシーン変化検出部308に問い合わせ、これらの情報に基づいて映像に対する質問事項の問い掛けを行うためのTVML台本を作成する。図10にTVML台本の例を示す。
TVMLプログラム作成部500で作成された台本は、図2の208で質問事項の表示を行うため、図8に示すTVMLプレーヤー501から、音声信号は音声入出力部312、映像信号はビデオ信号入出力部313を経て、スピーカー3、ディスプレイ装置2より再生され内容記述者に質問が行われる。
TVMLによる出力結果により、内容記述者は図2の209で情報の入力を図3に示す入力装置5に向かって発する。図2の210で入力情報の認識を行うため、図3に示す入力装置5によって取得された音声信号はA/D変換器311により、所定のサンプリング周波数のディジタル信号に変換する。このA/D変換器311が出力するディジタル信号を、図3の音声認識処理部303内のディジタル音声処理回路304に供給する。
このディジタル音声処理回路304では帯域分割、フィルタリングなどの処理で、ディジタル音声信号をベクトルデータとし、このベクトル音声信号を音声認識回路305に供給する。この音声認識回路305には音声認識データ記憶用ROMが接続され、ROMに記憶された音声認識用データと、ディジタル音声処理回路から供給されるベクトルデータとの比較を行い、所定の条件に基づいて一致を検出したとき、そのベクトルデータに対応して記憶されたテキストデータを読み出す。
この比較には、例えば隠れマルコフモデル(HMM)などを用いる。これらの処理には例えば、DSP(デジタルシグナルプロセッサ)を用いる。このような音声認識技術に関しては古井貞煕、「ディジタル音声処理」に記載されている。
【0019】
読み出されたテキストデータは図2の211で入力情報の表示を行うため、図3に示すメッセージ作成部301内のTVML作成部319に入力され、図8の入力された情報の表示に示すTVMLプログラム作成部500により入力された情報の確認表示を行うためのTVML台本が作成される。TVML台本はTVMLプレーヤー501によって読み取りが行われ、音声信号は音声信号入出力部312、ビデオ信号はビデオ信号入出力部313を経て、スピーカー3、ディスプレイ装置2より出力する。
さらに、図2の212で入力情報の確認として、出力情報が正しいか内容記述者によって確認が行われる。入力装置5により、記述者から入力情報に対する確認が入力されると、図3の音声認識処理部303内の音声認識回路によって入力情報が読み出され、入力情報に問題がない場合は図2のメタ情報ファイル作成213が行われる。また、入力情報に問題がある場合は、図2の208で質問事項の表示に戻り、処理が再度行われる。
入力情報に問題がなかった場合について説明をする。この場合、図2のメタ情報ファイル作成213の処理に進む。図3の音声認識処理部303内の音声認識回路305によって読み出されたテキストデータは図9の内容記憶部503により記憶される。
【0020】
次に、検出されたシーン変化点によるフレームのまとまり毎の構造情報(フレーム数、時間など)、質問事項と入力情報のメタ情報を所定のデータ構造をもつメタ情報ファイルに変換し、記憶するメタ情報ファイル作成部(図9に示す)について説明する。
メタ情報ファイル作成部302内の構造記憶部502に記憶されている構造情報、質問事項と内容記憶部503に記憶されている入力情報はメタ情報スキーマ記憶部504に記憶されているデータ構造情報に従うデータ構造に変換され、メタ情報記憶部506により情報が記憶される。メタ情報記憶部506により記憶された情報はさらにディスク装置4に送られ記憶される。
メタ情報スキーマとしては映像に対する構造化、内容記述情報を示すための標準として現在標準化が行われているMPEG−7が知られている。図11〜図13にMPEG−7によるデータ構造情報の記述例を示す。
このようにして、映像中に変化点が検出されるとTVML作成プログラムが起動し、TVMLプログラムの実行、メタ情報ファイルの作成テープの再生が終了するまで繰り返される。これらTVMLプログラムによる内容記述インタフェイスを図4に示す。
さらに質問項目に対して情報の入力が行われなかった場合、質問項目作成部310により質問項目が削除される。質問事項による内容記述情報のメタ情報ファイルの作成が行われると、図2の自由記述事項の入力が表示され(214)、内容記述事項の入力が行われる。質問事項による入力情報の処理と同様に、入力情報の認識216と入力情報の表示217、入力情報の確認218を行う。入力情報に問題がなければ、メタ情報ファイルの作成219を行う。また、自由記述事項を質問項目として質問項目作成部310により質問項目が追加される。
メタ情報ファイルの作成が行われると、図2のテープ終了220の確認が行われる。受信した映像信号からCPU300において同期信号の有無の検出を行い、同期信号が一定時間途切れると映像が終了したとみなし、ビデオ駆動制御部314にビデオの再生を停止する信号を送り、ビデオデッキ320でビデオの再生を停止する。そして、図2において記述終了のメッセージ221の処理として、本装置を終了するメッセージをTVMLに表示させることにより処理の終了となる(図2の222)。
上記に説明したように構造化、内容記述が行われた映像データに対して、さらに本システムでは検索インタフェイスを提供する。ユーザーが図3の入力装置5より検索条件を入力すると、映像データ検索部315において要求に対応する映像データをディスク装置4より探索し、一致するものがあった場合、例えばディスプレイ2やスピーカー3によって提示される。なお、質問事項の追加/削除をメタ情報ファイルの作成時に行うようにしたが、テープの終了時220もしくは次回映像データの編集を行うスタート時200に行うようにしてもよい。
【0021】
以上本発明の一実施形態について述べたが、本発明のシステムでは次のような構成をとるようにしてもよい。映像を再生するための装置としては、例えば映像がビデオテープに収録されている場合はビデオデッキ、CD−ROMの場合はCD−Rドライブ、DVDの場合はDVDドライブ、mpeg形式などによりハードディスク上に映像が記憶されている場合はPCやハードディスクレコーダーなどでよい。
入力装置としては本実施例ではマイクを例に用いて説明を行ったが、その他にキーボード、タッチパネル、電子ペンなどでよい。この場合、図3の音声信号入出力部312は装置に応じた適当な装置に追加変更する。記憶装置としては映像再生装置内の記憶部、あるいはハードディスクのような記憶装置であってもよい。ディスク装置はローカルでもよいし、ネットワーク上に置き、映像データの内容記述情報を管理するようにしてもよい。さらに、検索インタフェイスのみをネットワーク上に置くようにしてもよい。図14はネットワーク構成の例を示す図である。それぞれ機能構成の異なる映像データ編集装置1101、映像データ編集検索装置1102、映像データ管理装置1103、映像データ検索装置1104がネットワーク1100を介して、それぞれ他の装置のディスク装置にもアクセスできるようになっている。勿論、同種の映像データ編集検索装置1102同士での情報交換も可能である。
【0022】
また、予めオプションとして、質問事項の追加/削除のON/OFFの設定や、応答状況の設定、映像シーンの切り替わりの精度を高めることを支援するためのセグメンテーション設定を行うことができるような場合も考えられる。その場合、内容記述に対するメッセージの出力のための応答状況の設定として、キャラクター登場の有無の選択、音声によるメッセージ出力あるいは文字表示による出力の選択、登場するキャラクターの選択、キャラクターに対する応答者が予め決まっている場合は応答者に対する情報(名前、年齢、性別など)、内容記述項目(いつ、どこで、誰がなど)、キャラクターからの質問に対する応答時間の設定が行えるようにする。
セグメンテーション設定としては映像の特徴量(色、位置、テクスチャ、タイムコードのずれなど)に対する数値設定が行える。また、映像に対する情報もここで予め入力することもできる。オプションによる設定を行わない場合は標準値として設定されているモードに従って処理が行われる。
オプションで設定した応答者情報の例として“8歳、○男君、男”、映像情報として、“場所:遊園地、誰:お父さん、お母さん、○男君”を登録した場合について説明する。映像が収録されたビデオテープを挿入し、再生ボタンを押すとモニター上にキャラクターが登場し“こんにちは、○男君。○男君はお父さんお母さんと一緒に遊園地に行ったんだってね。いいなあ。僕が質問するからどんなことがあったか話してくれるかな。”というように内容記述を行うメッセージが流れる。
【図面の簡単な説明】
【0023】
【図1】映像データ編集・検索システムの構成図。
【図2】映像データ編集・検索装置における処理フローを示す図。
【図3】本発明の実施の形態に係る映像データ編集・検索装置の構成図。
【図4】映像データ編集・検索装置で映像の編集を行う際にディスプレイに表示される内容記述インタフェイス画面の例を示す図。
【図5】シーン変化検出処理ブロック図。
【図6】映像の変化と質問事項の生成フロー図。
【図7】質問事項とフラグビットパターンを示す図。
【図8】TVML作成ブロック図。
【図9】メタ情報ファイル作成ブロック図。
【図10】TVML台本の例を示す図。
【図11】MPEG−7内容記述ファイル例を示す図。
【図12】MPEG−7内容記述ファイル例を示す図。
【図13】MPEG−7内容記述ファイル例を示す図。
【図14】ネットワーク構成の例を示す図。
【符号の説明】
【0024】
1 映像データ編集・検索装置、2 ディスプレイ装置、3 スピーカー、4 ディスク装置、5 入力装置、6 オーディオ信号ケーブル、7 データケーブル、8 音声信号ケーブル、9 ビデオ信号ケーブル、300 CPU、301 メッセージ作成部、302 メタ情報ファイル作成部、303 音声認識処理部、304 ディジタル音声処理回路、305 音声認識回路、306 メモリ、307 HDD、308 シーン変化検出部、309 特徴量解析部、310 質問項目作成部、311 A/D変換器、312 音声信号入出力部(入力部)、313 ビデオ信号入出力部、314 ビデオ駆動制御部、315 映像データ検索部、316 システムバス、317 ディスプレイ接続部、319 TVML作成部、320 ビデオデッキ、500 TVMLプログラム作成部、501 TVMLプレーヤー、502 構造記憶部、503 内容記憶部、504 メタ情報スキーマ記憶部、506 メタ情報記憶部、632 フラグビットパターン、640 音声区間フラグ、1100 ネットワーク

【特許請求の範囲】
【請求項1】
音声と共に記録されている映像データにシーン毎に映像内容情報を付加する映像データ処理装置において、シーンに関する質問項目を作成する質問項目作成手段と、前記質問項目に対応させて文字または音声によってユーザーからの内容記述入力を受付ける入力手段とを備え、前記質問項目作成手段は、自由記述で入力された記述項目を質問項目に追加することを特徴とする映像データ処理装置。
【請求項2】
前記質問項目作成手段は、前記入力部より質問項目に対する情報が入力されなかった質問項目を削除することを特徴とする請求項1記載の映像データ処理装置。
【請求項3】
請求項1または2記載の映像データ処理装置において、前記内容記述された部分を検索する検索手段を設け、前記検索手段が検索したシーンまたはシーンの部分から映像データを再生するようにしたことを特徴とする映像データ処理装置。
【請求項4】
前記検索手段は、ネットワーク上の他の映像データ処理装置にある前記映像データの内容記述された部分の検索を可能にする通信手段を備えたことを特徴とする請求項3記載の映像データ処理装置。
【請求項5】
音声と共に記録されている映像データにシーン毎に映像内容情報を付加する映像データ処理方法において、シーンに関する質問項目を作成する質問項目作成するステップと、前記質問項目に対応させて文字または音声によってユーザーからの内容記述入力を受付ける入力ステップとを有し、前記質問項目作成ステップは、自由記述で入力された記述項目を質問項目に追加することを特徴とする映像データ処理方法。
【請求項6】
前記質問項目作成ステップは、前記入力部より質問項目に対する情報が入力されなかった質問項目を削除することを特徴とする請求項5記載の映像データ処理方法。
【請求項7】
請求項5または6記載の映像データ処理方法において、前記内容記述された部分を検索する検索ステップを設け、検索したシーンまたはシーンの部分から映像データを再生するようにしたことを特徴とする映像データ処理方法。
【請求項8】
前記検索ステップは、ネットワーク上の他の映像データ処理装置にある前記映像データの内容記述された部分の検索を可能にする通信機能を備えたことを特徴とする請求項7記載の映像データ処理方法。
【請求項9】
コンピュータを、請求項1、2、3または4に記載の映像データ処理装置として機能させるためのプログラム。
【請求項10】
請求項9に記載の映像データ処理プログラムを記録したコンピュータ読み取り可能な記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate


【公開番号】特開2006−120018(P2006−120018A)
【公開日】平成18年5月11日(2006.5.11)
【国際特許分類】
【出願番号】特願2004−308928(P2004−308928)
【出願日】平成16年10月22日(2004.10.22)
【出願人】(000006747)株式会社リコー (37,907)
【Fターム(参考)】