説明

映像処理装置及びその方法

【課題】タイムテロップを使用せず、特定の特定区間を検出する映像処理装置を提供することを目的とする。
【解決手段】映像処理装置100は、入力された映像に表示されたテロップを検出するテロップ検出部102と、前記テロップから任意の条件を満たす特定テロップを選択するテロップ選択部103と、前記複数の特定テロップの中で、任意の時間範囲内にある複数の特定テロップを一つのグループとして取得し、前記グループから2個の前記特定テロップを対応付ける対応付け部104と、前記2個の前記特定テロップに挟まれた特定区間を抽出する区間抽出部105とを有する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、特定区間を抽出し、短時間で番組を視聴することができる映像処理装置及びその方法に関する。
【背景技術】
【0002】
ユーザが映像から見たいシーンだけを検索したり、要約映像を作成したりするには映像の時間区間に属性情報を付与しておく必要がある。そのためには映像から意味的にまとまった特定区間を抽出する技術が必要である。
【0003】
そのような技術の1つにスポーツ中継映像からスタジオシーンなどを除いて実際に競技が行われている区間だけを抽出する技術がある。例えば、特許文献1ではスポーツ映像から競技区間を抽出する方法であり、試合の経過時間や残り時間を表す競技タイムテロップの表示区間を競技区間(特定区間)と判定している。具体的には周期的に変化する領域を含むテロップを競技タイムテロップとして検出し、検出区間ではカット点で映像を分割しないことで、競技区間をひとまとまりのシーンとする。
【特許文献1】特開2008−72232公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
上記の従来技術は競技タイムテロップが表示されている区間を競技区間と見なしているため、競技タイムテロップが表示されないスポーツや種目では検出することができない。
【0005】
例えば、陸上競技の中継番組では100m走やリレーなどのトラック種目と走り高跳びや砲丸投げなどのフィールド種目が混在していることが多い。しかし、フィールド種目には競技タイムテロップが表示されない(図3参照)。そのため、そのような番組から競技区間を抽出してもフィールド種目が抜け落ちてしまうという問題点がある。
【0006】
そこで本発明は、上記従来技術の問題点を解決するためになされたものであって、タイムテロップを使用せず、特定区間を検出する映像処理装置及びその方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明は、入力された映像に表示されたテロップを検出するテロップ検出部と、前記テロップから任意の条件を満たす特定テロップを選択するテロップ選択部と、前記複数の特定テロップの中で、任意の時間範囲内にある複数の特定テロップを一つのグループとして取得し、前記グループから2個の前記特定テロップを対応付ける対応付け部と、前記2個の前記特定テロップに挟まれた特定区間を抽出する区間抽出部と、前記抽出された特定区間を出力する出力部と、を備えることを特徴とする映像処理装置である。
【発明の効果】
【0008】
本発明によれば、タイムテロップ検出だけでは検出することができなかった特定区間を検出できる。
【発明を実施するための最良の形態】
【0009】
以下、本発明の一実施形態の映像処理装置100について図面に基づいて説明する。
【0010】
本実施形態の映像処理装置100は、競技タイムテロップを使用せず、各試技の前後に表示される選手名テロップから競技区間を検出する。図4に示すように、フィールド種目では試技の前に選手名やそれまでの記録を示すテロップが表示され、試技が終わると再び選手名とその試技の結果を表示するというパターンが多用される。そこで、同一人物の選手名テロップのグループを検出し、それらに挟まれる特定区間を試技区間として検出することでフィールド種目の競技区間を抽出する。
【0011】
また、このようなテロップは陸上競技以外のスポーツや音楽番組、コメディなどスポーツ以外のジャンルの番組にも存在する。本実施形態はこのような特定区間の前後を挟むように表示されるテロップが用いられる番組一般について、特定区間を抽出することができる。
【0012】
(第1の実施形態)
本発明の第1の実施形態の映像処理装置100について図1〜図2、図5〜図17に基づいて説明する。
【0013】
(1)映像処理装置100の構成
図1は、本実施形態の映像処理装置100を示すブロック図である。
【0014】
映像処理装置100は、入力部101、テロップ検出部102、テロップ選択部103、対応付け部104、区間抽出部105、出力部106とを備えている。
【0015】
なお、この映像処理装置100は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、テロップ検出部102、テロップ選択部103、対応付け部104、区間抽出部105、上記のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、映像処理装置100は、上記のプログラムをコンピュータ装置にあらかじめインストールすることで実現してもよいし、CD−ROMなどの記憶媒体に記憶して、又はネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。
【0016】
テロップ検出部102は、入力部101より入力された映像内に表示されるテロップを検出する。なお、「テロップ」とは、文字に限らず、画面上に合成された文字又は画像を指す。また、文字を含まない画像だけのロゴマークのようなものもテロップと呼ぶ。
【0017】
テロップ選択部103は、前記検出されたテロップのうち、任意の条件を満たすものを特定テロップとして選択する。なお、「特定テロップ」とは特定区間を決定するために指標となるテロップのことで、特定区間の前後を挟む形で表示される。例えば、スポーツ映像における試技の前後に表示される選手名や記録を示すテロップが特定テロップに該当する。また、スポーツ映像に限ったものではなく、音楽番組における歌の前後や芸人が順番にネタを披露するようなお笑い番組において、各芸人の登場前後に表示されるようなテロップも特定テロップに含む。
【0018】
対応付け部104は、前記選択された特定テロップのうち、任意の時間範囲内にあるものをグループとして取得し、その中から2個の特定グループを対応付ける。
【0019】
区間抽出部105は、前記対応付けられた2個の特定テロップに挟まれた特定区間を抽出して出力部106から出力する。
【0020】
(2)映像処理装置100の動作
次に、図1及び図2を用いて、映像処理装置100の動作について説明する。図2は、映像処理装置100の動作を示すフローチャートである。
【0021】
(2−1)ステップS101
まず、ステップS101において、映像処理装置100は、入力部101より映像の構成要素である画像(フレーム)を順次取得する。取得した画像はテロップ検出部102に送られる。なお、本明細書では、「映像」とは時系列の画像列(フレーム列)を意味し、「画像」とは一枚のフレームを意味する。
【0022】
(2−2)ステップS102
次に、ステップS102において、テロップ検出部102は、テロップと推定される画像領域が存在するか否かを判定すると共に、テロップと推定される画像領域が存在している場合にはその座標群を計算する。
【0023】
テロップ検出部102は、テロップと推定された画像領域の情報をテロップ選択部103に送る。
【0024】
テロップと推定される画像領域の存在有無や、その画像を特定する方法としては、例えば特許第3655110号公報や特開2007−274154公報などの方法を用いることができる。しかし、本実施形態はテロップ検出方法によりその実現形態が限定されるものではなく、このほかのテロップ検出方法を用いても実現可能である。
なお、テロップと推定する領域は厳密に文字の部分だけであってもよいし、文字と共に表示される周辺の装飾などの領域を含んでもよい。また、ロゴマークやイラスト等、文字以外のものでも構わない。
【0025】
(2−3)ステップS103
次に、ステップS103において、テロップ選択部103は、特定テロップの条件を満たすか否かが判定する。
【0026】
テロップ選択部103によって選択された特定テロップは対応付け部104に送られる。
【0027】
(2−4)ステップS104
次に、ステップS104において、対応付け部104は、時間的に任意の範囲内にある複数の特定テロップを、一つのグループとして取得する。
【0028】
時間的に任意の範囲内にある条件の第1の例を説明する。映像の先頭から数えてi番目に位置する特定テロップをTiとすると、パラメータnを用いて、TiからTi+nの間にある特定テロップを条件を満たすテロップとする。すなわち、n=1であれば隣接する特定テロップ、n=2であれば隣接する特定テロップとその1つ先の特定テロップが、一つのグループとして取得される。
【0029】
第2の例としては、Tiから時間tの範囲にある特定テロップを一つのグループとして取得する。
【0030】
また、第1の例と第2の例で挙げた例を論理和(OR)や論理積(AND)などの形で組み合わせを用いてもよい。
【0031】
なお、これらの条件はあくまで例であり、実施形態を限定するものではない。
【0032】
(2−5)ステップS105
次に、ステップS105において、対応付け部104は、一つのグループに含まれる各々の特定テロップが同じ対象に対応付いているか否かを、下記で示す条件に基づいて判定する。そして、対応付けられた2個の特定テロップは、区間抽出部105に送られる。
【0033】
(2−6)ステップS106
ステップS106において、区間抽出部105は、対応付けられた2個の特定テロップに挟まれた特定区間を抽出して、出力部106から出力する。
【0034】
このとき抽出する特定区間には、特定テロップの表示区間やその前後区間も適宜含めてよい。例えば、始端の特定テロップが出現する直前のカット点(シーンの切り替わり)から終端の特定テロップが消失した直後のカット点までを抽出する。
【0035】
また、複数の特定区間をまとめてもよい。例えば、スポーツの個々の試技区間を検出した後にこれらをまとめて競技区間とする。
【0036】
(3)テロップ選択部103の第1の構成例
図5は、テロップ選択部103の第1の構成例である。
【0037】
テロップ選択部103は、図5に示すように領域属性分類部301、出現密度選択部302、表示位置選択部303を備える。
【0038】
領域属性分類部301は、テロップと推定された領域の属性に基づいてテロップを分類する。属性としては例えば、色や位置、大きさ、出現時刻などを用いる。
【0039】
出現密度選択部302は、領域属性分類部301において分類されたテロップのグループの出現密度を算出し、任意の閾値より出現密度が高いグループのテロップを選択したり、また、出現密度が高いグループから順次選択する。例えば、出現密度は、時間長tdの間にN回出現したとき、N/tdとして算出できる。
【0040】
表示位置選択部303は、テロップの表示位置に基づいてテロップを選択する。例えば、テロップと推定された領域の座標群が画面内の任意の範囲にあるものを選択する。
【0041】
出現密度選択部302、表示位置選択部303による選択結果は論理和、論理積などの形で、組み合わせて利用してもよい。また、一方だけを用いてもよい。一方だけを用いる場合、テロップ選択部103を領域属性分類部301と出現密度選択部302だけの構成、又は、表示位置選択部303だけの構成も可能である。
【0042】
(4)テロップ選択部103の第2の構成例
図6は、テロップ選択部103の第2の構成例である。
【0043】
テロップ選択部103は、テロップモデル入力部401、類似度算出部402、類似度判定部403を備える。
【0044】
テロップモデル入力部401は、特定テロップの特徴を表したモデルを入力する。例えば、特定テロップが共通した色使いや装飾を持つ場合これらを雛形とした画像データのモデルを用いたり、位置や大きさが分かっている場合はこれらの座標群によるモデルを用いたりする。画像データを用いたモデルの場合、各画素の色などをそのまま用いてもよいし、Sobelフィルタなどによって得られるエッジの強度を用いてもよいし、色の分布を示すヒストグラム情報などを用いてもよい。また、これら以外の方法でモデルを表現しても構わない。
【0045】
類似度算出部402は、テロップモデル入力部401に入力されたテロップモデルとテロップ検出部102で検出されたテロップの類似度である差分を算出する。例えば、テロップモデルが画像データである場合、検出されたテロップとの座標(x,y)における画素値の差分をd(x,y)とするとΣxΣyd(x,y)を類似度とする。但し、ΣxΣyはテロップモデルと検出されたテロップの重複領域においてすべてのx,yの組み合わせについて後ろの項、つまり、d(x,y)を繰り返し加算することを示す。d(x,y)は例えば、d(x,y)=(V0(x,y)−Vi(x,y))とする。但し、V0(x,y)は座標(x,y)におけるモデルの画像データの輝度、Vi(x,y)は検出されたテロップの画像データの輝度である。
【0046】
類似度判定部403は、類似度算出部402で算出した類似度が任意の閾値を上回っているかを判定し、上回っている場合に検出されたテロップを特定テロップとする。
【0047】
図7は画像データを用いたテロップモデルについて説明する図である。特定テロップ近傍の装飾などを含むテロップ領域502を含むフレーム501をテロップモデルとする。これをテロップ504を含む映像フレーム503と比較するとテロップ領域の類似度が高いため、テロップモデルと合致すると判定され、テロップ504が特定テロップとして選択される。一方、テロップ506を含む映像フレーム505と比較するとテロップ領域の類似度が低いため、テロップモデルに合致しないと判定され、特定テロップとはならない。
【0048】
なお、テロップモデルは予め作成しておいたものを入力してもよい。また、テロップ選択部103の第1の構成を用いて映像の前半の特定区間で選択した特定テロップからテロップモデルを作成し、後半の特定区間を第2の構成を用いて処理してもよい。
【0049】
また、検出したい特定テロップの色や大きさなどが予め分かっている場合、テロップ検出部102とテロップ選択部103の処理は同時に行うこともできる。つまり、検出したい特定テロップのモデルと各映像フレームの類似度を計算し、類似度が任意の値を上回る場合、そこにはテロップが存在し、それは特定テロップであると判定できる。
【0050】
(5)対応付け部104の第1の構成例
図8は、対応付け部104の第1の構成例である。
【0051】
対応付け部104は、グループ取得部601、画像特徴量算出部602、類似度判定部603を備える。
【0052】
グループ取得部601は、少なくとも2つの特定テロップを選び、それらが時間的に任意の範囲内にある場合に一つのグループとして取得する。
【0053】
画像特徴量算出部602は、このグループの個々の特定テロップの画像特徴量を算出する。
【0054】
類似度判定部603は、この画像特徴量に基づいて各特定テロップがどれだけ相違しているかを示す類似度を算出し、その類似度が任意の閾値より大きいか否かを判定する。任意の閾値よりも大きい場合に特定テロップが同じ対象に対応付いていると判断する。
【0055】
この対応付け部104の構成は、特定テロップの内容自体が同一又はそれに準じるものであるかを判定することを目的としている。そのため、画像特徴量算出部602で算出される画像特徴量はその目的を達するものであればなんでもよい。
【0056】
第1の例としては、特定テロップと推定される領域の各画素値をそのまま特徴量とすることである。このときの類似度は各画素値の差分の領域全体における和となる。
【0057】
第2の例としては、画素値をそのまま用いるのではなく、エッジ強度を算出して用いたり、領域の色ヒストグラム分布を用いたり、各画素が隣接画素と比較して大きいか、小さいかを示す符号を用いたりしてもよい。
【0058】
第3の例としては、文字の部分をOCRによって文字認識し、画像データからテキストデータに変換してテキストデータを画像特徴量としてもよい。この場合の類似度の算出はテキストデータのマッチングにより行う。
【0059】
図9は、対応付け部104の第1構成例の処理について説明する図である。
【0060】
グループ取得部601で特定テロップ701と702が取得されたとする。このとき、画像特徴量算出部602で算出される特定テロップ701と702の画像特徴量の類似している(類似度が大きい)と類似度判定部603で判定された場合、区間抽出部105において両者に挟まれる特定区間703が抽出される。
【0061】
(6)対応付け部104の第2の構成例
図10は、対応付け部104の第2の構成である。
【0062】
対応付け部104は、グループ取得部801、顔情報取得部802、顔情報選択部803、類似度判定部804を備える。
【0063】
グループ取得部801は、少なくとも2つの特定テロップを選び、それらが時間的に任意の範囲内にある場合に一つのグループとして取得する。
【0064】
顔情報取得部802は、映像の中に登場する顔情報を取得する。取得する顔情報の例としては顔の位置や特徴点を示す座標群などである。色や顔の向きなどの情報を含めてもよい。取得方法は既存の顔検出方法を用いてもよいし、既に何らかの方法で得られている顔情報を入力してもよい。顔情報を取得する特定区間は映像全体である必要はなく、対応づけを行いたい特定テロップから任意の時間範囲に出現する顔情報だけを取得してもよい。
【0065】
顔情報選択部803は、特定テロップを対応付けるために、前記グループに含まれる各々の特定テロップそれぞれに対し、特定テロップを有する画像に写った顔の特徴量を表す顔情報を選択する。
【0066】
しかし、特定テロップを有する画像に顔が写っていない場合がある。このときは、この特定テロップを有する画像の時間的に近傍にある画像に写った顔の顔情報を選択する。例えば、選択する顔情報は、対応付けたい特定テロップの出現時刻に最も時間的に近いフレームを用いる。また、特定テロップの出現した時刻の直前の画像に写った顔を用いてもよい。
【0067】
また、特定テロップが表示されている時間特定区間に含まれるものの中で最も正面を向いているものや最も大きいもの、画面中央に位置するものを用いてもよい。
【0068】
類似度判定部804は、顔情報選択部803において選択された顔同士がどれだけ相違しているかを示す顔の特徴量の類似度を算出し、その類似度が任意の閾値より小さいか否かを判定する。任意の閾値よりも小さい場合に特定テロップが同じ対象に対応付いていると判断する。
【0069】
図11は対応付け部104の第2の構成例の処理について説明する図である。
【0070】
グループ取得部801は、特定テロップ901、902を取得する。このとき、特定テロップ901の表示されている映像フレームには顔が映っているが、特定テロップ902が映っている映像フレームには顔が映っていない。
【0071】
そこで、顔情報選択部803は、特定テロップ902が出現した時刻の直前の顔を映像フレーム903から取得する。
【0072】
類似度判定部804は、2つの顔が同一の人物と判定されるだけ特徴量が類似している場合には、特定テロップ901、902が対応づけられ、区間抽出部105において両者に挟まれる特定区間904が抽出される。
【0073】
(7)対応付け部104の第3の構成例
図12は、対応付け部104の第3の構成例である。
【0074】
対応付け部104は、グループ取得部1001、区間情報取得部1002、時間間隔判定部1003を備える。
【0075】
グループ取得部1001は、少なくとも2つの特定テロップを選び、それらが時間的に任意の範囲内にある場合に一つのグループとして取得する。
【0076】
区間情報取得部1002は、前記グループに含まれる各々の特定テロップの区間情報を取得する。例えば、区間情報とは、テロップが出現した時刻、消失した時刻である。それらの情報から算出できる中間点などの時刻を用いてもよい。
【0077】
類似度判定部1003は、区間情報に基づいて一つのグループに含まれる特定テロップがどれだけ離れているかを示す時間間隔を算出し、時間間隔が任意の条件を満たす場合に特定テロップが同じ対象に対応付いていると判断する。任意の条件とは例えば、対応付けるテロップ間の時間間隔が他のテロップとの時間間隔と比較して最も近い場合に条件を満たしていると判定したり、また、テロップ間の時間間隔が任意の閾値よりも小さい場合に条件を満たしていると判定したりする。
【0078】
図13は、対応付け部104の第3の構成例の処理について説明する図である。
【0079】
グループ取得部601が、特定テロップ1101、1102のグループと特定テロップ1102、1103のグループを取得する。このとき、区間情報取得部1002で得られたそれぞれの区間情報から時間間隔判定部1003で特定区間1104の時間間隔と特定区間1105の時間間隔を算出する。
【0080】
そして、特定区間1004の方が特定区間1105よりも時間間隔が短いので、特定テロップ1101、1102を対応づけ、区間抽出部105において両者に挟まれる特定区間1104が抽出される。
【0081】
(8)対応付け部104の第4の構成例
図14は、対応付け部104の第4の構成例である。
【0082】
対応付け部104は、グループ取得部1201、音響情報取得部1202、音響情報判定部1203を備える。
【0083】
グループ取得部1201は、少なくとも2つの特定テロップを選び、それらが時間的に任意の範囲内にある場合に一つのグループとして取得する。
【0084】
音響情報取得部1202は、前記グループに含まれる各特定テロップによって挟まれる特定区間の音響情報を取得する。音響情報とは、音響信号又は音声信号を意味し、映像に付随する音響信号そのものであってもよい。また、音響信号を解析した特徴量情報、例えば、周波数情報や音響パワー(音の大きさ)、ケプストラム、MFCC(Mel−Frequency Cepstrum Coefficient)などでもよい。また、それらの情報を解析することによって、音響信号がどのような信号であるのか意味づけした情報でもよい。この解析とは、特定の周波数成分が含まれるか否か、特定の音響モデルとのマッチング、音声認識などである。この情報としては、例えば、音響信号が歓声や拍手、話し声、投てき競技の選手の大声、歌声、音楽などであるか否かを示す情報である。なお、これらの解析処理は音響情報取得部1202で行ってもよいし、解析処理は行わず外部から情報を入力してもよい。
【0085】
音響情報判定部1203は、音響情報が任意の条件を満たしているか判定を行い、満たしている場合に音響情報を取得した特定区間を挟む特定テロップが同じ対象に対応付いていると判断する。この条件としては、次のようなものがある。
【0086】
第1の条件は、周波数情報の特定の周波数成分が高いなど、分布が任意のパターンと類似しているか否かである。
【0087】
第2の条件は、音響パワーが任意の閾値より大きいか否かなど、特徴量を用いる。
【0088】
第3の条件は、音響信号が歓声や拍手、話し声、投てき競技の選手の大声、歌声、音楽などであるか否かなど、意味付けされた内容を用いてもよい。
【0089】
図15は、対応付け部104の第4の構成例の処理について説明する図である。
【0090】
グループ取得部1201が、特定テロップ1301、1302のグループと特定テロップ1302、1303のグループを取得したとする。このとき、特定テロップ1301、1302の間の特定区間1304には拍手、歓声など、任意の条件を満たす音響信号1305が含まれるので、特定テロップ1301、1302を対応づける。
【0091】
しかし、特定テロップ1302、1303の間の区間1306には任意の条件を満たす音響信号は含まれないので、特定テロップ1302、1303は対応づけない。
【0092】
その結果、区間抽出部105において特定区間1304が抽出される。
【0093】
(9)対応付け部104の第4の構成例の変更例
対応付け部104の第4の構成例の変更例について説明する。
【0094】
対応付け部104の第4の構成例と同様の効果は、音響信号ではなく画像の特徴量を用いて得ることもできる。
【0095】
試技の場面では同じカメラアングルやカメラワークで撮影された映像が多くなる。選手の動作も大きくは違わない。そのため、試技に関連しての任意の条件を満たす画像特徴量が特定テロップの間の特定区間に含まれるか否かによって、対応づけを行うかどうか判定することができる。
【0096】
(10)対応付け部104の変更例
対応付け部104の第1〜4の構成例の変更例について説明する。
【0097】
スポーツ競技において、試技の前後だけでなく、休憩している合間などに映ったときにも選手名を示すテロップが表示される場合がある。このような場合に特定テロップを対応づけてしまうと試技ではない特定区間が抽出されてしまう。そこで、選手名のテロップと共に表示される記録を示すテロップを含めて特定テロップとして扱い、記録を示すテロップが変化している特定テロップだけを対応づける。記録を示すテロップが変化していればその間に試技が行われたと推定できるためである。また、選手名のテロップが同一であり、順次記録が変化している特定区間だけを抽出すれば、特定の選手の試技だけを一連のものとして抽出できる。
【0098】
選手名テロップの対応付けには、対応付け部104の第1〜4の構成例を用いる。記録のテロップが変化していることを検出するには対応付け部104の第1構成例において、対応づけがなされないことを検出すればよい。
【0099】
また、記録の変化を伴うテロップであるかどうかに基づいてテロップ選択部103は特定テロップを選択することもできる。すなわち、テロップ選択部103の第1の構成例や第2の構成例を用いて特定テロップ候補を選択し、それらが記録の変化を伴う場合に特定テロップと決定する。
【0100】
(11)特定区間が重複する場合
ここまで説明した処理によって、同じ対象に関連すると推定された前記グループに挟まれた特定区間を抽出することができる。しかし、映像によっては第1のグループと第2のグループが重複する場合がある。
【0101】
例えば、1人目の選手の試技が終了し、結果が出る前に、次の選手が試技を行うような場合である。そのような映像では図16のように第1のグループの終端テロップよりも、第2のグループの始端テロップが先に出現し、重複区間1401が生じる。
【0102】
このような場合、特定テロップ1402より後ろの部分は2人目の選手が映っていると推定されるので、その前までの特定区間1403を1人目の選手に対応する特定区間とする。なお、終端テロップとは前記グループのうち、抽出する特定区間の終端を決める特定テロップである。同様に始端テロップとは特定テロップ組のうち、抽出する特定区間の始端を決める特定テロップである。
【0103】
図17はこのように特定区間が重複する場合の処理を行うためのフローチャートである。
【0104】
まず、ステップS201において、対応付け部104は、初めに前記グループを2つ取得する。
【0105】
次に、ステップS202において、対応付け部104は、第1のグループの終端テロップと第2のグループの始端テロップの表示時刻を比較する。
【0106】
次に、ステップS203において、対応付け部104は、第1のグループの終端テロップよりも第2のグループの始端テロップが前に位置する場合、第1のグループに対応する特定区間の終端を第2のグループの始端テロップとする。
【0107】
そうでない場合は、ステップS204において、対応付け部104は、第1のグループに対応する特定区間の終端を第1のグループの終端テロップとする。
【0108】
最後に、ステップS205において、対応付け部104は、最後に第1のグループの始端テロップとステップS203、又は、S204で求めた終端との間に含まれる特定区間を第1のグループに対応する特定区間として抽出する。
【0109】
なお、特定テロップ自身の特定区間を抽出する特定区間に含めるかについては目的に応じて、含めても含めなくてもよい。一方だけを含めてもよい。例えば、始端だけと含めて、終端は含めなくてもよい。
【0110】
(第2の実施形態)
本発明の第2の実施形態の映像処理装置100について図18〜図19に基づいて説明する。
【0111】
図3で示したように、スポーツ競技においては、本実施形態による特定区間の抽出は、競技タイムテロップ201による区間抽出と補間的な関係にある。一部の種目(例えば、陸上のトラック種目)の競技区間を競技タイムテロップを検出することで抽出し、他の種目(例えば、陸上のフィールド種目)の競技区間を本実施形態による特定区間検出によって抽出できる。
【0112】
そこで、本実施形態は、競技タイムテロップの表示されている区間、又は、競技タイムテロップに基づき競技区間と推定された特定区間を除いて処理を行う。
【0113】
(1)映像処理装置100の構成
図18は、本実施形態の映像処理装置100を示すブロック図である。
【0114】
映像処理装置100は、第1の実施形態の構成要素である入力部101、テロップ検出部102、テロップ選択部103、対応付け部104、区間抽出部105、出力部106に加えて、タイムテロップ情報入力部1501を備えている。
【0115】
タイムテロップ情報入力部1501は、タイムテロップの情報を入力する。タイムテロップは特許文献1などの方法によって検出することができる。
【0116】
その他の構成要素は、第1の実施形態と同じであるため、詳細な説明は省略する。
【0117】
(2)映像処理装置100の動作
次に、図18及び図19を用いて、本実施形態の映像処理装置100の動作について説明する。図19は、本実施形態の映像処理装置100の動作を示すフローチャートである。
【0118】
第1の実施形態の映像処理装置100の動作との違いはタイムテロップ情報入力部1501からタイムテロップ情報を入力し(S301)、タイムテロップ情報に基づき競技タイムテロップが表示されている区間、又は、競技タイムテロップから競技区間と推定された区間を処理対象から除くことである(S302)。
【0119】
以降のステップは、処理対象区間のみに対し、第1の実施形態の映像処理装置100と同様にステップS101〜S106までの処理を行う。
【0120】
本実施形態の映像処理装置100を用いることで処理量を低減したり、競技タイムテロップから推定される区間に偶然出現した特定テロップと同類のテロップによる意図しない区間の抽出を抑制できる。
【0121】
(第3の実施形態)
本発明の第3の実施形態の映像処理装置100について図20〜図24に基づいて説明する。
【0122】
上記各実施形態では、特定テロップの対応付けができなかった区間は抽出することができない。しかし、実際の番組では始端又は終端の一方が出現しない場合がある。図20はこのような例について説明する図である。
【0123】
例えば、陸上競技のトラック種目を中継中に他の映像1601が挿入されたとき、次の選手の試技が開始されても始端テロップの表示が間に合わず、記録を表示するための終端テロップ1602のみが表示されることがある。他の映像1601とは例えば、同時に開催している他の種目、CM、番組の間に放送されるニュース、リプレイなどのVTRなどである。
【0124】
そこで、本実施形態は、このような場合においても対応付けできた区間1603をもとに特定区間を推定する。
【0125】
(1)映像処理装置100の構成
図21は、本実施形態の映像処理装置100を示すブロック図である。
【0126】
映像処理装置100は、第1の実施形態の構成要素である入力部101、テロップ検出部102、テロップ選択部103、対応付け部104、区間抽出部105、出力部106に加えて、区間推定部1701を備えている。
【0127】
区間推定部1701は、対応付け部104において、対応付けできた特定テロップの情報に基づき、対応付けできなかったテロップに対応する特定区間を推定する。
【0128】
その他の構成要素は、第1の実施形態と同じであるため、詳細な説明は省略する。
【0129】
(2)映像処理装置100の動作
次に、図21及び図22を用いて、映像処理装置100の動作について説明する。なお、図21は、映像処理装置100の動作を示すフローチャートである。
【0130】
初めに、第1の実施形態の映像処理装置100と同様にステップS101からS106までの処理を行う。
【0131】
次に、ステップS401において、区間推定部1701は、区間抽出部105で抽出された区間情報に基づき特定区間モデルを作成する。「特定区間モデル」とは例えば、特定区間の平均時間長や始端テロップから終端テロップまでの特定区間(前後も含んでよい)の画像や音響の特徴量である。
【0132】
次に、ステップS402において、区間推定部1701は、対応付け部104において対応付けできなかった特定テロップを取得する。例えば、図20の終端1602のようなテロップである。
【0133】
最後に、ステップS403において、区間推定部1701は、ステップS401で作成した特定区間モデルに基づき、ステップS402で取得した特定テロップに対応する特定区間を推定する。
【0134】
(3)区間推定部1701の動作
区間推定部1701が、ステップS403において特定区間を推定する方法の具体例について説明する。
【0135】
第1の方法は、特定区間モデルとして平均時間長を用い、ステップS402で取得した特定テロップが始端又は終端のいずれであるかを映像毎に決めておく。そして、平均時間長の長さだけ時間を進めた位置までを特定区間として推定する(終端を探す場合)又は遡った位置までを特定区間として推定する(始端を探す場合)。
【0136】
第2の方法は、始端テロップから終端テロップまでの特定区間(前後も含めてもよい)の一部又は全部の範囲から抽出した画像や音響の特徴量を特定区間モデルとして用いる。例えば、選手が試技を始めるときの画像や試技中の画像は毎回、類似した画像となると推定されるので、これらの画面から輝度、色、動きなどの情報を特徴量とする。そして、ステップS402で取得した特定テロップの近傍で類似する画像特徴量を持つ部分を探して抽出する特定区間を推定する。音声を用いた場合も同様である。拍手や歓声などが起こるタイミングは選手が違っても試技毎に類似すると推定される。そのため、類似する音響の特徴量を持つ部分を探索し、特定区間を推定する。
【0137】
第1の方法と第2の方法を組み合わせて用いることもできる。例えば、試技中の画面や拍手、歓声の特徴量を使って特定テロップが始端なのか終端なのかを推定し、その結果に合わせて平均時間長だけ時間を進めるか戻すかを決定する。
【0138】
(4)その他の例
図23は、始端の特定テロップが省略される他の例について説明する図である。
【0139】
図23に示すように、複数回の試技1801をダイジェストとして、まとめて放送する場合が当てはまる。試技の映像とその記録を含む特定テロップ(終端)だけが次々と表示されるので、対応づけできない特定テロップが該当特定区間に連続して出現する。
【0140】
このような例で試技区間を抽出するには、対応づけできなかった特定テロップのうち、隣接する特定テロップとの間隔が閾値以下のものをグルーピングし、グループの要素が任意の数以上である場合に、最も時刻の離れた特定テロップに囲まれた特定区間をまとめて試技区間として抽出する。間隔の代わりに時間当たりに出現する回数(出現密度)を用いて、任意の回数を上回っているかを判定基準としてもよい。
【0141】
また、このような特定テロップを試技毎に比較すると、選手名の部分は同じで、記録の部分だけが更新されていく。このとき、更新は一定のパターンに基づいて行われるので、特定テロップに一定のパターンに基づいて更新される部分領域が存在するか否かを判定する。存在する場合には、最も時刻の離れた特定テロップに囲まれた特定区間をまとめて試技区間として抽出する。部分領域はフレーム間差分を求めたり、新たに出現したテロップ領域を検出したりすることで見つける。
【0142】
図24は、記録が更新されるパターンの例について説明した図である。3通りの例があり、左側が直前の試技後の特定テロップ、右側が今回の試技後の特定テロップで、新たに「記録3」が追加又は上書きされる。
【0143】
いずれの特定区間抽出方法でも最初の特定区間の始端の特定テロップ1802が省略されていると推定される場合、区間推定部1701を用いて推定を行うことができる。始端の特定テロップ1802が省略されていると推定する方法は先頭の終端特定テロップ1803の直前の特定区間にテロップ1803より後ろの特定区間(各終端テロップに挟まれた特定区間)と映像や音響の特徴量が類似する特定区間が存在するかを判定する。存在する場合に始端1802が省略されていると推定する。
【0144】
(変更例)
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【0145】
以下、変更例について説明する、
(1)変更例1
変更例1について図25に基づいて説明する。
【0146】
番組や種目によっては試技が終了し、記録が出るまでに時間がかかるものがある。
【0147】
例えば、図25のように試技を行う時間1901の後に記録の計測や判定、得点集計などのための時間1902が存在するケースである。そのような映像で始端テロップと記録が表示される終端テロップの間の区間1903をそのまま抽出すると、試技を行っていない区間も多く含んでしまう。
【0148】
そこで、変更例1の映像処理装置100は、始端テロップと終端テロップの間の区間の長さが任意の時間長を超える場合には一部の区間だけを抽出する。
【0149】
例えば、始端より任意の時刻の位置1904より前の区間を抽出する。位置1904は一定の値に定めてもよいし、他の区間(始端から終端までの特定区間)を統計的に処理して求めた値(例えば、平均値)をもとに定めてもよいし、区間1903に対する割合(例えば、中間点)などを用いてもよい。
【0150】
(2)変更例2
変更例2について図26、図27に基づいて説明する。
【0151】
上記各実施形態の映像処理装置100では、特定テロップを対応づけてその間に含まれる試技区間を抽出したが、個々の試技区間ではなく競技区間全体をまとめて抽出する場合は対応付けを行わずに抽出することもできる。図26のように特定テロップは競技区間に集中的に現れるため、番組全体で見ると偏在していることになる。
【0152】
そこで、テロップ選択部103で、特定テロップと推定されたテロップが存在する区間(例えば2001)をまとめて競技区間として抽出する(個々の試技区間としては抽出されない)。隣り合う特定テロップが任意の間隔以下である場合は一連の競技区間として含め、間隔2002が広い場合は競技区間に含めない。間隔の代わりに時間あたりの出現回数を閾値としてもよい。この場合、任意の回数を上回る特定区間が競技区間として抽出される。
【0153】
また、図27に示すように、特定テロップを用いずに類似する画面が繰り返し登場する特定区間を競技区間としてもよい。一般的に試技のシーンはカメラのアングルや選手の動きが類似することが多く、類似する画面が繰り返し登場する。
【0154】
そこで、まず、映像中のフレーム又はシーンを相互に比較して特徴量が類似度するフレーム又はシーンのクラスタを生成しておき、時間当たりの登場回数が任意の値より大きいクラスタを選択したり、回数が多い順にクラスタを順次選択したりすることで、類似画面を選ぶ。
【0155】
次に、隣り合う類似画面との間隔が任意の値以下である場合は一連の競技区間(例えば2101)として含め、間隔2102が広い場合は競技区間に含めないようにして特定区間を決定する。
【0156】
また、類似画面を用いる代わりにカメラの動き(パンやズーム)によって生じた画面全体の動きが類似しているシーンを用いたり、音響、音声が類似するシーンを用いても同様にできる。
【0157】
(変更例3)
変更例3について説明する。
【0158】
上記各実施形態の映像処理装置100では、主に陸上競技のフィールド種目を例に説明を行った。しかし、各実施形態の映像処理装置100は、これらの種目に限定して適用されるものではない。
【0159】
例えば、スポーツではスキー(ジャンプ、モーグルなど)やフィギュアスケートなど採点が行われる競技には一般に適用できる。
【0160】
また、競技タイムテロップ検出が適用可能な競技を含めて適用することもできる。例えば、スキーのアルペン種目(滑走タイムを競う種目)ではスタート時の画面と共に選手名が表示され、ゴールすると選手名と記録が表示される。このような競技は競技タイムテロップを用いることもできるし、本実施形態を用いることもできる。
【0161】
また、スポーツ以外のジャンルで、演技や演奏、講演などにも適用できる。例えば、音楽番組で曲の始まりで歌手や曲名のテロップが表示され、曲の終わりで表示されるものがあるが、このような番組にも適用可能である。
【0162】
また、バラエティ番組(お笑い番組)、芸人が次々とネタを披露するような番組で登場時とネタの終了時の両方に名前が表示されるような番組に対しても適用可能である。
【0163】
このように、演技や演奏、講演の前後に人物や団体、題目、曲目などのテロップが表示される番組には総じて適用することが可能である。
【図面の簡単な説明】
【0164】
【図1】本発明の第1の実施形態の映像処理装置の構成を示すブロック図である。
【図2】第1の実施形態における映像処理装置の動作を示すフローチャートである。
【図3】従来技術の課題について説明する図である。
【図4】本発明に基本的な考え方について説明する概念図である。
【図5】テロップ選択部の第1の構成例を示すブロック図である。
【図6】テロップ選択部の第2の構成例を示すブロック図である。
【図7】テロップ選択部の第2の構成例の処理を説明する図である。
【図8】対応付け部の第1の構成例を示すブロック図である。
【図9】対応付け部の第1の構成例の処理を説明する図である。
【図10】対応付け部の第2の構成例を示すブロック図である。
【図11】対応付け部の第2の構成例の処理を説明する図である。
【図12】対応付け部の第3の構成例を示すブロック図である。
【図13】対応付け部の第3の構成例の処理を説明する図である。
【図14】対応付け部の第4の構成例を示すブロック図である。
【図15】対応付け部の第4の構成例の処理を説明する図である。
【図16】重複区間の処理を説明する図である。
【図17】重複区間の処理を示すフローチャートである。
【図18】第2の実施形態の映像処理装置の構成を示すブロック図である。
【図19】第2の実施形態の映像処理装置の動作を示すフローチャートである。
【図20】特定区間推定について説明する図である。
【図21】第3の実施形態の映像処理装置の構成を示すブロック図である。
【図22】第3の実施形態の映像処理装置の動作を示すフローチャートである。
【図23】第3の実施形態の特定区間推定について説明する図である。
【図24】第3の実施形態の特定区間推定について説明する他の図である。
【図25】変更例1の特定区間推定について説明する図である。
【図26】変更例2の特定区間推定について説明する図である。
【図27】変更例2の特定区間推定について説明する他の図である。
【符号の説明】
【0165】
100 映像処理装置
102 テロップ検出部
103 テロップ選択部
104 対応付け部
105 区間抽出部

【特許請求の範囲】
【請求項1】
入力された映像に表示されたテロップを検出するテロップ検出部と、
前記テロップから任意の条件を満たす特定テロップを選択するテロップ選択部と、
前記複数の特定テロップの中で、任意の時間範囲内にある複数の特定テロップを一つのグループとして取得し、前記グループから2個の前記特定テロップを対応付ける対応付け部と、
前記2個の前記特定テロップに挟まれた特定区間を抽出する区間抽出部と、
前記抽出された特定区間を出力する出力部と、
を備えることを特徴とする映像処理装置。
【請求項2】
前記テロップ選択部は、前記複数のテロップの中で、前記映像の画面上の表示位置に基づいて前記特定テロップを選択する、
ことを特徴とする請求項1記載の映像処理装置。
【請求項3】
前記テロップ選択部は、前記複数のテロップの中で、前記テロップの出現密度に基づいて前記特定テロップを選択する、
ことを特徴とする請求項1記載の映像処理装置。
【請求項4】
前記テロップの出現密度は、一定時間当たりに出現する回数を用いる、
ことを特徴とする請求項3の映像処理装置
【請求項5】
前記テロップ選択部は、
前記テロップと予め記憶したテロップモデルとの差分からなる類似度を求め、
前記類似度が第1の閾値以上のときに前記テロップを前記特定テロップとして選択する、
ことを特徴とする請求項1記載の映像処理装置。
【請求項6】
前記対応付け部は、前記グループ中の複数の前記特定テロップの中で、時間的に隣接する2個の前記特定テロップを対応付ける、
ことを特徴とする請求項1記載の映像処理装置。
【請求項7】
前記対応付け部は、前記グループ中の前記各特定テロップの画像特徴量の類似度を求め、前記類似度が第2の閾値より高い2個の前記特定テロップを対応付ける、
ことを特徴とする請求項1記載の映像処理装置。
【請求項8】
前記対応付け部は、前記グループ中の前記特定テロップを有する画像中に登場する顔の特徴量を取得し、前記顔の特徴量の類似度を求め、前記類似度が第3の閾値より高い2個の前記特定テロップを対応付ける、
ことを特徴とする請求項1記載の映像処理装置。
【請求項9】
前記対応付け部は、前記グループ中の2組の前記特定テロップの時間間隔を求め、前記時間間隔が短い組の前記2個の特定テロップを対応付ける、
ことを特徴とする請求項1記載の映像処理装置。
【請求項10】
前記対応付け部は、前記グループの間にある任意の音声信号又は音響信号を挟む2個の前記特定テロップを対応付ける、
ことを特徴とする請求項1記載の映像処理装置。
【請求項11】
前記区間抽出部は、一の前記グループの中の2個の前記特定テロップによって挟まれる特定区間が、他の前記グループの中の2個の前記特定テロップによって挟まれる特定区間が、重複する場合に、時間的に後に位置する前記特定区間を、時間的に前に位置する前記特定区間から除外して前記特定区間を抽出する、
ことを特徴とする請求項1記載の映像処理装置。
【請求項12】
タイムテロップが表示されていない区間を検出するタイムテロップ情報入力部をさらに有し、
前記テロップ検出部は、前記タイムテロップが表示されていない区間から前記テロップを検出する、
ことを特徴とする請求項1記載の映像処理装置。
【請求項13】
前記対応付けできた前記特定テロップの情報に基づき、前記対応付けできなかった前記テロップに関する前記特定区間を推定する区間推定部をさらに有する、
ことを特徴とする請求項1記載の映像処理装置。
【請求項14】
入力された映像に表示されたテロップを検出するテロップ検出ステップと、
前記テロップから任意の条件を満たす特定テロップを選択するテロップ選択ステップと、
前記複数の特定テロップの中で、任意の時間範囲内にある複数の特定テロップを一つのグループとして取得し、前記グループから2個の前記特定テロップを対応付ける対応付けステップと、
前記2個の前記特定テロップに挟まれた特定区間を抽出する区間抽出ステップと、
前記抽出された特定区間を出力する出力ステップと、
を備えることを特徴とする映像処理方法。
【請求項15】
入力された映像に表示されたテロップを検出するテロップ検出機能と、
前記テロップから任意の条件を満たす特定テロップを選択するテロップ選択機能と、
前記複数の特定テロップの中で、任意の時間範囲内にある複数の特定テロップを一つのグループとして取得し、前記グループから2個の前記特定テロップを対応付ける対応付け機能と、
前記2個の前記特定テロップに挟まれた特定区間を抽出する区間抽出機能と、
前記抽出された区間を出力する出力機能と、
をコンピュータに実現させるための映像処理プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate

【図25】
image rotate

【図26】
image rotate

【図27】
image rotate


【公開番号】特開2010−81531(P2010−81531A)
【公開日】平成22年4月8日(2010.4.8)
【国際特許分類】
【出願番号】特願2008−250457(P2008−250457)
【出願日】平成20年9月29日(2008.9.29)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】