映像字幕検出装置およびそのプログラム
【課題】番組映像と字幕映像とを含む映像から、容易に字幕のテキストを検出する。
【解決手段】撮影映像データを取り込み、そのフレーム画像から検出した直線成分によって形成される矩形に基づいて、フレーム画像からテレビ画面領域を検出する幾何変換部12と、テレビ画面領域から画像のエッジを検出し、これらエッジの分布に基づいて、フレーム画像から副画面領域を推定する副画面領域推定部13と、副画面領域から時間方向の画素の変化を検出し、この画素の変化に基づいて字幕領域を推定する字幕領域推定部14と、撮影映像データを取り込んでフレーム画像から副画面領域を検出する副画面領域検出部17と、副画面領域から字幕領域を検出し、この字幕領域から字幕のテキストを抽出し、このテキストと現在時刻を示す時刻情報とを対応付けた字幕情報を生成して出力する字幕情報抽出部18とを備える。
【解決手段】撮影映像データを取り込み、そのフレーム画像から検出した直線成分によって形成される矩形に基づいて、フレーム画像からテレビ画面領域を検出する幾何変換部12と、テレビ画面領域から画像のエッジを検出し、これらエッジの分布に基づいて、フレーム画像から副画面領域を推定する副画面領域推定部13と、副画面領域から時間方向の画素の変化を検出し、この画素の変化に基づいて字幕領域を推定する字幕領域推定部14と、撮影映像データを取り込んでフレーム画像から副画面領域を検出する副画面領域検出部17と、副画面領域から字幕領域を検出し、この字幕領域から字幕のテキストを抽出し、このテキストと現在時刻を示す時刻情報とを対応付けた字幕情報を生成して出力する字幕情報抽出部18とを備える。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像字幕検出装置およびそのプログラムに関する。
【背景技術】
【0002】
国政選挙や大規模災害等に関する情報をテレビ視聴者に提供するため、放送局の放送機器は、本来の番組映像のフレームの大きさを若干縮小し、縮小されたフレーム画像の周囲の表示領域のうち一部分を字幕表示領域とし、番組映像と字幕映像とを合成しエンコード処理して得たコンテンツを放送することがある。字幕映像によって提供される字幕情報のテキストは、スクロールされたり一画面分同時に切り替えられたりして表示されるため、視聴者は、これらテキストを見逃したり、見たとしても忘れてしまうことがある。
【0003】
テレビ画面に映る上記の映像をビデオカメラにより撮影すれば、字幕映像を記録し後で確認することができる。しかし、このようにして得られる字幕情報はあくまでも映像としての情報である。よって、撮影した映像から所望の字幕を確認するには手間がかかるため、字幕の検索効率が悪い。
【0004】
また、従来、カメラによって撮影された画像から、映っている文字を認識する技術が知られている(例えば、非特許文献1参照)。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】黄瀬浩一、大町真一郎、内田誠一、岩村雅一、「カメラを用いた文字認識・文書画像解析の現状と課題」、電子情報通信学会技術研究報告、社団法人電子情報通信学会、2005年3月、PRMU2004−246、p.85−90
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上記技術では、前述したような番組映像に字幕映像が合成された映像、つまり、字幕以外にも様々な情報が多く含まれるテレビ画像から字幕のテキストを検出することができない。
本発明は、上記課題を解決するためになされたものであり、番組映像と字幕映像とを含む映像から、容易に字幕のテキストを検出することができる、映像字幕検出装置およびそのプログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
[1]上記の課題を解決するため、本発明の一態様である映像字幕検出装置は、番組映像および字幕映像を含むテレビ映像を撮影して得られた撮影映像データを取り込み、前記撮影映像データのフレーム画像から直線成分を検出し、前記直線成分によって形成される矩形に基づいて、前記フレーム画像からテレビ画面領域を検出するテレビ画面領域検出部と、前記テレビ画面領域検出部が検出した前記テレビ画面領域から画像のエッジを検出し、前記画像のエッジの分布に基づいて、前記フレーム画像から前記字幕映像に対応する字幕画面領域を推定する字幕画面領域推定部と、前記字幕画面領域推定部が推定した前記字幕画面領域から時間方向の画素の変化を検出し、前記画素の変化に基づいて字幕のテキストを含む字幕領域を推定する字幕領域推定部と、前記撮影映像データを取り込み、前記字幕画面領域推定部が推定した前記字幕画面領域に基づいて、前記撮影映像データのフレーム画像から前記字幕画面領域を検出する字幕画面領域検出部と、前記字幕画面領域検出部が検出した前記字幕画面領域を含むフレーム画像における、前記字幕領域推定部が推定した前記字幕領域から字幕のテキストを抽出し、前記字幕のテキストと現在時刻を示す時刻情報とを対応付けた字幕情報を生成し、前記字幕情報を出力する字幕情報抽出部と、を備えることを特徴とする。
【0008】
[2]上記[1]記載の映像字幕検出装置において、前記字幕情報抽出部は、前記字幕画面領域検出部が検出した前記字幕画面領域を含む第1のフレーム画像における、前記字幕領域推定部が推定した前記字幕領域と、前記第1のフレーム画像よりも前の時刻の第2のフレーム画像における前記字幕領域との比較に基づいて、前記第1のフレーム画像における前記字幕領域から字幕のテキストを抽出することを特徴とする。
[3]上記[2]記載の映像字幕検出装置において、前記字幕情報抽出部は、前記第1のフレーム画像における字幕領域と前記第2のフレーム画像における字幕領域との比較に基づいて、字幕のテキストが静止しているか否かを判定し、前記字幕のテキストが静止している場合に、前記第1のフレーム画像における前記字幕領域から字幕のテキストを抽出することを特徴とする。
[4]上記[2]記載の映像字幕検出装置において、前記字幕情報抽出部は、前記字幕画面領域検出部が検出した前記字幕画面領域から第1のテキストを抽出し、この第1のテキストと、既に抽出された第2のテキストとの差分を抽出し、この差分を前記第2のテキストに追加することによって前記字幕のテキストを取得することを特徴とする。
【0009】
[5]上記の課題を解決するため、本発明の一態様であるプログラムは、コンピュータを、番組映像および字幕映像を含むテレビ映像を撮影して得られた撮影映像データを取り込み、前記撮影映像データのフレーム画像から直線成分を検出し、前記直線成分によって形成される矩形に基づいて、前記フレーム画像からテレビ画面領域を検出するテレビ画面領域検出部と、前記テレビ画面領域検出部が検出した前記テレビ画面領域から画像のエッジを検出し、前記画像のエッジの分布に基づいて、前記フレーム画像から前記字幕映像に対応する字幕画面領域を推定する字幕画面領域推定部と、前記字幕画面領域推定部が推定した前記字幕画面領域から時間方向の画素の変化を検出し、前記画素の変化に基づいて字幕のテキストを含む字幕領域を推定する字幕領域推定部と、前記撮影映像データを取り込み、前記字幕画面領域推定部が推定した前記字幕画面領域に基づいて、前記撮影映像データのフレーム画像から前記字幕画面領域を検出する字幕画面領域検出部と、前記字幕画面領域検出部が検出した前記字幕画面領域を含むフレーム画像における、前記字幕領域推定部が推定した前記字幕領域から字幕のテキストを抽出し、前記字幕のテキストと現在時刻を示す時刻情報とを対応付けた字幕情報を生成し、前記字幕情報を出力する字幕情報抽出部と、して機能させる。
【発明の効果】
【0010】
本発明によれば、番組映像と字幕映像とを含む映像から、容易に字幕のテキストを検出することができる。
【図面の簡単な説明】
【0011】
【図1】第1実施形態である映像字幕検出装置の機能構成を示すブロック図である。
【図2】同実施形態において、幾何変換部が出力する、幾何変換されたフレーム画像を模式的に表した図である。
【図3】図2に示したフレーム画像に基づいて、同実施形態におけるモデル生成部が生成したモデル画像を模式的に表した図である。
【図4】同実施形態において、副画面領域推定部が実行する副画面領域の推定処理の手順を示すフローチャートである。
【図5】同実施形態において、上部領域についての推定処理の手順を示すフローチャートである。
【図6】同実施形態において、下部領域についての推定処理の手順を示すフローチャートである。
【図7】同実施形態において、左部領域についての推定処理の手順を示すフローチャートである。
【図8】同実施形態において、右部領域についての推定処理の手順を示すフローチャートである。
【図9】同実施形態において、字幕領域推定部が実行する字幕領域推定処理の手順を示すフローチャートである。
【図10】同実施形態において、副画面領域検出部が実行する副画面領域の検出処理の手順を示すフローチャートである。
【図11】同実施形態において、文字情報抽出部が実行する、字幕情報の抽出処理の手順を示すフローチャートである。
【図12】同実施形態において、文字情報抽出部が実行する、字幕情報の抽出処理の手順を示すフローチャートである。
【図13】第2実施形態における文字情報抽出部が実行する、字幕情報の抽出処理の手順を示すフローチャートである。
【図14】フレーム画像における主画面領域および副画面領域の構成についての他の例である。
【図15】フレーム画像における主画面領域および副画面領域の構成についての他の例である。
【発明を実施するための形態】
【0012】
以下、本発明を実施するための形態について、図面を参照して詳細に説明する。
[第1の実施の形態]
本発明の第1実施形態である映像字幕検出装置は、ビデオカメラから供給される撮影映像データを取り込み、この撮影映像データの画像処理を実行する。そのビデオカメラは、テレビジョン受像機に表示される、番組映像および字幕映像を含むテレビ映像(字幕付テレビ映像)を撮影する。映像字幕検出装置は、撮影映像データの画像処理を実行することによって字幕のテキストを含む字幕情報を生成し、この字幕情報を出力する。番組映像は、放送番組の映像である。字幕映像は、字幕のテキストの映像である。
【0013】
映像字幕検出装置は、字幕領域推定モードに設定されて動作したのち、字幕情報抽出モードに設定されて動作する。映像字幕検出装置の内部の制御部が、これらのモード設定を行う。字幕領域推定モードに設定された映像字幕検出装置は、所定期間分、連続して撮影映像データを取り込み、フレーム画像において字幕のテキストが表示される領域(字幕領域)を推定する。また、字幕情報抽出モードに設定された映像字幕検出装置は、撮影映像データを取り込み、フレーム画像中の上記推定された字幕領域に出現するテキストを抽出してこのテキストを含む字幕情報を生成し、この字幕情報を出力する。
【0014】
[1.映像字幕検出装置の構成]
図1は、第1実施形態である映像字幕検出装置の機能構成を示すブロック図である。同図に示すように、映像字幕検出装置10は、超解像処理部11と、幾何変換部(テレビ画面領域検出部)12と、副画面領域推定部(字幕画面領域推定部)13と、字幕領域推定部14と、モデル画像生成部15と、モデル画像記憶部16と、副画面領域検出部(字幕画面領域検出部)17と、字幕情報抽出部18とを備える。
字幕領域推定モードに設定された映像字幕検出装置10は、超解像処理部11と、幾何変換部12と、副画面領域推定部13と、字幕領域推定部14と、モデル画像生成部15と、モデル画像記憶部16とを動作させる。
また、字幕情報抽出モードに設定された映像字幕検出装置10は、超解像処理部11と、幾何変換部12と、モデル画像記憶部16と、副画面領域検出部17と、字幕情報抽出部18とを動作させる。
【0015】
映像字幕検出装置10は、字幕付テレビ映像を撮影する、ビデオカメラ、ビデオカメラ機能付携帯電話機、ビデオカメラ機能付携帯情報端末等に外部接続されるか、内蔵されるものである。
【0016】
超解像処理部11は、図示しない制御部から取り込み開始指示と取り込み終了指示とを受信する。超解像処理部11は、取り込み開始指示を受信したときから取り込み終了指示を受信するときまで、供給される撮影映像データを受信する。超解像処理部11は、撮影映像データを受信すると、この撮影映像データを構成する複数のフレーム画像を時系列に取り込み、各フレーム画像について超解像処理を実行し、画像の解像度を高めたフレーム画像である高解像度フレーム画像を生成する。超解像処理は、公知の超解像技術を適用した、フレーム画像の高解像度化処理である。超解像処理部11は、フレーム画像に対して超解像処理を実行することにより、当該フレーム画像の水平方向および垂直方向またはいずれか一方の解像度を高くする。このように超解像処理11を設けることによって、映像字幕検出装置10は、画像における字幕の文字の認識率を高めることができる。
超解像処理部11は、毎フレームまたはあらかじめ決定された複数フレームおきに、高解像度フレーム画像を幾何変換部12に供給する。
【0017】
幾何変換部12は、超解像処理部11から供給される高解像度フレーム画像(以下、必要な場合を除き、フレーム画像という)を取り込み、このフレーム画像からテレビ画面の領域(テレビ画面領域)を検出する。テレビ画面は、テレビ映像が表示される領域である。例えば、テレビ画面の形状は矩形(長方形および正方形を含む)であることを前提とし、幾何変換部12は、例えば、ハフ変換による直線検出技術を適用してフレーム画像から複数の直線成分を検出し、これら直線成分によって形成される矩形(その相似形を含む)を検出し、この矩形の図形領域をテレビ画面領域とする。
【0018】
そして、幾何変換部12は、検出したテレビ画面領域の形状歪みや画像における傾きをなくすようまたは軽減するよう、フレーム画像の幾何変換処理を実行し、幾何変換されたフレーム画像を副画面領域推定部13または副画面領域検出部17に供給する。映像字幕検出装置10が字幕領域推定モードに設定されている場合、幾何変換部12は、幾何変換されたフレーム画像を副画面領域推定部13に供給する。一報、映像字幕検出装置10が字幕情報抽出モードに設定されている場合、幾何変換部12は、幾何変換されたフレーム画像を副画面領域検出部17に供給する。テレビ画面領域の形状歪みや画像における傾きは、テレビジョン受像機の画面に対するビデオカメラの撮影方向が正対していない場合に生じるものである。
【0019】
副画面領域推定部13は、幾何変換部12から供給される、所定期間分の幾何変換されたフレーム画像を順次取り込み、これらのフレーム画像に基づいてテレビ画面における副画面領域(字幕画面領域)の位置および範囲を推定する。副画面領域は、テレビ画面において、放送番組に関する番組映像を表示する領域を主画面領域(番組画面領域)とした場合の、この主画面領域を除く領域である。副画面領域推定部13は、内部に記憶部を備えている。副画面領域は、字幕領域を含む。主画面領域と副画面領域とを含むテレビ画面の具体例については後述する。また、副画面領域推定部13が実行する副画面領域の推定処理についても後述する。
【0020】
字幕領域推定部14は、副画面領域推定部13が推定した副画面領域から字幕領域の位置および範囲を推定する。字幕領域推定部14は、内部に記憶部を備えている。
モデル画像生成部15は、副画面領域推定部13が推定した副画面領域と、字幕領域推定部14が推定した字幕領域とに基づいてモデル画像を生成し、このモデル画像をモデル画像記憶部16に記憶させる。モデル画像は、幾何変換されたフレーム画像において、副画面領域と字幕領域とを特定するための参照画像(テンプレート画像)である。
モデル画像記憶部16は、モデル画像生成部15が生成したモデル画像を記憶する。
【0021】
副画面領域検出部17は、モデル画像記憶部16からモデル画像を読み込むとともに、幾何変換部12から供給される幾何変換されたフレーム画像を取り込む。そして、副画面領域検出部17は、モデル画像とフレーム画像とのマッチング処理を実行して、フレーム画像における副画面領域を検出する。
字幕情報抽出部18は、副画面領域検出部17が検出した副画面領域から字幕領域を検出し、この字幕領域から字幕のテキストを抽出するとともに現在時刻を計時し、テキストと現在時刻を示す時刻情報とを対応付けた字幕情報を生成し、この字幕情報を出力する。字幕情報抽出部18は、内部にバッファ(記憶部)を備えている。
【0022】
図2は、幾何変換部12が出力する、幾何変換されたフレーム画像を模式的に表した図である。同図において、フレーム画像20は、主画面領域21と、副画面領域22とを含んで構成される。主画面領域21は、放送番組の番組映像を表示する領域である。副画面領域22は、字幕のテキストが表示される字幕領域を含む領域である。副画面領域22には、字幕のテキスト22a,22bが表示されている。フレーム画像20を構成する画素の位置は、左上端に対応する画素の位置を座標(0,0)とし、x軸方向(水平方向)とy軸方向(垂直方向)との二次元直交座標によって表わされる。同図に示すように、副画面領域22は、主画面領域21の周囲の一部分に設けられている。そして、副画面領域22において字幕のテキスト22bを含む上部領域と主画面領域21との境は、x軸に平行な境界線aとなっている。また、副画面領域22において字幕のテキスト22aを含む左部領域と主画面領域21との境は、y軸に平行な境界線bとなっている。
【0023】
なお、本実施形態では、字幕のテキスト22bは、x軸の正方向とは反対方向、つまり左方向に1字幕領域分スクロールされたのち所定時間静止することが繰り返される。また、字幕のテキスト22aは、静止したままである。
また、図2において、フレーム画像20の下部に、x軸に平行でy軸方向にdの幅を有する帯状の副画面領域の一部分があるが、この領域は、主画面領域21に表示される番組映像のセーフティゾーンを確保するためのオフセット領域であり、字幕のテキストを表示させる領域ではない。
【0024】
図3は、図2に示したフレーム画像20に基づいて、モデル生成部15が生成したモデル画像を模式的に表した図である。同図に示すように、モデル画像30は、副画面領域22における背景領域のテンプレート画像である背景領域参照画像31と、字幕のテキスト22bの字幕領域のテンプレート画像である字幕領域参照画像32とを有している。
【0025】
[2.副画面領域の推定処理]
次に、副画面領域推定部13が実行する副画面領域の推定処理について説明する。副画面領域推定部13は、幾何変換部12から供給される、所定期間分の幾何変換されたフレーム画像を順次取り込み、各フレーム画像からエッジを検出する。例えば、副画面領域推定部13は、ソーベル(Sobel)フィルタを適用してフレーム画像からエッジを検出する。
副画面領域推定部13は、取り込んだ全フレーム画像から検出したエッジに基づいて、エッジの分布を示すエッジ平均画像を生成する。エッジ平均画像fedge_avgにおける座標(x,y)の画素値は、下記の式(1)として表わされる。
ただし、isは、字幕領域推定モードに設定されて動作する超解像処理部11が撮像映像データを取り込み開始したときのフレーム画像の番号である。また、ieは、字幕領域推定モードに設定されて動作する超解像処理部11が撮像映像データを取り込み終了するときのフレーム画像の番号である。また、fedge_avgiは、i番目のフレーム画像から検出されたエッジ画像である。
【0026】
【数1】
【0027】
副画面領域推定部13は、計算したエッジ平均画像fedge_avgを、例えば上部領域、下部領域、左部領域、および右部領域に区分し、領域ごとに画面領域を推定する。上部領域は、例えば、x軸に平行で、エッジ平均画像fedge_avgの中心位置を含む境界線よりも上側の領域である。下部領域は、例えば、x軸に平行で、エッジ平均画像fedge_avgの中心位置を含む境界線とこの境界線よりも下側との領域である。左部領域は、例えば、y軸に平行で、エッジ平均画像fedge_avgの中心位置を含む境界線よりも左側の領域である。右部領域は、例えば、y軸に平行で、エッジ平均画像fedge_avgの中心位置を含む境界線とこの境界線よりも右側との領域である。
【0028】
副画面領域推定部13が上部領域から副画面領域を推定する処理について説明する。
副画面領域推定部13は、エッジ平均画像fedge_avgのy軸方向のエッジ強度分布syを、下記の式(2)によって計算する。
ただし、Wはフレーム画像のx軸方向の幅、Hはフレーム画像のy軸方向の幅である。
【0029】
【数2】
【0030】
副画面領域推定部13は、エッジ強度分布sy(0≦y<(H/2))から、エッジ強度の最大値である最大エッジ強度値symaxを抽出し、この最大エッジ強度値symaxに対応するy座標値ytを下記の式(3)によって計算する。
【0031】
【数3】
【0032】
副画面領域推定部13は、副画面領域と主画面領域との境界線があるか否かを判定し、境界線がある場合は、上部領域を検出する。具体的には、副画面領域推定部13は、最大エッジ強度値symaxがあらかじめ決定された閾値symaxthより大きく、且つ、最大エッジ強度値symaxに対応するy座標値ytがあらかじめ決定された閾値yathよりも大きいか否かを判定する。副画面領域推定部13は、最大エッジ強度値symaxが閾値symaxthより大きく、且つ、最大エッジ強度値symaxに対応するy座標値ytが閾値yathよりも大きいと判定した場合、フレーム画像のy座標値が0からytまでの画像領域を上部領域として検出する。そして、副画面領域推定部13は、検出した上部領域の位置情報を内部の記憶部に記憶させる。この位置情報とは、例えば、上部領域の4つの頂点の画素位置を示す座標値である。
【0033】
次に、副画面領域推定部13が下部領域から副画面領域を推定する処理について説明する。
副画面領域推定部13は、エッジ平均画像fedge_avgのy軸方向のエッジ強度分布syを、下記の式(4)によって計算する。
【0034】
【数4】
【0035】
副画面領域推定部13は、エッジ強度分布sy((H/2)≦y<H)から、最大エッジ強度値symaxを抽出し、この最大エッジ強度値symaxに対応するy座標値ytを下記の式(5)によって計算する。
【0036】
【数5】
【0037】
副画面領域推定部13は、副画面領域と主画面領域との境界線があるか否かを判定し、境界線がある場合は、下部領域を検出する。具体的には、副画面領域推定部13は、最大エッジ強度値symaxがあらかじめ決定された閾値symaxthより大きく、且つ、最大エッジ強度値symaxに対応するy座標値ytがあらかじめ決定された閾値ybthよりも大きいか否かを判定する。副画面領域推定部13は、最大エッジ強度値symaxが閾値symaxthより大きく、且つ、最大エッジ強度値symaxに対応するy座標値ytが閾値ybthよりも大きいと判定した場合、フレーム画像のy座標値がytからHまでの画像領域を下部領域として検出する。そして、副画面領域推定部13は、検出した下部領域の位置情報を内部の記憶部に記憶させる。この位置情報とは、例えば、下部領域の4つの頂点の画素位置を示す座標値である。
【0038】
次に、副画面領域推定部13が左部領域から副画面領域を推定する処理について説明する。
副画面領域推定部13は、エッジ平均画像fedge_avgのx軸方向のエッジ強度分布sxを、下記の式(6)によって計算する。
【0039】
【数6】
【0040】
副画面領域推定部13は、エッジ強度分布sx(0≦x<(W/2))から、エッジ強度の最大値である最大エッジ強度値sxmaxを抽出し、この最大エッジ強度値sxmaxに対応するx座標値xtを下記の式(7)によって計算する。
【0041】
【数7】
【0042】
副画面領域推定部13は、副画面領域と主画面領域との境界線があるか否かを判定し、境界線がある場合は、左部領域を検出する。具体的には、副画面領域推定部13は、最大エッジ強度値sxmaxがあらかじめ決定された閾値sxmaxthより大きく、且つ、最大エッジ強度値sxmaxに対応するx座標値xtがあらかじめ決定された閾値xathよりも大きいか否かを判定する。副画面領域推定部13は、最大エッジ強度値sxmaxが閾値sxmaxthより大きく、且つ、最大エッジ強度値sxmaxに対応するx座標値xtが閾値xathよりも大きいと判定した場合、フレーム画像のx座標値が0からxtまでの画像領域を左部領域として検出する。そして、副画面領域推定部13は、検出した左部領域の位置情報を内部の記憶部に記憶させる。この位置情報とは、例えば、左部領域の4つの頂点の画素位置を示す座標値である。
【0043】
次に、副画面領域推定部13が右部領域から副画面領域を推定する処理について説明する。
副画面領域推定部13は、エッジ平均画像fedge_avgのx軸方向のエッジ強度分布sxを、下記の式(8)によって計算する。
【0044】
【数8】
【0045】
副画面領域推定部13は、エッジ強度分布sx((W/2)≦x<W)から、最大エッジ強度値sxmaxを抽出し、この最大エッジ強度値sxmaxに対応するx座標値xtを下記の式(9)によって計算する。
【0046】
【数9】
【0047】
副画面領域推定部13は、副画面領域と主画面領域との境界線があるか否かを判定し、境界線がある場合は、右部領域を検出する。具体的には、副画面領域推定部13は、最大エッジ強度値sxmaxがあらかじめ決定された閾値sxmaxthより大きく、且つ、最大エッジ強度値sxmaxに対応するx座標値xtがあらかじめ決定された閾値xbthよりも大きいか否かを判定する。副画面領域推定部13は、最大エッジ強度値sxmaxが閾値sxmaxthより大きく、且つ、最大エッジ強度値sxmaxに対応するx座標値xtが閾値xbthよりも大きいと判定した場合、フレーム画像のx座標値がxtからWまでの画像領域を右部領域として検出する。そして、副画面領域推定部13は、検出した右部領域の位置情報を内部の記憶部に記憶させる。この位置情報とは、例えば、上部領域の4つの頂点の画素位置を示す座標値である。
【0048】
図4は、副画面領域推定部13が実行する副画面領域の推定処理の手順を示すフローチャートである。ステップS1において、副画面領域推定部13は、撮影映像データを取り込む所定期間内であるか否かを判別し、所定期間内である場合はステップS2の処理に移し、所定期間外である場合はステップS4の処理に移す。
【0049】
ステップS2において、副画面領域推定部13は、幾何変換部12から供給される幾何変換されたフレーム画像を取り込む。
次に、ステップS3において、副画面領域推定部13は、取り込んだフレーム画像からエッジを検出する。
次に、副画面領域推定部13は、ステップS1の処理に戻す。
【0050】
ステップS4において、副画面領域推定部13は、取り込んだ全フレーム画像から検出したエッジに基づいてエッジ平均画像fedge_avgを生成する。
次に、ステップS5において、副画面領域推定部13は、エッジ平均画像の上部領域についての副画面領域の推定処理を実行する。
次に、ステップS6において、副画面領域推定部13は、エッジ平均画像fedge_avgの上部領域についての副画面領域の推定処理を実行する。
次に、ステップS7において、副画面領域推定部13は、エッジ平均画像fedge_avgの上部領域についての副画面領域の推定処理を実行する。
次に、ステップS8において、副画面領域推定部13は、エッジ平均画像fedge_avgの上部領域についての副画面領域の推定処理を実行する。
【0051】
図5は、ステップS5の上部領域についての推定処理の手順を示すフローチャートである。
ステップS11において、副画面領域推定部13は、エッジ平均画像fedge_avgのy軸方向のエッジ強度分布syを計算する。
次に、ステップS12において、副画面領域推定部13は、エッジ強度分布sy(0≦y<(H/2))から、エッジ強度の最大値である最大エッジ強度値symaxを抽出し、この最大エッジ強度値symaxに対応するy座標値ytを計算する。
次に、ステップS13において、副画面領域推定部13は、副画面領域と主画面領域との境界線があるか否かを判定し、境界線があると判定した場合(S13:YES)はステップS14の処理に移し、境界線がないと判定した場合(S13:NO)は本フローチャートの処理を終了させる。
ステップS14において、副画面領域推定部13は、フレーム画像のy座標値が0からytまでの画像領域を上部領域として検出し、この上部領域の位置情報を内部の記憶部に記憶させる。
【0052】
図6は、ステップS6の下部領域についての推定処理の手順を示すフローチャートである。
ステップS21において、副画面領域推定部13は、エッジ平均画像fedge_avgのy軸方向のエッジ強度分布syを計算する。
次に、ステップS22において、副画面領域推定部13は、エッジ強度分布sy((H/2)≦y<H)から、エッジ強度の最大値である最大エッジ強度値symaxを抽出し、この最大エッジ強度値symaxに対応するy座標値ytを計算する。
次に、ステップS23において、副画面領域推定部13は、副画面領域と主画面領域との境界線があるか否かを判定し、境界線があると判定した場合(S23:YES)はステップS24の処理に移し、境界線がないと判定した場合(S23:NO)は本フローチャートの処理を終了させる。
ステップS24において、副画面領域推定部13は、フレーム画像のy座標値がytからHまでの画像領域を下部領域として検出し、この下部領域の位置情報を内部の記憶部に記憶させる。
【0053】
図7は、ステップS7の左部領域についての推定処理の手順を示すフローチャートである。
ステップS31において、副画面領域推定部13は、エッジ平均画像fedge_avgのx軸方向のエッジ強度分布sxを計算する。
次に、ステップS32において、副画面領域推定部13は、エッジ強度分布sx(0≦x<(W/2))から、エッジ強度の最大値である最大エッジ強度値sxmaxを抽出し、この最大エッジ強度値sxmaxに対応するx座標値xtを計算する。
次に、ステップS33において、副画面領域推定部13は、副画面領域と主画面領域との境界線があるか否かを判定し、境界線があると判定した場合(S33:YES)はステップS34の処理に移し、境界線がないと判定した場合(S33:NO)は本フローチャートの処理を終了させる。
ステップS34において、副画面領域推定部13は、フレーム画像のx座標値が0からxtまでの画像領域を左部領域として検出し、この上部領域の位置情報を内部の記憶部に記憶させる。
【0054】
図8は、ステップS8の右部領域についての推定処理の手順を示すフローチャートである。
ステップS41において、副画面領域推定部13は、エッジ平均画像fedge_avgのx軸方向のエッジ強度分布sxを計算する。
次に、ステップS42において、副画面領域推定部13は、エッジ強度分布sx((W/2)≦x<W)から、エッジ強度の最大値である最大エッジ強度値sxmaxを抽出し、この最大エッジ強度値sxmaxに対応するx座標値xtを計算する。
次に、ステップS43において、副画面領域推定部13は、副画面領域と主画面領域との境界線があるか否かを判定し、境界線があると判定した場合(S43:YES)はステップS44の処理に移し、境界線がないと判定した場合(S43:NO)は本フローチャートの処理を終了させる。
ステップS44において、副画面領域推定部13は、フレーム画像のx座標値がxtからWまでの画像領域を右部領域として検出し、この右部領域の位置情報を内部の記憶部に記憶させる。
【0055】
[3.字幕領域の推定処理]
次に、字幕領域推定部14が実行する字幕領域の推定処理について説明する。字幕領域推定部14は、副画面領域推定部13が推定した副画面領域の上部領域、下部領域、左部領域、および右部領域それぞれ(以下、対象領域と呼ぶことがある)について、字幕領域が存在するか否か、ならびに、字幕領域が存在する場合に、その位置および範囲を推定する。例えば、字幕領域推定部14は、上部領域、下部領域、左部領域、右部領域の順に推定処理を実行する。
【0056】
字幕領域推定部14は、対象領域における画素の時間方向についての変化を求める。例えば、字幕領域推定部14は、対象領域における画素の時間方向についての画素値の変化のばらつきを、分散σx,yを求める下記の式(10)によって計算する。
ただし、isは、字幕領域推定モードに設定されて動作する超解像処理部11が撮像映像データを取り込み開始したときのフレーム画像の番号である。また、ieは、字幕領域推定モードに設定されて動作する超解像処理部11が撮像映像データを取り込み終了するときのフレーム画像の番号である。また、fi(x,y)は、対象領域である。また、μx,yは、撮影映像データの取り込み期間における対象領域fi(x,y)の平均値である。
【0057】
【数10】
【0058】
字幕領域推定部14は、式(10)により計算した分散σx,yに基づいて、対象領域を2つの領域に区分する。例えば、字幕領域推定部14は、分散σx,yに基づいて対象領域の全画素を、あらかじめ決定された閾値を基準にして二分し、さらに、判別分析法を適用してその閾値を最適化し、最終的に対象領域を2つの領域(背景領域およびテキスト領域)に区分する。判別分析法は、2クラス(背景領域のクラスおよびテキスト領域のクラス)に分離された対象領域について、各クラスのクラス内分散と2クラスについてのクラス間分散とを計算し、クラス内分散とクラス間分散との比に基づいて閾値を決定する方法である。
【0059】
字幕領域推定部14は、テキスト領域の面積とあらかじめ決定された面積閾値とを比較する。そして、字幕領域推定部14は、推定したテキスト領域の面積が面積閾値よりも大きい場合は、その推定したテキスト領域を字幕領域として決定する。一方、字幕領域推定部14は、推定したテキスト領域の面積が面積閾値以下である場合は、対象領域内に字幕領域が存在しないと決定する。そして、字幕領域推定部14は、字幕領域の位置情報を内部の記憶部に記憶させる。この位置情報とは、例えば、字幕領域の4つの頂点の画素位置を示す座標値である。
【0060】
図9は、字幕領域推定部14が実行する字幕領域推定処理の手順を示すフローチャートである。字幕領域推定部14は、副画面領域の上部領域、下部領域、左部領域、および右部領域それぞれについて、同図のフローチャートの処理を実行する。
【0061】
ステップS51において、字幕領域推定部14は、副画面領域推定部13によって内部の記憶部に記憶された対象領域の位置情報を読み込む。
次に、ステップS52において、字幕領域推定部14は、対象領域における画素の時間方向についての画素値の変化のばらつき(分散)を計算する。
次に、ステップS53において、字幕領域推定部14は、分散に基づいて、対象領域を2つの領域(背景領域およびテキスト領域)に区分する。
【0062】
次に、ステップS54において、字幕領域推定部14は、テキスト領域の面積とあらかじめ決定された面積閾値とを比較し、テキスト領域の面積が面積閾値よりも大きい場合(ステップS54:YES)は、テキスト領域を字幕領域として決定してステップS55の処理に移し、テキスト領域の面積が面積閾値以下である場合(ステップS54:NO)は、対象領域内に字幕領域が存在しないと決定して本フローチャートの処理を終了させる。
ステップS55において、字幕領域推定部14は、字幕領域の位置情報を内部の記憶部に記憶させる。
【0063】
[4.副画面領域の検出処理]
次に、副画面領域検出部17が実行する副画面領域の検出処理について説明する。副画面領域検出部17は、モデル画像記憶部16からモデル画像を読み込み、また、幾何変換部12から供給される幾何変換されたフレーム画像を取り込む。副画面領域検出部17は、モデル画像を参照画像として、テンプレートマッチングによりフレーム画像から副画面領域を検出する。例えば、副画面領域検出部17は、フレーム画像と参照画像との一致度dbg(fi,m)を、下記の式(11)の差分二乗和の計算によって求める。
ただし、fiはi番目のフレーム画像、mはモデル画像である。また、Lは、モデル画像に含まれる背景領域の画素集合である。
【0064】
【数11】
【0065】
なお、テンプレートマッチングとして、上記の差分二乗和の他、絶対差分和、色ヒストグラム差分、ブロックマッチング差分等を用いてもよい。
【0066】
副画面領域検出部17は、一致度dbg(fi,m)とあらかじめ決定された閾値とを比較し、一致度dbg(fi,m)が閾値以下である場合、i番目のフレーム画像に副画面領域が存在すると判定する。
【0067】
図10は、副画面領域検出部17が実行する副画面領域の検出処理の手順を示すフローチャートである。
ステップS61において、副画面領域検出部17は、モデル画像記憶部16からモデル画像を読み込む。
次に、ステップS62において、副画面領域検出部17は、幾何変換部12から供給される幾何変換されたフレーム画像を取り込む。
次に、ステップS63において、副画面領域検出部17は、モデル画像を参照画像として、テンプレートマッチング法によりフレーム画像と副画面領域との一致度を計算する。
次に、ステップS64において、一致度が閾値以下である場合(ステップS64:YES)、副画面領域検出部17は、フレーム画像に副画面領域が存在すると判定し、本フローチャートの処理を終了させる。一方、一致度が上記の閾値を超える場合(ステップS64:NO)、副画面領域検出部17は、ステップS62の処理に戻す。
【0068】
[5.字幕情報の抽出処理]
字幕情報抽出部18は、副画面領域内の字幕領域において、字幕のテキストが所定時間静止しているか否かを判定する。例えば、字幕情報抽出部18は、最新のフレーム画像(現フレーム画像、第1のフレーム画像)と前回取り込んだフレーム画像(前フレーム画像、第2のフレーム画像)との一致度dtext(fi−1,fi)を、下記の式(12)の差分二乗和によって求める。
ただし、fi−1は(i−1)番目のフレーム画像(前フレーム画像)、fiはi番目のフレーム画像(現フレーム画像)である。また、Tは、モデル画像に含まれる字幕領域の画素集合である。
【0069】
【数12】
【0070】
字幕情報抽出部18は、一致度dtext(fi−1,fi)とあらかじめ決定された閾値とを比較し、一致度dtext(fi−1,fi)が所定時間分連続して閾値以下である場合、字幕領域内の字幕のテキストが静止していると判定する。
【0071】
字幕情報抽出部18は、字幕領域内の静止した字幕のテキストの内容が、前回抽出したテキストの内容と異なるか否かを判定する。例えば、字幕情報抽出部18は、現フレーム画像と、前回、テキストを抽出したときのフレーム画像(テキスト有りフレーム画像)との一致度dtext(fprev,fi)を、下記の式(13)の差分二乗和によって求める。
ただし、fprevは、テキスト有りフレーム画像である。
【0072】
【数13】
【0073】
字幕情報抽出部18は、一致度dtext(fprev,fi)とあらかじめ決定された閾値とを比較し、一致度dtext(fprev,fi)が閾値を超える場合、字幕のテキストの内容が、前回抽出したテキストの内容と異なると判定する。
【0074】
文字情報抽出部18は、最新のテキストが含まれる字幕領域について文字認識処理を実行し、その字幕領域から文字列データ(一文字の場合を含む)を抽出する。例えば、文字情報抽出部18は、最新のテキストが含まれる字幕領域から文字単位で領域(文字領域)を抽出し、この文字領域について様々なテンプレート文字とのマッチングを試行することによって、文字を認識する。そして、文字情報抽出部18は、その文字認識処理をテキスト内の全ての文字に対して実行し、文字列データを字幕のテキストとして抽出する。
【0075】
文字情報抽出部18は、字幕のテキストと現在時刻を示す時刻情報とを対応付け、字幕情報として出力する。
【0076】
図11および図12は、文字情報抽出部18が実行する、字幕情報の抽出処理の手順を示すフローチャートである。
図11のステップS71において、文字情報抽出部18は、変数kを初期化する。この変数kは、字幕領域内のテキストが静止しているか否かを検出するために用いられるものである。
次に、ステップS72において、文字情報抽出部18は、幾何変換されたフレーム画像を取り込む。
次に、ステップS73において、文字情報抽出部18は、バッファから前フレーム画像を読み込む。
次に、ステップS74において、文字情報抽出部18は、テンプレートマッチング法によりフレーム画像と前フレーム画像との一致度を計算する。
次に、ステップS75において、一致度が閾値以下である場合(ステップS75:YES)、文字情報抽出部18はステップS77の処理に移し、一致度が上記の閾値を超える場合(ステップS75:NO)、文字情報抽出部18はステップS76の処理に移す。
【0077】
ステップS76において、文字情報抽出部18は、現フレーム画像をバッファに記憶させて、ステップS72の処理に戻す。
一方、ステップS77において、文字情報抽出部18は、変数kに1を加算する。そして、ステップS78において、文字情報抽出部18は、変数kと閾値とを比較し、変数kがこの閾値よりも大きい場合は、図12のステップS79の処理に移し、変数kがその閾値以下である場合は、ステップS72の処理に戻す。
【0078】
図12のステップS79において、字幕情報抽出部18は、バッファからテキスト有りフレーム画像を読み込む。
次に、ステップS80において、字幕情報抽出部18は、テンプレートマッチング法により現フレーム画像とテキスト有りフレーム画像との一致度を計算する。
次に、ステップS81において、一致度が閾値を超える場合(ステップS81:YES)、文字情報抽出部18はステップS82の処理に移し、一致度が上記の閾値以下である場合(ステップS81:NO)、文字情報抽出部18はステップS71の処理に戻す。
【0079】
ステップS82において、文字情報抽出部18は、字幕領域について文字認識処理を実行し、その字幕領域から文字列データ(一文字の場合を含む)を抽出する。
次に、ステップS83において、文字情報抽出部18は、字幕のテキストと現在時刻を示す時刻情報とを対応付け、字幕情報として出力する。
次に、文字情報抽出部18は、ステップS71の処理に戻す。
【0080】
[第2の実施形態]
上述した第1の実施形態では、副画面領域の字幕領域に表示される字幕のテキストが、例えば、左方向に1字幕領域分スクロールされて所定時間静止することが繰り返されるものとした。本発明の第2実施形態は、字幕のテキストが静止することなく、連続してスクロールされる例である。
【0081】
第2実施形態である映像字幕検出装置の機能構成は、第1実施形態である映像字幕検出装置10と同一であるため、各構成の説明を省略する。
第2実施形態では、字幕情報抽出部18の動作が第1実施形態と異なる。
【0082】
図13は、第2実施形態における文字情報抽出部18が実行する、字幕情報の抽出処理の手順を示すフローチャートである。
S101において、文字情報抽出部18は、幾何変換されたフレーム画像を所定フレーム(例えば、数秒間に相当するフレーム数)おきに取り込む。
次に、S102において、文字情報抽出部18は、字幕領域について文字認識処理を実行する。
【0083】
次に、S103において、文字情報抽出部18は、文字認識処理の結果に基づいて、字幕領域から文字情報(一文字または文字列の情報)を抽出した場合(S103:YES)はステップS104の処理に移し、文字情報を抽出しなかった場合(S103:NO)はステップS101の処理に戻す。
【0084】
ステップS104において、文字情報抽出部18は、バッファに記憶されている文字情報を読み込む。
次に、ステップS105において、文字情報抽出部18は、ステップS102の処理において抽出した文字情報と、ステップS104の処理においてバッファから読み込んだ文字情報との差分を抽出する。
【0085】
次に、ステップS106において、文字情報抽出部18は、差分の文字情報を、バッファの文字情報に追加して記憶させる。
次に、ステップS107において、文字情報抽出部18は、所定文字数分の文字情報がバッファに記憶された場合はステップS108の処理に移し、所定文字数分の文字情報がバッファに記憶されていない場合はステップS101に戻す。所定文字数は、例えば、一字幕領域に表示される文字数である。
【0086】
ステップS108において、文字情報抽出部18は、字幕のテキストと現在時刻を示す時刻情報とを対応付け、字幕情報として出力する。
次に、ステップS109において、文字情報抽出部18は、バッファの内容を削除し、ステップS101の処理に戻す。
【0087】
以上、詳述したとおり、本発明の第1実施形態および第2実施形態による映像字幕検出装置10は、テレビジョン受像機に表示される、番組映像と字幕映像とを含んだ字幕付テレビ映像を撮影したビデオカメラから供給される撮影映像データを取り込む。そして、映像字幕検出装置10は、撮影映像データのフレーム画像から字幕領域の位置および範囲を推定し、この字幕領域に表示される字幕のテキストを検出する。そして、映像字幕検出装置10は、字幕のテキストと現在時刻を示す時刻情報とを対応付けた字幕情報を生成し、この字幕情報を出力する。
このように構成したことにより、映像字幕検出装置10によれば、番組映像と字幕映像とを含む映像から、容易に字幕を検出しそのテキスト情報を取得することができる。
【0088】
また、第1実施形態による映像字幕検出装置10は、副画面領域内の字幕領域において、字幕のテキストが所定時間静止しているか否かを判定し、テキストが静止していることを確認してテキストを抽出する。このように構成したことにより、映像字幕検出装置10は、例えば、一方向(例えば左方向)に1字幕領域分スクロールされたのち所定時間静止することが繰り返される字幕について、字幕が静止するたびにテキストを抽出するため、字幕の文字を漏らさず抽出することができる。
【0089】
また、第2実施形態による映像字幕検出装置10は、所定フレームおきにフレーム画像を、取り込み文字認識処理を行って文字情報を取得し、この文字情報と既に取り込んである文字情報との差分を抽出する。そして、映像字幕検出装置10は、取り込み済みである文字情報に差分を追加する。このように構成したことにより、映像字幕検出装置10は、字幕のテキストが静止することなく、連続してスクロールされる字幕について、間欠的にテキストを抽出するため、字幕の文字を漏らさず抽出することができる。
【0090】
なお、第1実施形態および第2実施形態では、フレーム画像における主画面領域および副画面領域の構成を、図2に示す構成とした。画面構成は、この例に限らず、例えば図14(a)〜(i)および図15(a)〜(d)に示すものとしてもよい。これら図14および図15の各図においては、オフセット領域の図示を省略している。
なお、図14(a)に示す画面構成は、図2のものと同一である。
【0091】
また、上述した実施形態である映像字幕検出装置10の一部の機能をコンピュータで実現するようにしてもよい。この場合、その制御機能を実現するためのプログラム(映像字幕検出プログラム)をコンピュータ読み取り可能な記録媒体に記録し、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませて、このコンピュータシステムが実行することによって実現してもよい。なお、このコンピュータシステムとは、オペレーティング・システム(Operating System;OS)や周辺装置のハードウェアを含むものである。また、コンピュータ読み取り可能な記録媒体とは、フレキシブルディスク、光磁気ディスク、光ディスク、メモリカード等の可搬型記録媒体、コンピュータシステムに備えられる磁気ハードディスクやソリッドステートドライブ等の記憶装置のことをいう。さらに、コンピュータ読み取り可能な記録媒体とは、インターネット等のコンピュータネットワーク、および電話回線や携帯電話網を介してプログラムを送信する場合の通信回線のように、短時間の間、動的にプログラムを保持するもの、さらには、その場合のサーバ装置やクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持するものを含んでもよい。また上記のプログラムは、前述した機能の一部を実現するためのものであってもよく、さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせにより実現するものであってもよい。
【0092】
以上、本発明の実施の形態について図面を参照して詳述したが、具体的な構成はその実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【0093】
10 映像字幕検出装置
11 超解像処理部
12 幾何変換部(テレビ画面領域検出部)
13 副画面領域推定部(字幕画面領域推定部)
14 字幕領域推定部
15 モデル画像生成部
16 モデル画像記憶部
17 副画面領域検出部(字幕画面領域検出部)
18 字幕情報抽出部
【技術分野】
【0001】
本発明は、映像字幕検出装置およびそのプログラムに関する。
【背景技術】
【0002】
国政選挙や大規模災害等に関する情報をテレビ視聴者に提供するため、放送局の放送機器は、本来の番組映像のフレームの大きさを若干縮小し、縮小されたフレーム画像の周囲の表示領域のうち一部分を字幕表示領域とし、番組映像と字幕映像とを合成しエンコード処理して得たコンテンツを放送することがある。字幕映像によって提供される字幕情報のテキストは、スクロールされたり一画面分同時に切り替えられたりして表示されるため、視聴者は、これらテキストを見逃したり、見たとしても忘れてしまうことがある。
【0003】
テレビ画面に映る上記の映像をビデオカメラにより撮影すれば、字幕映像を記録し後で確認することができる。しかし、このようにして得られる字幕情報はあくまでも映像としての情報である。よって、撮影した映像から所望の字幕を確認するには手間がかかるため、字幕の検索効率が悪い。
【0004】
また、従来、カメラによって撮影された画像から、映っている文字を認識する技術が知られている(例えば、非特許文献1参照)。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】黄瀬浩一、大町真一郎、内田誠一、岩村雅一、「カメラを用いた文字認識・文書画像解析の現状と課題」、電子情報通信学会技術研究報告、社団法人電子情報通信学会、2005年3月、PRMU2004−246、p.85−90
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上記技術では、前述したような番組映像に字幕映像が合成された映像、つまり、字幕以外にも様々な情報が多く含まれるテレビ画像から字幕のテキストを検出することができない。
本発明は、上記課題を解決するためになされたものであり、番組映像と字幕映像とを含む映像から、容易に字幕のテキストを検出することができる、映像字幕検出装置およびそのプログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
[1]上記の課題を解決するため、本発明の一態様である映像字幕検出装置は、番組映像および字幕映像を含むテレビ映像を撮影して得られた撮影映像データを取り込み、前記撮影映像データのフレーム画像から直線成分を検出し、前記直線成分によって形成される矩形に基づいて、前記フレーム画像からテレビ画面領域を検出するテレビ画面領域検出部と、前記テレビ画面領域検出部が検出した前記テレビ画面領域から画像のエッジを検出し、前記画像のエッジの分布に基づいて、前記フレーム画像から前記字幕映像に対応する字幕画面領域を推定する字幕画面領域推定部と、前記字幕画面領域推定部が推定した前記字幕画面領域から時間方向の画素の変化を検出し、前記画素の変化に基づいて字幕のテキストを含む字幕領域を推定する字幕領域推定部と、前記撮影映像データを取り込み、前記字幕画面領域推定部が推定した前記字幕画面領域に基づいて、前記撮影映像データのフレーム画像から前記字幕画面領域を検出する字幕画面領域検出部と、前記字幕画面領域検出部が検出した前記字幕画面領域を含むフレーム画像における、前記字幕領域推定部が推定した前記字幕領域から字幕のテキストを抽出し、前記字幕のテキストと現在時刻を示す時刻情報とを対応付けた字幕情報を生成し、前記字幕情報を出力する字幕情報抽出部と、を備えることを特徴とする。
【0008】
[2]上記[1]記載の映像字幕検出装置において、前記字幕情報抽出部は、前記字幕画面領域検出部が検出した前記字幕画面領域を含む第1のフレーム画像における、前記字幕領域推定部が推定した前記字幕領域と、前記第1のフレーム画像よりも前の時刻の第2のフレーム画像における前記字幕領域との比較に基づいて、前記第1のフレーム画像における前記字幕領域から字幕のテキストを抽出することを特徴とする。
[3]上記[2]記載の映像字幕検出装置において、前記字幕情報抽出部は、前記第1のフレーム画像における字幕領域と前記第2のフレーム画像における字幕領域との比較に基づいて、字幕のテキストが静止しているか否かを判定し、前記字幕のテキストが静止している場合に、前記第1のフレーム画像における前記字幕領域から字幕のテキストを抽出することを特徴とする。
[4]上記[2]記載の映像字幕検出装置において、前記字幕情報抽出部は、前記字幕画面領域検出部が検出した前記字幕画面領域から第1のテキストを抽出し、この第1のテキストと、既に抽出された第2のテキストとの差分を抽出し、この差分を前記第2のテキストに追加することによって前記字幕のテキストを取得することを特徴とする。
【0009】
[5]上記の課題を解決するため、本発明の一態様であるプログラムは、コンピュータを、番組映像および字幕映像を含むテレビ映像を撮影して得られた撮影映像データを取り込み、前記撮影映像データのフレーム画像から直線成分を検出し、前記直線成分によって形成される矩形に基づいて、前記フレーム画像からテレビ画面領域を検出するテレビ画面領域検出部と、前記テレビ画面領域検出部が検出した前記テレビ画面領域から画像のエッジを検出し、前記画像のエッジの分布に基づいて、前記フレーム画像から前記字幕映像に対応する字幕画面領域を推定する字幕画面領域推定部と、前記字幕画面領域推定部が推定した前記字幕画面領域から時間方向の画素の変化を検出し、前記画素の変化に基づいて字幕のテキストを含む字幕領域を推定する字幕領域推定部と、前記撮影映像データを取り込み、前記字幕画面領域推定部が推定した前記字幕画面領域に基づいて、前記撮影映像データのフレーム画像から前記字幕画面領域を検出する字幕画面領域検出部と、前記字幕画面領域検出部が検出した前記字幕画面領域を含むフレーム画像における、前記字幕領域推定部が推定した前記字幕領域から字幕のテキストを抽出し、前記字幕のテキストと現在時刻を示す時刻情報とを対応付けた字幕情報を生成し、前記字幕情報を出力する字幕情報抽出部と、して機能させる。
【発明の効果】
【0010】
本発明によれば、番組映像と字幕映像とを含む映像から、容易に字幕のテキストを検出することができる。
【図面の簡単な説明】
【0011】
【図1】第1実施形態である映像字幕検出装置の機能構成を示すブロック図である。
【図2】同実施形態において、幾何変換部が出力する、幾何変換されたフレーム画像を模式的に表した図である。
【図3】図2に示したフレーム画像に基づいて、同実施形態におけるモデル生成部が生成したモデル画像を模式的に表した図である。
【図4】同実施形態において、副画面領域推定部が実行する副画面領域の推定処理の手順を示すフローチャートである。
【図5】同実施形態において、上部領域についての推定処理の手順を示すフローチャートである。
【図6】同実施形態において、下部領域についての推定処理の手順を示すフローチャートである。
【図7】同実施形態において、左部領域についての推定処理の手順を示すフローチャートである。
【図8】同実施形態において、右部領域についての推定処理の手順を示すフローチャートである。
【図9】同実施形態において、字幕領域推定部が実行する字幕領域推定処理の手順を示すフローチャートである。
【図10】同実施形態において、副画面領域検出部が実行する副画面領域の検出処理の手順を示すフローチャートである。
【図11】同実施形態において、文字情報抽出部が実行する、字幕情報の抽出処理の手順を示すフローチャートである。
【図12】同実施形態において、文字情報抽出部が実行する、字幕情報の抽出処理の手順を示すフローチャートである。
【図13】第2実施形態における文字情報抽出部が実行する、字幕情報の抽出処理の手順を示すフローチャートである。
【図14】フレーム画像における主画面領域および副画面領域の構成についての他の例である。
【図15】フレーム画像における主画面領域および副画面領域の構成についての他の例である。
【発明を実施するための形態】
【0012】
以下、本発明を実施するための形態について、図面を参照して詳細に説明する。
[第1の実施の形態]
本発明の第1実施形態である映像字幕検出装置は、ビデオカメラから供給される撮影映像データを取り込み、この撮影映像データの画像処理を実行する。そのビデオカメラは、テレビジョン受像機に表示される、番組映像および字幕映像を含むテレビ映像(字幕付テレビ映像)を撮影する。映像字幕検出装置は、撮影映像データの画像処理を実行することによって字幕のテキストを含む字幕情報を生成し、この字幕情報を出力する。番組映像は、放送番組の映像である。字幕映像は、字幕のテキストの映像である。
【0013】
映像字幕検出装置は、字幕領域推定モードに設定されて動作したのち、字幕情報抽出モードに設定されて動作する。映像字幕検出装置の内部の制御部が、これらのモード設定を行う。字幕領域推定モードに設定された映像字幕検出装置は、所定期間分、連続して撮影映像データを取り込み、フレーム画像において字幕のテキストが表示される領域(字幕領域)を推定する。また、字幕情報抽出モードに設定された映像字幕検出装置は、撮影映像データを取り込み、フレーム画像中の上記推定された字幕領域に出現するテキストを抽出してこのテキストを含む字幕情報を生成し、この字幕情報を出力する。
【0014】
[1.映像字幕検出装置の構成]
図1は、第1実施形態である映像字幕検出装置の機能構成を示すブロック図である。同図に示すように、映像字幕検出装置10は、超解像処理部11と、幾何変換部(テレビ画面領域検出部)12と、副画面領域推定部(字幕画面領域推定部)13と、字幕領域推定部14と、モデル画像生成部15と、モデル画像記憶部16と、副画面領域検出部(字幕画面領域検出部)17と、字幕情報抽出部18とを備える。
字幕領域推定モードに設定された映像字幕検出装置10は、超解像処理部11と、幾何変換部12と、副画面領域推定部13と、字幕領域推定部14と、モデル画像生成部15と、モデル画像記憶部16とを動作させる。
また、字幕情報抽出モードに設定された映像字幕検出装置10は、超解像処理部11と、幾何変換部12と、モデル画像記憶部16と、副画面領域検出部17と、字幕情報抽出部18とを動作させる。
【0015】
映像字幕検出装置10は、字幕付テレビ映像を撮影する、ビデオカメラ、ビデオカメラ機能付携帯電話機、ビデオカメラ機能付携帯情報端末等に外部接続されるか、内蔵されるものである。
【0016】
超解像処理部11は、図示しない制御部から取り込み開始指示と取り込み終了指示とを受信する。超解像処理部11は、取り込み開始指示を受信したときから取り込み終了指示を受信するときまで、供給される撮影映像データを受信する。超解像処理部11は、撮影映像データを受信すると、この撮影映像データを構成する複数のフレーム画像を時系列に取り込み、各フレーム画像について超解像処理を実行し、画像の解像度を高めたフレーム画像である高解像度フレーム画像を生成する。超解像処理は、公知の超解像技術を適用した、フレーム画像の高解像度化処理である。超解像処理部11は、フレーム画像に対して超解像処理を実行することにより、当該フレーム画像の水平方向および垂直方向またはいずれか一方の解像度を高くする。このように超解像処理11を設けることによって、映像字幕検出装置10は、画像における字幕の文字の認識率を高めることができる。
超解像処理部11は、毎フレームまたはあらかじめ決定された複数フレームおきに、高解像度フレーム画像を幾何変換部12に供給する。
【0017】
幾何変換部12は、超解像処理部11から供給される高解像度フレーム画像(以下、必要な場合を除き、フレーム画像という)を取り込み、このフレーム画像からテレビ画面の領域(テレビ画面領域)を検出する。テレビ画面は、テレビ映像が表示される領域である。例えば、テレビ画面の形状は矩形(長方形および正方形を含む)であることを前提とし、幾何変換部12は、例えば、ハフ変換による直線検出技術を適用してフレーム画像から複数の直線成分を検出し、これら直線成分によって形成される矩形(その相似形を含む)を検出し、この矩形の図形領域をテレビ画面領域とする。
【0018】
そして、幾何変換部12は、検出したテレビ画面領域の形状歪みや画像における傾きをなくすようまたは軽減するよう、フレーム画像の幾何変換処理を実行し、幾何変換されたフレーム画像を副画面領域推定部13または副画面領域検出部17に供給する。映像字幕検出装置10が字幕領域推定モードに設定されている場合、幾何変換部12は、幾何変換されたフレーム画像を副画面領域推定部13に供給する。一報、映像字幕検出装置10が字幕情報抽出モードに設定されている場合、幾何変換部12は、幾何変換されたフレーム画像を副画面領域検出部17に供給する。テレビ画面領域の形状歪みや画像における傾きは、テレビジョン受像機の画面に対するビデオカメラの撮影方向が正対していない場合に生じるものである。
【0019】
副画面領域推定部13は、幾何変換部12から供給される、所定期間分の幾何変換されたフレーム画像を順次取り込み、これらのフレーム画像に基づいてテレビ画面における副画面領域(字幕画面領域)の位置および範囲を推定する。副画面領域は、テレビ画面において、放送番組に関する番組映像を表示する領域を主画面領域(番組画面領域)とした場合の、この主画面領域を除く領域である。副画面領域推定部13は、内部に記憶部を備えている。副画面領域は、字幕領域を含む。主画面領域と副画面領域とを含むテレビ画面の具体例については後述する。また、副画面領域推定部13が実行する副画面領域の推定処理についても後述する。
【0020】
字幕領域推定部14は、副画面領域推定部13が推定した副画面領域から字幕領域の位置および範囲を推定する。字幕領域推定部14は、内部に記憶部を備えている。
モデル画像生成部15は、副画面領域推定部13が推定した副画面領域と、字幕領域推定部14が推定した字幕領域とに基づいてモデル画像を生成し、このモデル画像をモデル画像記憶部16に記憶させる。モデル画像は、幾何変換されたフレーム画像において、副画面領域と字幕領域とを特定するための参照画像(テンプレート画像)である。
モデル画像記憶部16は、モデル画像生成部15が生成したモデル画像を記憶する。
【0021】
副画面領域検出部17は、モデル画像記憶部16からモデル画像を読み込むとともに、幾何変換部12から供給される幾何変換されたフレーム画像を取り込む。そして、副画面領域検出部17は、モデル画像とフレーム画像とのマッチング処理を実行して、フレーム画像における副画面領域を検出する。
字幕情報抽出部18は、副画面領域検出部17が検出した副画面領域から字幕領域を検出し、この字幕領域から字幕のテキストを抽出するとともに現在時刻を計時し、テキストと現在時刻を示す時刻情報とを対応付けた字幕情報を生成し、この字幕情報を出力する。字幕情報抽出部18は、内部にバッファ(記憶部)を備えている。
【0022】
図2は、幾何変換部12が出力する、幾何変換されたフレーム画像を模式的に表した図である。同図において、フレーム画像20は、主画面領域21と、副画面領域22とを含んで構成される。主画面領域21は、放送番組の番組映像を表示する領域である。副画面領域22は、字幕のテキストが表示される字幕領域を含む領域である。副画面領域22には、字幕のテキスト22a,22bが表示されている。フレーム画像20を構成する画素の位置は、左上端に対応する画素の位置を座標(0,0)とし、x軸方向(水平方向)とy軸方向(垂直方向)との二次元直交座標によって表わされる。同図に示すように、副画面領域22は、主画面領域21の周囲の一部分に設けられている。そして、副画面領域22において字幕のテキスト22bを含む上部領域と主画面領域21との境は、x軸に平行な境界線aとなっている。また、副画面領域22において字幕のテキスト22aを含む左部領域と主画面領域21との境は、y軸に平行な境界線bとなっている。
【0023】
なお、本実施形態では、字幕のテキスト22bは、x軸の正方向とは反対方向、つまり左方向に1字幕領域分スクロールされたのち所定時間静止することが繰り返される。また、字幕のテキスト22aは、静止したままである。
また、図2において、フレーム画像20の下部に、x軸に平行でy軸方向にdの幅を有する帯状の副画面領域の一部分があるが、この領域は、主画面領域21に表示される番組映像のセーフティゾーンを確保するためのオフセット領域であり、字幕のテキストを表示させる領域ではない。
【0024】
図3は、図2に示したフレーム画像20に基づいて、モデル生成部15が生成したモデル画像を模式的に表した図である。同図に示すように、モデル画像30は、副画面領域22における背景領域のテンプレート画像である背景領域参照画像31と、字幕のテキスト22bの字幕領域のテンプレート画像である字幕領域参照画像32とを有している。
【0025】
[2.副画面領域の推定処理]
次に、副画面領域推定部13が実行する副画面領域の推定処理について説明する。副画面領域推定部13は、幾何変換部12から供給される、所定期間分の幾何変換されたフレーム画像を順次取り込み、各フレーム画像からエッジを検出する。例えば、副画面領域推定部13は、ソーベル(Sobel)フィルタを適用してフレーム画像からエッジを検出する。
副画面領域推定部13は、取り込んだ全フレーム画像から検出したエッジに基づいて、エッジの分布を示すエッジ平均画像を生成する。エッジ平均画像fedge_avgにおける座標(x,y)の画素値は、下記の式(1)として表わされる。
ただし、isは、字幕領域推定モードに設定されて動作する超解像処理部11が撮像映像データを取り込み開始したときのフレーム画像の番号である。また、ieは、字幕領域推定モードに設定されて動作する超解像処理部11が撮像映像データを取り込み終了するときのフレーム画像の番号である。また、fedge_avgiは、i番目のフレーム画像から検出されたエッジ画像である。
【0026】
【数1】
【0027】
副画面領域推定部13は、計算したエッジ平均画像fedge_avgを、例えば上部領域、下部領域、左部領域、および右部領域に区分し、領域ごとに画面領域を推定する。上部領域は、例えば、x軸に平行で、エッジ平均画像fedge_avgの中心位置を含む境界線よりも上側の領域である。下部領域は、例えば、x軸に平行で、エッジ平均画像fedge_avgの中心位置を含む境界線とこの境界線よりも下側との領域である。左部領域は、例えば、y軸に平行で、エッジ平均画像fedge_avgの中心位置を含む境界線よりも左側の領域である。右部領域は、例えば、y軸に平行で、エッジ平均画像fedge_avgの中心位置を含む境界線とこの境界線よりも右側との領域である。
【0028】
副画面領域推定部13が上部領域から副画面領域を推定する処理について説明する。
副画面領域推定部13は、エッジ平均画像fedge_avgのy軸方向のエッジ強度分布syを、下記の式(2)によって計算する。
ただし、Wはフレーム画像のx軸方向の幅、Hはフレーム画像のy軸方向の幅である。
【0029】
【数2】
【0030】
副画面領域推定部13は、エッジ強度分布sy(0≦y<(H/2))から、エッジ強度の最大値である最大エッジ強度値symaxを抽出し、この最大エッジ強度値symaxに対応するy座標値ytを下記の式(3)によって計算する。
【0031】
【数3】
【0032】
副画面領域推定部13は、副画面領域と主画面領域との境界線があるか否かを判定し、境界線がある場合は、上部領域を検出する。具体的には、副画面領域推定部13は、最大エッジ強度値symaxがあらかじめ決定された閾値symaxthより大きく、且つ、最大エッジ強度値symaxに対応するy座標値ytがあらかじめ決定された閾値yathよりも大きいか否かを判定する。副画面領域推定部13は、最大エッジ強度値symaxが閾値symaxthより大きく、且つ、最大エッジ強度値symaxに対応するy座標値ytが閾値yathよりも大きいと判定した場合、フレーム画像のy座標値が0からytまでの画像領域を上部領域として検出する。そして、副画面領域推定部13は、検出した上部領域の位置情報を内部の記憶部に記憶させる。この位置情報とは、例えば、上部領域の4つの頂点の画素位置を示す座標値である。
【0033】
次に、副画面領域推定部13が下部領域から副画面領域を推定する処理について説明する。
副画面領域推定部13は、エッジ平均画像fedge_avgのy軸方向のエッジ強度分布syを、下記の式(4)によって計算する。
【0034】
【数4】
【0035】
副画面領域推定部13は、エッジ強度分布sy((H/2)≦y<H)から、最大エッジ強度値symaxを抽出し、この最大エッジ強度値symaxに対応するy座標値ytを下記の式(5)によって計算する。
【0036】
【数5】
【0037】
副画面領域推定部13は、副画面領域と主画面領域との境界線があるか否かを判定し、境界線がある場合は、下部領域を検出する。具体的には、副画面領域推定部13は、最大エッジ強度値symaxがあらかじめ決定された閾値symaxthより大きく、且つ、最大エッジ強度値symaxに対応するy座標値ytがあらかじめ決定された閾値ybthよりも大きいか否かを判定する。副画面領域推定部13は、最大エッジ強度値symaxが閾値symaxthより大きく、且つ、最大エッジ強度値symaxに対応するy座標値ytが閾値ybthよりも大きいと判定した場合、フレーム画像のy座標値がytからHまでの画像領域を下部領域として検出する。そして、副画面領域推定部13は、検出した下部領域の位置情報を内部の記憶部に記憶させる。この位置情報とは、例えば、下部領域の4つの頂点の画素位置を示す座標値である。
【0038】
次に、副画面領域推定部13が左部領域から副画面領域を推定する処理について説明する。
副画面領域推定部13は、エッジ平均画像fedge_avgのx軸方向のエッジ強度分布sxを、下記の式(6)によって計算する。
【0039】
【数6】
【0040】
副画面領域推定部13は、エッジ強度分布sx(0≦x<(W/2))から、エッジ強度の最大値である最大エッジ強度値sxmaxを抽出し、この最大エッジ強度値sxmaxに対応するx座標値xtを下記の式(7)によって計算する。
【0041】
【数7】
【0042】
副画面領域推定部13は、副画面領域と主画面領域との境界線があるか否かを判定し、境界線がある場合は、左部領域を検出する。具体的には、副画面領域推定部13は、最大エッジ強度値sxmaxがあらかじめ決定された閾値sxmaxthより大きく、且つ、最大エッジ強度値sxmaxに対応するx座標値xtがあらかじめ決定された閾値xathよりも大きいか否かを判定する。副画面領域推定部13は、最大エッジ強度値sxmaxが閾値sxmaxthより大きく、且つ、最大エッジ強度値sxmaxに対応するx座標値xtが閾値xathよりも大きいと判定した場合、フレーム画像のx座標値が0からxtまでの画像領域を左部領域として検出する。そして、副画面領域推定部13は、検出した左部領域の位置情報を内部の記憶部に記憶させる。この位置情報とは、例えば、左部領域の4つの頂点の画素位置を示す座標値である。
【0043】
次に、副画面領域推定部13が右部領域から副画面領域を推定する処理について説明する。
副画面領域推定部13は、エッジ平均画像fedge_avgのx軸方向のエッジ強度分布sxを、下記の式(8)によって計算する。
【0044】
【数8】
【0045】
副画面領域推定部13は、エッジ強度分布sx((W/2)≦x<W)から、最大エッジ強度値sxmaxを抽出し、この最大エッジ強度値sxmaxに対応するx座標値xtを下記の式(9)によって計算する。
【0046】
【数9】
【0047】
副画面領域推定部13は、副画面領域と主画面領域との境界線があるか否かを判定し、境界線がある場合は、右部領域を検出する。具体的には、副画面領域推定部13は、最大エッジ強度値sxmaxがあらかじめ決定された閾値sxmaxthより大きく、且つ、最大エッジ強度値sxmaxに対応するx座標値xtがあらかじめ決定された閾値xbthよりも大きいか否かを判定する。副画面領域推定部13は、最大エッジ強度値sxmaxが閾値sxmaxthより大きく、且つ、最大エッジ強度値sxmaxに対応するx座標値xtが閾値xbthよりも大きいと判定した場合、フレーム画像のx座標値がxtからWまでの画像領域を右部領域として検出する。そして、副画面領域推定部13は、検出した右部領域の位置情報を内部の記憶部に記憶させる。この位置情報とは、例えば、上部領域の4つの頂点の画素位置を示す座標値である。
【0048】
図4は、副画面領域推定部13が実行する副画面領域の推定処理の手順を示すフローチャートである。ステップS1において、副画面領域推定部13は、撮影映像データを取り込む所定期間内であるか否かを判別し、所定期間内である場合はステップS2の処理に移し、所定期間外である場合はステップS4の処理に移す。
【0049】
ステップS2において、副画面領域推定部13は、幾何変換部12から供給される幾何変換されたフレーム画像を取り込む。
次に、ステップS3において、副画面領域推定部13は、取り込んだフレーム画像からエッジを検出する。
次に、副画面領域推定部13は、ステップS1の処理に戻す。
【0050】
ステップS4において、副画面領域推定部13は、取り込んだ全フレーム画像から検出したエッジに基づいてエッジ平均画像fedge_avgを生成する。
次に、ステップS5において、副画面領域推定部13は、エッジ平均画像の上部領域についての副画面領域の推定処理を実行する。
次に、ステップS6において、副画面領域推定部13は、エッジ平均画像fedge_avgの上部領域についての副画面領域の推定処理を実行する。
次に、ステップS7において、副画面領域推定部13は、エッジ平均画像fedge_avgの上部領域についての副画面領域の推定処理を実行する。
次に、ステップS8において、副画面領域推定部13は、エッジ平均画像fedge_avgの上部領域についての副画面領域の推定処理を実行する。
【0051】
図5は、ステップS5の上部領域についての推定処理の手順を示すフローチャートである。
ステップS11において、副画面領域推定部13は、エッジ平均画像fedge_avgのy軸方向のエッジ強度分布syを計算する。
次に、ステップS12において、副画面領域推定部13は、エッジ強度分布sy(0≦y<(H/2))から、エッジ強度の最大値である最大エッジ強度値symaxを抽出し、この最大エッジ強度値symaxに対応するy座標値ytを計算する。
次に、ステップS13において、副画面領域推定部13は、副画面領域と主画面領域との境界線があるか否かを判定し、境界線があると判定した場合(S13:YES)はステップS14の処理に移し、境界線がないと判定した場合(S13:NO)は本フローチャートの処理を終了させる。
ステップS14において、副画面領域推定部13は、フレーム画像のy座標値が0からytまでの画像領域を上部領域として検出し、この上部領域の位置情報を内部の記憶部に記憶させる。
【0052】
図6は、ステップS6の下部領域についての推定処理の手順を示すフローチャートである。
ステップS21において、副画面領域推定部13は、エッジ平均画像fedge_avgのy軸方向のエッジ強度分布syを計算する。
次に、ステップS22において、副画面領域推定部13は、エッジ強度分布sy((H/2)≦y<H)から、エッジ強度の最大値である最大エッジ強度値symaxを抽出し、この最大エッジ強度値symaxに対応するy座標値ytを計算する。
次に、ステップS23において、副画面領域推定部13は、副画面領域と主画面領域との境界線があるか否かを判定し、境界線があると判定した場合(S23:YES)はステップS24の処理に移し、境界線がないと判定した場合(S23:NO)は本フローチャートの処理を終了させる。
ステップS24において、副画面領域推定部13は、フレーム画像のy座標値がytからHまでの画像領域を下部領域として検出し、この下部領域の位置情報を内部の記憶部に記憶させる。
【0053】
図7は、ステップS7の左部領域についての推定処理の手順を示すフローチャートである。
ステップS31において、副画面領域推定部13は、エッジ平均画像fedge_avgのx軸方向のエッジ強度分布sxを計算する。
次に、ステップS32において、副画面領域推定部13は、エッジ強度分布sx(0≦x<(W/2))から、エッジ強度の最大値である最大エッジ強度値sxmaxを抽出し、この最大エッジ強度値sxmaxに対応するx座標値xtを計算する。
次に、ステップS33において、副画面領域推定部13は、副画面領域と主画面領域との境界線があるか否かを判定し、境界線があると判定した場合(S33:YES)はステップS34の処理に移し、境界線がないと判定した場合(S33:NO)は本フローチャートの処理を終了させる。
ステップS34において、副画面領域推定部13は、フレーム画像のx座標値が0からxtまでの画像領域を左部領域として検出し、この上部領域の位置情報を内部の記憶部に記憶させる。
【0054】
図8は、ステップS8の右部領域についての推定処理の手順を示すフローチャートである。
ステップS41において、副画面領域推定部13は、エッジ平均画像fedge_avgのx軸方向のエッジ強度分布sxを計算する。
次に、ステップS42において、副画面領域推定部13は、エッジ強度分布sx((W/2)≦x<W)から、エッジ強度の最大値である最大エッジ強度値sxmaxを抽出し、この最大エッジ強度値sxmaxに対応するx座標値xtを計算する。
次に、ステップS43において、副画面領域推定部13は、副画面領域と主画面領域との境界線があるか否かを判定し、境界線があると判定した場合(S43:YES)はステップS44の処理に移し、境界線がないと判定した場合(S43:NO)は本フローチャートの処理を終了させる。
ステップS44において、副画面領域推定部13は、フレーム画像のx座標値がxtからWまでの画像領域を右部領域として検出し、この右部領域の位置情報を内部の記憶部に記憶させる。
【0055】
[3.字幕領域の推定処理]
次に、字幕領域推定部14が実行する字幕領域の推定処理について説明する。字幕領域推定部14は、副画面領域推定部13が推定した副画面領域の上部領域、下部領域、左部領域、および右部領域それぞれ(以下、対象領域と呼ぶことがある)について、字幕領域が存在するか否か、ならびに、字幕領域が存在する場合に、その位置および範囲を推定する。例えば、字幕領域推定部14は、上部領域、下部領域、左部領域、右部領域の順に推定処理を実行する。
【0056】
字幕領域推定部14は、対象領域における画素の時間方向についての変化を求める。例えば、字幕領域推定部14は、対象領域における画素の時間方向についての画素値の変化のばらつきを、分散σx,yを求める下記の式(10)によって計算する。
ただし、isは、字幕領域推定モードに設定されて動作する超解像処理部11が撮像映像データを取り込み開始したときのフレーム画像の番号である。また、ieは、字幕領域推定モードに設定されて動作する超解像処理部11が撮像映像データを取り込み終了するときのフレーム画像の番号である。また、fi(x,y)は、対象領域である。また、μx,yは、撮影映像データの取り込み期間における対象領域fi(x,y)の平均値である。
【0057】
【数10】
【0058】
字幕領域推定部14は、式(10)により計算した分散σx,yに基づいて、対象領域を2つの領域に区分する。例えば、字幕領域推定部14は、分散σx,yに基づいて対象領域の全画素を、あらかじめ決定された閾値を基準にして二分し、さらに、判別分析法を適用してその閾値を最適化し、最終的に対象領域を2つの領域(背景領域およびテキスト領域)に区分する。判別分析法は、2クラス(背景領域のクラスおよびテキスト領域のクラス)に分離された対象領域について、各クラスのクラス内分散と2クラスについてのクラス間分散とを計算し、クラス内分散とクラス間分散との比に基づいて閾値を決定する方法である。
【0059】
字幕領域推定部14は、テキスト領域の面積とあらかじめ決定された面積閾値とを比較する。そして、字幕領域推定部14は、推定したテキスト領域の面積が面積閾値よりも大きい場合は、その推定したテキスト領域を字幕領域として決定する。一方、字幕領域推定部14は、推定したテキスト領域の面積が面積閾値以下である場合は、対象領域内に字幕領域が存在しないと決定する。そして、字幕領域推定部14は、字幕領域の位置情報を内部の記憶部に記憶させる。この位置情報とは、例えば、字幕領域の4つの頂点の画素位置を示す座標値である。
【0060】
図9は、字幕領域推定部14が実行する字幕領域推定処理の手順を示すフローチャートである。字幕領域推定部14は、副画面領域の上部領域、下部領域、左部領域、および右部領域それぞれについて、同図のフローチャートの処理を実行する。
【0061】
ステップS51において、字幕領域推定部14は、副画面領域推定部13によって内部の記憶部に記憶された対象領域の位置情報を読み込む。
次に、ステップS52において、字幕領域推定部14は、対象領域における画素の時間方向についての画素値の変化のばらつき(分散)を計算する。
次に、ステップS53において、字幕領域推定部14は、分散に基づいて、対象領域を2つの領域(背景領域およびテキスト領域)に区分する。
【0062】
次に、ステップS54において、字幕領域推定部14は、テキスト領域の面積とあらかじめ決定された面積閾値とを比較し、テキスト領域の面積が面積閾値よりも大きい場合(ステップS54:YES)は、テキスト領域を字幕領域として決定してステップS55の処理に移し、テキスト領域の面積が面積閾値以下である場合(ステップS54:NO)は、対象領域内に字幕領域が存在しないと決定して本フローチャートの処理を終了させる。
ステップS55において、字幕領域推定部14は、字幕領域の位置情報を内部の記憶部に記憶させる。
【0063】
[4.副画面領域の検出処理]
次に、副画面領域検出部17が実行する副画面領域の検出処理について説明する。副画面領域検出部17は、モデル画像記憶部16からモデル画像を読み込み、また、幾何変換部12から供給される幾何変換されたフレーム画像を取り込む。副画面領域検出部17は、モデル画像を参照画像として、テンプレートマッチングによりフレーム画像から副画面領域を検出する。例えば、副画面領域検出部17は、フレーム画像と参照画像との一致度dbg(fi,m)を、下記の式(11)の差分二乗和の計算によって求める。
ただし、fiはi番目のフレーム画像、mはモデル画像である。また、Lは、モデル画像に含まれる背景領域の画素集合である。
【0064】
【数11】
【0065】
なお、テンプレートマッチングとして、上記の差分二乗和の他、絶対差分和、色ヒストグラム差分、ブロックマッチング差分等を用いてもよい。
【0066】
副画面領域検出部17は、一致度dbg(fi,m)とあらかじめ決定された閾値とを比較し、一致度dbg(fi,m)が閾値以下である場合、i番目のフレーム画像に副画面領域が存在すると判定する。
【0067】
図10は、副画面領域検出部17が実行する副画面領域の検出処理の手順を示すフローチャートである。
ステップS61において、副画面領域検出部17は、モデル画像記憶部16からモデル画像を読み込む。
次に、ステップS62において、副画面領域検出部17は、幾何変換部12から供給される幾何変換されたフレーム画像を取り込む。
次に、ステップS63において、副画面領域検出部17は、モデル画像を参照画像として、テンプレートマッチング法によりフレーム画像と副画面領域との一致度を計算する。
次に、ステップS64において、一致度が閾値以下である場合(ステップS64:YES)、副画面領域検出部17は、フレーム画像に副画面領域が存在すると判定し、本フローチャートの処理を終了させる。一方、一致度が上記の閾値を超える場合(ステップS64:NO)、副画面領域検出部17は、ステップS62の処理に戻す。
【0068】
[5.字幕情報の抽出処理]
字幕情報抽出部18は、副画面領域内の字幕領域において、字幕のテキストが所定時間静止しているか否かを判定する。例えば、字幕情報抽出部18は、最新のフレーム画像(現フレーム画像、第1のフレーム画像)と前回取り込んだフレーム画像(前フレーム画像、第2のフレーム画像)との一致度dtext(fi−1,fi)を、下記の式(12)の差分二乗和によって求める。
ただし、fi−1は(i−1)番目のフレーム画像(前フレーム画像)、fiはi番目のフレーム画像(現フレーム画像)である。また、Tは、モデル画像に含まれる字幕領域の画素集合である。
【0069】
【数12】
【0070】
字幕情報抽出部18は、一致度dtext(fi−1,fi)とあらかじめ決定された閾値とを比較し、一致度dtext(fi−1,fi)が所定時間分連続して閾値以下である場合、字幕領域内の字幕のテキストが静止していると判定する。
【0071】
字幕情報抽出部18は、字幕領域内の静止した字幕のテキストの内容が、前回抽出したテキストの内容と異なるか否かを判定する。例えば、字幕情報抽出部18は、現フレーム画像と、前回、テキストを抽出したときのフレーム画像(テキスト有りフレーム画像)との一致度dtext(fprev,fi)を、下記の式(13)の差分二乗和によって求める。
ただし、fprevは、テキスト有りフレーム画像である。
【0072】
【数13】
【0073】
字幕情報抽出部18は、一致度dtext(fprev,fi)とあらかじめ決定された閾値とを比較し、一致度dtext(fprev,fi)が閾値を超える場合、字幕のテキストの内容が、前回抽出したテキストの内容と異なると判定する。
【0074】
文字情報抽出部18は、最新のテキストが含まれる字幕領域について文字認識処理を実行し、その字幕領域から文字列データ(一文字の場合を含む)を抽出する。例えば、文字情報抽出部18は、最新のテキストが含まれる字幕領域から文字単位で領域(文字領域)を抽出し、この文字領域について様々なテンプレート文字とのマッチングを試行することによって、文字を認識する。そして、文字情報抽出部18は、その文字認識処理をテキスト内の全ての文字に対して実行し、文字列データを字幕のテキストとして抽出する。
【0075】
文字情報抽出部18は、字幕のテキストと現在時刻を示す時刻情報とを対応付け、字幕情報として出力する。
【0076】
図11および図12は、文字情報抽出部18が実行する、字幕情報の抽出処理の手順を示すフローチャートである。
図11のステップS71において、文字情報抽出部18は、変数kを初期化する。この変数kは、字幕領域内のテキストが静止しているか否かを検出するために用いられるものである。
次に、ステップS72において、文字情報抽出部18は、幾何変換されたフレーム画像を取り込む。
次に、ステップS73において、文字情報抽出部18は、バッファから前フレーム画像を読み込む。
次に、ステップS74において、文字情報抽出部18は、テンプレートマッチング法によりフレーム画像と前フレーム画像との一致度を計算する。
次に、ステップS75において、一致度が閾値以下である場合(ステップS75:YES)、文字情報抽出部18はステップS77の処理に移し、一致度が上記の閾値を超える場合(ステップS75:NO)、文字情報抽出部18はステップS76の処理に移す。
【0077】
ステップS76において、文字情報抽出部18は、現フレーム画像をバッファに記憶させて、ステップS72の処理に戻す。
一方、ステップS77において、文字情報抽出部18は、変数kに1を加算する。そして、ステップS78において、文字情報抽出部18は、変数kと閾値とを比較し、変数kがこの閾値よりも大きい場合は、図12のステップS79の処理に移し、変数kがその閾値以下である場合は、ステップS72の処理に戻す。
【0078】
図12のステップS79において、字幕情報抽出部18は、バッファからテキスト有りフレーム画像を読み込む。
次に、ステップS80において、字幕情報抽出部18は、テンプレートマッチング法により現フレーム画像とテキスト有りフレーム画像との一致度を計算する。
次に、ステップS81において、一致度が閾値を超える場合(ステップS81:YES)、文字情報抽出部18はステップS82の処理に移し、一致度が上記の閾値以下である場合(ステップS81:NO)、文字情報抽出部18はステップS71の処理に戻す。
【0079】
ステップS82において、文字情報抽出部18は、字幕領域について文字認識処理を実行し、その字幕領域から文字列データ(一文字の場合を含む)を抽出する。
次に、ステップS83において、文字情報抽出部18は、字幕のテキストと現在時刻を示す時刻情報とを対応付け、字幕情報として出力する。
次に、文字情報抽出部18は、ステップS71の処理に戻す。
【0080】
[第2の実施形態]
上述した第1の実施形態では、副画面領域の字幕領域に表示される字幕のテキストが、例えば、左方向に1字幕領域分スクロールされて所定時間静止することが繰り返されるものとした。本発明の第2実施形態は、字幕のテキストが静止することなく、連続してスクロールされる例である。
【0081】
第2実施形態である映像字幕検出装置の機能構成は、第1実施形態である映像字幕検出装置10と同一であるため、各構成の説明を省略する。
第2実施形態では、字幕情報抽出部18の動作が第1実施形態と異なる。
【0082】
図13は、第2実施形態における文字情報抽出部18が実行する、字幕情報の抽出処理の手順を示すフローチャートである。
S101において、文字情報抽出部18は、幾何変換されたフレーム画像を所定フレーム(例えば、数秒間に相当するフレーム数)おきに取り込む。
次に、S102において、文字情報抽出部18は、字幕領域について文字認識処理を実行する。
【0083】
次に、S103において、文字情報抽出部18は、文字認識処理の結果に基づいて、字幕領域から文字情報(一文字または文字列の情報)を抽出した場合(S103:YES)はステップS104の処理に移し、文字情報を抽出しなかった場合(S103:NO)はステップS101の処理に戻す。
【0084】
ステップS104において、文字情報抽出部18は、バッファに記憶されている文字情報を読み込む。
次に、ステップS105において、文字情報抽出部18は、ステップS102の処理において抽出した文字情報と、ステップS104の処理においてバッファから読み込んだ文字情報との差分を抽出する。
【0085】
次に、ステップS106において、文字情報抽出部18は、差分の文字情報を、バッファの文字情報に追加して記憶させる。
次に、ステップS107において、文字情報抽出部18は、所定文字数分の文字情報がバッファに記憶された場合はステップS108の処理に移し、所定文字数分の文字情報がバッファに記憶されていない場合はステップS101に戻す。所定文字数は、例えば、一字幕領域に表示される文字数である。
【0086】
ステップS108において、文字情報抽出部18は、字幕のテキストと現在時刻を示す時刻情報とを対応付け、字幕情報として出力する。
次に、ステップS109において、文字情報抽出部18は、バッファの内容を削除し、ステップS101の処理に戻す。
【0087】
以上、詳述したとおり、本発明の第1実施形態および第2実施形態による映像字幕検出装置10は、テレビジョン受像機に表示される、番組映像と字幕映像とを含んだ字幕付テレビ映像を撮影したビデオカメラから供給される撮影映像データを取り込む。そして、映像字幕検出装置10は、撮影映像データのフレーム画像から字幕領域の位置および範囲を推定し、この字幕領域に表示される字幕のテキストを検出する。そして、映像字幕検出装置10は、字幕のテキストと現在時刻を示す時刻情報とを対応付けた字幕情報を生成し、この字幕情報を出力する。
このように構成したことにより、映像字幕検出装置10によれば、番組映像と字幕映像とを含む映像から、容易に字幕を検出しそのテキスト情報を取得することができる。
【0088】
また、第1実施形態による映像字幕検出装置10は、副画面領域内の字幕領域において、字幕のテキストが所定時間静止しているか否かを判定し、テキストが静止していることを確認してテキストを抽出する。このように構成したことにより、映像字幕検出装置10は、例えば、一方向(例えば左方向)に1字幕領域分スクロールされたのち所定時間静止することが繰り返される字幕について、字幕が静止するたびにテキストを抽出するため、字幕の文字を漏らさず抽出することができる。
【0089】
また、第2実施形態による映像字幕検出装置10は、所定フレームおきにフレーム画像を、取り込み文字認識処理を行って文字情報を取得し、この文字情報と既に取り込んである文字情報との差分を抽出する。そして、映像字幕検出装置10は、取り込み済みである文字情報に差分を追加する。このように構成したことにより、映像字幕検出装置10は、字幕のテキストが静止することなく、連続してスクロールされる字幕について、間欠的にテキストを抽出するため、字幕の文字を漏らさず抽出することができる。
【0090】
なお、第1実施形態および第2実施形態では、フレーム画像における主画面領域および副画面領域の構成を、図2に示す構成とした。画面構成は、この例に限らず、例えば図14(a)〜(i)および図15(a)〜(d)に示すものとしてもよい。これら図14および図15の各図においては、オフセット領域の図示を省略している。
なお、図14(a)に示す画面構成は、図2のものと同一である。
【0091】
また、上述した実施形態である映像字幕検出装置10の一部の機能をコンピュータで実現するようにしてもよい。この場合、その制御機能を実現するためのプログラム(映像字幕検出プログラム)をコンピュータ読み取り可能な記録媒体に記録し、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませて、このコンピュータシステムが実行することによって実現してもよい。なお、このコンピュータシステムとは、オペレーティング・システム(Operating System;OS)や周辺装置のハードウェアを含むものである。また、コンピュータ読み取り可能な記録媒体とは、フレキシブルディスク、光磁気ディスク、光ディスク、メモリカード等の可搬型記録媒体、コンピュータシステムに備えられる磁気ハードディスクやソリッドステートドライブ等の記憶装置のことをいう。さらに、コンピュータ読み取り可能な記録媒体とは、インターネット等のコンピュータネットワーク、および電話回線や携帯電話網を介してプログラムを送信する場合の通信回線のように、短時間の間、動的にプログラムを保持するもの、さらには、その場合のサーバ装置やクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持するものを含んでもよい。また上記のプログラムは、前述した機能の一部を実現するためのものであってもよく、さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせにより実現するものであってもよい。
【0092】
以上、本発明の実施の形態について図面を参照して詳述したが、具体的な構成はその実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【0093】
10 映像字幕検出装置
11 超解像処理部
12 幾何変換部(テレビ画面領域検出部)
13 副画面領域推定部(字幕画面領域推定部)
14 字幕領域推定部
15 モデル画像生成部
16 モデル画像記憶部
17 副画面領域検出部(字幕画面領域検出部)
18 字幕情報抽出部
【特許請求の範囲】
【請求項1】
番組映像および字幕映像を含むテレビ映像を撮影して得られた撮影映像データを取り込み、前記撮影映像データのフレーム画像から直線成分を検出し、前記直線成分によって形成される矩形に基づいて、前記フレーム画像からテレビ画面領域を検出するテレビ画面領域検出部と、
前記テレビ画面領域検出部が検出した前記テレビ画面領域から画像のエッジを検出し、前記画像のエッジの分布に基づいて、前記フレーム画像から前記字幕映像に対応する字幕画面領域を推定する字幕画面領域推定部と、
前記字幕画面領域推定部が推定した前記字幕画面領域から時間方向の画素の変化を検出し、前記画素の変化に基づいて字幕のテキストを含む字幕領域を推定する字幕領域推定部と、
前記撮影映像データを取り込み、前記字幕画面領域推定部が推定した前記字幕画面領域に基づいて、前記撮影映像データのフレーム画像から前記字幕画面領域を検出する字幕画面領域検出部と、
前記字幕画面領域検出部が検出した前記字幕画面領域を含むフレーム画像における、前記字幕領域推定部が推定した前記字幕領域から字幕のテキストを抽出し、前記字幕のテキストと現在時刻を示す時刻情報とを対応付けた字幕情報を生成し、前記字幕情報を出力する字幕情報抽出部と、
を備えることを特徴とする映像字幕検出装置。
【請求項2】
前記字幕情報抽出部は、
前記字幕画面領域検出部が検出した前記字幕画面領域を含む第1のフレーム画像における、前記字幕領域推定部が推定した前記字幕領域と、前記第1のフレーム画像よりも前の時刻の第2のフレーム画像における前記字幕領域との比較に基づいて、前記第1のフレーム画像における前記字幕領域から字幕のテキストを抽出する
ことを特徴とする請求項1記載の映像字幕検出装置。
【請求項3】
前記字幕情報抽出部は、
前記第1のフレーム画像における字幕領域と前記第2のフレーム画像における字幕領域との比較に基づいて、字幕のテキストが静止しているか否かを判定し、前記字幕のテキストが静止している場合に、前記第1のフレーム画像における前記字幕領域から字幕のテキストを抽出する
ことを特徴とする請求項2記載の映像字幕検出装置。
【請求項4】
前記字幕情報抽出部は、
前記字幕画面領域検出部が検出した前記字幕画面領域から第1のテキストを抽出し、この第1のテキストと、既に抽出された第2のテキストとの差分を抽出し、この差分を前記第2のテキストに追加することによって前記字幕のテキストを取得する
ことを特徴とする請求項2記載の映像字幕検出装置。
【請求項5】
コンピュータを、
番組映像および字幕映像を含むテレビ映像を撮影して得られた撮影映像データを取り込み、前記撮影映像データのフレーム画像から直線成分を検出し、前記直線成分によって形成される矩形に基づいて、前記フレーム画像からテレビ画面領域を検出するテレビ画面領域検出部と、
前記テレビ画面領域検出部が検出した前記テレビ画面領域から画像のエッジを検出し、前記画像のエッジの分布に基づいて、前記フレーム画像から前記字幕映像に対応する字幕画面領域を推定する字幕画面領域推定部と、
前記字幕画面領域推定部が推定した前記字幕画面領域から時間方向の画素の変化を検出し、前記画素の変化に基づいて字幕のテキストを含む字幕領域を推定する字幕領域推定部と、
前記撮影映像データを取り込み、前記字幕画面領域推定部が推定した前記字幕画面領域に基づいて、前記撮影映像データのフレーム画像から前記字幕画面領域を検出する字幕画面領域検出部と、
前記字幕画面領域検出部が検出した前記字幕画面領域を含むフレーム画像における、前記字幕領域推定部が推定した前記字幕領域から字幕のテキストを抽出し、前記字幕のテキストと現在時刻を示す時刻情報とを対応付けた字幕情報を生成し、前記字幕情報を出力する字幕情報抽出部と、
して機能させるためのプログラム。
【請求項1】
番組映像および字幕映像を含むテレビ映像を撮影して得られた撮影映像データを取り込み、前記撮影映像データのフレーム画像から直線成分を検出し、前記直線成分によって形成される矩形に基づいて、前記フレーム画像からテレビ画面領域を検出するテレビ画面領域検出部と、
前記テレビ画面領域検出部が検出した前記テレビ画面領域から画像のエッジを検出し、前記画像のエッジの分布に基づいて、前記フレーム画像から前記字幕映像に対応する字幕画面領域を推定する字幕画面領域推定部と、
前記字幕画面領域推定部が推定した前記字幕画面領域から時間方向の画素の変化を検出し、前記画素の変化に基づいて字幕のテキストを含む字幕領域を推定する字幕領域推定部と、
前記撮影映像データを取り込み、前記字幕画面領域推定部が推定した前記字幕画面領域に基づいて、前記撮影映像データのフレーム画像から前記字幕画面領域を検出する字幕画面領域検出部と、
前記字幕画面領域検出部が検出した前記字幕画面領域を含むフレーム画像における、前記字幕領域推定部が推定した前記字幕領域から字幕のテキストを抽出し、前記字幕のテキストと現在時刻を示す時刻情報とを対応付けた字幕情報を生成し、前記字幕情報を出力する字幕情報抽出部と、
を備えることを特徴とする映像字幕検出装置。
【請求項2】
前記字幕情報抽出部は、
前記字幕画面領域検出部が検出した前記字幕画面領域を含む第1のフレーム画像における、前記字幕領域推定部が推定した前記字幕領域と、前記第1のフレーム画像よりも前の時刻の第2のフレーム画像における前記字幕領域との比較に基づいて、前記第1のフレーム画像における前記字幕領域から字幕のテキストを抽出する
ことを特徴とする請求項1記載の映像字幕検出装置。
【請求項3】
前記字幕情報抽出部は、
前記第1のフレーム画像における字幕領域と前記第2のフレーム画像における字幕領域との比較に基づいて、字幕のテキストが静止しているか否かを判定し、前記字幕のテキストが静止している場合に、前記第1のフレーム画像における前記字幕領域から字幕のテキストを抽出する
ことを特徴とする請求項2記載の映像字幕検出装置。
【請求項4】
前記字幕情報抽出部は、
前記字幕画面領域検出部が検出した前記字幕画面領域から第1のテキストを抽出し、この第1のテキストと、既に抽出された第2のテキストとの差分を抽出し、この差分を前記第2のテキストに追加することによって前記字幕のテキストを取得する
ことを特徴とする請求項2記載の映像字幕検出装置。
【請求項5】
コンピュータを、
番組映像および字幕映像を含むテレビ映像を撮影して得られた撮影映像データを取り込み、前記撮影映像データのフレーム画像から直線成分を検出し、前記直線成分によって形成される矩形に基づいて、前記フレーム画像からテレビ画面領域を検出するテレビ画面領域検出部と、
前記テレビ画面領域検出部が検出した前記テレビ画面領域から画像のエッジを検出し、前記画像のエッジの分布に基づいて、前記フレーム画像から前記字幕映像に対応する字幕画面領域を推定する字幕画面領域推定部と、
前記字幕画面領域推定部が推定した前記字幕画面領域から時間方向の画素の変化を検出し、前記画素の変化に基づいて字幕のテキストを含む字幕領域を推定する字幕領域推定部と、
前記撮影映像データを取り込み、前記字幕画面領域推定部が推定した前記字幕画面領域に基づいて、前記撮影映像データのフレーム画像から前記字幕画面領域を検出する字幕画面領域検出部と、
前記字幕画面領域検出部が検出した前記字幕画面領域を含むフレーム画像における、前記字幕領域推定部が推定した前記字幕領域から字幕のテキストを抽出し、前記字幕のテキストと現在時刻を示す時刻情報とを対応付けた字幕情報を生成し、前記字幕情報を出力する字幕情報抽出部と、
して機能させるためのプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【公開番号】特開2013−30963(P2013−30963A)
【公開日】平成25年2月7日(2013.2.7)
【国際特許分類】
【出願番号】特願2011−165367(P2011−165367)
【出願日】平成23年7月28日(2011.7.28)
【出願人】(000004352)日本放送協会 (2,206)
【Fターム(参考)】
【公開日】平成25年2月7日(2013.2.7)
【国際特許分類】
【出願日】平成23年7月28日(2011.7.28)
【出願人】(000004352)日本放送協会 (2,206)
【Fターム(参考)】
[ Back to top ]