説明

テレビショッピング番組の検出方法およびこの方法を用いる映像装置

【課題】放送番組本編の何処かに挿入されたテレビショッピング番組を検出する。
【解決手段】映像または音声に所定の特徴がある2つのビデオフレームに挟まれた区間の開始位置(開始時刻)と終了位置(終了時刻)を検出し(ST100)し、開始位置と終了位置が検出された区間の長さが所定長であるか否かを検出する(ST104)。ここで、区間の長さが所定長であることが検出された場合に、この区間の映像から、商品の価格を示す文字映像および/またはその商品を購入するための連絡先を示す文字映像を検出し(ST106)、この文字映像が継続して表示される時間の長さを検出する(ST110)。そして、文字映像が継続表示される時間長が予め定めた文字表示時間である場合に、検出された前記開始位置と前記終了位置を、特定種別の映像(通常番組に挿入されたテレビショッピング番組の映像)の区間であると判定する(ST114)。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、テレビショッピング番組の検出方法およびこの方法を用いる映像装置に関する。
【背景技術】
【0002】
商業テレビジョン放送では、通常、放送番組本編の前後中間の何処かにコマーシャル(CM)が短い区切り(例えば15秒の倍数単位で60秒以内)で挿入されるが、それ以外にCMよりも長い区切り(1分ないし数分)でテレビショッピング番組が挿入されることもある。このようなテレビショッピング番組の検出については先行技術が見当たらないが、CM検出については先行技術がある(特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2004−336507号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1の発明では、「ほぼ全てのCMが15秒、30秒、60秒の長さで製作され」、「各CMの前後では必然的に音声レベルが下がり」、「映像信号が切り替わる」といった特徴等に基づいてCMを検出している(特許文献1の段落0091〜0111)。しかし、この方法では、CMとは別の意図で製作され1分以上の長さを番組枠として持つテレビショッピング番組を検出できる保証はない。
【0005】
この発明の課題の1つは、放送番組本編の何処かに挿入されたテレビショッピング番組を検出できるようにすることである。
【課題を解決するための手段】
【0006】
この発明の一実施の形態に係るテレビショッピング番組の検出方法では、映像および/または音声に所定の特徴がある2つのビデオフレームに挟まれた区間の開始位置(開始時刻)と終了位置(終了時刻)を検出し(ST100)し、前記開始位置(開始時刻)と前記終了位置(終了時刻)が検出された前記区間の長さが所定長であるか否かを検出する(ST104)。ここで、前記区間の長さが前記所定長であることが検出された場合に、この区間の映像から、商品の価格を示す文字映像および/またはその商品を購入するための連絡先を示す文字映像を検出し(ST106)、前記文字映像(商品価格、連絡先電話番号など)が継続して表示される時間の長さを検出する(ST110)。そして、前記文字映像が継続表示される時間長が予め定めた文字表示時間以上であることが検出された場合に、検出された前記開始位置(開始時刻)と前記終了位置(終了時刻)を、特定種別の映像(通常番組に挿入されたテレビショッピング番組の映像)の区間であると判定するようにしている(ST114)。
【発明の効果】
【0007】
この発明によれば、放送番組本編の何処かに挿入されたテレビショッピング番組を検出できる。
【図面の簡単な説明】
【0008】
【図1】この発明の一実施の形態に係る映像装置の構成を説明する図。
【図2】所定の特徴がある2つのビデオフレームに挟まれた区間の開始位置(開始時刻)と終了位置(終了時刻)を説明する図。
【図3】テレビショッピング番組中に表れる映像の一例を説明する図。
【図4】この発明の一実施の形態に係る、テレビショッピング番組の検出方法を説明するフローチャート図。
【図5】検出されたテレビショッピング番組の利用例を説明する図。
【図6】検出されたテレビショッピング番組の他の利用例を説明する図。
【発明を実施するための形態】
【0009】
以下、図面を参照してこの発明の種々な実施の形態を説明する。図1は、この発明の一実施の形態に係る映像装置の構成を説明する図である。この装置構成は、デジタルTV受像機あるいはデジタルビデオレコーダもしくはAVパソコンの一機能として具現できる。
【0010】
図1の構成において、チューナ1は、例えばUHFアンテナあるいはBSアンテナからのデジタル放送信号を受信し、受信信号を復調し、復調出力をトランスポートストリームデコーダ2に供給する。トランスポートストリームデコーダ2で選択された番組の映像信号および音声信号は、オーディオビデオ(AV)デコーダ3に入力されて復調される。AVデコーダ3で復調された映像信号は映像解析部4に供給され、音声信号は音声解析部5に供給される。
【0011】
EEPROM6は、装置機能を実現するコンピュータプログラム(ファームウエア)、パラメータなどを保存しておくために利用される。トランスポートストリームデコーダ2、AVデコーダ3、およびEEPROM6は、メインバス8に接続されている。このメインバス8には、装置を統括制御するマイクロコンピュータ(MPU)9が接続されている。MPU9にはプログラム実行時のワークエリアを提供するワークRAM9aが接続されている。また、メインバス8にはタイマ(またはシステムタイムクロックカウンタ)15が接続されており、MPU9が処理する種々な情報の時間をタイマ15で測れるようになっている。
【0012】
さらに、図1の装置には、メインバス8を介して外部機器を接続することが可能となっている。そのために、メインバス8には、ローカルリアネットワーク(LAN)端子10、リモコンインターフェース11、ハードディスクインターフェース12が接続されている。ここでは、インターフェース12を介してハードディスクドライブ(HDD)13を接続できる。このHDD13には、放送録画データのほか、予め計算しておいた映像および音声の特徴量を記録しておくことも可能である。またメインバス8には、AVエンコーダ7が接続されており、AVデコーダ3でデコードした映像信号を所定のフォーマット(例えばDVDフォーマットあるいはBDフォーマット)に変換することができる。
【0013】
映像解析部4からの映像出力は、表示部14に送られて画面表示されるとともに、装置外部のデジタルレコーダ(または録画機能付きAVパソコン)20に送られる。このデジタルレコーダ20には、音声解析部5からの音声出力も送られる。デジタルレコーダ20への映像出力および音声出力の転送には、HDMIケーブル(あるいはD端子またはS端子ビデオケーブルとオーディオケーブル)を用いることができる。
【0014】
映像解析部4には、映像文字認識部4aと顔認証処理部4bが接続され、顔認証処理部4bには予め用意した特定人物(テレビショッピング番組のセールスキャスタなど)の顔の特徴点情報を含む顔一覧テーブル4cが接続されている。
【0015】
映像文字認識部4aは、ビデオフレーム中の画像から文字部分を抽出しその部分の文字がどんな文字種(数字、カンマ、ハイフン、ピリオド、通貨記号など)であるかを判定する。この文字検出・文字判定には公知技術を利用できる(例えば特開2007−274154号公報に開示されたテロップ抽出方法を参照)。公知の文字検出技術としては他に光学的文字読取装置(OCR)がある。OCRでは多種の漢字も識別するため複雑な処理を行うが、この発明の実施では少数種類の文字(数字、カンマ、ハイフン、ピリオド、アルファベット、通貨を示す“¥”や“円”などの記号・文字)を識別できればよいので処理を簡略化でき、処理時間も短くなる。
【0016】
顔認証処理部4bは、図示しないが、例えば次のように構成することができる。すなわち、映像解析部4から送られてくるビデオフレームにおいて、そのフレーム内の画像データの階調やコントラストを適宜変え、輪郭強調処理をするなどして、そこに写っている顔画像のエッジ(顔の輪郭、目、鼻、口の輪郭など)を浮き出させ、目、鼻、口などを含む顔のパターンを検出しやすくする。
【0017】
そして、顔画像を含む矩形領域の左上隅を原点とする2次元の座標値などで、顔画像を含む2次元領域FAを定める。この顔画像の2次元領域FAにおいて、顔検出テンプレート(予め用意された1以上の標準顔パターン)を移動させながら、領域FA上の顔パターンと予め用意された標準顔パターンとの相関を求める。こうして、2次元座標で表される特定位置(x,y)にある顔パターンの特徴点(目、鼻、口など)について標準パターンとの相関値をコード化する。その結果が、顔一覧テーブル4cに記載される。
【0018】
いま、予め用意されたサイズの異なる複数の標準顔パターンをgs(i,j)とし、この標準顔パターンgs(i,j)と2次元領域FAの画像f(x,y)内の局所領域(目、鼻、口などの領域)との相関をMs(x,y)とする。この場合、局所領域における相関Ms(x,y)は、例えば
Ms(x,y)=Σf(x+i,y+i)・gs(i,j)/{Σf(x+i,y+i)・Σgs(i,j)} …(1)
として求めることができる。ここで、サイズの異なる標準顔パターンgs(i,j)は、決められたサイズで予め収集した顔パターンを平均するなどして作成できる。
【0019】
上述した相関Msの求め方については、公知の方法を採用することができる。その一例として、特開2003−108935号公報開示された「証明用媒体発行装置および本人照合装置」を参考までに挙げておく(この公報の段落0043〜0057には、顔認証/照合処理で利用可能な具体例が示されている)。
【0020】
あるいは、顔の特徴量の計算方法として、例えば、公知文献(福井,山口.”形状抽出とパターン照合の組合せによる顔特徴点抽出”,信学論,(D),vol.J80−D−H,No.8,pp.2170−2177,1997)に記載されている方法を用いることも可能である。この文献の方法を用いる場合は、顔領域情報から、顔の特徴点を基準に一定の大きさの形状を切り出し、その濃淡情報を特徴量として用いる。
【0021】
以上のような顔の特徴データを、テレビショッピング番組でお馴染みのセールスキャスタの顔(放送チャネル毎に数人分)について予め収集しておき、それを顔一覧テーブル4cに格納しておく。そして、実際の映像入力に含まれる顔の特徴に合致するものを顔一覧テーブル4cに格納されたデータから探す。合致するものがみつかれば、実際の映像入力はテレビショッピング番組からのものであると判定(あるいは確認)できる。
【0022】
一方、音声解析部5には、音声レベル検出部5aと音声スペクトラム検出部5bが接続され、音声スペクトラム検出部5bには予め用意した特定人物(テレビショッピング番組のセールスキャスタなど)の声のスペクトラムパターンデータを含む音声スペクトラムデータテーブル5cが接続されている。音声スペクトラムデータテーブル5cには、格安商品価格を視聴者にアピールする際などに出すチャイム音(チャリチャリチャリーンとかジャジャーンといったアラーム音)のスペクトラムパターンデータ、テレビショッピング番組主催者のテーマ音楽のスペクトラムパターンデータなども格納される。
【0023】
音声レベル検出部5aは、あるビデオフレームの音声とその後のビデオフレームの音声との間で音声レベルが急変(出ていた音が急に無音化するなど)したら、その変化を検出する。この音声レベル変化の検出には公知技術を利用できる(例えば特開2006−324743号公報に開示された無音部検出方法を参照)。
【0024】
音声スペクトラム検出部5bは、図示しないが、例えば次のように構成することができる。すなわち、人の可聴周波数レンジ20Hz〜20kHz(簡易的には人の声の基本波成分とその高調波成分をほぼカバーする周波数レンジ100Hz〜4kHz程度)における音声入力の周波数レベル分布を、1/3オクターブバンド(簡易的には1/2オクターブバンドまたは1オクターブバンド)のバンドパスフィルタで抽出する。そして、所定時間内(例えば5〜10秒程度)で検出された各バンドにおける音声入力のピークレベルをメモリに記憶する。こうして記憶したデータは音声入力のソース(人の声、チャイム音、テーマ音楽など)によって異なる特徴的な周波数スペクトラムパターンを持つ。
【0025】
このような周波数スペクトラムパターンのデータを、テレビショッピング番組に特有の音源(特定セールスキャスタの声、テレビショッピング番組で使用されるアラーム音、テレビショッピング番組主催者のテーマ音楽など)について予め収集しておき、それを音声スペクトラムデータテーブル5cに格納しておく。そして、実際の音声入力に対して検出した周波数スペクトラムパターンの形に合致するものを音声スペクトラムデータテーブル5cに格納されたデータから探す。合致するものがみつかれば、実際の音声入力はテレビショッピング番組からのものであると判定(あるいは確認)できる。
【0026】
図2は、所定の特徴がある2つのビデオフレームに挟まれた区間の開始位置(開始時刻)VF1と終了位置(終了時刻)VF2を説明する図である。この図は、時系列順に並んだ、映像を構成するビデオフレーム群を示している。フレームVF1およびフレームVF2は、映像や音声に特徴のあるフレームであり、TはフレームVF1を開始フレームとしフレームVF2を終了フレームとする区間(テレビショッピング番組が含まれる区間)を示す。この図では2個のフレームのみが特徴のあるフレームとしているが、実際にはより多くのフレームに所定の特徴(シーンチェンジなど)がある場合が多く、複数のフレームをまとめてフレーム群として扱うことも可能である。
【0027】
フレームVF1およびフレームVF2における映像の特徴は、前のフレームと大きく映像の内容が変わるシーンチェンジでもよいし、フレーム全体が単一の色(全面黒など)から構成される単色フレームでもよい。音声の特徴は、フレームに含まれる音の強さが一定値以下となる無音フレーム(または最弱音フレーム)でもよい。映像と音声の特徴が同時に出現したフレームを特徴のあるフレームとしてもよいし、どちらか片方が出現しただけで特徴のあるフレームとしてもよい。
【0028】
特徴のあるフレーム間の時間間隔を図2では「T」で表している。Tが所定の長さ(1分、2分、もしくは3分)であるときに、特徴のあるフレーム(VF1、VF2)で挟まれた区間を対象に、テレビショッピング番組の検出を行う(その詳細は図4を参照して後述)。
【0029】
<テレビショッピング番組とCMの違いについて>
ここで検出しようとしている「テレビショッピング番組」は、テレビ視聴者にとってはCMと同じに扱いたいものであったとしても、その特徴は通常のCMとは大きく異なっている。すなわち、1単位のCMの長さは、通常は15秒または30秒で、長くても60秒程度だが、テレビショッピング番組は短くても1分、通常は2、3分の長さはある。具体的には、スポット方式と呼ばれ、ある番組放送中に1分〜3分程度の枠で商品を紹介する形式のテレビショッピング番組が、実際に放送されている。
【0030】
また、CMでは同じ内容のものが連続して繰り返し放映されることが多いが、テレビショッピング番組では同じ内容のものが連続して繰り返し放映されることは少ない。CMは反復放映しないと宣伝効果が上がらないが、個別商品毎のテレビショッピング番組は単発放映でもそれなりの効果はあるし、対象商品が売り切れてしまえばそのテレビショッピング番組の放映を繰り返す意味がないからである。
【0031】
さらに、CMは宣伝対象商品の製造販売業者がトータルでの販売促進売り上げ向上を目指して提供するものであり、個々の販売店がその商品を幾らでどのように販売するかをCM中で表示することは殆どない。一方、テレビショッピング番組は個々の商品を誰が幾らでどのように販売するかを視聴者に好条件で提示することにより即座の売り上げ獲得を目指して放送するものであり、その商品を幾らでどのようにして購入できるのかが重要となる。そのため、通常のCMには価格や購入申し込み先の情報がなくても、テレビショッピング番組では価格や購入申し込み先の情報(電話番号等)が必須となる。この点と、テレビショッピング番組の方がCMよりも放送時間が長くなる傾向が強いことから、CMとテレビショッピング番組を区別できるようになる。
【0032】
仮に価格表示や購入申込先表示のある60秒CMがあったとすると、上記の方法ではそのCMをテレビショッピング番組と誤認する可能性が出てくるが、種々なCM放送全体から見ればそのような誤認の生じる率(%)は低い。またその可能性は次の方法で効果的に低減できる。すなわち、テレビショッピング番組では、個性的な同じ販売員(セールスキャスタ:放送チャネルにより異なるが、さほど多くはいない)が種々な商品を紹介することが多い。このことから、その販売員の顔および/または声の情報を予め登録しておき、その販売員の顔および/または声を登録情報に基づいて識別することで、テレビショッピング番組であることを確認できる。
【0033】
なお、ある放送時間枠内で複数CMが連続して放映されるとその放送時間枠は数分になることがよくあるが、その場合でも、その時間枠内での個々のCMの長さは15秒または30秒もしくは60秒となっている。また、ある放送枠内に複数CMとテレビショッピング番組が混在して放映されることもある。その場合、その時間枠内での個々のCMの長さは60秒以下であるが、テレビショッピング番組の長さは1分以上となっている。
【0034】
図3は、テレビショッピング番組中に表れる映像の一例を説明する図である。この例では、表示部14の表示画面140に、対象商品(デジタルTV)の画像141の他に、その実売価格(定価ではなくそのテレビショッピング番組固有のディスカウント価格)の価格表示142および、購入連絡先を示す電話番号143やメールアドレス144が表示されている。これら(141〜144)は画面140上である程度以上(数秒以上)継続して表示されている。とくに、連絡先を示す電話番号143などは、テレビショッピング番組の開始から終了までの間ずっと表示され続けることも多い。この電話番号143(日本では0120から始まる無料通話番号であることが多い)がずっと表示され続けていて、かつ視聴者が認識できる程度の時間以上(少なくとも数秒以上)価格表示142が出ていれば、そのことだけでテレビショッピング番組であると判定しても、ほぼ間違いない。なお、上記の価格表示は、日本では通貨記号の“¥”で始まるか、通貨文字の“円”で終わる。
【0035】
電話番号と価格との区別は、次のようにして行うことができる。すなわち、検出した文字列が数字とハイフン(またはピリオド)記号から構成されていれば電話番号と解釈し(日本の場合、0120−で始まる数字とハイフンの文字列が検出された場合は特に、電話番号と解釈する:日本以外の、例えば欧州で実施する場合は、0000.111.222のように数字の間がピリオドで区切られた場合に電話番号と解釈する方法もある)、数字とコンマ、および通貨記号から構成されていれば(例えば¥100,000−、100,000円、あるいは10万円など)価格と解釈することができる。電話番号が表示される時間の長さをパラメータとして適切に定め、画面上に電話番号とみなせる文字列がそのパラメータの時間の長さ以上表示された場合、電話番号が表示されたと判断することができる。価格についても同様である。
【0036】
以下に説明する実施の形態では、まず、CMより長め(1分〜3分)の映像区間を検出し、その区間の映像から商品価格や購入連絡先の文字映像を検出し、検出した文字(価格や電話番号など)が数秒以上継続表示されていたら、その区間をテレビショッピング番組の映像区間と判定する。また、CMとの区別をより確実にするため、その区間の映像に出てくる番組出演者の顔や声あるいは効果音もしくはテーマ音楽を適宜検出するようにしている。その番組出演者あるいは効果音もしくはテーマ音楽がテレビショッピング番組でお馴染みのものであったなら、その区間がテレビショッピング番組であることを確認できる。
【0037】
図4は、この発明の一実施の形態に係る、テレビショッピング番組の検出方法を説明するフローチャートである。まず、所定の特徴(シーンチェンジ、単一色フレーム、音声レベル急変など)があるビデオフレーム(図2のVF1、VF2)に挟まれた区間の開始位置(開始時刻)と終了位置(終了時刻)を検出する(ST100)。そのようなフレームの検出ができなかったときは(ST102ノー)、テレビショッピング番組はなかったものとして、処理を終了する。
【0038】
所定の特徴があるビデオフレームを検出できたときは(ST102イエス)、検出された2つのフレーム区間の長さをチェックする。その区間長が所定長(例えば1分以上3分以内)でなければ(ST104ノー)その区間はテレビショッピング番組ではなくCMあるいは通常番組内の一部であるとして、特徴フレームの検出処理(ST100)に戻る。
【0039】
その区間長が所定長(1分〜3分)であれば(ST104イエス)その区間はテレビショッピング番組である可能性がある。その場合は、検出された所定兆区間の映像から、商品価格を示す文字映像やその商品を購入するための連絡先を示す文字映像(価格、電話番号など)を検出する(ST106)。そのような文字映像の検出ができなかったときは(ST108ノー)、テレビショッピング番組ではなかったものとして、特徴フレームの検出処理(ST100)に戻る。
【0040】
文字映像(価格、電話番号など)を検出できたときは(ST108イエス)、その文字映像が継続して表示される時間の長さを検出する(ST110)。その継続表示時間長が予め定めた文字表示時間(例えば3秒以上で3分以内)でなければ(ST112ノー)その区間はテレビショッピング番組ではないものとして、特徴フレームの検出処理(ST100)に戻る。(価格や連絡先電話番号の表示が一瞬出て直ぐに消えてしまうようだと視聴者は商品購入の申し込みができなくなる可能性が高く、それではテレビショッピング番組を放映する意味が殆どなくなる。)
文字映像が継続表示される時間長が予め定めた文字表示時間であることが検出された場合(ST112イエス)、検出された区間の開始位置(開始時刻)と終了位置(終了時刻)を、特定種別の映像(通常番組に挿入されたテレビショッピング番組の映像)の区間であると判定する(ST114前半)。および/または、この区間内において文字映像(価格、電話番号など)が反復して検出された場合に、検出された区間の開始位置(開始時刻)と終了位置(終了時刻)を前記特定種別の映像(テレビショッピング番組の映像)の区間であると判定する(ST114後半)。
【0041】
上記の判定でテレビショッピング番組の放送枠(その区間の開始位置から終了位置まで)を検知できたことになるが、放送される番組の中身によっては、100%確実にテレビショッピング番組を検出できたとは限らない。そこで、テレビショッピング番組であることの判定をより確実にするため、あるいはその判定が正しかったことを確認するために、次の処理を適宜行う。すなわち、番組出演者(セールスキャスタ)の顔認証、音声スペクトラム検出などから、テレビショッピング番組(特定種別の映像)であることを判定または確認する(ST116)。
【0042】
以上の処理(ST100〜ST118を含む処理ループ)は、ある放送チャネルの視聴中、あるいはある放送録画タイトルの録画または再生中に継続して行うことができる。ある放送チャネルの視聴が終り、あるいはある放送録画タイトルの録画または再生が完了すると、図4の処理は終了する(ST118イエス)。この処理が終了するまでに収集されたテレビショッピング番組の開始位置と終了位置の情報は、図1のワークRAM9a、EEPROM6、および/またはHDD13に格納しておくことができる。
【0043】
すなわち、ある放送録画タイトルからテレビショッピング番組検出がなされた場合は、検出されたテレビショッピング番組の開始位置と終了位置の情報は、録画タイトルの管理情報の一部としてHDD13等に記録することができる。例えば、放送録画がDVDビデオレコーディング規格(DVD−VR規格)に基づきなされたものである場合は、検出されたテレビショッピング番組の区間の冒頭(図2のVF1の再生時間開始に対応)と末尾(図2のVF2の再生時間開始に対応)にエントリポイントを打ち、その2つのエントリポイントで挟まれた区間をテレビショッピング番組のチャプタとすることができる。
【0044】
これらのエントリポイントは、DVD−VRで録画されたタイトルの管理情報(ビデオマネージャ)の一部(セルエントリポイント情報)となり、そのタイトルのオブジェクト情報(MPEGプログラムストリーム)とともに、HDD13や図示しない光ディスクに記録される。そのオブジェクト情報の再生時には、テレビショッピング番組のチャプタが何処にあるのかが管理情報から分かる。そのため、録画タイトルからテレビショッピング番組のチャプタをプレイリスト編集により抽出してテレビショッピング番組なしのタイトルを作成したり、テレビショッピング番組だけのタイトルを作成できる。
【0045】
以上のように放送録画時にテレビショッピング番組を検出しその番組の冒頭と末尾にエントリポイントを打っておけば、次のような操作が可能となる。すなわち、
・テレビショッピング番組が開始したことに視聴者(装置ユーザ)が気付いた際、ユーザの意思でテレビショッピング番組部分をスキップさせ、テレビショッピング番組が終わった時点から再生を開始できる。
【0046】
・録画タイトルの再生時にテレビショッピング番組の開始時点まで番組再生が進行すると、そのテレビショッピング番組の冒頭位置のエントリポイントと末尾位置のエントリポイントに基づいてその番組を自動スキップし、テレビショッピング番組が終わった時点から録画タイトルの続き再生を開始できる。あるいは、テレビショッピング番組の冒頭位置のエントリポイントと末尾位置のエントリポイントに基づいてその番組を自動で削除すること(録画タイトルからテレビショッピング番組の部分を自動削除し、以後再生しない)も可能である。
【0047】
図4の処理の要点を纏めると、次のようになる:
a.特徴のあるフレームで挟まれた区間に電話番号が表示されていると検出された場合、その区間をテレビショッピングと判定する。
b.特徴のあるフレームで挟まれた区間に価格が表示されていると検出された場合、その区間をテレビショッピングと判定する。
【0048】
c.価格が表示されるときは視聴者の注意を引くために、甲高い効果音(例えばチャリチャリチャリーンとかピンポーンといったチャイム音)が一緒に再生される場合がある。音声を解析して、高音成分の多い音が検出された場合(特に、価格と同時に再生されたことが検出された場合)に、特徴のあるフレームで挟まれた区間に価格が表示されているとみなし、その区間をテレビショッピング番組と判定する。
【0049】
d.テレビショッピング番組の主催業者のテーマ音が番組冒頭で再生される場合もある。解析した音の特徴が予め記憶していたテーマ音の特徴と一致した場合は、特徴のあるフレームで挟まれた区間をテレビショッピング番組と判定する。
【0050】
e.テレビショッピング番組では、宣伝効果の向上を狙うため、その番組内で、同一の内容を繰り返し放映することがある。同じ内容の台詞のみを繰り返す場合もあれば、同一の映像、音声を繰り返す場合もある。特徴のあるフレームで挟まれた区間内で、特定の音声、映像が繰り返し再生されていることが検出された場合は、その区間をテレビショッピング番組と判定する。
【0051】
f.テレビショッピング番組で商品を案内するキャスタの顔の特徴量を予め記憶しておき、解析対象の映像に出現した人の顔から計算した特徴量と照合させる。特徴のあるフレームで挟まれた区間内で検出した顔の特徴量と当該キャスタの顔の特徴量が一致した場合は、その区間をテレビショッピング番組と判定する。
【0052】
図5は、検出されたテレビショッピング番組の利用例を説明する図である。この例では、検出された区間の特定種別映像(テレビショッピング番組)を除く番組本編のプレイリスト作成し(ST120)、番組本編のプレイリストの番組内容を再生し、コピーし、移動し、または削除する(ST122)。この処理を利用すれば、EPGなどでは事前に存在を予測できないテレビショッピング番組を抜き取った番組本編タイトルを作成できる。あるいは、番組本編だけを除いたタイトルを作成することもできる。
【0053】
図6は、検出されたテレビショッピング番組の他の利用例を説明する図である。この例では、検出された区間の特定種別映像(テレビショッピング番組)だけを抽出したプレイリスト作成し(ST130)、特定種別映像のプレイリストの番組内容を再生し、コピーし、移動し、または削除する(ST132)。この処理を利用すれば、テレビショッピング番組だけを多数の録画タイトルから抽出し収集して1つのテレビショッピング番組タイトルとし、後でそのタイトルを纏めて再生することができる。あるいは、テレビショッピング番組抜きの番組本編タイトルを作成することもできる。
【0054】
<実施の形態のまとめ>
1.映像を構成するフレームのうち、映像および/または音声に所定の特徴がある2個のフレームに挟まれた区間について、
その区間の長さが予め定義した条件(例えばシーンチェンジおよび/または音声途切れのあったフレームとフレームの間の長さが1分ないし3分であること)を満たし、
さらに特定の文字列が予め定めた時間以上継続して映像上に表示されている場合に、
その区間を特定種別(テレビショッピング)の映像であると判定する。
【0055】
2.映像の所定の特徴としては、先行フレームと現フレームとの間で映像内容が大きく変わるシーンチェンジがある。
3.映像の所定の特徴としては、フレーム全体が単一の色で構成されること(全面黒など)がある。
4.音声の所定の特徴としては、フレームに含まれる音声のレベルが予め定めた閾値よりも小さいことがある。
5.特定の文字列としては、数字とハイフン(またはピリオド)の並びで構成される電話番号がある。
6.特定の文字列としては、数字とコンマの並びで構成される価格がある。
7.特定種別の映像としてはテレビショッピング番組の映像がある。
【0056】
8.映像を構成するフレームのうち、映像および/または音声に所定の特徴がある2個のフレームに挟まれた区間について、
その区間の長さが予め定義した条件(例えばシーンチェンジおよび/または音声途切れのあったフレームとフレームの間の長さが1分ないし3分であること)を満たし、
さらに特定の特徴を持つ音声が含まれる場合に、
その区間を特定種別(テレビショッピング)の映像であると判定する。
【0057】
9.映像の所定の特徴としては、シーンチェンジがある。
10.映像の所定の特徴としては、フレーム全体が単一色で構成されることがある。
11.音声の所定の特徴としては、フレームに含まれる音声のレベルが予め定めた閾値よりも小さいことがある。
12.特定の特徴を持つ音声としては、高音成分を多く含む効果音がある。
13.特定の特徴を持つ音声としては、テレビショッピング主催業者のテーマ音(音楽)がある。
14.特定種別の映像としてはテレビショッピング番組の映像がある。
【0058】
15.映像を構成するフレームのうち、映像および/または音声に所定の特徴がある2個のフレームに挟まれた区間について、
その区間の長さが予め定義した条件(例えばシーンチェンジおよび/または音声途切れのあったフレームとフレームの間の長さが1分ないし3分であること)を満たし、
さらに特定の映像および/または音声が繰り返し登場する場合に、
その区間を特定種別(テレビショッピング)の映像であると判定する。
【0059】
16.映像の所定の特徴としては、シーンチェンジがある。
17.映像の所定の特徴としては、フレーム全体が単一色で構成されることがある。
18.音声の所定の特徴としては、フレームに含まれる音声のレベルが予め定めた閾値よりも小さいことがある。
19.特定種別の映像としてはテレビショッピング番組の映像がある。
【0060】
20.映像を構成するフレームのうち、映像および/または音声に所定の特徴がある2個のフレームに挟まれた区間について、
その区間の長さが予め定義した条件(例えばシーンチェンジおよび/または音声途切れのあったフレームとフレームの間の長さが1分ないし3分であること)を満たし、
さらに映像から抽出した顔の特徴量が予め定義した顔一覧に含まれる場合に、
その区間を特定種別(テレビショッピング)の映像であると判定する。
【0061】
21.映像の所定の特徴としては、シーンチェンジがある。
22.映像の所定の特徴としては、フレーム全体が単一色で構成されることがある。
23.音声の所定の特徴としては、フレームに含まれる音声のレベルが予め定めた閾値よりも小さいことがある。
24.特定種別の映像としてはテレビショッピング番組の映像がある。
【0062】
<実施の形態の効果>
従来は検出できなかったテレビショッピング番組の開始位置(開始時刻)と終了位置(終了時刻)を検出できる。
【0063】
従来のCM検出技術でテレビショッピングを検出しようとすると、番組本編をテレビショッピング番組と誤検出する可能性が高まる。しかし、テレビショッピング番組のみが持つ特徴(数分の番組枠内で価格や電話番号等の文字映像が継続して表示されること、個性的なセールスキャスタが出演すること、あるいは特有のチャイム音や特有のテーマ音楽が使われること)を検出することで、番組本編をテレビショッピング番組と誤検出する可能性を低減できる。
【0064】
放送番組本編の前後中間の何処かに挿入されたテレビショッピング番組を、コマーシャル(CM)とは区別して検出できる。そのため、例えばある番組を予約録画したらその録画番組中に意図しないCMやテレビショッピング番組が含まれていた場合に、テレビショッピング番組を除いた映像を取り出すことができる(CMについては、例えば図4のST100においてシーンチェンジと一瞬の音切れがあるフレーム区間を検出し、検出された区間のうち長さが15秒、30秒、または60秒の区間を検出し、そのうちST106の文字映像が見つからなかった区間を検出すれば、テレビショッピング番組とは別に、高い確率で、CMを検出できる。こうして検出したCMはテレビショッピング番組とともに取り除くことができる)。逆に、番組本編やCMを除いたテレビショッピング番組だけを取り出すこともできる。
【0065】
テレビショッピング番組に固有の情報(所定時間継続する商品価格文字、連絡先文字、商品販売員の顔や声、テレビショッピング主催業者のテーマ音、商品をアピールする際の特定チャイム音など)を検出に利用できるので、従来のCM検出方法では不可能だったテレビショッピング番組の高精度な検出が可能となる。
【0066】
なお、始めからテレビショッピングが目的の長時間番組枠で放送される番組(例えば30分程の長さがあるショップチャネル番組等)については、この発明を用いなくても電子番組表(EPG)等の情報からテレビショッピング番組であることを検出できる。しかし、テレビショッピングを目的とする番組ではない通常番組(ドラマやアニメ等)中にCMよりは長めの分区切りで予告なく挿入されるテレビショッピング番組については、EPGから検出することはできない。この発明を実施すれば、そのようなテレビショッピング番組を、CMとは区別して、高い確率で検出できる。
【0067】
<実施の形態と発明との対応例>
1.この発明の一実施の形態に係る映像装置は、区間検出手段と、区間長検出手段と、文字映像検出手段と、文字映像表示時間検出手段と、特定種別映像判定手段を具備している。
【0068】
前記区間検出手段(MPU9;ST100)は、映像および/または音声に所定の特徴(シーンチェンジ、音声レベルなど)がある2つのビデオフレーム(VF1とVF2)に挟まれた区間(テレビショッピング番組か、それ以外)の開始位置(開始時刻)と終了位置(終了時刻)を検出する。
【0069】
前記区間長検出手段(MPU9;ST104)は、前記開始位置(開始時刻)と前記終了位置(終了時刻)が検出された前記区間(テレビショッピング番組か、それ以外)の長さが所定長(例えば1分、2分、または3分)であるか否かを検出する(長さが例えば1分未満ならテレビショッピングでなくCMとみなし、長さが例えば3分以上ならテレビショッピングでなく通常番組の一部とみなす)。
【0070】
前記文字映像検出手段(MPU9、4a;ST106)は、前記区間の長さが前記所定長(1〜3分)であることが検出された場合(テレビショッピングの可能性が高い番組が検出された場合)に、この区間の映像から、商品(例えばデジタルTV)の価格を示す文字映像(例えば¥100,000−)および/またはその商品を購入するための連絡先を示す文字映像(電話番号、FAX番号、メールアドレスなど)を検出する。
【0071】
前記文字映像表示時間検出手段(MPU9;ST110)は、前記文字映像(価格、電話番号など)が継続して表示される時間の長さを検出する。
【0072】
前記特定種別映像判定手段(MPU9;ST114)は、前記文字映像が継続表示される時間長が予め定めた文字表示時間(例えば3秒〜5秒以上で前記区間の長さ以内)であることが検出された場合(数分の番組区間内で価格や電話番号が数秒以上継続して表示されていたらテレビショッピング番組に違いないとみなす)に、前記区間検出手段で検出された前記開始位置(開始時刻)と前記終了位置(終了時刻)を、特定種別の映像(通常番組に挿入されたテレビショッピング番組の映像)の区間であると判定する。
【0073】
2.前記文字映像は、通貨記号(¥など)と数字とコンマを含み商品(デジタルTVなど)の価格を示す映像(例えば¥100,000−、100,000円、あるいは10万円)および/または、数字とハイフンあるいは数字とピリオドもしくはアルファベットと適宜特殊記号(@など)を含み商品(デジタルTVなど)を購入するための連絡先を示す映像(電話番号、FAX番号、メールアドレスなど)を含む。このような価格映像や連絡先映像は通常のCMには存在せず、テレビショッピング番組に特徴的な情報となる。
【0074】
なお、この発明は前述した実施の形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は可能な限り適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適当な組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、発明が解決しようとする課題の欄で述べた課題が解決でき、発明の効果の欄で述べられている効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
【符号の説明】
【0075】
10…デジタル放送チューナ、2…MPEG2−TSデコーダ、3…AVデコーダ、4映像解析部、4a…映像文字認識部、4b…顔認証処理部、4c…顔一覧テーブル、5…音声解析部、5a…音声レベル検出部、5b…音声スペクトラム検出部、5c…音声スペクトラムデータテーブル、6…EEPROM(ファームウエア/パラメータメモリ)、7AVエンコーダ、8…メインバス、9…MPU(マイクロコンピュータ)、9a…ワークRAM、10…LAN(ローカルエリアネットワーク)端子、11…リモコンI/F、11a…リモコン、12…ハードディスクI/F、13…HDD(録画または情報記録用ハードディスク)、14…表示部、20…デジタルレコーダ(またはAVパソコン)。

【特許請求の範囲】
【請求項1】
映像および/または音声に所定の特徴がある2つのビデオフレームに挟まれた区間の開始位置と終了位置を検出する区間検出手段と、
前記開始位置と前記終了位置が検出された前記区間の長さが所定長であるか否かを検出する区間長検出手段と、
前記区間の長さが前記所定長であることが検出された場合に、この区間の映像から、商品の価格を示す文字映像および/またはその商品を購入するための連絡先を示す文字映像を検出する文字映像検出手段と、
前記文字映像が継続して表示される時間の長さを検出する文字映像表示時間検出手段と、
前記文字映像が継続表示される時間長が予め定めた文字表示時間であることが検出された場合に、前記区間検出手段で検出された前記開始位置と前記終了位置を、特定種別の映像の区間であると判定する特定種別映像判定手段を具備した映像装置。
【請求項2】
前記文字映像が、通貨記号と数字を含み商品の価格を示す映像および/または、数字とハイフンあるいは数字とピリオドもしくはアルファベットを含み商品を購入するための連絡先を示す映像を含む請求項1に記載の映像装置。
【請求項3】
前記区間内において前記文字映像検出手段により前記文字映像が反復して検出された場合に、前記特定種別映像判定手段が、前記区間検出手段で検出された前記開始位置と前記終了位置を、前記特定種別の映像の区間であると判定する請求項1に記載の映像装置。
【請求項4】
特定人物の顔を検出する顔認証手段をさらに具備し、
前記区間の映像から前記特定人物の顔が検出されたらその区間を前記特定種別の映像の区間であると判定または確認するように、前記特定種別映像判定手段が構成される請求項1に記載の映像装置。
【請求項5】
前記映像に対する前記所定の特徴が、連続する前記ビデオフレーム間で映像内容が不連続に変化することである請求項1に記載の映像装置。
【請求項6】
前記映像に対する前記所定の特徴が、前記ビデオフレーム全体が単一色である請求項1に記載の映像装置。
【請求項7】
前記音声に対する前記所定の特徴が、前記ビデオフレームに対応する音声のレベルが所定のレベルより小さいことである請求項1に記載の映像装置。
【請求項8】
可聴周波数範囲内の音のスペクトラムを検出するスペクトラム検出手段をさらに具備し、
前記ビデオフレームに対応する音声から所定のスペクトラムパターンが検出されたらその区間を前記特定種別の映像の区間であると判定または確認するように、前記特定種別映像判定手段が構成される請求項1に記載の映像装置。
【請求項9】
映像および/または音声に所定の特徴がある2つのビデオフレームに挟まれた区間の開始位置と終了位置を検出し、
前記開始位置と前記終了位置が検出された前記区間の長さが所定長であるか否かを検出し、
前記区間の長さが前記所定長であることが検出された場合に、この区間の映像から、商品の価格を示す文字映像および/またはその商品を購入するための連絡先を示す文字映像を検出し、
前記文字映像が継続して表示される時間の長さを検出し、
前記文字映像が継続表示される時間長が予め定めた文字表示時間であることが検出された場合に、検出された前記開始位置と前記終了位置を、特定種別の映像の区間であると判定する特定種別映像検出方法。
【請求項10】
前記区間内において前記文字映像が反復して検出された場合に、検出された前記開始位置と前記終了位置を前記特定種別の映像の区間であると判定する請求項9に記載の特定種別映像検出方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2010−278872(P2010−278872A)
【公開日】平成22年12月9日(2010.12.9)
【国際特許分類】
【出願番号】特願2009−130592(P2009−130592)
【出願日】平成21年5月29日(2009.5.29)
【特許番号】特許第4459292号(P4459292)
【特許公報発行日】平成22年4月28日(2010.4.28)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】