説明

シーン認識装置及び映像処理装置

【課題】確実なシーン認識を可能にすると共に、視聴者が不快なシーンを視聴することを防止する。
【解決手段】 音声認識処理を行う音声認識部16と、動画認識処理を行う動画認識部17と、音声認識部の認識結果による音声と登録シーンデータベース中の音声とを比較して、入力コンテンツのシーン中の音声が登録シーンとして指定されたシーンに含まれる音声に一致する度合いの数値を求める音声判定処理部18と、動画認識部の認識結果による映像部品と登録シーンデータベース中の映像部品とを比較して、入力コンテンツのシーン中の映像部品が登録シーンとして指定されたシーンに含まれる映像部品に一致する度合いの数値を求める映像判定処理部19と、音声判定処理部及び映像判定処理部により得られた数値に基づいて入力コンテンツのシーンが登録シーンであるか否かを判定する登録シーン判定部20と、を具備したことを特徴とする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、登録シーンを検出して映像処理するためのシーン認識装置及び映像処理装置に関する。
【背景技術】
【0002】
従来、テレビジョン受信機においては、受信した放送信号を順次信号処理し、音声信号及び映像信号をディスプレイ装置等に与えて視聴を行う。この視聴の途中で、コンテンツ中に視聴者が好まない映像シーンが映出されることがある。例えば、一般的には視聴者が不快には感じないであろう喫煙シーン等であっても、視聴者が禁煙中の場合等においては、喫煙シーンを視聴することによって視聴者がストレスを感じることもある。
【0003】
このように、一般的には視聴者が不快には感じないであろう映像シーンであっても、特定の視聴者には不快と感じられる映像シーンがテレビジョン放送されることがある。テレビジョン受信機は、このような突然表示される不快な映像シーンの表示を自動的に回避することはできず、視聴者にストレスを与えることがあった。
【0004】
視聴者が視聴を避けたい映像シーンを回避するためには、チャンネル切り替えや電源オフ等の操作を行う必要があり、視聴者にはその番組を続けて視聴することができなくなるというストレスが発生する。
【0005】
なお、特許文献1,2においては、シーンを認識する技術が開示されている。これらの文献においては、映像中に含まれる部品及びその組み合わせによって、シーンを判定している。例えば、映像中に、ドア、ホワイトボード、棒、スライド映写機等が存在すれば、オフィスシーンと判定するのである。
【0006】
しかしながら、単に映像部品が存在することのみによってシーンを判定しており、シーンによっては認識精度は必ずしも高くない。
【特許文献1】特開2000−293685号公報
【特許文献2】特開2000−293694号公報
【特許文献3】特開2000−66698号公報
【特許文献4】特開2005−135432号公報
【発明の開示】
【発明が解決しようとする課題】
【0007】
本発明は、映像部品の存在だけでなく、映像部品同士の位置関係及び映像に付加される音情報を用いてシーンを判定することで、高精度のシーン判定を可能にすることができるシーン認識装置及び映像処理装置を提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明の一態様のシーン認識装置は、入力コンテンツに含まれる映像信号に対する動画認識処理を行う動画認識部と、前記動画認識部の認識結果による映像部品と登録シーンデータベース中の映像部品とを比較して、前記入力コンテンツのシーン中の映像部品が登録シーンとして指定されたシーンに含まれる映像部品に一致する度合いの数値を求める第1の映像判定処理部と、前記動画認識部の認識結果によって得られる映像部品同士の画面上の位置と前記登録シーンデータベース中の映像部品同士の位置関係の情報とを比較して、前記入力コンテンツのシーン中の映像部品が登録シーンとして指定されたシーンに含まれる映像部品に一致する度合いの数値を求める第2の映像判定処理部と、前記第1及び第2の映像判定処理部により得られた数値に基づいて前記入力コンテンツのシーンが登録シーンであるか否かを判定する登録シーン判定部と、を具備したことを特徴とする。
【0009】
また、本発明の他の態様のシーン認識装置は、入力コンテンツに含まれる音声信号に対する音声認識処理を行う音声認識部と、前記入力コンテンツに含まれる映像信号に対する動画認識処理を行う動画認識部と、前記音声認識部の認識結果による音声と登録シーンデータベース中の音声とを比較して、前記入力コンテンツのシーン中の音声が登録シーンとして指定されたシーンに含まれる音声に一致する度合いの数値を求める音声判定処理部と、前記動画認識部の認識結果による映像部品と登録シーンデータベース中の映像部品とを比較して、前記入力コンテンツのシーン中の映像部品が登録シーンとして指定されたシーンに含まれる映像部品に一致する度合いの数値を求める映像判定処理部と、前記音声判定処理部及び映像判定処理部により得られた数値に基づいて前記入力コンテンツのシーンが登録シーンであるか否かを判定する登録シーン判定部と、を具備したことを特徴とする。
【0010】
また、本発明の一態様に係る映像処理装置は、上記シーン認識装置と、前記登録シーンデータベースに、前記登録シーンとして除去すべきシーンに関する情報が記憶され、前記登録シーン判定部によって登録シーンであると判定されたシーンの出力を制御する出力制御手段と、を具備したことを特徴とする。
【発明の効果】
【0011】
本発明によれば、映像部品の存在だけでなく、映像部品同士の位置関係及び映像に付加される音情報を用いてシーンを判定することで、高精度のシーン判定を可能にすることができるという効果を有する。
【発明を実施するための最良の形態】
【0012】
以下、図面を参照して本発明の実施の形態について詳細に説明する。
【0013】
(第1の実施の形態)
図1は本発明の第1の実施の形態に係るシーン認識装置を含む映像処理装置を示すブロック図である。
【0014】
図1において、チューナ11には図示しないアンテナに誘起したテレビジョン高周波信号が入力される。チューナ11は所定のチャンネルのコンテンツを選局してデマルチプレクサ(DMUX)12に出力する。DMUX12は、チューナ11の出力に含まれるオーディオデータとビデオデータとを分離して夫々オーディオデコーダ13又はビデオデコーダ14に出力する。
【0015】
オーディオデコーダ13は、入力されたオーディオデータをデコードして、音声信号を得る。また、ビデオデコーダ14は、入力されたビデオデータをデコードして、映像信号を得る。オーディオデコーダ13及びビデオデコーダ14からの音声信号及び映像信号はAV除去部15に与えられる。
【0016】
AV除去部15は、ユーザの操作に基づいて、視聴者が不快と感じるシーンを検出し、当該シーンが視聴されないように、信号処理を行う。このような除去シーンを自動的に検出するために、AV除去部15は、音声認識部16、動画認識部17、音声判定処理部18、映像判定処理部19及び除去シーン判定部20によって構成されるシーン認識装置を備える。AV除去部15の各部は、制御部26によって制御されるようになっている(図示省略)。
【0017】
音声認識部16にはオーディオデコーダ13から音声信号が入力される。音声認識部16は入力された音声信号に対して音声認識処理を行う。音声認識部16の音声認識処理は言語の認識だけでなく、言語以外の音の認識も行うものであり、入力音声信号の音素を認識して文字列に変換する。音声認識部16は、認識結果である音素列及び文字列等を音声判定処理部18に出力する。なお、音認識部16としては、特許文献3に記載の「音認識装置」のように、複数の音を認識可能な装置を用いる。
【0018】
音声判定処理部18は、音声認識部16の認識結果により得られた音(言語を含む)が、除去シーンデータベース22に登録されている音(言語)であるか否かを判定するためのものである。除去シーンデータベース22には、ユーザが不快と感じるシーンを判定するための音の情報が登録されている。
【0019】
図2は映像シーンを特定するための音に関する判定条件の一例を示す図表である。図2の判定条件に対応する音の情報は、除去シーンデータベース22に登録されている。図2の例は「着火シーン」、「喫煙中シーン」及び「消化シーン」の判定条件を示している。
【0020】
図2の例では、これらの「着火シーン」、「喫煙中シーン」及び「消化シーン」の3つのシーンの判定に、「マッチをする音」、「煙を吐く音」、「タバコを吹かす音」、「タバコの消化音」及び「『タバコ』の声」の5つの音が用いられることを示している。なお、「マッチをする音」、「煙を吐く音」、「タバコを吹かす音」及び「タバコの消化音」については、除去シーンデータベース22内においては例えば音素列によって音情報が蓄積されており、「『タバコ』の声」については、除去シーンデータベース22内においては例えば「タバコ」という文字列によって音情報が蓄積されている。なお、音声判定処理部18において音の判定が可能であれば、除去シーンデータベース22にはどのような形式で音情報を蓄積してもよい。
【0021】
図2の例は、○印によってシーンの判定に用いる音を示し、×印によってシーンの判定に用いない音を示している。例えば、音声判定処理部18は、「着火シーン」の判定には、「マッチをする音」、「タバコを吹かす音」及び「『タバコ』の声」を用いる。
【0022】
音声判定処理部18は、音声認識部16からの認識結果に、除去シーンデータベース22に登録された音が含まれるか否かによって各シーンを認識する。例えば、音声判定処理部18は、「着火シーン」の判定には、音声認識部16からの認識結果に、所定の時間範囲内において、「マッチをする音」、「タバコを吹かす音」及び「『タバコ』の声」が含まれる場合には、「着火シーン」であるものと判定して判定結果を出力する。
【0023】
音声認識部16の認識結果及び除去シーンデータベース22に蓄積されている情報が音素列の場合等には、一致,不一致の判定が困難である。そこで、音声判定処理部18は、除去シーンデータベース22に登録された音の情報と、音声認識部16からの認識結果とを比較して、一致の確からしさを示す数値を各音毎に判定結果として出力する。
【0024】
音声判定処理部18からの判定結果は、除去シーン判定部20に与えられる。除去シーン判定部20は、音声判定処理部18からの判定結果の数値に基づいて、入力映像信号に基づく映像のシーンを判定することができる。
【0025】
一方、動画認識部17にはビデオデコーダ14から映像信号が入力される。動画認識部17は入力された映像信号に対して動画認識処理を行う。動画認識処理部17は、一般的な画像認識処理によって動画を認識する。例えば、動画認識処理部17は、ノイズ除去等の前処理、特徴ベクトル作成を行う特徴抽出処理及び統計的手法を用いた識別処理による画像認識処理を実施し、映像部品の認識結果を得る。なお、除去対象の映像部品となる画像の切り出しや動きに対する追随の仕方に関しては、例えば、特許文献4の装置を用いることができる。
【0026】
更に、本実施の形態においては、動画認識処理部17は、各映像部品の画面上の位置情報も得る。動画認識処理部17は、映像部品の認識結果及び認識した映像部品の位置情報を映像判定処理部19に出力する。
【0027】
映像判定処理部19は、動画認識部17の認識結果により得られた映像が、除去シーンデータベース22に登録されている映像であるか否かを判定するためのものである。除去シーンデータベース22には、ユーザが不快と感じるシーンを判定するための映像の情報が登録されている。
【0028】
図3は映像シーンを特定するための映像に関する判定条件の一例を示す図表である。図3の判定条件に対応する映像の情報は、除去シーンデータベース22に登録されている。図3の例は「着火シーン」、「喫煙中シーン」及び「消化シーン」の判定条件を示している。
【0029】
図3の例では、これらの「着火シーン」、「喫煙中シーン」及び「消化シーン」の3つのシーンの判定に、「タバコ」、「煙」、「灰皿」、「手(指)」、「顔(口)」、「マッチ」及び「火」の7つの映像部品が用いられることを示している。図3の例は、○印によってシーンの判定に用いる映像部品を示し、×印によってシーンの判定に用いない映像部品を示している。例えば、映像判定処理部19は、「着火シーン」の判定には、「タバコ」、「手(指)」、「顔(口)」、「マッチ」及び「火」の5つの映像部品を用いる。
【0030】
映像判定処理部19は、動画認識部17からの認識結果に、除去シーンデータベース22に登録された映像部品が含まれるか否かによって各シーンを認識する。例えば、映像判定処理部19は、動画認識部17からの認識結果に、「タバコ」、「手(指)」、「顔(口)」、「マッチ」及び「火」が含まれる場合には、「着火シーン」であるものと判定するのである。
【0031】
なお、個々の映像部品については、動画認識部17の認識結果及び除去シーンデータベース22に蓄積されている情報の一致,不一致の判定が困難であることを考慮して、映像判定処理部19は、除去シーンデータベース22に登録された映像の情報と、動画認識部17からの認識結果とを比較して、一致の確からしさを示す数値を各映像部品毎に判定結果として出力する。
【0032】
更に、本実施の形態においては、映像判定処理部19は、各映像部品同士の位置関係によって、映像シーンを判定するようになっている。映像判定処理部19には動画認識部17から映像部品の位置情報が与えれており、この位置情報を用いることで、各映像部品同士の位置関係を認識する。
【0033】
除去シーンデータベース22には、各シーンを判定するための映像部品同士の位置関係の情報が登録されている。図3においては、各映像部品の情報を示す欄同士を結ぶ線分によって、映像部品同士が接触又は近接していることを示している。例えば、図3の例では、「着火のシーン」においては、「タバコ」の映像部品に対して「手(指)」の映像部品、「顔(口)」の映像部品及び「火」の映像部品が接し、「手(指)」の映像部品と「顔(口)」の映像部品とが接し、「マッチ」の映像部品と「火」の映像部品とが接していることをシーン判定の条件とすることを示している。
【0034】
映像判定処理部19は、動画認識部17からの映像部品の位置情報に基づいて、除去シーンデータベース22に登録された映像部品同士の位置関係の情報(位置関係情報)を満足する度合いを示す数値を求める。映像判定処理部19は、除去シーンデータベース22に登録されている映像部品が存在する確からしさの数値及び各映像部品同士の位置関係の検出結果に基づく数値を判定結果として除去シーン判定部20に出力する。
【0035】
除去シーン判定部20は、映像判定処理部19からの判定結果の数値に基づいて、入力映像信号に基づく映像のシーンを判定することができる。また、映像判定処理部19は、音声判定処理部18及び映像判定処理部19からの数値の総和によって、各映像シーンを判定してもよい。また、映像判定処理部19は、音声判定処理部18からの各音の数値に適宜の重み付けを付し、また映像判定処理部19からの各映像部品の数値に適宜の重み付けを付して、各映像シーンを判定してもよい。
【0036】
映像判定処理部19は、音声判定処理部18及び映像判定処理部19からの数値に基づいて、入力映像信号に基づく映像が除去すべき映像シーンであるか否かを判定し、判定結果を音声出力制御部24及び変換画像作成部21に出力する。
【0037】
なお、図2に示す音声判定処理部18及び除去シーン判定部20の判定条件並びに図3に示す映像判定処理部19及び除去シーン判定部20の判定条件は、後述するメモリ27に格納されており、制御部26はメモリ27から判定条件を読み出して音声判定処理部18、映像判定処理部19及び除去シーン判定部20に設定するようになっている。
【0038】
変換画像作成部21は、除去シーン判定部20から除去シーンであることを示す判定結果が与えられた場合には、置換画像データベース23からの画像データを読み出して、除去シーンに代えて用いる変換画像を生成して合成回路25に出力する。置換画像データベース23には除去シーンに代えて用いる置換画像の画像データが保持されている。置換画像データベース23は、除去シーンの一部の画像又は1フレーム分の画像を格納しており、変換画像作成部21は、変換すべき画像のサイズに応じたスケーリング処理又は画像の配置処理によって置換画像データベース23に保持された置換画像から変換画像を生成する。なお、変換画像作成部21は、後述する「ぼかし」の場合には、除去シーンに含まれる対象となった絵柄部分をぼかして表示させるための画像処理を行う。
【0039】
合成回路25は、ビデオデコーダ14からの映像と変換画像作成部21からの変換画像とを合成して、映像出力として出力する。この映像出力は図示しないディスプレイ装置に供給される。
【0040】
音声出力制御部24には、オーディオデコーダ13からの音声信号も与えられる。音声出力制御部24は、除去シーン判定部20から除去シーンであることを示す判定結果が与えられると、除去シーンに付随した音声を消音制御することが可能である。音声出力制御部24は、ユーザ操作に基づいて除去シーンの音声信号を消音することが示された場合には、この除去シーンの音声を消音して出力する。音声出力制御部24からの音声出力は図示しないスピーカに出力される。
【0041】
ところで、音声判定処理部18、映像判定処理部19及び除去シーン判定部20の判定処理においては、判定のための条件をユーザ操作に基づいて可変であることが望ましい。そこで、本実施の形態においては、制御部26はユーザ操作に基づく操作信号が与えられるようになっている。制御部26は、操作信号に基づいて、判定のための各種設定をメモリ27に記憶させると共に、メモリ27に記憶させる各種設定を音声判定処理部18、映像判定処理部19及び除去シーン判定部20に与えるようになっている。こうして、音声判定処理部18、映像判定処理部19及び除去シーン判定部20は、制御部26によって判定のための条件が指示される。
【0042】
また、ユーザが判定条件を設定可能なように、AV除去部15には、メニュー画面を表示させるためのメニュー作成部28が設けられている。メニュー作成部28は、制御部26に制御されて、メニュー表示出力を出力する。このメニュー表示出力に基づくメニュー表示は、合成回路25からの映像出力に代えて表示画面上に映出させてもよく、他のディスプレイ画面上に表示させてもよい。
【0043】
次に、このように構成された実施の形態の動作について図4乃至図12を参照して説明する。図4はAV除去部15の処理を示すフローチャートである。図5乃至図8はメニュー画面の表示例を示す説明図である。また、図9乃至図12は画面表示を説明するための説明図である。
【0044】
先ず、ユーザによる除去シーンに関する設定について説明する。ユーザは図示しない操作装置を用いて制御部26に除去シーンの設定を指示する。制御部26はメモリ27から現在の設定を読み出してメニュー作成部28に与える。これにより、メニュー作成部28は、除去シーンの設定のためのメニュー表示の表示データを作成してメニュー表示出力として図示しないディスプレイ装置に出力する。
【0045】
図5はこの場合のメニュー表示の一例を示しており、ユーザによる設定が行われていない初期状態の画面を示している。図5の例では、除去シーンとして、「喫煙シーン」、「食事シーン」、「露出シーン」、「キスシーン」、「刃物シーン」、「戦闘シーン」が設定可能である。これらのシーンの表示に隣接するチェックボックスC1を図示しない操作部によって指定することにより、これらのシーンを表示させないことが可能となる。例えば、図6では「喫煙シーン」のみを表示させないことを示しており、図7では「喫煙シーン」、「刃物シーン」及び「戦闘シーン」を表示させないことを示している。
【0046】
ユーザはプルダウンメニューM1を操作することで、除去シーンの除去方法を指定することができる。例えば、除去方法としては、ぼかし、絵柄置換及びフレーム置換を指定可能である。フレーム置換は、除去シーンを含む画面(フレーム)全体を他の画像に変換して表示させるものであり、絵柄置換は、除去シーンに含まれる対象となった絵柄部分のみを他の画像に変換して表示させるものである。また、ぼかしは、除去シーンに含まれる対象となった絵柄部分をぼかして表示させるものである。図5乃至図8においては選択操作を斜線にて示しており、例えば、図5では「喫煙シーン」の除去方法について、プルダウンメニューM1を操作して、フレーム置換を選択する例を示している。
【0047】
また、ユーザはメニューM2を操作することで、除去範囲を指定することができる。例えば、最小の除去範囲は、除去シーンに含まれる対象となった絵柄部分のみを除去する範囲である。除去範囲は、例えば絵柄置換に用いる画像をスケーリングすることで変化させることができる。例えば、除去方法として絵柄置換が選択されている場合には、除去範囲のメニューM2に対する操作によって、除去シーンに含まれる対象となった絵柄部分よりも広範囲に置換する画像を表示させることができる。なお、フレーム置換が選択された場合には、メニューM2の操作は無効となる。図6は斜線部によってメニューM2に対する操作が行われていることを示している。メニューM2内のバー(塗り潰し部)MBをユーザ操作によって移動させることで、除去範囲を変化させることができる。
【0048】
プルダウンメニューM3は、フレーム置換時に選択するフレーム画像を指定するためのものである。図5の例では、フレーム置換に用いる画像として、「楽譜映像」、「田園風景」及び「川のせせらぎ」を選択可能であり、図5では「楽譜映像」の選択操作が行われていることを示しており、図6では「喫煙シーン」のフレーム置換用の画像として楽譜映像が選択されることを示している。
【0049】
ユーザは入力ボックスB1に数値を設定することで検出レベルを指定することができる。入力ボックスB1に入力する検出レベルの数値は、除去シーンの判定されやすさを規定するものである。例えば、検出レベルの数値は0〜100の範囲で変化させることができ、数値が大きいほど除去シーンの判定が行われにくいことを示す。例えば、音声判定処理部18及び映像判定処理部19からの数値の和の値を除去シーンの判定に用いる場合には、検出レベルの数値の大小に応じた閾値を除去シーン判定の閾値にすることができる。この場合には、検出レベルの数値の「100」によって、音声判定処理部18及び映像判定処理部19からの数値の和が最も大きいときに、除去シーンと判定されることになる。音声判定処理部18及び映像判定処理部19からの数値の和がより小さい場合でも除去シーンと判定させる場合には、検出レベルの数値をより小さい値に設定しておけばよい。
【0050】
例えば、ユーザは「食事シーン」に比べて「喫煙シーン」をより見たくない場合には、図7の例に示すように、「喫煙シーン」の検出レベルを50にし、「食事シーン」の検出レベルは100にすればよい。これにより、喫煙シーンについてはより除去シーンと判定しやすくなる。
【0051】
また、チェックボックスC2は、除去シーンと判定されたシーンについて、音声出力をミュートさせるか否かを指定するためのものである。例えば、図7の例では、「喫煙シーン」及び「戦闘シーン」については、音声出力をミュートさせて、映像のみ出力させることが指定されている。
【0052】
これらの設定については、登録ボタンB2を操作することによって、メニュー作成部28によって、制御部26を介してメモリ27に格納される。なお、キャンセルボタンB3を操作すると、メニュー作成部28によって、設定の変更を反映させることなくメニュー表示の表示を終了させる。
【0053】
図8はプルダウンメニューM1において絵柄置換が選択された場合に表示されるサブメニュー表示の表示例を示している。図7のようにプルダウンメニューM1において絵柄置換が選択された場合には、別画面で図8に示す絵柄置換の選択メニューが表示される。図8のサブメニューでは、「喫煙」、「食事」、「露出」、「キス」、「刃物」、「戦闘」の各シーンに対応した設定タブを有している。図8の例は、喫煙タブが表示されていることが示されている。
【0054】
各タブには、変換前の画像K1に対する変換後の画像の候補が示されている。プルダウンメニューM4を操作することで、変換後の画像の候補が表示され、変換後の画像を選択することができる。図8の例では、「たばこ」の画像に対して、「バラ」、「ハート」、「キャンディ」の画像候補から「バラ」の画像を選択することが示されている。なお、チェックボックスC3をチェック(塗り潰し部分)することによって、画像の変換が可能となる。これらの設定については、登録ボタンB4を操作することによって、メニュー作成部28によって、制御部26を介してメモリ27に格納される。なお、置換画像としては、変換する画像と1対1で置き換え可能な画像と、除去範囲に合わせて複数配置することで除去範囲の画像を変換可能な画像とがある。
【0055】
次に、ユーザが「喫煙シーン」を除去シーンに設定している場合を例に、番組中に喫煙シーンが含まれているときの動作について説明する。なお、以下、「喫煙シーン」には、「着火シーン」、「喫煙中のシーン」及び「消火シーン」が含まれるものとして説明する。
【0056】
チューナ1からの所定番組の信号は、DMUX12においてオーディオデータとビデオデータとに分離される。オーディオデータはオーディオデコーダ13によってデコードされ、音声信号がAV除去部15に与えられる。また、ビデオデータはビデオデコーダ14によってデコードされて、映像信号がAV除去部15に与えられる。
【0057】
AV除去部15の音声認識部16は、入力された音声信号に対して音声認識処理を行って(ステップS1)、認識結果を音声判定処理部18に出力する。一方、動画認識部17は、入力された映像信号に対して画像認識処理を行って(ステップS3)、認識結果を映像判定処理部19に出力する。
【0058】
図9は「喫煙シーン」に含まれる「着火シーン」を示す画像である。いま、AV除去部15に入力される映像信号に基づくシーンが、「喫煙中のシーン」の直前の「着火シーン」になるものとする。音声認識部16は「着火シーン」の音を認識する。「着火シーン」を判定する音としては、例えば、「タバコ」と発音する声、マッチをする音、タバコを吹かす音等が考えられる。音声判定処理部18は、これらの音に関する情報を除去シーンデータベース22から読み出して、音声認識部16からの認識結果と比較する。音声判定処理部18は、判定結果の数値を除去シーン判定部20に出力する(ステップS2)。
【0059】
一方、動画認識部17は「着火シーン」の映像を認識する。「着火シーン」を判定する映像部品としては、例えば、タバコ、手(指)、顔(口)、マッチ、火等の映像部品が考えられる。映像判定処理部19は、これらの映像に関する情報を除去シーンデータベース22から読み出して、動画認識部17からの認識結果と比較する。映像判定処理部19は、判定結果の数値を除去シーン判定部20に出力する(ステップS4)。
【0060】
例えば、図9の例では、「着火シーン」の時間内又は「着火シーン」の少し前の時間に「タバコ」の発声が認識されることが考えられる。また、着火時の『シュボッ』というマッチを擦る音が認識されることもある。更に、着火のためにタバコを吹かす、例えば『スーポッ、フーッ』のような音も認識されることがある。音声判定処理部18は、これらの音の判定結果を示す数値を除去シーン判定部20に出力する。
【0061】
除去シーン判定部20は、音声判定処理部18によって「着火シーン」に含まれる音の認識結果の数値に基づいて、着火シーンを判定する。例えば、除去シーン判定部20は、各音の判定結果の数値の加算結果を所定の閾値と比較することで着火シーンと判定してもよい。図7の例では、検出レベルが比較的低く設定されているので、除去シーン判定部20は、判定結果の数値の加算結果と比較する閾値を比較的小さい値に設定することで、より着火シーンと判定しやすくする。
【0062】
なお、除去シーン判定部20は、各音の判定結果の数値に適宜の重み付けを付して加算を行ってもよい。例えば、図2の「着火シーン」の判定条件のうち、マッチをする音の重み付けを大きくすることが考えられる。この場合には、マッチをする音の判定結果の数値のみで、図7の検出レベルに基づく閾値を超えることも考えられる。
【0063】
また、除去シーン判定部20は、各音の認識結果の時間関係を判定に利用してもよい。更に、除去シーン判定部20は、判定に用いるある音を認識した場合には、他の音についての判定基準を低く設定するようにしてもよい。
【0064】
一方、動画認識部17においては、図9の例では、「顔(口)」、「手(指)」、「タバコ」、「マッチ」、「火」の映像部品が認識されることが考えられる。映像判定処理部19はこれらの映像部品についての判定結果の数値及び各映像部品の位置情報を除去シーン判定部20に出力する。
【0065】
更に、本実施の形態においては、映像判定処理部19は、動画認識部17から得られた各映像部品の位置情報と除去映像データベース22から読み出した各シーン同士の位置関係情報とを比較して、位置関係情報を満足する度合いの数値を、判定結果の数値として除去シーン判定部20に出力する。
【0066】
除去シーン判定部20は、映像判定処理部19によって「着火シーン」に含まれる映像部品の判定結果の数値及び位置関係情報を満足する度合いの数値に基づいて、着火シーンを判定する。例えば、除去シーン判定部20は、各映像部品毎の判定結果及び位置関係情報を満足する度合いの数値の加算結果を所定の閾値と比較することで着火シーンと判定してもよい。図7の例では、検出レベルが比較的低く設定されているので、除去シーン判定部20は、閾値を比較的小さい値に設定することで、より着火シーンと判定しやすくする。なお、除去シーン判定部20は、映像判定処理部19からの判定結果の数値に適宜の重み付けを付して加算を行ってもよい。
【0067】
更に、除去シーン判定部20は、音声判定処理部18及び映像判定処理部19からの判定結果の数値を統合して、各シーンの判定を行ってもよい。例えば、除去シーン判定部20は、音声判定処理部18からの判定結果の数値と映像判定処理部19からの判定結果の数値との和の数値を所定の閾値と比較することで、各シーンを判定するのである(ステップS5)。
【0068】
また、この場合には、除去シーン判定部20は、マッチをする音と火の画像とが略同時に判定された場合等の、音と映像の時間関係を判定に利用してもよい。
【0069】
なお、除去シーン判定部20は、映像シーンの時間的な変化を判定に際して考慮してもよい。例えば、「喫煙シーン」については、着火→喫煙中→消火の順序で画像が変化するので、着火シーンと判定された場合には、喫煙中のシーンの判定の閾値を下げて、喫煙中のシーンを判定されやすくしてもよい。
【0070】
以後同様にして、各シーンの判定が行われる。図10は「喫煙中のシーン」の画像を示している。「喫煙中のシーン」については、音声判定処理部18は、例えば、煙を吐く音、タバコを吹かす音、「タバコ」の発声を判定する。また、映像判定処理部19は、例えば、タバコ、煙、手(指)、顔(口)の映像部品及びそれらの位置関係を判定する。
【0071】
除去シーン判定部20は、音声判定処理部18及び映像判定処理部19からの判定結果の数値に基づいて、「喫煙中のシーン」であるか否かの判定を行う。除去シーン判定部20は除去シーンであるか否かの判定結果を変換画像作成部21及び音声出力制御部24に出力する。いま、図10の画像及び図10の画像の表示タイミング前後の音声によって、除去シーン判定部20が「喫煙中のシーン」であると判定したものとする。図7の設定では、除去方法として絵柄置換が指定され、図8の絵柄置換の画像として、「タバコ」に代えて「バラ」が指定され、「煙」に代えて「キラキラ」の画像が指定されている。この図7及び図8の設定がメモリ27に保持されているものとすると、変換画像作成部21は、これらの置換画像を置換画像データベース23から読み出して除去範囲の指定に応じてスケーリング処理し、また、除去範囲に応じて複数の画像を配置し、置換するタバコ、煙の画像の表示タイミングに一致させて、置換画像を合成回路25に出力する。合成回路25は、ビデオデコーダ14からの画像と変換画像作成部21からの画像とを合成して、映像出力を図示しないディスプレイ装置に出力する(ステップS6)。
【0072】
図11はこの場合に表示画面上に表示される画像の一例を示している。図10と図11との比較から明らかなように、タバコはバラの画像に置換され、煙は「キラキラ」で指定される星模様の画像に置換されている。
【0073】
また、図7の設定では、音消を指定するチェックボックスC2によって消音が指示されている。音声出力制御部24は「喫煙シーン」と判定されると、オーディオデコーダ13からの音声をミュートする。これにより、「喫煙シーン」においては音声は出力されない。
【0074】
なお、メモリ27に図6に示す設定が保存されている場合には、変換画像作成部21は、置換画像データベース23からフレーム画像として楽譜画像を読み出す。変換画像作成部21は、読み出したフレーム画像を合成回路25に出力して、「喫煙シーン」に代えて映出させる。図12はこの場合に表示画面上に表示される画像の一例を示している。図12の例では、「喫煙シーン」に代えて楽譜の画像が表示されている。
【0075】
このように本実施の形態においては、AV除去部において、映像部品だけでなく、映像部品同士の位置関係も利用して、シーンの判定を行っており、高精度のシーン判定が可能である。更に、シーン判定に、映像だけでなく、音声も用いており、更に一層高精度のシーン判定が可能である。ユーザが指定した除去シーンとシーン判定によって認識されたシーンとが一致した場合には、ユーザの指定に従って、画像の置換、ぼかし、消音等を行うことができ、視聴中にユーザが不快に感じることを防止することができる。
【0076】
なお、上記実施の形態においては、AV除去部15は除去シーンを検出するものとして説明したが、データベースに登録シーンを登録しておくことで、除去すべきシーンに限らず、所定の登録シーンを検出することができることは明らかである。
【0077】
(第2の実施の形態)
図13は本発明の第2の実施の形態を示すブロック図である。図13において図1と同一の構成要素には同一符号を付して説明を省略する。
【0078】
本実施の形態は音声記録装置31、映像記録装置33及び同期制御部32,34を付加した点が第1の実施の形態と異なる。第1の実施の形態においては、オーディオデコーダ13及びビデオデコーダ14からの音声信号及び映像信号の出力処理に合わせて、AV除去部15が除去シーンの判定をリアルタイムで行うものとして説明した。しかし、AV除去部15の処理速度によっては、リアルタイム処理ができないことも考えられる。そこで、本実施の形態はAV除去部15の処理速度に応じて音声信号及び映像信号の出力をバッファリングするようにしたものである。
【0079】
音声記録装置31は、同期制御部32の制御に従って、オーディオデコーダ13からの音声信号を一旦記録して音声出力制御部24に出力するようになっている。また、映像記録装置33は、同期制御部34の制御に従って、ビデオデコーダ14からの映像信号を一旦記録して合成回路25に出力するようになっている。同期制御部32は、AV除去部15の処理時間だけ、オーディオデコーダ13からの音声信号を音声記録装置31に保持させて出力させる。また、同期制御部34は、AV除去部15の処理時間だけ、ビデオデコーダ14からの映像信号を映像記録装置33に保持させて出力させる。
【0080】
このように構成された実施の形態においては、同期制御部32,34によってAV除去部15の処理時間に応じて、音声信号及び映像信号の出力を遅延させている。これにより、入力されたコンテンツの視聴中において、所望の除去シーンを確実に除去等しながら表示させることが可能である。
【0081】
他の作用及び効果は第1の実施の形態と同様である。
【0082】
なお、上記各実施の形態においては、入力音声及び映像に基づいて除去シーンを検出し、除去シーンについては映像又は映像,音声を除去する例を説明したが、除去シーンについて音声ミュートのみを施すようにしてもよい。
【図面の簡単な説明】
【0083】
【図1】本発明の第1の実施の形態に係るシーン認識装置を含む映像処理装置を示すブロック図。
【図2】映像シーンを特定するための音に関する判定条件の一例を示す図表。
【図3】映像シーンを特定するための映像に関する判定条件の一例を示す図表。
【図4】AV除去部15の処理を示すフローチャート。
【図5】メニュー画面の表示例を示す説明図。
【図6】メニュー画面の表示例を示す説明図。
【図7】メニュー画面の表示例を示す説明図。
【図8】メニュー画面の表示例を示す説明図。
【図9】画面表示を説明するための説明図。
【図10】画面表示を説明するための説明図。
【図11】画面表示を説明するための説明図。
【図12】画面表示を説明するための説明図。
【図13】本発明の第2の実施の形態を示すブロック図。
【符号の説明】
【0084】
13…オーディオデコーダ、14…ビデオデコーダ、15…AV除去部、16…音声認識部、17…動画認識部、18…音声判定処理部、19…映像判定処理部、20…除去シーン判定部、21…変換画像作成部、26…制御部、27…メモリ、28…メニュー作成部。

【特許請求の範囲】
【請求項1】
入力コンテンツに含まれる映像信号に対する動画認識処理を行う動画認識部と、
前記動画認識部の認識結果による映像部品と登録シーンデータベース中の映像部品とを比較して、前記入力コンテンツのシーン中の映像部品が登録シーンとして指定されたシーンに含まれる映像部品に一致する度合いの数値を求める第1の映像判定処理部と、
前記動画認識部の認識結果によって得られる映像部品同士の画面上の位置と前記登録シーンデータベース中の映像部品同士の位置関係の情報とを比較して、前記入力コンテンツのシーン中の映像部品が登録シーンとして指定されたシーンに含まれる映像部品に一致する度合いの数値を求める第2の映像判定処理部と、
前記第1及び第2の映像判定処理部により得られた数値に基づいて前記入力コンテンツのシーンが登録シーンであるか否かを判定する登録シーン判定部と、
を具備したことを特徴とするシーン認識装置。
【請求項2】
入力コンテンツに含まれる音声信号に対する音声認識処理を行う音声認識部と、
前記入力コンテンツに含まれる映像信号に対する動画認識処理を行う動画認識部と、
前記音声認識部の認識結果による音声と登録シーンデータベース中の音声とを比較して、前記入力コンテンツのシーン中の音声が登録シーンとして指定されたシーンに含まれる音声に一致する度合いの数値を求める音声判定処理部と、
前記動画認識部の認識結果による映像部品と登録シーンデータベース中の映像部品とを比較して、前記入力コンテンツのシーン中の映像部品が登録シーンとして指定されたシーンに含まれる映像部品に一致する度合いの数値を求める映像判定処理部と、
前記音声判定処理部及び映像判定処理部により得られた数値に基づいて前記入力コンテンツのシーンが登録シーンであるか否かを判定する登録シーン判定部と、
を具備したことを特徴とするシーン認識装置。
【請求項3】
請求項1又は2に記載のシーン認識装置と、
前記登録シーンデータベースに、前記登録シーンとして除去すべきシーンに関する情報が記憶され、
前記登録シーン判定部によって登録シーンであると判定されたシーンの出力を制御する出力制御手段と、
を具備したことを特徴とする映像処理装置。
【請求項4】
前記出力制御手段は、
前記登録シーン判定部によって登録シーンであると判定されたシーンの音声をミュートさせる音声出力制御部と、
前記登録シーン判定部によって登録シーンであると判定されたシーンについては画像を変更する変換画像作成部と
を具備したことを特徴とする請求項3に記載の映像処理装置。
【請求項5】
前記コンテンツに対する音声及び映像処理を行って音声及び映像信号を出力する音声及び映像処理部と、
前記音声及び映像処理部からの出力を記憶する記憶部と、
前記記憶部からの音声及び映像信号と前記出力制御手段からの音声及び映像信号とを同期させて出力する同期制御部と、
を具備したことを特徴とする請求項3に記載の映像処理装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2009−130849(P2009−130849A)
【公開日】平成21年6月11日(2009.6.11)
【国際特許分類】
【出願番号】特願2007−306348(P2007−306348)
【出願日】平成19年11月27日(2007.11.27)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(390010308)東芝デジタルメディアエンジニアリング株式会社 (192)
【Fターム(参考)】