シーン認識装置及び映像処理装置

【課題】確実なシーン認識を可能にすると共に、視聴者が不快なシーンを視聴することを防止する。
【解決手段】音声認識処理を行う音声認識部１６と、動画認識処理を行う動画認識部１７と、音声認識部の認識結果による音声と登録シーンデータベース中の音声とを比較して、入力コンテンツのシーン中の音声が登録シーンとして指定されたシーンに含まれる音声に一致する度合いの数値を求める音声判定処理部１８と、動画認識部の認識結果による映像部品と登録シーンデータベース中の映像部品とを比較して、入力コンテンツのシーン中の映像部品が登録シーンとして指定されたシーンに含まれる映像部品に一致する度合いの数値を求める映像判定処理部１９と、音声判定処理部及び映像判定処理部により得られた数値に基づいて入力コンテンツのシーンが登録シーンであるか否かを判定する登録シーン判定部２０と、を具備したことを特徴とする。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、登録シーンを検出して映像処理するためのシーン認識装置及び映像処理装置に関する。
【背景技術】
【０００２】
従来、テレビジョン受信機においては、受信した放送信号を順次信号処理し、音声信号及び映像信号をディスプレイ装置等に与えて視聴を行う。この視聴の途中で、コンテンツ中に視聴者が好まない映像シーンが映出されることがある。例えば、一般的には視聴者が不快には感じないであろう喫煙シーン等であっても、視聴者が禁煙中の場合等においては、喫煙シーンを視聴することによって視聴者がストレスを感じることもある。
【０００３】
このように、一般的には視聴者が不快には感じないであろう映像シーンであっても、特定の視聴者には不快と感じられる映像シーンがテレビジョン放送されることがある。テレビジョン受信機は、このような突然表示される不快な映像シーンの表示を自動的に回避することはできず、視聴者にストレスを与えることがあった。
【０００４】
視聴者が視聴を避けたい映像シーンを回避するためには、チャンネル切り替えや電源オフ等の操作を行う必要があり、視聴者にはその番組を続けて視聴することができなくなるというストレスが発生する。
【０００５】
なお、特許文献１，２においては、シーンを認識する技術が開示されている。これらの文献においては、映像中に含まれる部品及びその組み合わせによって、シーンを判定している。例えば、映像中に、ドア、ホワイトボード、棒、スライド映写機等が存在すれば、オフィスシーンと判定するのである。
【０００６】
しかしながら、単に映像部品が存在することのみによってシーンを判定しており、シーンによっては認識精度は必ずしも高くない。
【特許文献１】特開２０００−２９３６８５号公報
【特許文献２】特開２０００−２９３６９４号公報
【特許文献３】特開２０００−６６６９８号公報
【特許文献４】特開２００５−１３５４３２号公報
【発明の開示】
【発明が解決しようとする課題】
【０００７】
本発明は、映像部品の存在だけでなく、映像部品同士の位置関係及び映像に付加される音情報を用いてシーンを判定することで、高精度のシーン判定を可能にすることができるシーン認識装置及び映像処理装置を提供することを目的とする。
【課題を解決するための手段】
【０００８】
本発明の一態様のシーン認識装置は、入力コンテンツに含まれる映像信号に対する動画認識処理を行う動画認識部と、前記動画認識部の認識結果による映像部品と登録シーンデータベース中の映像部品とを比較して、前記入力コンテンツのシーン中の映像部品が登録シーンとして指定されたシーンに含まれる映像部品に一致する度合いの数値を求める第１の映像判定処理部と、前記動画認識部の認識結果によって得られる映像部品同士の画面上の位置と前記登録シーンデータベース中の映像部品同士の位置関係の情報とを比較して、前記入力コンテンツのシーン中の映像部品が登録シーンとして指定されたシーンに含まれる映像部品に一致する度合いの数値を求める第２の映像判定処理部と、前記第１及び第２の映像判定処理部により得られた数値に基づいて前記入力コンテンツのシーンが登録シーンであるか否かを判定する登録シーン判定部と、を具備したことを特徴とする。
【０００９】
また、本発明の他の態様のシーン認識装置は、入力コンテンツに含まれる音声信号に対する音声認識処理を行う音声認識部と、前記入力コンテンツに含まれる映像信号に対する動画認識処理を行う動画認識部と、前記音声認識部の認識結果による音声と登録シーンデータベース中の音声とを比較して、前記入力コンテンツのシーン中の音声が登録シーンとして指定されたシーンに含まれる音声に一致する度合いの数値を求める音声判定処理部と、前記動画認識部の認識結果による映像部品と登録シーンデータベース中の映像部品とを比較して、前記入力コンテンツのシーン中の映像部品が登録シーンとして指定されたシーンに含まれる映像部品に一致する度合いの数値を求める映像判定処理部と、前記音声判定処理部及び映像判定処理部により得られた数値に基づいて前記入力コンテンツのシーンが登録シーンであるか否かを判定する登録シーン判定部と、を具備したことを特徴とする。
【００１０】
また、本発明の一態様に係る映像処理装置は、上記シーン認識装置と、前記登録シーンデータベースに、前記登録シーンとして除去すべきシーンに関する情報が記憶され、前記登録シーン判定部によって登録シーンであると判定されたシーンの出力を制御する出力制御手段と、を具備したことを特徴とする。
【発明の効果】
【００１１】
本発明によれば、映像部品の存在だけでなく、映像部品同士の位置関係及び映像に付加される音情報を用いてシーンを判定することで、高精度のシーン判定を可能にすることができるという効果を有する。
【発明を実施するための最良の形態】
【００１２】
以下、図面を参照して本発明の実施の形態について詳細に説明する。
【００１３】
（第１の実施の形態）
図１は本発明の第１の実施の形態に係るシーン認識装置を含む映像処理装置を示すブロック図である。
【００１４】
図１において、チューナ１１には図示しないアンテナに誘起したテレビジョン高周波信号が入力される。チューナ１１は所定のチャンネルのコンテンツを選局してデマルチプレクサ（ＤＭＵＸ）１２に出力する。ＤＭＵＸ１２は、チューナ１１の出力に含まれるオーディオデータとビデオデータとを分離して夫々オーディオデコーダ１３又はビデオデコーダ１４に出力する。
【００１５】
オーディオデコーダ１３は、入力されたオーディオデータをデコードして、音声信号を得る。また、ビデオデコーダ１４は、入力されたビデオデータをデコードして、映像信号を得る。オーディオデコーダ１３及びビデオデコーダ１４からの音声信号及び映像信号はＡＶ除去部１５に与えられる。
【００１６】
ＡＶ除去部１５は、ユーザの操作に基づいて、視聴者が不快と感じるシーンを検出し、当該シーンが視聴されないように、信号処理を行う。このような除去シーンを自動的に検出するために、ＡＶ除去部１５は、音声認識部１６、動画認識部１７、音声判定処理部１８、映像判定処理部１９及び除去シーン判定部２０によって構成されるシーン認識装置を備える。ＡＶ除去部１５の各部は、制御部２６によって制御されるようになっている（図示省略）。
【００１７】
音声認識部１６にはオーディオデコーダ１３から音声信号が入力される。音声認識部１６は入力された音声信号に対して音声認識処理を行う。音声認識部１６の音声認識処理は言語の認識だけでなく、言語以外の音の認識も行うものであり、入力音声信号の音素を認識して文字列に変換する。音声認識部１６は、認識結果である音素列及び文字列等を音声判定処理部１８に出力する。なお、音認識部１６としては、特許文献３に記載の「音認識装置」のように、複数の音を認識可能な装置を用いる。
【００１８】
音声判定処理部１８は、音声認識部１６の認識結果により得られた音（言語を含む）が、除去シーンデータベース２２に登録されている音（言語）であるか否かを判定するためのものである。除去シーンデータベース２２には、ユーザが不快と感じるシーンを判定するための音の情報が登録されている。
【００１９】
図２は映像シーンを特定するための音に関する判定条件の一例を示す図表である。図２の判定条件に対応する音の情報は、除去シーンデータベース２２に登録されている。図２の例は「着火シーン」、「喫煙中シーン」及び「消化シーン」の判定条件を示している。
【００２０】
図２の例では、これらの「着火シーン」、「喫煙中シーン」及び「消化シーン」の３つのシーンの判定に、「マッチをする音」、「煙を吐く音」、「タバコを吹かす音」、「タバコの消化音」及び「『タバコ』の声」の５つの音が用いられることを示している。なお、「マッチをする音」、「煙を吐く音」、「タバコを吹かす音」及び「タバコの消化音」については、除去シーンデータベース２２内においては例えば音素列によって音情報が蓄積されており、「『タバコ』の声」については、除去シーンデータベース２２内においては例えば「タバコ」という文字列によって音情報が蓄積されている。なお、音声判定処理部１８において音の判定が可能であれば、除去シーンデータベース２２にはどのような形式で音情報を蓄積してもよい。
【００２１】
図２の例は、○印によってシーンの判定に用いる音を示し、×印によってシーンの判定に用いない音を示している。例えば、音声判定処理部１８は、「着火シーン」の判定には、「マッチをする音」、「タバコを吹かす音」及び「『タバコ』の声」を用いる。
【００２２】
音声判定処理部１８は、音声認識部１６からの認識結果に、除去シーンデータベース２２に登録された音が含まれるか否かによって各シーンを認識する。例えば、音声判定処理部１８は、「着火シーン」の判定には、音声認識部１６からの認識結果に、所定の時間範囲内において、「マッチをする音」、「タバコを吹かす音」及び「『タバコ』の声」が含まれる場合には、「着火シーン」であるものと判定して判定結果を出力する。
【００２３】
音声認識部１６の認識結果及び除去シーンデータベース２２に蓄積されている情報が音素列の場合等には、一致，不一致の判定が困難である。そこで、音声判定処理部１８は、除去シーンデータベース２２に登録された音の情報と、音声認識部１６からの認識結果とを比較して、一致の確からしさを示す数値を各音毎に判定結果として出力する。
【００２４】
音声判定処理部１８からの判定結果は、除去シーン判定部２０に与えられる。除去シーン判定部２０は、音声判定処理部１８からの判定結果の数値に基づいて、入力映像信号に基づく映像のシーンを判定することができる。
【００２５】
一方、動画認識部１７にはビデオデコーダ１４から映像信号が入力される。動画認識部１７は入力された映像信号に対して動画認識処理を行う。動画認識処理部１７は、一般的な画像認識処理によって動画を認識する。例えば、動画認識処理部１７は、ノイズ除去等の前処理、特徴ベクトル作成を行う特徴抽出処理及び統計的手法を用いた識別処理による画像認識処理を実施し、映像部品の認識結果を得る。なお、除去対象の映像部品となる画像の切り出しや動きに対する追随の仕方に関しては、例えば、特許文献４の装置を用いることができる。
【００２６】
更に、本実施の形態においては、動画認識処理部１７は、各映像部品の画面上の位置情報も得る。動画認識処理部１７は、映像部品の認識結果及び認識した映像部品の位置情報を映像判定処理部１９に出力する。
【００２７】
映像判定処理部１９は、動画認識部１７の認識結果により得られた映像が、除去シーンデータベース２２に登録されている映像であるか否かを判定するためのものである。除去シーンデータベース２２には、ユーザが不快と感じるシーンを判定するための映像の情報が登録されている。
【００２８】
図３は映像シーンを特定するための映像に関する判定条件の一例を示す図表である。図３の判定条件に対応する映像の情報は、除去シーンデータベース２２に登録されている。図３の例は「着火シーン」、「喫煙中シーン」及び「消化シーン」の判定条件を示している。
【００２９】
図３の例では、これらの「着火シーン」、「喫煙中シーン」及び「消化シーン」の３つのシーンの判定に、「タバコ」、「煙」、「灰皿」、「手（指）」、「顔（口）」、「マッチ」及び「火」の７つの映像部品が用いられることを示している。図３の例は、○印によってシーンの判定に用いる映像部品を示し、×印によってシーンの判定に用いない映像部品を示している。例えば、映像判定処理部１９は、「着火シーン」の判定には、「タバコ」、「手（指）」、「顔（口）」、「マッチ」及び「火」の５つの映像部品を用いる。
【００３０】
映像判定処理部１９は、動画認識部１７からの認識結果に、除去シーンデータベース２２に登録された映像部品が含まれるか否かによって各シーンを認識する。例えば、映像判定処理部１９は、動画認識部１７からの認識結果に、「タバコ」、「手（指）」、「顔（口）」、「マッチ」及び「火」が含まれる場合には、「着火シーン」であるものと判定するのである。
【００３１】
なお、個々の映像部品については、動画認識部１７の認識結果及び除去シーンデータベース２２に蓄積されている情報の一致，不一致の判定が困難であることを考慮して、映像判定処理部１９は、除去シーンデータベース２２に登録された映像の情報と、動画認識部１７からの認識結果とを比較して、一致の確からしさを示す数値を各映像部品毎に判定結果として出力する。
【００３２】
更に、本実施の形態においては、映像判定処理部１９は、各映像部品同士の位置関係によって、映像シーンを判定するようになっている。映像判定処理部１９には動画認識部１７から映像部品の位置情報が与えれており、この位置情報を用いることで、各映像部品同士の位置関係を認識する。
【００３３】
除去シーンデータベース２２には、各シーンを判定するための映像部品同士の位置関係の情報が登録されている。図３においては、各映像部品の情報を示す欄同士を結ぶ線分によって、映像部品同士が接触又は近接していることを示している。例えば、図３の例では、「着火のシーン」においては、「タバコ」の映像部品に対して「手（指）」の映像部品、「顔（口）」の映像部品及び「火」の映像部品が接し、「手（指）」の映像部品と「顔（口）」の映像部品とが接し、「マッチ」の映像部品と「火」の映像部品とが接していることをシーン判定の条件とすることを示している。
【００３４】
映像判定処理部１９は、動画認識部１７からの映像部品の位置情報に基づいて、除去シーンデータベース２２に登録された映像部品同士の位置関係の情報（位置関係情報）を満足する度合いを示す数値を求める。映像判定処理部１９は、除去シーンデータベース２２に登録されている映像部品が存在する確からしさの数値及び各映像部品同士の位置関係の検出結果に基づく数値を判定結果として除去シーン判定部２０に出力する。
【００３５】
除去シーン判定部２０は、映像判定処理部１９からの判定結果の数値に基づいて、入力映像信号に基づく映像のシーンを判定することができる。また、映像判定処理部１９は、音声判定処理部１８及び映像判定処理部１９からの数値の総和によって、各映像シーンを判定してもよい。また、映像判定処理部１９は、音声判定処理部１８からの各音の数値に適宜の重み付けを付し、また映像判定処理部１９からの各映像部品の数値に適宜の重み付けを付して、各映像シーンを判定してもよい。
【００３６】
映像判定処理部１９は、音声判定処理部１８及び映像判定処理部１９からの数値に基づいて、入力映像信号に基づく映像が除去すべき映像シーンであるか否かを判定し、判定結果を音声出力制御部２４及び変換画像作成部２１に出力する。
【００３７】
なお、図２に示す音声判定処理部１８及び除去シーン判定部２０の判定条件並びに図３に示す映像判定処理部１９及び除去シーン判定部２０の判定条件は、後述するメモリ２７に格納されており、制御部２６はメモリ２７から判定条件を読み出して音声判定処理部１８、映像判定処理部１９及び除去シーン判定部２０に設定するようになっている。
【００３８】
変換画像作成部２１は、除去シーン判定部２０から除去シーンであることを示す判定結果が与えられた場合には、置換画像データベース２３からの画像データを読み出して、除去シーンに代えて用いる変換画像を生成して合成回路２５に出力する。置換画像データベース２３には除去シーンに代えて用いる置換画像の画像データが保持されている。置換画像データベース２３は、除去シーンの一部の画像又は１フレーム分の画像を格納しており、変換画像作成部２１は、変換すべき画像のサイズに応じたスケーリング処理又は画像の配置処理によって置換画像データベース２３に保持された置換画像から変換画像を生成する。なお、変換画像作成部２１は、後述する「ぼかし」の場合には、除去シーンに含まれる対象となった絵柄部分をぼかして表示させるための画像処理を行う。
【００３９】
合成回路２５は、ビデオデコーダ１４からの映像と変換画像作成部２１からの変換画像とを合成して、映像出力として出力する。この映像出力は図示しないディスプレイ装置に供給される。
【００４０】
音声出力制御部２４には、オーディオデコーダ１３からの音声信号も与えられる。音声出力制御部２４は、除去シーン判定部２０から除去シーンであることを示す判定結果が与えられると、除去シーンに付随した音声を消音制御することが可能である。音声出力制御部２４は、ユーザ操作に基づいて除去シーンの音声信号を消音することが示された場合には、この除去シーンの音声を消音して出力する。音声出力制御部２４からの音声出力は図示しないスピーカに出力される。
【００４１】
ところで、音声判定処理部１８、映像判定処理部１９及び除去シーン判定部２０の判定処理においては、判定のための条件をユーザ操作に基づいて可変であることが望ましい。そこで、本実施の形態においては、制御部２６はユーザ操作に基づく操作信号が与えられるようになっている。制御部２６は、操作信号に基づいて、判定のための各種設定をメモリ２７に記憶させると共に、メモリ２７に記憶させる各種設定を音声判定処理部１８、映像判定処理部１９及び除去シーン判定部２０に与えるようになっている。こうして、音声判定処理部１８、映像判定処理部１９及び除去シーン判定部２０は、制御部２６によって判定のための条件が指示される。
【００４２】
また、ユーザが判定条件を設定可能なように、ＡＶ除去部１５には、メニュー画面を表示させるためのメニュー作成部２８が設けられている。メニュー作成部２８は、制御部２６に制御されて、メニュー表示出力を出力する。このメニュー表示出力に基づくメニュー表示は、合成回路２５からの映像出力に代えて表示画面上に映出させてもよく、他のディスプレイ画面上に表示させてもよい。
【００４３】
次に、このように構成された実施の形態の動作について図４乃至図１２を参照して説明する。図４はＡＶ除去部１５の処理を示すフローチャートである。図５乃至図８はメニュー画面の表示例を示す説明図である。また、図９乃至図１２は画面表示を説明するための説明図である。
【００４４】
先ず、ユーザによる除去シーンに関する設定について説明する。ユーザは図示しない操作装置を用いて制御部２６に除去シーンの設定を指示する。制御部２６はメモリ２７から現在の設定を読み出してメニュー作成部２８に与える。これにより、メニュー作成部２８は、除去シーンの設定のためのメニュー表示の表示データを作成してメニュー表示出力として図示しないディスプレイ装置に出力する。
【００４５】
図５はこの場合のメニュー表示の一例を示しており、ユーザによる設定が行われていない初期状態の画面を示している。図５の例では、除去シーンとして、「喫煙シーン」、「食事シーン」、「露出シーン」、「キスシーン」、「刃物シーン」、「戦闘シーン」が設定可能である。これらのシーンの表示に隣接するチェックボックスＣ１を図示しない操作部によって指定することにより、これらのシーンを表示させないことが可能となる。例えば、図６では「喫煙シーン」のみを表示させないことを示しており、図７では「喫煙シーン」、「刃物シーン」及び「戦闘シーン」を表示させないことを示している。
【００４６】
ユーザはプルダウンメニューＭ１を操作することで、除去シーンの除去方法を指定することができる。例えば、除去方法としては、ぼかし、絵柄置換及びフレーム置換を指定可能である。フレーム置換は、除去シーンを含む画面（フレーム）全体を他の画像に変換して表示させるものであり、絵柄置換は、除去シーンに含まれる対象となった絵柄部分のみを他の画像に変換して表示させるものである。また、ぼかしは、除去シーンに含まれる対象となった絵柄部分をぼかして表示させるものである。図５乃至図８においては選択操作を斜線にて示しており、例えば、図５では「喫煙シーン」の除去方法について、プルダウンメニューＭ１を操作して、フレーム置換を選択する例を示している。
【００４７】
また、ユーザはメニューＭ２を操作することで、除去範囲を指定することができる。例えば、最小の除去範囲は、除去シーンに含まれる対象となった絵柄部分のみを除去する範囲である。除去範囲は、例えば絵柄置換に用いる画像をスケーリングすることで変化させることができる。例えば、除去方法として絵柄置換が選択されている場合には、除去範囲のメニューＭ２に対する操作によって、除去シーンに含まれる対象となった絵柄部分よりも広範囲に置換する画像を表示させることができる。なお、フレーム置換が選択された場合には、メニューＭ２の操作は無効となる。図６は斜線部によってメニューＭ２に対する操作が行われていることを示している。メニューＭ２内のバー（塗り潰し部）ＭＢをユーザ操作によって移動させることで、除去範囲を変化させることができる。
【００４８】
プルダウンメニューＭ３は、フレーム置換時に選択するフレーム画像を指定するためのものである。図５の例では、フレーム置換に用いる画像として、「楽譜映像」、「田園風景」及び「川のせせらぎ」を選択可能であり、図５では「楽譜映像」の選択操作が行われていることを示しており、図６では「喫煙シーン」のフレーム置換用の画像として楽譜映像が選択されることを示している。
【００４９】
ユーザは入力ボックスＢ１に数値を設定することで検出レベルを指定することができる。入力ボックスＢ１に入力する検出レベルの数値は、除去シーンの判定されやすさを規定するものである。例えば、検出レベルの数値は０〜１００の範囲で変化させることができ、数値が大きいほど除去シーンの判定が行われにくいことを示す。例えば、音声判定処理部１８及び映像判定処理部１９からの数値の和の値を除去シーンの判定に用いる場合には、検出レベルの数値の大小に応じた閾値を除去シーン判定の閾値にすることができる。この場合には、検出レベルの数値の「１００」によって、音声判定処理部１８及び映像判定処理部１９からの数値の和が最も大きいときに、除去シーンと判定されることになる。音声判定処理部１８及び映像判定処理部１９からの数値の和がより小さい場合でも除去シーンと判定させる場合には、検出レベルの数値をより小さい値に設定しておけばよい。
【００５０】
例えば、ユーザは「食事シーン」に比べて「喫煙シーン」をより見たくない場合には、図７の例に示すように、「喫煙シーン」の検出レベルを５０にし、「食事シーン」の検出レベルは１００にすればよい。これにより、喫煙シーンについてはより除去シーンと判定しやすくなる。
【００５１】
また、チェックボックスＣ２は、除去シーンと判定されたシーンについて、音声出力をミュートさせるか否かを指定するためのものである。例えば、図７の例では、「喫煙シーン」及び「戦闘シーン」については、音声出力をミュートさせて、映像のみ出力させることが指定されている。
【００５２】
これらの設定については、登録ボタンＢ２を操作することによって、メニュー作成部２８によって、制御部２６を介してメモリ２７に格納される。なお、キャンセルボタンＢ３を操作すると、メニュー作成部２８によって、設定の変更を反映させることなくメニュー表示の表示を終了させる。
【００５３】
図８はプルダウンメニューＭ１において絵柄置換が選択された場合に表示されるサブメニュー表示の表示例を示している。図７のようにプルダウンメニューＭ１において絵柄置換が選択された場合には、別画面で図８に示す絵柄置換の選択メニューが表示される。図８のサブメニューでは、「喫煙」、「食事」、「露出」、「キス」、「刃物」、「戦闘」の各シーンに対応した設定タブを有している。図８の例は、喫煙タブが表示されていることが示されている。
【００５４】
各タブには、変換前の画像Ｋ１に対する変換後の画像の候補が示されている。プルダウンメニューＭ４を操作することで、変換後の画像の候補が表示され、変換後の画像を選択することができる。図８の例では、「たばこ」の画像に対して、「バラ」、「ハート」、「キャンディ」の画像候補から「バラ」の画像を選択することが示されている。なお、チェックボックスＣ３をチェック（塗り潰し部分）することによって、画像の変換が可能となる。これらの設定については、登録ボタンＢ４を操作することによって、メニュー作成部２８によって、制御部２６を介してメモリ２７に格納される。なお、置換画像としては、変換する画像と１対１で置き換え可能な画像と、除去範囲に合わせて複数配置することで除去範囲の画像を変換可能な画像とがある。
【００５５】
次に、ユーザが「喫煙シーン」を除去シーンに設定している場合を例に、番組中に喫煙シーンが含まれているときの動作について説明する。なお、以下、「喫煙シーン」には、「着火シーン」、「喫煙中のシーン」及び「消火シーン」が含まれるものとして説明する。
【００５６】
チューナ１からの所定番組の信号は、ＤＭＵＸ１２においてオーディオデータとビデオデータとに分離される。オーディオデータはオーディオデコーダ１３によってデコードされ、音声信号がＡＶ除去部１５に与えられる。また、ビデオデータはビデオデコーダ１４によってデコードされて、映像信号がＡＶ除去部１５に与えられる。
【００５７】
ＡＶ除去部１５の音声認識部１６は、入力された音声信号に対して音声認識処理を行って（ステップＳ１）、認識結果を音声判定処理部１８に出力する。一方、動画認識部１７は、入力された映像信号に対して画像認識処理を行って（ステップＳ３）、認識結果を映像判定処理部１９に出力する。
【００５８】
図９は「喫煙シーン」に含まれる「着火シーン」を示す画像である。いま、ＡＶ除去部１５に入力される映像信号に基づくシーンが、「喫煙中のシーン」の直前の「着火シーン」になるものとする。音声認識部１６は「着火シーン」の音を認識する。「着火シーン」を判定する音としては、例えば、「タバコ」と発音する声、マッチをする音、タバコを吹かす音等が考えられる。音声判定処理部１８は、これらの音に関する情報を除去シーンデータベース２２から読み出して、音声認識部１６からの認識結果と比較する。音声判定処理部１８は、判定結果の数値を除去シーン判定部２０に出力する（ステップＳ２）。
【００５９】
一方、動画認識部１７は「着火シーン」の映像を認識する。「着火シーン」を判定する映像部品としては、例えば、タバコ、手（指）、顔（口）、マッチ、火等の映像部品が考えられる。映像判定処理部１９は、これらの映像に関する情報を除去シーンデータベース２２から読み出して、動画認識部１７からの認識結果と比較する。映像判定処理部１９は、判定結果の数値を除去シーン判定部２０に出力する（ステップＳ４）。
【００６０】
例えば、図９の例では、「着火シーン」の時間内又は「着火シーン」の少し前の時間に「タバコ」の発声が認識されることが考えられる。また、着火時の『シュボッ』というマッチを擦る音が認識されることもある。更に、着火のためにタバコを吹かす、例えば『スーポッ、フーッ』のような音も認識されることがある。音声判定処理部１８は、これらの音の判定結果を示す数値を除去シーン判定部２０に出力する。
【００６１】
除去シーン判定部２０は、音声判定処理部１８によって「着火シーン」に含まれる音の認識結果の数値に基づいて、着火シーンを判定する。例えば、除去シーン判定部２０は、各音の判定結果の数値の加算結果を所定の閾値と比較することで着火シーンと判定してもよい。図７の例では、検出レベルが比較的低く設定されているので、除去シーン判定部２０は、判定結果の数値の加算結果と比較する閾値を比較的小さい値に設定することで、より着火シーンと判定しやすくする。
【００６２】
なお、除去シーン判定部２０は、各音の判定結果の数値に適宜の重み付けを付して加算を行ってもよい。例えば、図２の「着火シーン」の判定条件のうち、マッチをする音の重み付けを大きくすることが考えられる。この場合には、マッチをする音の判定結果の数値のみで、図７の検出レベルに基づく閾値を超えることも考えられる。
【００６３】
また、除去シーン判定部２０は、各音の認識結果の時間関係を判定に利用してもよい。更に、除去シーン判定部２０は、判定に用いるある音を認識した場合には、他の音についての判定基準を低く設定するようにしてもよい。
【００６４】
一方、動画認識部１７においては、図９の例では、「顔（口）」、「手（指）」、「タバコ」、「マッチ」、「火」の映像部品が認識されることが考えられる。映像判定処理部１９はこれらの映像部品についての判定結果の数値及び各映像部品の位置情報を除去シーン判定部２０に出力する。
【００６５】
更に、本実施の形態においては、映像判定処理部１９は、動画認識部１７から得られた各映像部品の位置情報と除去映像データベース２２から読み出した各シーン同士の位置関係情報とを比較して、位置関係情報を満足する度合いの数値を、判定結果の数値として除去シーン判定部２０に出力する。
【００６６】
除去シーン判定部２０は、映像判定処理部１９によって「着火シーン」に含まれる映像部品の判定結果の数値及び位置関係情報を満足する度合いの数値に基づいて、着火シーンを判定する。例えば、除去シーン判定部２０は、各映像部品毎の判定結果及び位置関係情報を満足する度合いの数値の加算結果を所定の閾値と比較することで着火シーンと判定してもよい。図７の例では、検出レベルが比較的低く設定されているので、除去シーン判定部２０は、閾値を比較的小さい値に設定することで、より着火シーンと判定しやすくする。なお、除去シーン判定部２０は、映像判定処理部１９からの判定結果の数値に適宜の重み付けを付して加算を行ってもよい。
【００６７】
更に、除去シーン判定部２０は、音声判定処理部１８及び映像判定処理部１９からの判定結果の数値を統合して、各シーンの判定を行ってもよい。例えば、除去シーン判定部２０は、音声判定処理部１８からの判定結果の数値と映像判定処理部１９からの判定結果の数値との和の数値を所定の閾値と比較することで、各シーンを判定するのである（ステップＳ５）。
【００６８】
また、この場合には、除去シーン判定部２０は、マッチをする音と火の画像とが略同時に判定された場合等の、音と映像の時間関係を判定に利用してもよい。
【００６９】
なお、除去シーン判定部２０は、映像シーンの時間的な変化を判定に際して考慮してもよい。例えば、「喫煙シーン」については、着火→喫煙中→消火の順序で画像が変化するので、着火シーンと判定された場合には、喫煙中のシーンの判定の閾値を下げて、喫煙中のシーンを判定されやすくしてもよい。
【００７０】
以後同様にして、各シーンの判定が行われる。図１０は「喫煙中のシーン」の画像を示している。「喫煙中のシーン」については、音声判定処理部１８は、例えば、煙を吐く音、タバコを吹かす音、「タバコ」の発声を判定する。また、映像判定処理部１９は、例えば、タバコ、煙、手（指）、顔（口）の映像部品及びそれらの位置関係を判定する。
【００７１】
除去シーン判定部２０は、音声判定処理部１８及び映像判定処理部１９からの判定結果の数値に基づいて、「喫煙中のシーン」であるか否かの判定を行う。除去シーン判定部２０は除去シーンであるか否かの判定結果を変換画像作成部２１及び音声出力制御部２４に出力する。いま、図１０の画像及び図１０の画像の表示タイミング前後の音声によって、除去シーン判定部２０が「喫煙中のシーン」であると判定したものとする。図７の設定では、除去方法として絵柄置換が指定され、図８の絵柄置換の画像として、「タバコ」に代えて「バラ」が指定され、「煙」に代えて「キラキラ」の画像が指定されている。この図７及び図８の設定がメモリ２７に保持されているものとすると、変換画像作成部２１は、これらの置換画像を置換画像データベース２３から読み出して除去範囲の指定に応じてスケーリング処理し、また、除去範囲に応じて複数の画像を配置し、置換するタバコ、煙の画像の表示タイミングに一致させて、置換画像を合成回路２５に出力する。合成回路２５は、ビデオデコーダ１４からの画像と変換画像作成部２１からの画像とを合成して、映像出力を図示しないディスプレイ装置に出力する（ステップＳ６）。
【００７２】
図１１はこの場合に表示画面上に表示される画像の一例を示している。図１０と図１１との比較から明らかなように、タバコはバラの画像に置換され、煙は「キラキラ」で指定される星模様の画像に置換されている。
【００７３】
また、図７の設定では、音消を指定するチェックボックスＣ２によって消音が指示されている。音声出力制御部２４は「喫煙シーン」と判定されると、オーディオデコーダ１３からの音声をミュートする。これにより、「喫煙シーン」においては音声は出力されない。
【００７４】
なお、メモリ２７に図６に示す設定が保存されている場合には、変換画像作成部２１は、置換画像データベース２３からフレーム画像として楽譜画像を読み出す。変換画像作成部２１は、読み出したフレーム画像を合成回路２５に出力して、「喫煙シーン」に代えて映出させる。図１２はこの場合に表示画面上に表示される画像の一例を示している。図１２の例では、「喫煙シーン」に代えて楽譜の画像が表示されている。
【００７５】
このように本実施の形態においては、ＡＶ除去部において、映像部品だけでなく、映像部品同士の位置関係も利用して、シーンの判定を行っており、高精度のシーン判定が可能である。更に、シーン判定に、映像だけでなく、音声も用いており、更に一層高精度のシーン判定が可能である。ユーザが指定した除去シーンとシーン判定によって認識されたシーンとが一致した場合には、ユーザの指定に従って、画像の置換、ぼかし、消音等を行うことができ、視聴中にユーザが不快に感じることを防止することができる。
【００７６】
なお、上記実施の形態においては、ＡＶ除去部１５は除去シーンを検出するものとして説明したが、データベースに登録シーンを登録しておくことで、除去すべきシーンに限らず、所定の登録シーンを検出することができることは明らかである。
【００７７】
（第２の実施の形態）
図１３は本発明の第２の実施の形態を示すブロック図である。図１３において図１と同一の構成要素には同一符号を付して説明を省略する。
【００７８】
本実施の形態は音声記録装置３１、映像記録装置３３及び同期制御部３２，３４を付加した点が第１の実施の形態と異なる。第１の実施の形態においては、オーディオデコーダ１３及びビデオデコーダ１４からの音声信号及び映像信号の出力処理に合わせて、ＡＶ除去部１５が除去シーンの判定をリアルタイムで行うものとして説明した。しかし、ＡＶ除去部１５の処理速度によっては、リアルタイム処理ができないことも考えられる。そこで、本実施の形態はＡＶ除去部１５の処理速度に応じて音声信号及び映像信号の出力をバッファリングするようにしたものである。
【００７９】
音声記録装置３１は、同期制御部３２の制御に従って、オーディオデコーダ１３からの音声信号を一旦記録して音声出力制御部２４に出力するようになっている。また、映像記録装置３３は、同期制御部３４の制御に従って、ビデオデコーダ１４からの映像信号を一旦記録して合成回路２５に出力するようになっている。同期制御部３２は、ＡＶ除去部１５の処理時間だけ、オーディオデコーダ１３からの音声信号を音声記録装置３１に保持させて出力させる。また、同期制御部３４は、ＡＶ除去部１５の処理時間だけ、ビデオデコーダ１４からの映像信号を映像記録装置３３に保持させて出力させる。
【００８０】
このように構成された実施の形態においては、同期制御部３２，３４によってＡＶ除去部１５の処理時間に応じて、音声信号及び映像信号の出力を遅延させている。これにより、入力されたコンテンツの視聴中において、所望の除去シーンを確実に除去等しながら表示させることが可能である。
【００８１】
他の作用及び効果は第１の実施の形態と同様である。
【００８２】
なお、上記各実施の形態においては、入力音声及び映像に基づいて除去シーンを検出し、除去シーンについては映像又は映像，音声を除去する例を説明したが、除去シーンについて音声ミュートのみを施すようにしてもよい。
【図面の簡単な説明】
【００８３】
【図１】本発明の第１の実施の形態に係るシーン認識装置を含む映像処理装置を示すブロック図。
【図２】映像シーンを特定するための音に関する判定条件の一例を示す図表。
【図３】映像シーンを特定するための映像に関する判定条件の一例を示す図表。
【図４】ＡＶ除去部１５の処理を示すフローチャート。
【図５】メニュー画面の表示例を示す説明図。
【図６】メニュー画面の表示例を示す説明図。
【図７】メニュー画面の表示例を示す説明図。
【図８】メニュー画面の表示例を示す説明図。
【図９】画面表示を説明するための説明図。
【図１０】画面表示を説明するための説明図。
【図１１】画面表示を説明するための説明図。
【図１２】画面表示を説明するための説明図。
【図１３】本発明の第２の実施の形態を示すブロック図。
【符号の説明】
【００８４】
１３…オーディオデコーダ、１４…ビデオデコーダ、１５…ＡＶ除去部、１６…音声認識部、１７…動画認識部、１８…音声判定処理部、１９…映像判定処理部、２０…除去シーン判定部、２１…変換画像作成部、２６…制御部、２７…メモリ、２８…メニュー作成部。

【特許請求の範囲】
【請求項１】
入力コンテンツに含まれる映像信号に対する動画認識処理を行う動画認識部と、
前記動画認識部の認識結果による映像部品と登録シーンデータベース中の映像部品とを比較して、前記入力コンテンツのシーン中の映像部品が登録シーンとして指定されたシーンに含まれる映像部品に一致する度合いの数値を求める第１の映像判定処理部と、
前記動画認識部の認識結果によって得られる映像部品同士の画面上の位置と前記登録シーンデータベース中の映像部品同士の位置関係の情報とを比較して、前記入力コンテンツのシーン中の映像部品が登録シーンとして指定されたシーンに含まれる映像部品に一致する度合いの数値を求める第２の映像判定処理部と、
前記第１及び第２の映像判定処理部により得られた数値に基づいて前記入力コンテンツのシーンが登録シーンであるか否かを判定する登録シーン判定部と、
を具備したことを特徴とするシーン認識装置。
【請求項２】
入力コンテンツに含まれる音声信号に対する音声認識処理を行う音声認識部と、
前記入力コンテンツに含まれる映像信号に対する動画認識処理を行う動画認識部と、
前記音声認識部の認識結果による音声と登録シーンデータベース中の音声とを比較して、前記入力コンテンツのシーン中の音声が登録シーンとして指定されたシーンに含まれる音声に一致する度合いの数値を求める音声判定処理部と、
前記動画認識部の認識結果による映像部品と登録シーンデータベース中の映像部品とを比較して、前記入力コンテンツのシーン中の映像部品が登録シーンとして指定されたシーンに含まれる映像部品に一致する度合いの数値を求める映像判定処理部と、
前記音声判定処理部及び映像判定処理部により得られた数値に基づいて前記入力コンテンツのシーンが登録シーンであるか否かを判定する登録シーン判定部と、
を具備したことを特徴とするシーン認識装置。
【請求項３】
請求項１又は２に記載のシーン認識装置と、
前記登録シーンデータベースに、前記登録シーンとして除去すべきシーンに関する情報が記憶され、
前記登録シーン判定部によって登録シーンであると判定されたシーンの出力を制御する出力制御手段と、
を具備したことを特徴とする映像処理装置。
【請求項４】
前記出力制御手段は、
前記登録シーン判定部によって登録シーンであると判定されたシーンの音声をミュートさせる音声出力制御部と、
前記登録シーン判定部によって登録シーンであると判定されたシーンについては画像を変更する変換画像作成部と
を具備したことを特徴とする請求項３に記載の映像処理装置。
【請求項５】
前記コンテンツに対する音声及び映像処理を行って音声及び映像信号を出力する音声及び映像処理部と、
前記音声及び映像処理部からの出力を記憶する記憶部と、
前記記憶部からの音声及び映像信号と前記出力制御手段からの音声及び映像信号とを同期させて出力する同期制御部と、
を具備したことを特徴とする請求項３に記載の映像処理装置。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【図１３】

【公開番号】特開２００９−１３０８４９（Ｐ２００９−１３０８４９Ａ）
【公開日】平成２１年６月１１日（２００９．６．１１）
【国際特許分類】

【出願番号】特願２００７−３０６３４８（Ｐ２００７−３０６３４８）
【出願日】平成１９年１１月２７日（２００７．１１．２７）
【出願人】（０００００３０７８）株式会社東芝 (54,554)
【出願人】（３９００１０３０８）東芝デジタルメディアエンジニアリング株式会社 (192)
【Ｆターム（参考）】

[ Back to top ]

シーン認識装置及び映像処理装置

メニュー

スポンサーリンク

次の公報 »

« 前の公報

シーン認識装置及び映像処理装置

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク