説明

動画シーン種別判定装置及び方法

【課題】字幕に含まれる外字に基づいた動画ストリームのシーン種別判定を実現する。
【解決手段】動画シーン種別判定装置は、動画ストリームから音声データ及び字幕データを分離する分離部(20)、外字の字形を記憶する一般外字記憶部(40)、字幕データを受け、これに含まれる外字定義データに基づいて外字の字形を一般外字記憶部(40)に記録する外字管理部(30)、特定のシーン種別に連関する外字の字形を記憶する特定外字記憶部(50)、及び動画ストリームのシーン種別を判定する判定部(60)を備えている。ここで、判定部(60)は、一般外字記憶部(40)及び特定外字記憶部(50)から字幕データ中の外字に対応する字形を読み出して比較し、これらが一致すると判断したとき、動画ストリームは特定のシーン種別に係るものであると判定する一方、一致しないと判断したとき、音声データに基づいて動画ストリームのシーン種別を判定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、動画ストリームのシーン種別の判定に関し、特に、デジタル放送コンテンツのダイジェスト生成に好適なシーン種別判定に関する。
【背景技術】
【0002】
ハードディスクなどの記録媒体の大容量化、低価格化、記録媒体への記録再生アクセス速度の高速化、記録再生伝送速度の高速化、及び画像と音声を含む動画信号を圧縮符号化する処理の高速化が進んだことに伴い、これらの技術を用いて、圧縮符号化したデジタル放送番組の動画信号を記録し、復号して再生する動画記録再生装置が開発されている。このような動画記録再生装置によれば、ハードディスクに代表される大容量の記録媒体に複数のデジタル放送番組の動画信号(放送コンテンツ)を記録することが可能となる。
【0003】
しかし、時間的な制約から、大量に録り貯めた番組をすべて視聴することは困難である。そこで、大量に記録された放送コンテンツの中からいかにしてユーザが求めるものを効率よく提示するダイジェスト再生が重要となってくる。ダイジェスト再生の一手法として、放送コンテンツの中からユーザが希望するシーン種別に係るもののみを提示するものがある。そして、シーン種別の判定に関して、放送コンテンツの字幕データに含まれる記号文字などの付加情報に基づいてシーン種別を判定するものがある(例えば、特許文献1参照)。
【特許文献1】特開平11−331761号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
日本のデジタル放送では、番組冒頭のテーマソング演奏などの音楽が流れるシーンの字幕には普通の文字ではなくDRCS(Dynamically Redefinable Character Set)と呼ばれる外字が使用されることが多い。したがって、外字を考慮して字幕を解析することでシーン種別判定の精度向上が期待される。
【0005】
しかし、DRCSは再定義可能な文字セットであるため、個々の番組ごとにその字形が少しずつ異なることがある。また、外字の文字コードと字形との関連付けも再定義可能なため、文字コードは同じでも字形が異なる、あるいは文字コードが異なるが字形が同じである場合もある。このように、外字は普通の文字とは異なる性質を有するため、従来のシーン種別手法では外字を考慮したシーン種別判定が行われていない。このため、例えば、音楽シーンにおいて例えば音符を表す外字が表示される場合であっても、字幕データからは当該シーンが音楽シーンであるとは判定することができずにシーン種別判定を誤ってしまうおそれがある。
【0006】
上記問題に鑑み、本発明は、字幕に含まれる外字に基づいた動画ストリームのシーン種別判定を可能にすることを課題とする。
【課題を解決するための手段】
【0007】
上記課題を解決するために本発明が講じた手段は、動画ストリームのシーン種別を判定する動画シーン種別判定装置として、動画ストリームから音声データ及び字幕データを分離する分離部と、外字の字形を記憶する第1の外字記憶部と、前記字幕データを受け、これに含まれる外字定義データに基づいて当該外字の字形を前記第1の外字記憶部に記録する外字管理部と、特定のシーン種別に連関する外字の字形を記憶する第2の外字記憶部と、前記第1及び第2の外字記憶部から前記字幕データ中の外字に対応する字形を読み出して比較し、これらが一致すると判断したとき、前記動画ストリームは前記特定のシーン種別に係るものであると判定する一方、一致しないと判断したとき、前記音声データに基づいて前記動画ストリームのシーン種別を判定する判定部とを備えたものとする。また、動画ストリームのシーン種別を判定する動画シーン種別判定方法として、動画ストリームから音声データ及び字幕データ分離するステップと、前記字幕データに含まれる外字定義データに基づいて当該外字の字形を第1の外字記憶部に記録するステップと、前記第1の外字記憶部及び所定のシーン種別に連関する外字の字形を記憶する第2の外字記憶部から、前記字幕データ中の外字に対応する字形を読み出して異同を判定するステップと、前記読み出した外字の字形が一致すると判定されたとき、前記動画ストリームは前記所定のシーン種別に係るものであると判定するステップと、前記読み出した外字の字形が一致しないと判定されたとき、前記音声データに基づいて前記動画ストリームのシーン種別を判定するステップとを備えたものとする。
【0008】
これによると、動画ストリームのシーン種別を判定する場合において、字幕データ中の外字の字形が、あらかじめ記憶されている特定のシーン種別に連関するものであれば、音声データに基づくシーン種別判定を行うことなく当該動画ストリームは当該特定のシーン種別に係るものであると判定することができる。
【0009】
前記判定部は、前記音声データに基づいて判定した前記動画ストリームのシーン種別が前記特定のシーン種別であったとき、前記第1の外字記憶部から読み出した外字の字形を前記第2の外字記憶部に記録することが好ましい。また、上記方法は、前記音声データに基づいて判定した前記動画ストリームのシーン種別が前記所定のシーン種別であったとき、前記第1の外字記憶部から読み出した外字の字形を前記第2の外字記憶部に記録するステップを備えていることが好ましい。これによると、音声データに基づくシーン種別判定の結果に基づいて特定のシーン種別に連関する外字の字形が第2の外字記憶部に新たに記録されるため、以後、字幕データ中に当該外字が含まれる場合には音声データに基づくシーン種別判定を省略することができる。
【0010】
具体的には、前記分離部に入力される動画ストリームは、あらかじめシーン分割されて記録されたものである。また、具体的には、前記分離するステップでは、あらかじめシーン分割されて記録された動画ストリームが処理される。
【0011】
好ましくは、上記装置は、デジタル放送波から所望のチャンネルを選局し、当該選局したチャンネルの動画ストリームを出力するチューナと、前記出力された動画ストリームをシーン分割するシーン分割部と、動画ストリームを記憶するための動画記憶部とを備えている。ここで、前記分離部に入力される動画ストリームは、前記チューナから出力されたものであり、前記判定部は、前記シーン分割された動画ストリームごとにそのシーン種別を判定し、当該動画ストリームを当該判定したシーン種別と関連付けて前記動画記憶部に記録するものである。また、好ましくは、上記方法は、デジタル放送波から所望のチャンネルを選局し、当該選局したチャンネルの動画ストリームを生成するステップと、前記生成された動画ストリームをシーン分割するステップと、前記シーン分割された動画ストリームごとにそのシーン種別を判定し、当該動画ストリームを当該判定したシーン種別と関連付けて、動画ストリームを記憶するための動画記憶部に記録するステップとを備えている。ここで、前記分離するステップでは、選局されたチャンネルから生成された動画ストリームが処理される。これによると、受信した動画ストリームのシーン分割をしながらそのシーン種別判定をすることができる。
【0012】
前記判定部は、前記特定のシーン種別に係る動画ストリームのみを前記動画記憶部に記録することが好ましい。また、前記記録するステップでは、前記所定のシーン種別に係る動画ストリームのみが前記動画記憶部に記録されることが好ましい。これによると、動画記憶部の記憶容量が限られていても、ユーザの好みのシーン種別に係る動画ストリームをより多く記録することができる。
【発明の効果】
【0013】
本発明によると、字幕に含まれる外字に基づいた動画ストリームのシーン種別判定が可能となる。これにより、大量の録画物の中からユーザ所望のシーンをより速く、より高精度に抽出し、再生することができる。
【発明を実施するための最良の形態】
【0014】
以下、本発明を実施するための最良の形態について、図面を参照しながら説明する。
【0015】
(第1の実施形態)
図1は、第1の実施形態に係る動画シーン種別判定装置の構成を示す。動画記憶部10にはあらかじめシーン分割された複数の動画ストリームが記録されている。動画ストリームは、例えば、デジタル放送で伝達されるTS(Transport Stream)である。図1では、シーン分割されて記録された動画ストリームを“動画1”〜“動画n”として表している。なお、動画記憶部10は、ハードディスク装置、光ディスク装置などで構成可能である。
【0016】
分離部20は、動画記憶部10から動画ストリームを受け、これから音声データ及び字幕データを分離する。外字管理部30は、分離部20から出力された字幕データを受け、これに含まれる外字定義データ(例えば、DRCS)に基づいて当該外字の字形を一般外字記憶部40に記録する。図1では、一般外字記憶部40が記憶している外字の字形を“字形1”〜“字形p”として表している。なお、一般外字記憶部40は、フラッシュメモリなどで構成可能である。
【0017】
図2は、外字字形の例を示す。本例の外字字形は16×16ピクセルの白黒二次元テーブルで表現されているが、一般外字記憶部40に記憶される字形サイズはこれ以外のものであってもよい。また、縦横のピクセル長が違っていても、ピクセル当たりの情報量が1ビット以上であってもよい。
【0018】
外字字形の管理は、例えば、図3に示したような管理テーブルを用いて行う。当該管理テーブルにおいて、字形番号は一般外字記憶部40が記憶している外字字形の識別番号であり、外字コードは字幕データ中で外字を表す文字コードである。字幕データに外字が含まれている場合、その外字コードに対応する字形が一般外字記憶部40から読み出されて表示されることとなる。
【0019】
図1に戻り、特定外字記憶部50は特定のシーン種別(例えば、音楽シーン)に連関する外字の字形を記憶する。図1では、特定外字記憶部50が記憶している外字の字形を“字形1”〜“字形q”として表している。なお、特定外字記憶部50は、フラッシュメモリなどで構成可能である。
【0020】
判定部60は、動画記憶部10に記録されている各動画ストリームを受け、当該動画ストリームから分離された字幕データ中の外字に対応する字形を一般外字記憶部40及び特定外字記憶部50からそれぞれ読み出して比較する。そして、これらが一致すると判断したとき、当該動画ストリームは特定外字記憶部50に対応するシーン種別に係るものであると判定し、一致しないと判断したとき、音声データに基づいて当該動画ストリームのシーン種別を判定して、判定結果を判定結果記憶部70に記録する。判定結果は各動画ストリームと対応付けて動画記憶部10に記録するようにしてもよい。
【0021】
以下、本実施形態に係る動画シーン種別判定装置の動作について説明する。本装置の動作は外字字形の更新処理及び動画ストリームのシーン種別判定の二つからなる。
【0022】
図4は、外字字形の更新処理フローを示す。当該更新処理は外字管理部30が実行する。まず、外字管理部30は、分離部20から出力された字幕データから外字定義データを抽出する(S11)。外字定義データには外字の文字コードと例えばビットマップ形式で表された外字字形とが含まれている。そして、管理テーブルを参照して、抽出された外字コードが管理テーブルに存在する場合、すなわち、外字コードが記録済みであった場合(S12のYES肢)、外字管理部30は、一般外字記憶部50に記憶されている当該外字コードに対応する外字字形を削除し(S13)、管理テーブルから当該外字コードを削除する(S14)。ステップS13とS14の順序は逆であってもよい。一方、外字コードがまだ記録されていない場合(S12のNO肢)、あるいはステップS12に続いて、外字管理部30は、抽出された外字定義データによって定義される外字の字形を一般外字記憶部50に記録し(S15)、管理テーブルに当該外字コードを追加する(S16)。ステップS15とS16の順序は逆であってもよい。
【0023】
図5は、動画シーン種別の判定処理フローを示す。当該判定処理は判定部60が実行する。まず、判定部60は、分離部20から出力された字幕データを解析して、字幕に外字が含まれているか否かを判定する(S21)。字幕に外字が含まれている場合(S22のYES肢)、判定部60は、管理テーブルを参照して当該外字コードに対応する外字字形を一般外字記憶部40及び特定外字記憶部50から読み出して比較し(S23)、両者の異同を判定する。当該異同判定はピクセルの完全一致に限られない。例えば、外字字形をパターンとして認識した場合に両者がほぼ同じパターンであると判定されるのであれば両者は一致する判定してもよい。
【0024】
判定部60は、二つの外字字形が一致すると判断した場合(S24のYES肢)、後述する音声データに基づいたシーン種別判定処理をスキップして、当該動画ストリームは特定外字記憶部50に対応するシーン種別に係るものであると判定して(S31)、処理を終了する。一方、二つの外字字形が一致しないと判断した場合(S24のNO肢)、あるいは字幕に外字が含まれていない場合(S22のNO肢)、判定部60は、分離部20から出力された音声データに基づいて動画ストリームのシーン種別を判定する(S25)。例えば、歌や音楽を含む動画ストリームでは音声データの周波数スペクトルのピークが時間の経過とともに周波数方向に安定しているため、音声データの周波数スペクトルピークの安定度を検出することで当該動画ストリームのシーン種別を音楽シーンと判定することができる。もちろん、周波数スペクトル以外の指標により音声データを解析して動画ストリームのシーン種別を判定することも可能である。
【0025】
判定部60が判定するシーン種別は音楽シーンに限られない。例えば、ドラマ番組などの通話シーンでは電話着信音と着信を示す外字が連動して出現する場合がある。この場合には、音声データを解析して電話着信音を検出することで当該動画ストリームが通話シーンであると判定することができる。また、バラエティ番組などの喝采シーンでは拍手音と喝采を示す外字が連動して出現する場合がある。この場合には、音声データを解析して拍手音を検出することで当該動画ストリームが喝采シーンであると判定することができる。
【0026】
ステップS25で判定されたシーン種別が特定外字記憶部50に対応するシーン種別とは異なる場合(S26のNO肢)、判定部60は、当該動画ストリームは特定外字記憶部50に対応するシーン種別に係るものではないと判定して(S32)、処理を終了する。
【0027】
ステップS25で判定されたシーン種別が特定外字記憶部50に対応するシーン種別と一致する場合(S26のYES肢)、字幕に外字が含まれていなければ(S27のNO肢)、当該動画ストリームは特定外字記憶部50に対応するシーン種別に係るものであると判定して(S31)、処理を終了する。一方、字幕に外字が含まれていれば(S27のYES肢)、判定部60は、一般外字記憶部40から読み出した外字字形を特定外字記憶部50に記録する(S28)。そして、当該動画ストリームは特定外字記憶部50に対応するシーン種別に係るものであると判定して(S31)、処理を終了する。
【0028】
以上、本実施形態によると、字幕に特定のシーン種別に連関する外字が含まれている場合には当該外字に基づいて動画ストリームのシーン種別を判定することができる。これにより、比較的処理負荷が大きく、また、比較的精度が低い音声データに基づくシーン種別判定処理を行わなくて済むため、ダイジェスト生成の高速化、装置の低消費電力化及び高精度化を図ることができる。
【0029】
なお、動画シーン種別判定装置は、互いに異なるシーン種別に係る複数の特定外字記憶部50を備えてもよい。これにより、動画記憶部10に記録された各動画ストリームを各シーン種別に分類することができる
(第2の実施形態)
図6は、第2の実施形態に係る動画シーン種別判定装置の構成を示す。本実施形態に係る動画シーン種別判定装置は、図1に示した第1の実施形態に係る動画シーン種別判定装置に、チューナ80、シーン分割部90及びアンテナ100を追加した構成をしている。以下、第1の実施形態と異なる点についてのみ説明する。
【0030】
チューナ80は、アンテナ100が受信したデジタル放送波を受け、当該デジタル放送波から所望のチャンネルを選局して、当該選局したチャンネルの動画ストリームを出力する。分離部20は、チューナ80から出力された動画ストリームを受け、これから音声データ及び字幕データを分離する。シーン分割部90は、チューナ80から出力された動画ストリームをシーン分割する。シーン分割は画面の切り替わりを検出するなどして行うことができる。
【0031】
判定部60は、シーン分割部90によって分割された動画ストリームごとにそのシーン種別を判定する。当該シーン種別の判定方法は上述したとおりである。そして、判定部60は、シーン分割された動画ストリームを当該判定したシーン種別と関連付けて動画記憶部10に記録する。図6では、シーン分割されて記録された動画ストリームを“動画1”〜“動画n”として表している。
【0032】
以上、本実施形態によると、デジタル放送を受信しながらその動画ストリームのシーン分割及びシーン種別判定を行うことができる。そして、動画ストリームの記録後に所望のシーン種別に係るものだけを選択的に再生することができる。
【0033】
なお、判定部60は、特定のシーン種別に係る動画ストリームのみ、あるいは特定のシーン種別以外に係る動画ストリームのみを動画記憶部10に記録するようにしてもよい。これにより、動画記憶部10の記憶容量が限られていても、ユーザの好みのシーン種別に係る動画ストリームをより多く記録することができる。
【産業上の利用可能性】
【0034】
本発明に係る動画シーン種別判定装置は、字幕に含まれる外字に基づいた動画ストリームのシーン種別判定が可能であるため、ダイジェスト再生機能を有するハードディスクビデオレコーダなどに有用である。
【図面の簡単な説明】
【0035】
【図1】第1の実施形態に係る動画シーン種別判定装置の構成図である。
【図2】外字字形の例を示す図である。
【図3】外字字形管理テーブルである。
【図4】外字字形の更新処理のフローチャートである。
【図5】動画シーン種別の判定処理のフローチャートである。
【図6】第2の実施形態に係る動画シーン種別判定装置の構成図である。
【符号の説明】
【0036】
10 動画記憶部
20 分離部
30 外字管理部
40 一般外字記憶部(第1の外字記憶部)
50 特定外字記憶部(第2の外字記憶部)
60 判定部
80 チューナ
90 シーン分割部

【特許請求の範囲】
【請求項1】
動画ストリームのシーン種別を判定する装置であって、
動画ストリームから音声データ及び字幕データを分離する分離部と、
外字の字形を記憶する第1の外字記憶部と、
前記字幕データを受け、これに含まれる外字定義データに基づいて当該外字の字形を前記第1の外字記憶部に記録する外字管理部と、
特定のシーン種別に連関する外字の字形を記憶する第2の外字記憶部と、
前記第1及び第2の外字記憶部から前記字幕データ中の外字に対応する字形を読み出して比較し、これらが一致すると判断したとき、前記動画ストリームは前記特定のシーン種別に係るものであると判定する一方、一致しないと判断したとき、前記音声データに基づいて前記動画ストリームのシーン種別を判定する判定部とを備えた
ことを特徴とする動画シーン種別判定装置。
【請求項2】
請求項1に記載の動画シーン種別判定装置において、
前記判定部は、前記音声データに基づいて判定した前記動画ストリームのシーン種別が前記特定のシーン種別であったとき、前記第1の外字記憶部から読み出した外字の字形を前記第2の外字記憶部に記録する
ことを特徴とする動画シーン種別判定装置。
【請求項3】
請求項1に記載の動画シーン種別判定装置において、
前記分離部に入力される動画ストリームは、あらかじめシーン分割されて記録されたものである
ことを特徴とする動画シーン種別判定装置。
【請求項4】
請求項1に記載の動画シーン種別判定装置において、
デジタル放送波から所望のチャンネルを選局し、当該選局したチャンネルの動画ストリームを出力するチューナと、
前記出力された動画ストリームをシーン分割するシーン分割部と、
動画ストリームを記憶するための動画記憶部とを備え、
前記分離部に入力される動画ストリームは、前記チューナから出力されたものであり、
前記判定部は、前記シーン分割された動画ストリームごとにそのシーン種別を判定し、当該動画ストリームを当該判定したシーン種別と関連付けて前記動画記憶部に記録する
ことを特徴とする動画シーン種別判定装置。
【請求項5】
請求項4に記載の動画シーン種別判定装置において、
前記判定部は、前記特定のシーン種別に係る動画ストリームのみを前記動画記憶部に記録する
ことを特徴とする動画シーン種別判定装置。
【請求項6】
動画ストリームのシーン種別を判定する方法であって、
動画ストリームから音声データ及び字幕データ分離するステップと、
前記字幕データに含まれる外字定義データに基づいて当該外字の字形を第1の外字記憶部に記録するステップと、
前記第1の外字記憶部及び所定のシーン種別に連関する外字の字形を記憶する第2の外字記憶部から、前記字幕データ中の外字に対応する字形を読み出して異同を判定するステップと、
前記読み出した外字の字形が一致すると判定されたとき、前記動画ストリームは前記所定のシーン種別に係るものであると判定するステップと、
前記読み出した外字の字形が一致しないと判定されたとき、前記音声データに基づいて前記動画ストリームのシーン種別を判定するステップとを備えた
ことを特徴とする動画シーン種別判定方法。
【請求項7】
請求項6に記載の動画シーン種別判定方法において、
前記音声データに基づいて判定した前記動画ストリームのシーン種別が前記所定のシーン種別であったとき、前記第1の外字記憶部から読み出した外字の字形を前記第2の外字記憶部に記録するステップを備えた
ことを特徴とする動画シーン種別判定方法。
【請求項8】
請求項6に記載の動画シーン種別判定方法において、
前記分離するステップでは、あらかじめシーン分割されて記録された動画ストリームが処理される
ことを特徴とする動画シーン種別判定方法。
【請求項9】
請求項6に記載の動画シーン種別判定方法において、
デジタル放送波から所望のチャンネルを選局し、当該選局したチャンネルの動画ストリームを生成するステップと、
前記生成された動画ストリームをシーン分割するステップと、
前記シーン分割された動画ストリームごとにそのシーン種別を判定し、当該動画ストリームを当該判定したシーン種別と関連付けて、動画ストリームを記憶するための動画記憶部に記録するステップとを備え、
前記分離するステップでは、選局されたチャンネルから生成された動画ストリームが処理される
ことを特徴とする動画シーン種別判定方法。
【請求項10】
請求項6に記載の動画シーン種別判定方法において、
前記記録するステップでは、前記所定のシーン種別に係る動画ストリームのみが前記動画記憶部に記録される
ことを特徴とする動画シーン種別判定方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2008−269460(P2008−269460A)
【公開日】平成20年11月6日(2008.11.6)
【国際特許分類】
【出願番号】特願2007−114139(P2007−114139)
【出願日】平成19年4月24日(2007.4.24)
【出願人】(000005821)松下電器産業株式会社 (73,050)
【Fターム(参考)】