キーフレーズ抽出装置、シーン分割装置およびプログラム
【課題】番組映像等を分割するため、人手で与える手がかり語を用いることなく、語彙分布がそれほど変わらないシーン間の切れ目を効率的に検出する。
【解決手段】キーフレーズ抽出装置は、相対時刻に関連付けられたテキストを記憶する番組テキスト記憶部と、相対時刻およびテキストに基づき、番組を時間で区切ったセグメント毎に、言語的単位の出現頻度を表わすセグメント特徴量を算出するセグメント特徴量生成部と、セグメント特徴量のセグメント間の類似度を算出することにより、複数の番組に属するセグメントから類似のセグメントを選択し、それら選択されたセグメントから成るセグメント系列を生成するセグメントアラインメント処理部と、生成されたセグメント系列内における言語的単位の出現頻度に基づき言語的単位毎のスコアを算出し、算出されたスコアの良い言語的単位をキーフレーズとして抽出するスコア算出部とを備える。
【解決手段】キーフレーズ抽出装置は、相対時刻に関連付けられたテキストを記憶する番組テキスト記憶部と、相対時刻およびテキストに基づき、番組を時間で区切ったセグメント毎に、言語的単位の出現頻度を表わすセグメント特徴量を算出するセグメント特徴量生成部と、セグメント特徴量のセグメント間の類似度を算出することにより、複数の番組に属するセグメントから類似のセグメントを選択し、それら選択されたセグメントから成るセグメント系列を生成するセグメントアラインメント処理部と、生成されたセグメント系列内における言語的単位の出現頻度に基づき言語的単位毎のスコアを算出し、算出されたスコアの良い言語的単位をキーフレーズとして抽出するスコア算出部とを備える。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、自然言語処理技術に関する。特に、映像をシーンごとに分割するためのキーフレーズを抽出するキーフレーズ抽出装置、それらのキーフレーズを利用して映像を分割するシーン分割装置、およびそれらのコンピュータプログラムに関する。
【背景技術】
【0002】
テレビ番組等の大量の映像コンテンツを利用しやすい形で蓄積するために、予め映像コンテンツをシーンごとに分割しておくことが求められている。このとき、人手をかけずに効率的に、妥当なシーンに分割できることが望ましい。
【0003】
非特許文献1に記載される技術では、テキストの語彙的結束性(単語の分布)を算出し、結束度の低い箇所をシーン切れ目と判断する手法が取られる。
また、非特許文献2に記載される技術では、例えば接続詞の「ところで」などといった表層的手がかりを組み合わせることにより、シーン切れ目を判断する手法が取られる。
また、非特許文献3に記載される技術では、尤度関数(言語モデル)を予め定義し、ベイズ学習を行なうことによって話題変化点を検出する手法が取られる。
また、非特許文献4に記載される技術では、テキストの生成モデルとしてleft-to-right型隠れマルコフモデル(HMM)を仮定し、変分ベイズ(VB)法に基づくテキスト分割アルゴリズムを導出している。
【非特許文献1】M.A. Hearst,“Multi-paragraph segmentation of expository text”,32nd Annual Meeting of the Association for Computational Linguistics,1994年,pp.9-16.
【非特許文献2】望月源,本田岳夫,奥村学,「複数の表層的手がかりを統合したテキストセグメンテーション」,自然言語処理,1999年,vol.6,No.3,pp.43-58.
【非特許文献3】持橋大地,菊井玄一郎,「Gibbs Samplingによる確率的テキスト分割と複数観測への拡張」,NLP−2006,2006年,pp.212-215.
【非特許文献4】越仲孝文,奥村明俊,磯谷亮輔,「HMMの変分ベイズ学習によるテキストセグメンテーション及びその映像インデキシングヘの応用」,電子情報通信学会論文誌D,2006年,Vol.J89-D,No.9,pp.2113-2122.
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかしながら、上に述べた従来技術には、次のような問題点がある。
非特許文献1に記載されている技術では、テキストの語彙的結束性を利用するため、シーンの切れ目を境として語彙分布が全く異なるテキストについては有効であると考えられるが、例えば情報提供型のテレビ番組等においては、シーンの切れ目をまたがって類似の語彙分布が出現する場合もよくあるため、そのような映像コンテンツのシーンの分割には不適切である。
【0005】
非特許文献2に記載されている技術では、表層的手がかりを用いるため、手がかり語を予め人が指定する必要がある。そのためには分割しようとする映像コンテンツを人が実際に視聴する必要があるなど、効率が悪いという問題がある。
【0006】
非特許文献3に記載されている技術では、あらかじめ話題数を指定する必要がある。また、サンプリング法を使うものであるため、様々な話題を含むテキストにこの手法を適用して且つシーン分割の精度を上げるためには、大量のデータを用意する必要があるという問題がある。さらに、シーン分割の対象となるデータに対して、尤度関数(言語モデル)をあらかじめ綿密に作る必要があるという問題がある。
【0007】
非特許文献4に記載されている技術は、話題数が未知である場合にも利用できる。また、シーンの切れ目を境に語の分布が全く異なるテキストに対しては有効であると考えられる。当該文献においては、この技術をニュース番組に適用して評価実験を行なっている。しかしながら、非特許文献1の技術と同様に、シーンの切れ目をまたがって類似の語彙分布が出現するような映像コンテンツに対しては、有効ではない。
【0008】
例えば、情報提供型のテレビ番組では、番組の最初から終わりまでが一貫したテーマを有している場合がある。一例としてNHKのテレビ番組「ためしてガッテン」では、「温泉の入り方」や「おいしいチャーハンの極意」など、一回分の放送におけるトピックは番組のはじめから終わりまで同一であり、その一回分の放送の中で少しずつシーンが変化したり、多角的な検証が行われたりする。このような場合には、放送一回分の中では語彙分布の変化が期待できず、従って、語彙分布を利用して番組中のシーンの切れ目を検出するのは困難である。
また、非特許文献2の技術のように手がかり語を用いようとしても、テレビ番組で使われるのは話し言葉であり語や文節などが省略される場合が多く、さらに放送字幕においては接続詞が省略されることも多い。従って、シーンの切れ目を検出するためには、人手で列挙した手がかり語だけを用いてでは不十分である。
【0009】
本発明は、上記のような事情を考慮して為されたものであり、人手で与える手がかり語を用いることなく、語彙分布がそれほど変わらないシーン間の切れ目を効率的に検出するためのキーフレーズ抽出装置と、検出された切れ目で映像コンテンツを分割するシーン分割装置、およびコンピュータプログラムを提供することを目的とする。
【課題を解決するための手段】
【0010】
本発明は、いわゆるレギュラー番組においては、毎回(言い換えれば、毎放送回、毎番組)、同じシーン転換あるいは類似のシーン転換がなされることに着目する。そして、上記の課題を解決するため、本発明は、このシーン転換部分の特徴的な語などを手がかり語(キーフレーズ)として取り出す。そして、単語等の言語的単位の分布が似ているセグメントを番組ごとに集め、そのセグメント系列から話題展開の手がかりとなる語をキーフレーズとして抽出する。
【0011】
[1]本発明の一態様によるキーフレーズ抽出装置は、番組開始時からの相対時刻と、前記相対時刻に関連付けられたテキストとを記憶する番組テキスト記憶部と、前記番組テキスト記憶部から読み出した前記相対時刻および前記テキストに基づき、番組を時間で区切ったセグメント毎に、言語的単位の出現頻度を表わすセグメント特徴量を算出するセグメント特徴量生成部と、前記セグメント特徴量生成部によって算出された前記セグメント特徴量のセグメント間の類似度を算出することにより、複数の番組に属するセグメントから類似のセグメントを選択し、それら選択されたセグメントから成るセグメント系列を生成するセグメントアラインメント処理部と、前記セグメントアラインメント処理部によって生成されたセグメント系列内における前記言語的単位の出現頻度に基づき言語的単位毎のスコアを算出し、算出されたスコアの良い言語的単位をキーフレーズとして抽出するスコア算出部とを具備することを特徴とする。
なお、ここで、言語的単位とは、例えば単語や文節やNグラム(N−gram)など、言語上の所定のまとまりを持つ単位である。
【0012】
これによれば、番組を時間で区切ったセグメント毎に言語的単位の出現頻度に基づくセグメント特徴量が算出され、このセグメント特徴量を用いてセグメント間の類似度を算出することができる。このとき、セグメント間の類似度としては、ある番組に含まれるセグメントと、他の番組に含まれるセグメントとの間の類似度を算出することができる。これにより、複数の番組(レギュラー番組の一連の放送回など)にわたって、類似度の高い一連のセグメントからなるセグメント系列を生成できる。セグメント系列を構成するそれぞれのセグメントは、必ずしも番組開始時からの相対時刻が同じものには限定されない。このセグメント系列を構成する複数のセグメントは、それぞれの番組に含まれる同じ話題転換点を含んでいる可能性が比較的高い。そして、スコア算出部は、生成されたセグメント系列内における言語的単位の出現頻度に基づき言語的単位毎のスコアを算出する。スコアを算出する際の計算により、セグメント系列内においてより多くの番組に出現し且つセグメント系列外では出現頻度が比較的小さいような言語的単位に、良いスコアを与えることができる。そして、良いスコアが得られた言語的単位が、話題転換点の手がかりとなるキーフレーズとして抽出される。
【0013】
[2]また、本発明の一態様は、上記のキーフレーズ抽出装置において、セグメント特徴量生成部は、前記言語的単位ごとの正確確率検定による有意確率に基づく値を要素とするベクトルとして前記セグメント特徴量を算出することを特徴とする。
【0014】
これにより、標本数が比較的少ない場合にも、セグメント内かセグメント外かによって統計的に有意な差のある言語的単位の存在が、セグメント特徴量の値を特徴付ける。
【0015】
[3]また、本発明の一態様は、上記のキーフレーズ抽出装置において、前記スコア算出部は、言語的単位毎に、全番組数のうち前記セグメント系列内において当該言語的単位が出現する番組数の割合が高いほど良い値となり、且つ、正確確率検定による有意確率が低いほど良い値となる前記スコアを算出することを特徴とする。
【0016】
これにより、標本数が比較的少ない場合にも、セグメント系列内で特有に出現し、統計的に有意な言語的単位に、良いスコアを与えることができる。
【0017】
[4]また、本発明の一態様は、上記のキーフレーズ抽出装置において、前記セグメントアラインメント処理部は、あるセグメントについてのセグメント系列を生成する際に、当該セグメントの基準となる相対時刻と当該セグメントが属する番組以外の他の番組に属する他のセグメントの基準となる相対時刻との差の絶対値が大きいほど当該他のセグメントが選ばれにくくなるように作用するペナルティ関数値を、算出された前記類似度に乗じることにより、前記他のセグメントを選択することを特徴とする。
【0018】
これにより、ある番組のあるセグメントに着目したとき、他の番組内に、セグメント間の言語的単位の出現頻度の特徴が同じような複数のセグメントが仮に存在する場合にも、番組開始時からの相対時刻が近いセグメントほど、着目したセグメントの系列として選択されやすい。番組のフォーマット上、ある話題転換点の相対時刻が複数の番組間で近いという前提に基づくと、この構成により、セグメントアラインメントの精度がより高くなる。
【0019】
[5]また、本発明の一態様によるシーン分割装置は、上記のいずれかの態様のキーフレーズ抽出装置と、前記番組テキスト記憶部に記憶されたテキストに対応する番組映像を記憶する番組映像記憶部と、前記スコア算出部が抽出したキーフレーズを用いて前記番組テキスト記憶部を検索することにより番組のシーンを分割すべき分割時刻情報を得る検索処理部と、前記検索処理部によって得られた前記分割時刻情報を用いて、前記番組テキスト記憶部に記憶されたテキストに対応する番組映像を前記番組映像記憶部から読み出してシーンに分割する処理を行なう映像分割処理部を具備することを特徴とする。
【0020】
これにより、番組テキストに基づいて抽出されたキーフレーズを手がかりに、実際に番組映像をシーン毎に分割することができる。
【0021】
[6]また、本発明のコンピュータプログラムは、コンピュータを、上記のいずれかの態様のキーフレーズ抽出装置あるいはシーン分割装置として機能させる。
例えば、その一態様は、番組開始時からの相対時刻と、前記相対時刻に関連付けられたテキストとを記憶する番組テキスト記憶部を具備するコンピュータに、前記番組テキスト記憶部から読み出した前記相対時刻および前記テキストに基づき、番組を時間で区切ったセグメント毎に、言語的単位の出現頻度を表わすセグメント特徴量を算出するセグメント特徴量生成過程と、前記セグメント特徴量生成過程によって算出された前記セグメント特徴量のセグメント間の類似度を算出することにより、複数の番組に属するセグメントから類似のセグメントを選択し、それら選択されたセグメントから成るセグメント系列を生成するセグメントアラインメント処理過程と、前記セグメントアラインメント処理過程によって生成されたセグメント系列内における前記言語的単位の出現頻度に基づき言語的単位毎のスコアを算出し、算出されたスコアの良い言語的単位をキーフレーズとして抽出するスコア算出過程との処理を実行させるプログラムである。
【発明の効果】
【0022】
本発明によれば、言語的単位の出現の特徴に基づき、シーンの切れ目に対応するキーフレーズを抽出することができる。これにより、人手に頼らずに番組映像等を効率的にシーンに分割できる。これにより、シーンごとに分割された映像ライブラリを構築できる。放送局において、番組制作者などが番組映像から必要なシーンのみを取り出す際、話題転換で切れ目があるとより的確に目的のシーンを取り出しやすい。また、ビデオ・オン・デマンドや教育用途における映像百科などのサービスにおいて、シーンごとに番組が分割されていると二次活用しやすくなる。
【発明を実施するための最良の形態】
【0023】
以下、図面を参照しながら、本発明の複数の実施形態を説明する。
【0024】
[第1の実施の形態]
図1は、第1の実施形態によるキーフレーズ抽出装置の機能構成を示すブロック図である。図示するように、キーフレーズ抽出装置10は、番組映像記憶部11と、クローズドキャプションデータ記憶部12(番組テキスト記憶部)と、キーフレーズ抽出処理部13と、キーフレーズ記憶部14とを含んで構成される。
【0025】
番組映像記憶部11は、テレビ等の番組の映像データ(この映像データは、音声データを含む。以下においても同様。)を記憶するものである。ここで番組映像記憶部11が記憶する番組は、いわゆるレギュラー番組である。つまり、番組映像記憶部11は、ある番組の第1回放送分、第2回放送分、・・・と、所定の番組フォーマットに従って進行する複数回分の映像データを記憶する。
クローズドキャプションデータ記憶部12は、番組映像記憶部11が記憶する映像データそれぞれに対応するクローズドキャプション(画面に表示するための字幕)のデータを記憶する。なお、クローズドキャプションデータ記憶部12は、番組開始時からの相対時刻と、この相対時刻に関連付けられたクローズドキャプション(テキスト)とを記憶するものである。
キーフレーズ抽出処理部13は、上記のクローズドキャプションのデータを元に、シーン分割の手がかりとなり得るキーフレーズを抽出する処理を行うものである。
キーフレーズ記憶部14は、キーフレーズ抽出処理部によって抽出されたキーフレーズを記憶するものである。
【0026】
番組映像記憶部11とクローズドキャプションデータ記憶部12とキーフレーズ記憶部14は、例えばハードディスク装置や半導体メモリなどを用いて実現する。また、適宜、ファイルシステムあるいはデータベース管理システムを用いて、これらの記憶部に記憶されるデータを管理する。
【0027】
図2は、クローズドキャプションデータ記憶部12が記憶するクローズドキャプションデータの構成とデータ例を示す概略図である。図示するように、クローズドキャプションデータは、相対時刻とクローズドキャプション(テキスト)が関連付けられているデータである。この相対時刻は、対応するクローズドキャプションの表示が開始される時刻であり、番組映像の開始時点を起点とする「時:分:秒.フレーム番号」の形式で表わされている。ここでフレーム番号は、当該秒内におけるフレームの相対番号であり、テレビ番組等の映像は通常1秒あたり30枚のフレームで構成される。つまり、クローズドキャプションのテキストは、この相対時刻を介して、番組映像内の1フレームに関連付けられている。
図示する例において、1行目のデータは、相対時刻が「00:05:05.01」のときに、「こんばんは 5月になりました。」というクローズドキャプションの表示が開始されることを表わす。
なお、ここで図示しているデータは、特定の番組の特定の放送回の中における相対時刻と、それに対応するクローズドキャプションである。
【0028】
図3は、本実施形態によるシーン分割装置の機能構成を示すブロック図である。図示するように、シーン分割装置20は、番組映像記憶部21と、クローズドキャプションデータ記憶部22と、キーフレーズ記憶部24と、検索処理部25と、検索結果データ26(分割時刻情報)と、映像分割処理部27と、分割済番組映像記憶部28とを含んで構成される。
【0029】
番組映像記憶部21は、図1に示した番組映像記憶部11と同様のデータ(映像)を記憶するものである。なお、これらの番組映像記憶部11および21を、共通の記憶装置によって実現しても良い。
また、クローズドキャプションデータ記憶部22は、図1に示したクローズドキャプションデータ記憶部12と同様のデータを記憶するものである。なお、これらのクローズドキャプションデータ記憶部12および22を、共通の記憶装置によって実現しても良い。
また、キーフレーズ記憶部24は、図1に示したキーフレーズ記憶部14と同様のデータ(抽出されたキーフレーズのデータ)を記憶するものである。なお、これらのキーフレーズ記憶部14および24を、共通の記憶装置によって実現しても良い。
【0030】
検索処理部25は、キーフレーズ記憶部24から読み出したキーフレーズのデータに基づいて、クローズドキャプションデータ記憶部22を検索し、その結果として、シーンを分割すべき箇所の時刻情報(分割時刻情報)を得るものである。
検索結果データ26は、検索処理部によって得られた分割時刻情報である。
映像分割処理部27は、検索結果データ26に基づいて、番組映像記憶部21に記憶されている番組映像を分割する処理を行なう。つまり、映像分割処理部は、上の検索結果で得られた時刻で番組映像を分割する。この分割処理により、シーンごとに分割された番組映像を得ることができる。映像分割処理部27は、分割済の映像を分割済番組映像記憶部28に書き込む。
分割済番組映像記憶部28は、映像分割処理部27によって分割された番組映像を記憶するものである。
【0031】
図4は、キーフレーズ抽出装置10が備えるキーフレーズ抽出処理部13の、より詳細な機能構成を示すブロック図である。図示するように、キーフレーズ抽出処理部13は、内部に、セグメント特徴量生成部131と、セグメントアラインメント処理部132と、スコア算出部133とを含んで構成される。
【0032】
セグメント特徴量生成部131は、クローズドキャプションデータ記憶部12からレギュラー番組複数回分のクローズドキャプションデータを読み出し、各回に含まれるセグメントごとのセグメントベクトル(セグメント特徴量)を生成する。なお、セグメント特徴量生成部131は、番組開始時からの相対時刻に関連付けられたクローズドキャプションデータを読み出す。セグメントは、番組を所定の時間で区切ったものである。セグメント特徴量は、セグメント毎に、言語的単位の出現頻度を表わすものである。
セグメントアラインメント処理部132は、生成されたセグメントベクトルを利用して、セグメント間の類似度を算出することにより、各回間でセグメント同士の対応付けを行う。言い換えれば、セグメントアラインメント処理部132は、複数の番組に属するセグメントから類似のセグメントを選択し、それら選択されたセグメントから成るセグメント系列を生成する。
スコア算出部133は、セグメントアラインメント処理部132によってセグメント系列が特定された後、言語的単位ごとのスコアを計算し、このスコアに基づいてクローズドキャプションのテキストの中からキーフレーズを抽出する。言い換えれば、スコア算出部133は、セグメント系列内における言語的単位の出現頻度に基づき言語的単位毎のスコアを算出し、算出されたスコアの良い言語的単位をキーフレーズとして抽出する。
キーフレーズ抽出処理部が備える各部による処理ついて、以下でさらに詳細に説明する。
【0033】
図5は、セグメント特徴量生成部131がセグメントベクトルを生成するための処理の手順を示すフローチャートである。このフローチャートにそって処理を説明する。なお、セグメントそのものについては後で説明する。
セグメント特徴量生成部131は、まずステップS31において、クローズドキャプションデータ記憶部12から番組1回分のクローズドキャプションデータを読み込む。
次にステップS32において、当該番組1回分の中のセグメントを1つ選択する。
次にステップS33において、選択されている現セグメントから1文を取り出す。
次にステップS34において、上で取り出された1文の形態素解析処理を行なう。なお、この形態素解析処理そのものは、既存の技術を用いて行なう。
次にステップS35において、当該文に含まれる単語(本実施形態においては、単語を言語的単位とする)を取り出す。
次にステップS36において、現在の文に出現する単語の頻度(出現回数)を計算し、これに基づいてセグメントベクトルを生成する。セグメントベクトルの具体的な生成方法については後述する。
【0034】
次にステップS37において、現セグメントの最後の文の処理を終えたか否かを判断する。つまり、現セグメントに含まれるすべての文の処理を終えたか否かを判断する。そして、最後の文の処理を終えた場合には次のステップS38に進み、その他の場合には次の文を処理するためにステップS33に戻る。
次にステップS38において、当該放送回の最後のセグメントの処理を終えたか否かを判断する。つまり、当該放送回のすべてのセグメントの処理を終えたか否かを判断する。そして、最後のセグメントの処理を終えた場合には次のステップS39に進み、その他の場合には次のセグメントを処理するためにステップS32に戻る。
最後にステップS39において、当該放送回の全セグメント分のセグメントベクトルを出力する。
【0035】
なお、このフローチャートで説明した処理は、放送1回分のクローズドキャプションデータからセグメントベクトルを生成するためのものである。セグメント特徴量生成部131は、レギュラー番組の複数回分のそれぞれについて、このセグメントベクトル生成の処理を行なう。
【0036】
図6は、セグメントアラインメント処理部132によるアラインメント処理の概略を示す概念図である。
この図において、横軸方向は時間を表わす。また、時間軸に付されている目盛は分単位である。各回の番組は、複数のセグメントを含んでいる。図示する例では、1セグメントの長さは2分であり、j番目のセグメント(j=1,2,3,・・・)は相対時刻(j−1)分に開始し相対時刻(j+1)分に終了する。つまり、セグメント1は相対時刻00:00:00(hh:mm:ss)に開始し相対時刻00:02:00に終了する。セグメント2は、相対時刻00:01:00に開始し相対時刻00:03:00に終了する。セグメント3以降についても同様である。このように隣り合うセグメントは、時間的に重なる領域を持っている。
【0037】
この図は、第1回から第N回までの番組を示しているが、その中でハッチングされた領域が、セグメントアラインメント処理部132によって特定されたセグメント系列である。つまり、図示する例では、第1回のセグメント2(00:01:00から00:03:00まで)と、第2回のセグメント4(00:03:00から00:05:00まで)と、第3回のセグメント3(00:02:00から00:04:00まで)と、・・・(途中記載省略)・・・、第N回のセグメント1(00:00:00から00:02:00)まで)が、ひとつのセグメント系列である。ひとつのセグメント系列は、各回から1つずつ選ばれたセグメントによって構成される。また、セグメントアラインメント処理部132は、後述する方法によって、互いにセグメント特徴量(セグメントベクトル)が近いセグメントを選んでひとつのセグメント系列とする。
なお、この図ではひとつのセグメント系列のみを示しているが、セグメントアラインメント処理部132が第1回から第N回までのデータに基づいて特定するセグメント系列の数は、1に限られず、複数であっても良い。
【0038】
次に、セグメントアラインメント処理部132による処理について、より詳細に説明する。
まず、セグメントアラインメント処理部132は、番組を、一定時間tの長さのセグメントに分割する。このとき、前述の通り、隣り合うセグメントが時間的に重なる領域を持っていても良い。
そして、セグメントアラインメント処理部132は、N回分の番組の入力データに基づき、i回目の番組のj番目のセグメントSijに対応するセグメントベクトルsijを算出する。セグメントベクトルsijは下の式(1)で表わされる。
【0039】
【数1】
【0040】
ここで、Kは、処理の対象としているN回分の番組に含まれる単語の種類数である。但し、助詞や助動詞などの出現頻度を考慮せずにセグメントベクトルを生成する場合には、Kは、それら助詞や助動詞などを除外した単語の種類数である。
そして、xkはK種類の単語の中のk番目(1≦k≦K)の単語wkに対応する値であり、その値は下の式(2)で表わされる。
【0041】
【数2】
【0042】
ここで、fkは、セグメントセグメントSij中の単語wkに対するFisherの正確確率検定による有意確率である(k番目の単語wkがセグメントSijに含まれる場合)。なお、単語wkがセグメントSijに含まれない場合には、xk=0とする。
ここでは、単語の偏りと頻度を考慮するために、Fisherの正確確率検定を用いている。なお、fkの算出法については後で説明する。
【0043】
そして、セグメントアラインメント処理部132は、セグメントベクトルsijに対して、残りのN−1回の番組の各々から、最もコサイン距離の近いセグメントベクトルを有するセグメントを1つずつ選択する。
ここで、第l(エル)回の番組から選択されるセグメントCij,lは、そのセグメントベクトルcij,lが下の式(3)を満たすものである。
【0044】
【数3】
【0045】
つまり、セグメントアラインメント処理部132は、第l(エル)回目の番組に属するセグメントベクトルの中から、K次元空間においてベクトルsijとなす角度が最も小さいセグメントベクトルを選択する。言い換えれば、その角度をθとしたとき、cos(θ)の値が最も大きくなるようなセグメントベクトルを選択する。言い換えれば、ベクトルsijとのコサイン距離が最も小さくなるようなセグメントベクトルを抽出する。言い換えれば、ベクトルsijとの類似度が高いセグメントベクトルを抽出する。
この結果、セグメントアラインメント処理部132は、セグメントsijに対応するセグメント系列seqijを得る。この系列seqijは、下の式(4)で表わされる。
【0046】
【数4】
【0047】
上述したFisherの正確確率検定は、2変数間に統計学的に有意な差があるか否かを判定する検定手法であり、近似せずにすべての可能な事象について列挙し、直接有意確率を計算する。枠とある単語wの頻度の組み合わせを考える場合、下の表に示す2×2分割表を作成する。
【0048】
【表1】
【0049】
この表において枠内とは、第i回の番組のセグメントSijと第l(エル)回の番組のセグメントSlmを含むものである。また、枠外とは、第i回の番組のSij以外のすべてのセグメントと第l(エル)回の番組のSlm以外のすべてのセグメントを含むものである。
上の表に示す事例が出現する確率pは、下の式(5)で与えられる。
【0050】
【数5】
【0051】
そして、有意確率は下の式(6)で表わされる。
【0052】
【数6】
【0053】
つまり、セグメント特徴量生成部131は、言語的単位ごとの正確確率検定による有意確率に基づく値を要素とするベクトルとしてセグメント特徴量を算出する。
【0054】
図7は、上述した方法を用いてセグメントアラインメント処理部132がセグメント系列を求める処理手順を示すフローチャートである。
まず、セグメントアラインメント処理部132は、ステップS41において、番組の放送回の中から未処理のもの(第i回)を1つ選ぶ。
次に、ステップS42において、現放送回(第i回)に含まれるセグメントの中から未処理のものSijを1つ選ぶ。
次に、ステップS43において、前述の手法により、現セグメントSijに対するセグメント系列seqijを得る。
次に、ステップS44において、現放送回(第i回)に含まれるすべてのセグメントの処理を終えたか否かを判断する。終えている場合(YES)には、次のステップS45に進む。終えていない場合(NO)には、未処理のセグメントを処理するためにステップS42に戻る。
次に、ステップS45において、すべての放送回の処理を終えたか否かを判断する。終えている場合(YES)には、このフローチャート全体の処理を終了する。終えていない場合(NO)には、未処理の放送回を処理するためにステップS41に戻る。
【0055】
次に、スコア算出部133によるスコアの算出方法の詳細を説明する。
スコア算出部133は、セグメントSijに対応するセグメント系列seqij内に出現する単語
【0056】
【数7】
【0057】
のスコアscoreij,kを下の式(7)により算出する。
【0058】
【数8】
【0059】
式(7)において、
【0060】
【数9】
【0061】
は、単語
【0062】
【数10】
【0063】
がセグメント系列seqij内で出現した番組数(番組の回数)である。また、Dは、全番組数(番組の回数)である。また、fij,kは、単語
【0064】
【数11】
【0065】
に対するFisherの正確確率検定による有意確率である。なお、このスコア算出部133がスコアを算出する際のFisherの正確確率検定においては、枠内とはセグメント系列seqijに含まれるすべてのセグメントである。また、枠外とは、第1回から第N回までの番組においてセグメント系列seqijに含まれないすべてのセグメントである。
このようなスコアの計算方法によれば、セグメント系列内においてより多くの番組に出現し且つセグメント系列外では出現頻度がより小さいような単語に、より良いスコアを与えることができる。
【0066】
式(7)により計算したスコアが高い単語ほど、シーン分割のために適切なキーフレーズとなりやすい。そして、スコア算出部133は、各セグメントについて単語のスコアを計算し、各セグメントでスコアが上位となる(例えば、上位3個などの)単語をキーフレーズとして獲得する。スコア算出部133は、このようにして獲得したキーフレーズに関するデータをキーフレーズ記憶部14に書き込む。
【0067】
以上述べたように、スコア算出部133は、言語的単位ごとに、全番組数のうちのその言語的単位が出現する番組数の割合が高いほど良い値となり、且つ、正確確率検定による有意確率が低いほど良い値となるスコアを算出する。
【0068】
図8は、上述した方法を用いてスコア算出部133がセグメント系列を求める処理手順を示すフローチャートである。
まず、スコア算出部133は、ステップS51において、番組の放送回の中から未処理のもの(第i回)を1つ選ぶ。
次に、ステップS52において、現放送回(第i回)に含まれるセグメントの中から未処理のものSijを1つ選ぶ。
次に、ステップS53において、現セグメントSijに含まれる単語それぞれについて、式(7)によるスコアを計算する。
次に、ステップS54において、現セグメントSijに含まれる単語の中から、算出したスコアが上位のもの(例えば、上位3個)を選択し、その単語(キーフレーズ)に関するデータをキーフレーズ記憶部14に書き込む。
次に、ステップS55において、現放送回(第i回)に含まれるすべてのセグメントの処理を終えたか否かを判断する。終えている場合(YES)には、次のステップS56に進む。終えていない場合(NO)には、未処理のセグメントを処理するためにステップS52に戻る。
次に、ステップS56において、すべての放送回の処理を終えたか否かを判断する。終えている場合(YES)には、このフローチャート全体の処理を終了する。終えていない場合(NO)には、未処理の放送回を処理するためにステップS51に戻る。
【0069】
図9は、キーフレーズ記憶部14が記憶するデータの構成を示す概略図である。図示するように、キーフレーズ記憶部14が記憶するデータは、番組名、放送回、セグメント、キーフレーズ(単語等の言語的単位)、スコアの項目を有している。番組名は、複数回にわたるレギュラー番組の名称である。放送回(i)は、当該レギュラー番組の第何回の放送であるかを表わすデータである。セグメント(j)は、当該放送回におけるセグメントの番号を表わすデータである。また、このテーブルは、ひとつのセグメント(Sij)につき上位3個のキーフレーズを記憶し、そのそれぞれのキーフレーズに対するスコアも記憶するようになっている。
【0070】
前述したように、シーン分割装置20のキーフレーズ記憶部24は、上のキーフレーズ記憶部14と同様のデータを記憶する。そして、シーン分割装置20の検索処理部25は、キーフレーズ記憶部24から読み出したキーフレーズのデータに基づいて、クローズドキャプションデータ記憶部22を検索する。このとき、検索処理部25が、キーフレーズ記憶部24に記憶されているすべてのキーフレーズを使う代わりに、スコアの高いキーフレーズのみを用いるようにしても良い。そして、検索処理部25は、キーフレーズ記憶部24から読み出したデータに基づき、使用するキーフレーズが属するセグメントを特定し、さらに特定されたセグメントが属するセグメント系列を特定し、その特定されたセグメント系列に含まれるセグメントの中で当該キーフレーズが含まれる箇所を探す処理を行なう。そして、そのキーフレーズが見つかった箇所が、番組映像を複数シーンに分割すべきポイント(分割時刻)となる。
【0071】
図10は、キーフレーズ抽出装置10によって得られたキーフレーズを用いて、検索処理部25がクローズドキャプションデータ記憶部22を検索したことにより得られた分割時刻情報を含む、検索結果データの構成を示す概略図である。この検索結果データは、図3において符号26で示したものである。
【0072】
以上説明したように、本実施形態では、クローズドキャプションデータに基づいて、セグメントごとの言語的単位の特徴を表わすベクトルであるセグメントベクトルを生成し、セグメントベクトル間の類似度を算出することにより、その特徴が類似のセグメントの系列であるセグメント系列を生成し、そのセグメント系列内での言語的単位の出現頻度に基づく言語的単位毎のスコアを算出し、このスコアに基づいて、シーン分割の手がかりとなるキーフレーズを抽出している。これにより、人手によらず、効率よくシーン分割を行なうことが可能となる。
【0073】
[第2の実施形態]
次に、本発明の第2の実施形態について説明する。
第1の実施形態では番組のクローズドキャプションデータを用いたのに対し、本実施形態では、音声を元に音声認識処理を行なって得られた認識結果のテキストを用いる。この音声認識処理に用いられる音声は、元々番組の映像に含まれるものである。従って、音声認識結果のテキストは番組の相対時刻に関連付けられている。
本実施形態では、キーフレーズ抽出装置は、第1の実施形態で用いたクローズドキャプションデータ記憶部12の代わりに、音声認識結果記憶部を備えている。また、シーン分割装置は、第1の実施形態で用いたクローズドキャプションデータ記憶部22の代わりに、音声認識結果記憶部を備えている。この音声認識結果記憶部は、音声認識結果のテキストとその時刻(番組の相対時刻)とを関連付けて保持する。従って、第1の実施形態の場合と同様に、この第2の実施形態においても、テキストを時刻およびセグメントに関連付けて処理することが可能である。
本実施形態では、キーフレーズ抽出処理部(図1の符号13に相当)は、この音声認識結果記憶部から読み出したテキストを用いて処理を行なう。また、検索処理部(図2の符号25に相当)は、この音声認識結果記憶部から読み出したテキストを用いて処理を行なう。
なお、クローズドキャプションデータの代わりに音声認識結果を用いる点以外は、第1の実施形態と同様であるので、第1の実施形態と共通の部分については説明を省略する。
【0074】
[第3の実施形態]
次に、本発明の第3の実施形態について説明する。
第1の実施形態では番組のクローズドキャプションデータを用いたのに対し、本実施形態では、番組台本のテキストを用いる。番組台本のテキストは番組の相対時刻に関連付けられている。
本実施形態では、キーフレーズ抽出装置は、第1の実施形態で用いたクローズドキャプションデータ記憶部12の代わりに、番組台本記憶部を備えている。また、シーン分割装置は、第1の実施形態で用いたクローズドキャプションデータ記憶部22の代わりに、番組台本記憶部を備えている。この番組台本記憶部は、番組台本のテキストとその時刻(番組の相対時刻)とを関連付けて保持する。従って、第1の実施形態の場合と同様に、この第3の実施形態においても、テキストを時刻およびセグメントに関連付けて処理することが可能である。
本実施形態では、キーフレーズ抽出処理部(図1の符号13に相当)は、この番組台本記憶部から読み出したテキストを用いて処理を行なう。また、検索処理部(図2の符号25に相当)は、この番組台本記憶部から読み出したテキストを用いて処理を行なう。
なお、クローズドキャプションデータの代わりに番組台本を用いる点以外は、第1の実施形態と同様であるので、第1の実施形態と共通の部分については説明を省略する。
【0075】
[第4の実施形態]
次に、本発明の第4の実施形態について説明する。
第1〜第3の実施形態では言語的単位として単語を用いていたのに対し、本実施形態では言語的単位として文節を用いる。つまり、本実施形態では、セグメント特徴量生成部(図4の符号131に相当)は、単語の頻度の代わりに文節の頻度を用いてFisherの正確確率検定を行ない、セグメントベクトルを算出する。また、スコア算出部(図4の符号133に相当)は、単語のスコアを算出する代わりに文節ごとのスコアを算出し、スコア値が上位のものをキーフレーズとして抽出する。
なお、言語的単位として文節を用いる点以外は、第1〜第3の実施形態と同様であるので、それらの実施形態と共通の部分については説明を省略する。
【0076】
[第5の実施形態]
次に、本発明の第5の実施形態について説明する。
第1〜第3の実施形態では言語的単位として単語を用いていたのに対し、本実施形態では言語的単位としてnグラム(n−gram)を用いる。ここで用いるnグラムは、文字のnグラム、単語のnグラム、あるいは文節のnグラムのいずれかである。文字のnグラムは、テキスト中で連続して並ぶn文字である。単語のnグラムは、テキスト中で連続して並ぶn単語である。文節のnグラムは、テキスト中で連続して並ぶn文節である。
つまり、本実施形態では、セグメント特徴量生成部(図4の符号131に相当)は、単語の頻度の代わりにnグラムの頻度を用いてFisherの正確確率検定を行ない、セグメントベクトルを算出する。また、スコア算出部(図4の符号133に相当)は、単語のスコアを算出する代わりにnグラムごとのスコアを算出し、スコア値が上位のものをキーフレーズとして抽出する。
なお、言語的単位としてnグラムを用いる点以外は、第1〜第3の実施形態と同様であるので、それらの実施形態と共通の部分については説明を省略する。
【0077】
[第6の実施形態]
次に、本発明の第6の実施形態について説明する。
第1の実施形態では、キーフレーズ抽出装置10が有するクローズドキャプションデータ記憶部12とシーン分割装置20が有するクローズドキャプションデータ記憶部22とは、同じデータ(同じ放送回のデータ)を保持していた。それに対して本実施形態では、それらが保持しているデータが互いに異なる。言い換えれば、それらが保持しているデータの放送回が互いに異なる。例えば、あるレギュラー番組について、キーフレーズ抽出装置10側では1月から7月までの放送分のクローズドキャプションデータを用いてキーフレーズの抽出を行い、それで得られたキーフレーズのデータを元に、シーン分割装置20側では8月から9月分までの放送分のクローズドキャプションデータを検索して、その映像の分割時刻を求める。
番組フォーマットがほぼ一定の場合には、異なる放送回から抽出されたキーフレーズを用いた場合にも良い精度でシーンの分割ができるため、本実施形態の装置が有効である。
本実施形態では、一旦抽出したキーフレーズを流用することができる。つまり、放送回を重ねるごとに改めてキーフレーズ抽出の処理を行なう必要がなく、効率が良い。
【0078】
[第7の実施形態]
次に、本発明の第7の実施形態について説明する。
第1〜第6の実施形態においてはセグメントアラインメント処理部132がセグメント系列を求める際に式(3)を用いていたのに対し、本実施形態では、下の式(8)を用いる。
【0079】
【数12】
【0080】
ただし、式(8)におけるf(x)の定義は、下の式(9)の通りである。
【0081】
【数13】
【0082】
この式(9)は正規分布(ガウス分布)である。ここで、μは、着目しているセグメントSijの開始時刻である。また、xは、第l(エル)回目の放送において選択の対象となるセグメントの開始時刻である。また、σは、この分布に対して適宜与えられる標準偏差である。つまり、式(8)において、関数f(x)が作用することにより、セグメントSijの相対時刻に近いセグメントがセグメント系列として選ばれやすく、セグメントSijの相対時刻から遠いセグメントはセグメント系列として選ばれにくい。
なお、正規分布関数に限らず、セグメントアラインメント処理部がセグメント系列を求める際に、セグメント時刻が遠いものに対するペナルティとして作用するような関数f(x)を適宜選択して用いても良い。
【0083】
本実施形態の特徴は、以上述べたように、セグメントアラインメント処理部が、あるセグメントについてのセグメント系列を生成する際に、当該セグメントの基準となる相対時刻と当該セグメントが属する番組以外の他の番組に属する他のセグメントの基準となる相対時刻との差の絶対値が大きいほど当該他のセグメントが選ばれにくくなるように作用するペナルティ関数値を、算出された類似度に乗じることにより、他のセグメントを選択することである。セグメントの基準となる相対時刻とは、例えば、各セグメントの開始時や終了時やちょうど真ん中の時点の相対時刻である。
【0084】
本実施形態では、セグメント時刻が遠いセグメント同士であるにも関わらずたまたまセグメントベクトルが類似になるようなものが番組フォーマット上存在するときも、そのように時刻の離れたセグメントがセグメント系列として選ばれにくくなる。本発明の趣旨からして、このようなペナルティを与える関数を用いてセグメント系列を選択することは、シーン分割の精度をより一層高めることにつながる。
なお、ペナルティ関数のピーク度合いが過度に急峻であると時間的にわずかに離れたセグメントが極端に選択されにくくなるという弊害も出るため、ペナルティ関数のピーク度合いが適度になだらかになるようなσを選択するようにする。
【0085】
[第8の実施形態]
次に、本発明の第8の実施形態について説明する。
図11は、本実施形態による機能構成を示すブロック図である。図示するように、本実施形態では、キーフレーズ抽出装置の機能とシーン分割装置の機能とを一体化させ、シーン分割装置120として構成している。
番組映像記憶部111は、図1に示した番組映像記憶部11および図3に示した番組映像記憶部21と同様の機能を有する。クローズドキャプションデータ記憶部112は、図1に示したクローズドキャプションデータ記憶部12および図3に示したクローズドキャプションデータ記憶部22と同様の機能を有する。
キーフレーズ抽出装置110は、キーフレーズ抽出処理部113とキーフレーズ記憶部114からなる。キーフレーズ抽出処理部113およびキーフレーズ記憶部114は、それぞれ、図1に示したキーフレーズ抽出処理部13およびキーフレーズ記憶部14と同様の機能を有する。
検索処理部125、検索結果データ126、映像分割処理部127、分割済番組映像記憶部128は、それぞれ、図3に示した検索処理部25、検索結果データ26、映像分割処理部27、分割済番組映像記憶部28と同様の機能を有する。
このシーン分割装置120では、キーフレーズ抽出処理部113が抽出したキーフレーズがキーフレーズ記憶部114に書き込まれ、検索処理部125はそのキーフレーズ記憶部114からキーフレーズの情報を読み出して前述した検索処理を行ない、その検索結果データ126を用いて映像分割処理部127が番組映像の分割を行なう。
【0086】
なお、上述した複数の実施形態におけるキーフレーズ抽出装置およびシーン分割装置の全部または一部の機能をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【0087】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
例えば、上記の各実施形態では、すべてのセグメント長を一定としたが、必ずしも厳密に一定のセグメント長でなくてもよい。
【産業上の利用可能性】
【0088】
本発明は、番組等の映像を効率よくシーン単位に分割するために利用できる。例えば、放送された番組映像の二次活用のために、番組映像を元にシーンごとに管理された映像ライブラリを構築する目的などに利用可能である。
【図面の簡単な説明】
【0089】
【図1】本発明の第1の実施形態によるキーフレーズ抽出装置の機能構成を示したブロック図である。
【図2】同実施形態によるクローズドキャプションデータ(番組テキストデータ)の構成とデータ例を示す概略図である。
【図3】同実施形態によるシーン分割装置の機能構成を示すブロック図である。
【図4】同実施形態によるキーフレーズ抽出処理部の詳細な機能構成を示すブロック図である。
【図5】同実施形態によるセグメント特徴量生成部がセグメントベクトルを生成するための処理の手順を示すフローチャートである。
【図6】同実施形態のセグメントアラインメント処理部によるアラインメント処理の概略を示す概念図である。
【図7】同実施形態によるセグメントアラインメント処理部がセグメント系列を求める処理手順を示すフローチャートである。
【図8】同実施形態によるスコア算出部がセグメント系列を求める処理手順を示すフローチャートである。
【図9】同実施形態によるキーフレーズ記憶部が記憶するデータの構成を示す概略図である。
【図10】同実施形態による検索処理部が検索により得る、分割時刻情報を含む検索結果データの構成を示す概略図である。
【図11】第8の実施形態によるシーン分割装置の機能構成を示すブロック図である。
【符号の説明】
【0090】
10 キーフレーズ抽出装置
11,21 番組映像記憶部
12,22 クローズドキャプションデータ記憶部(番組テキスト記憶部)
13 キーフレーズ抽出処理部
14,24 キーフレーズ記憶部
20 シーン分割装置
25 検索処理部
26 検索結果データ(分割時刻情報)
27 映像分割処理部
28 分割済番組映像記憶部
131 セグメント特徴量生成部
132 セグメントアラインメント処理部
133 スコア算出部
【技術分野】
【0001】
本発明は、自然言語処理技術に関する。特に、映像をシーンごとに分割するためのキーフレーズを抽出するキーフレーズ抽出装置、それらのキーフレーズを利用して映像を分割するシーン分割装置、およびそれらのコンピュータプログラムに関する。
【背景技術】
【0002】
テレビ番組等の大量の映像コンテンツを利用しやすい形で蓄積するために、予め映像コンテンツをシーンごとに分割しておくことが求められている。このとき、人手をかけずに効率的に、妥当なシーンに分割できることが望ましい。
【0003】
非特許文献1に記載される技術では、テキストの語彙的結束性(単語の分布)を算出し、結束度の低い箇所をシーン切れ目と判断する手法が取られる。
また、非特許文献2に記載される技術では、例えば接続詞の「ところで」などといった表層的手がかりを組み合わせることにより、シーン切れ目を判断する手法が取られる。
また、非特許文献3に記載される技術では、尤度関数(言語モデル)を予め定義し、ベイズ学習を行なうことによって話題変化点を検出する手法が取られる。
また、非特許文献4に記載される技術では、テキストの生成モデルとしてleft-to-right型隠れマルコフモデル(HMM)を仮定し、変分ベイズ(VB)法に基づくテキスト分割アルゴリズムを導出している。
【非特許文献1】M.A. Hearst,“Multi-paragraph segmentation of expository text”,32nd Annual Meeting of the Association for Computational Linguistics,1994年,pp.9-16.
【非特許文献2】望月源,本田岳夫,奥村学,「複数の表層的手がかりを統合したテキストセグメンテーション」,自然言語処理,1999年,vol.6,No.3,pp.43-58.
【非特許文献3】持橋大地,菊井玄一郎,「Gibbs Samplingによる確率的テキスト分割と複数観測への拡張」,NLP−2006,2006年,pp.212-215.
【非特許文献4】越仲孝文,奥村明俊,磯谷亮輔,「HMMの変分ベイズ学習によるテキストセグメンテーション及びその映像インデキシングヘの応用」,電子情報通信学会論文誌D,2006年,Vol.J89-D,No.9,pp.2113-2122.
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかしながら、上に述べた従来技術には、次のような問題点がある。
非特許文献1に記載されている技術では、テキストの語彙的結束性を利用するため、シーンの切れ目を境として語彙分布が全く異なるテキストについては有効であると考えられるが、例えば情報提供型のテレビ番組等においては、シーンの切れ目をまたがって類似の語彙分布が出現する場合もよくあるため、そのような映像コンテンツのシーンの分割には不適切である。
【0005】
非特許文献2に記載されている技術では、表層的手がかりを用いるため、手がかり語を予め人が指定する必要がある。そのためには分割しようとする映像コンテンツを人が実際に視聴する必要があるなど、効率が悪いという問題がある。
【0006】
非特許文献3に記載されている技術では、あらかじめ話題数を指定する必要がある。また、サンプリング法を使うものであるため、様々な話題を含むテキストにこの手法を適用して且つシーン分割の精度を上げるためには、大量のデータを用意する必要があるという問題がある。さらに、シーン分割の対象となるデータに対して、尤度関数(言語モデル)をあらかじめ綿密に作る必要があるという問題がある。
【0007】
非特許文献4に記載されている技術は、話題数が未知である場合にも利用できる。また、シーンの切れ目を境に語の分布が全く異なるテキストに対しては有効であると考えられる。当該文献においては、この技術をニュース番組に適用して評価実験を行なっている。しかしながら、非特許文献1の技術と同様に、シーンの切れ目をまたがって類似の語彙分布が出現するような映像コンテンツに対しては、有効ではない。
【0008】
例えば、情報提供型のテレビ番組では、番組の最初から終わりまでが一貫したテーマを有している場合がある。一例としてNHKのテレビ番組「ためしてガッテン」では、「温泉の入り方」や「おいしいチャーハンの極意」など、一回分の放送におけるトピックは番組のはじめから終わりまで同一であり、その一回分の放送の中で少しずつシーンが変化したり、多角的な検証が行われたりする。このような場合には、放送一回分の中では語彙分布の変化が期待できず、従って、語彙分布を利用して番組中のシーンの切れ目を検出するのは困難である。
また、非特許文献2の技術のように手がかり語を用いようとしても、テレビ番組で使われるのは話し言葉であり語や文節などが省略される場合が多く、さらに放送字幕においては接続詞が省略されることも多い。従って、シーンの切れ目を検出するためには、人手で列挙した手がかり語だけを用いてでは不十分である。
【0009】
本発明は、上記のような事情を考慮して為されたものであり、人手で与える手がかり語を用いることなく、語彙分布がそれほど変わらないシーン間の切れ目を効率的に検出するためのキーフレーズ抽出装置と、検出された切れ目で映像コンテンツを分割するシーン分割装置、およびコンピュータプログラムを提供することを目的とする。
【課題を解決するための手段】
【0010】
本発明は、いわゆるレギュラー番組においては、毎回(言い換えれば、毎放送回、毎番組)、同じシーン転換あるいは類似のシーン転換がなされることに着目する。そして、上記の課題を解決するため、本発明は、このシーン転換部分の特徴的な語などを手がかり語(キーフレーズ)として取り出す。そして、単語等の言語的単位の分布が似ているセグメントを番組ごとに集め、そのセグメント系列から話題展開の手がかりとなる語をキーフレーズとして抽出する。
【0011】
[1]本発明の一態様によるキーフレーズ抽出装置は、番組開始時からの相対時刻と、前記相対時刻に関連付けられたテキストとを記憶する番組テキスト記憶部と、前記番組テキスト記憶部から読み出した前記相対時刻および前記テキストに基づき、番組を時間で区切ったセグメント毎に、言語的単位の出現頻度を表わすセグメント特徴量を算出するセグメント特徴量生成部と、前記セグメント特徴量生成部によって算出された前記セグメント特徴量のセグメント間の類似度を算出することにより、複数の番組に属するセグメントから類似のセグメントを選択し、それら選択されたセグメントから成るセグメント系列を生成するセグメントアラインメント処理部と、前記セグメントアラインメント処理部によって生成されたセグメント系列内における前記言語的単位の出現頻度に基づき言語的単位毎のスコアを算出し、算出されたスコアの良い言語的単位をキーフレーズとして抽出するスコア算出部とを具備することを特徴とする。
なお、ここで、言語的単位とは、例えば単語や文節やNグラム(N−gram)など、言語上の所定のまとまりを持つ単位である。
【0012】
これによれば、番組を時間で区切ったセグメント毎に言語的単位の出現頻度に基づくセグメント特徴量が算出され、このセグメント特徴量を用いてセグメント間の類似度を算出することができる。このとき、セグメント間の類似度としては、ある番組に含まれるセグメントと、他の番組に含まれるセグメントとの間の類似度を算出することができる。これにより、複数の番組(レギュラー番組の一連の放送回など)にわたって、類似度の高い一連のセグメントからなるセグメント系列を生成できる。セグメント系列を構成するそれぞれのセグメントは、必ずしも番組開始時からの相対時刻が同じものには限定されない。このセグメント系列を構成する複数のセグメントは、それぞれの番組に含まれる同じ話題転換点を含んでいる可能性が比較的高い。そして、スコア算出部は、生成されたセグメント系列内における言語的単位の出現頻度に基づき言語的単位毎のスコアを算出する。スコアを算出する際の計算により、セグメント系列内においてより多くの番組に出現し且つセグメント系列外では出現頻度が比較的小さいような言語的単位に、良いスコアを与えることができる。そして、良いスコアが得られた言語的単位が、話題転換点の手がかりとなるキーフレーズとして抽出される。
【0013】
[2]また、本発明の一態様は、上記のキーフレーズ抽出装置において、セグメント特徴量生成部は、前記言語的単位ごとの正確確率検定による有意確率に基づく値を要素とするベクトルとして前記セグメント特徴量を算出することを特徴とする。
【0014】
これにより、標本数が比較的少ない場合にも、セグメント内かセグメント外かによって統計的に有意な差のある言語的単位の存在が、セグメント特徴量の値を特徴付ける。
【0015】
[3]また、本発明の一態様は、上記のキーフレーズ抽出装置において、前記スコア算出部は、言語的単位毎に、全番組数のうち前記セグメント系列内において当該言語的単位が出現する番組数の割合が高いほど良い値となり、且つ、正確確率検定による有意確率が低いほど良い値となる前記スコアを算出することを特徴とする。
【0016】
これにより、標本数が比較的少ない場合にも、セグメント系列内で特有に出現し、統計的に有意な言語的単位に、良いスコアを与えることができる。
【0017】
[4]また、本発明の一態様は、上記のキーフレーズ抽出装置において、前記セグメントアラインメント処理部は、あるセグメントについてのセグメント系列を生成する際に、当該セグメントの基準となる相対時刻と当該セグメントが属する番組以外の他の番組に属する他のセグメントの基準となる相対時刻との差の絶対値が大きいほど当該他のセグメントが選ばれにくくなるように作用するペナルティ関数値を、算出された前記類似度に乗じることにより、前記他のセグメントを選択することを特徴とする。
【0018】
これにより、ある番組のあるセグメントに着目したとき、他の番組内に、セグメント間の言語的単位の出現頻度の特徴が同じような複数のセグメントが仮に存在する場合にも、番組開始時からの相対時刻が近いセグメントほど、着目したセグメントの系列として選択されやすい。番組のフォーマット上、ある話題転換点の相対時刻が複数の番組間で近いという前提に基づくと、この構成により、セグメントアラインメントの精度がより高くなる。
【0019】
[5]また、本発明の一態様によるシーン分割装置は、上記のいずれかの態様のキーフレーズ抽出装置と、前記番組テキスト記憶部に記憶されたテキストに対応する番組映像を記憶する番組映像記憶部と、前記スコア算出部が抽出したキーフレーズを用いて前記番組テキスト記憶部を検索することにより番組のシーンを分割すべき分割時刻情報を得る検索処理部と、前記検索処理部によって得られた前記分割時刻情報を用いて、前記番組テキスト記憶部に記憶されたテキストに対応する番組映像を前記番組映像記憶部から読み出してシーンに分割する処理を行なう映像分割処理部を具備することを特徴とする。
【0020】
これにより、番組テキストに基づいて抽出されたキーフレーズを手がかりに、実際に番組映像をシーン毎に分割することができる。
【0021】
[6]また、本発明のコンピュータプログラムは、コンピュータを、上記のいずれかの態様のキーフレーズ抽出装置あるいはシーン分割装置として機能させる。
例えば、その一態様は、番組開始時からの相対時刻と、前記相対時刻に関連付けられたテキストとを記憶する番組テキスト記憶部を具備するコンピュータに、前記番組テキスト記憶部から読み出した前記相対時刻および前記テキストに基づき、番組を時間で区切ったセグメント毎に、言語的単位の出現頻度を表わすセグメント特徴量を算出するセグメント特徴量生成過程と、前記セグメント特徴量生成過程によって算出された前記セグメント特徴量のセグメント間の類似度を算出することにより、複数の番組に属するセグメントから類似のセグメントを選択し、それら選択されたセグメントから成るセグメント系列を生成するセグメントアラインメント処理過程と、前記セグメントアラインメント処理過程によって生成されたセグメント系列内における前記言語的単位の出現頻度に基づき言語的単位毎のスコアを算出し、算出されたスコアの良い言語的単位をキーフレーズとして抽出するスコア算出過程との処理を実行させるプログラムである。
【発明の効果】
【0022】
本発明によれば、言語的単位の出現の特徴に基づき、シーンの切れ目に対応するキーフレーズを抽出することができる。これにより、人手に頼らずに番組映像等を効率的にシーンに分割できる。これにより、シーンごとに分割された映像ライブラリを構築できる。放送局において、番組制作者などが番組映像から必要なシーンのみを取り出す際、話題転換で切れ目があるとより的確に目的のシーンを取り出しやすい。また、ビデオ・オン・デマンドや教育用途における映像百科などのサービスにおいて、シーンごとに番組が分割されていると二次活用しやすくなる。
【発明を実施するための最良の形態】
【0023】
以下、図面を参照しながら、本発明の複数の実施形態を説明する。
【0024】
[第1の実施の形態]
図1は、第1の実施形態によるキーフレーズ抽出装置の機能構成を示すブロック図である。図示するように、キーフレーズ抽出装置10は、番組映像記憶部11と、クローズドキャプションデータ記憶部12(番組テキスト記憶部)と、キーフレーズ抽出処理部13と、キーフレーズ記憶部14とを含んで構成される。
【0025】
番組映像記憶部11は、テレビ等の番組の映像データ(この映像データは、音声データを含む。以下においても同様。)を記憶するものである。ここで番組映像記憶部11が記憶する番組は、いわゆるレギュラー番組である。つまり、番組映像記憶部11は、ある番組の第1回放送分、第2回放送分、・・・と、所定の番組フォーマットに従って進行する複数回分の映像データを記憶する。
クローズドキャプションデータ記憶部12は、番組映像記憶部11が記憶する映像データそれぞれに対応するクローズドキャプション(画面に表示するための字幕)のデータを記憶する。なお、クローズドキャプションデータ記憶部12は、番組開始時からの相対時刻と、この相対時刻に関連付けられたクローズドキャプション(テキスト)とを記憶するものである。
キーフレーズ抽出処理部13は、上記のクローズドキャプションのデータを元に、シーン分割の手がかりとなり得るキーフレーズを抽出する処理を行うものである。
キーフレーズ記憶部14は、キーフレーズ抽出処理部によって抽出されたキーフレーズを記憶するものである。
【0026】
番組映像記憶部11とクローズドキャプションデータ記憶部12とキーフレーズ記憶部14は、例えばハードディスク装置や半導体メモリなどを用いて実現する。また、適宜、ファイルシステムあるいはデータベース管理システムを用いて、これらの記憶部に記憶されるデータを管理する。
【0027】
図2は、クローズドキャプションデータ記憶部12が記憶するクローズドキャプションデータの構成とデータ例を示す概略図である。図示するように、クローズドキャプションデータは、相対時刻とクローズドキャプション(テキスト)が関連付けられているデータである。この相対時刻は、対応するクローズドキャプションの表示が開始される時刻であり、番組映像の開始時点を起点とする「時:分:秒.フレーム番号」の形式で表わされている。ここでフレーム番号は、当該秒内におけるフレームの相対番号であり、テレビ番組等の映像は通常1秒あたり30枚のフレームで構成される。つまり、クローズドキャプションのテキストは、この相対時刻を介して、番組映像内の1フレームに関連付けられている。
図示する例において、1行目のデータは、相対時刻が「00:05:05.01」のときに、「こんばんは 5月になりました。」というクローズドキャプションの表示が開始されることを表わす。
なお、ここで図示しているデータは、特定の番組の特定の放送回の中における相対時刻と、それに対応するクローズドキャプションである。
【0028】
図3は、本実施形態によるシーン分割装置の機能構成を示すブロック図である。図示するように、シーン分割装置20は、番組映像記憶部21と、クローズドキャプションデータ記憶部22と、キーフレーズ記憶部24と、検索処理部25と、検索結果データ26(分割時刻情報)と、映像分割処理部27と、分割済番組映像記憶部28とを含んで構成される。
【0029】
番組映像記憶部21は、図1に示した番組映像記憶部11と同様のデータ(映像)を記憶するものである。なお、これらの番組映像記憶部11および21を、共通の記憶装置によって実現しても良い。
また、クローズドキャプションデータ記憶部22は、図1に示したクローズドキャプションデータ記憶部12と同様のデータを記憶するものである。なお、これらのクローズドキャプションデータ記憶部12および22を、共通の記憶装置によって実現しても良い。
また、キーフレーズ記憶部24は、図1に示したキーフレーズ記憶部14と同様のデータ(抽出されたキーフレーズのデータ)を記憶するものである。なお、これらのキーフレーズ記憶部14および24を、共通の記憶装置によって実現しても良い。
【0030】
検索処理部25は、キーフレーズ記憶部24から読み出したキーフレーズのデータに基づいて、クローズドキャプションデータ記憶部22を検索し、その結果として、シーンを分割すべき箇所の時刻情報(分割時刻情報)を得るものである。
検索結果データ26は、検索処理部によって得られた分割時刻情報である。
映像分割処理部27は、検索結果データ26に基づいて、番組映像記憶部21に記憶されている番組映像を分割する処理を行なう。つまり、映像分割処理部は、上の検索結果で得られた時刻で番組映像を分割する。この分割処理により、シーンごとに分割された番組映像を得ることができる。映像分割処理部27は、分割済の映像を分割済番組映像記憶部28に書き込む。
分割済番組映像記憶部28は、映像分割処理部27によって分割された番組映像を記憶するものである。
【0031】
図4は、キーフレーズ抽出装置10が備えるキーフレーズ抽出処理部13の、より詳細な機能構成を示すブロック図である。図示するように、キーフレーズ抽出処理部13は、内部に、セグメント特徴量生成部131と、セグメントアラインメント処理部132と、スコア算出部133とを含んで構成される。
【0032】
セグメント特徴量生成部131は、クローズドキャプションデータ記憶部12からレギュラー番組複数回分のクローズドキャプションデータを読み出し、各回に含まれるセグメントごとのセグメントベクトル(セグメント特徴量)を生成する。なお、セグメント特徴量生成部131は、番組開始時からの相対時刻に関連付けられたクローズドキャプションデータを読み出す。セグメントは、番組を所定の時間で区切ったものである。セグメント特徴量は、セグメント毎に、言語的単位の出現頻度を表わすものである。
セグメントアラインメント処理部132は、生成されたセグメントベクトルを利用して、セグメント間の類似度を算出することにより、各回間でセグメント同士の対応付けを行う。言い換えれば、セグメントアラインメント処理部132は、複数の番組に属するセグメントから類似のセグメントを選択し、それら選択されたセグメントから成るセグメント系列を生成する。
スコア算出部133は、セグメントアラインメント処理部132によってセグメント系列が特定された後、言語的単位ごとのスコアを計算し、このスコアに基づいてクローズドキャプションのテキストの中からキーフレーズを抽出する。言い換えれば、スコア算出部133は、セグメント系列内における言語的単位の出現頻度に基づき言語的単位毎のスコアを算出し、算出されたスコアの良い言語的単位をキーフレーズとして抽出する。
キーフレーズ抽出処理部が備える各部による処理ついて、以下でさらに詳細に説明する。
【0033】
図5は、セグメント特徴量生成部131がセグメントベクトルを生成するための処理の手順を示すフローチャートである。このフローチャートにそって処理を説明する。なお、セグメントそのものについては後で説明する。
セグメント特徴量生成部131は、まずステップS31において、クローズドキャプションデータ記憶部12から番組1回分のクローズドキャプションデータを読み込む。
次にステップS32において、当該番組1回分の中のセグメントを1つ選択する。
次にステップS33において、選択されている現セグメントから1文を取り出す。
次にステップS34において、上で取り出された1文の形態素解析処理を行なう。なお、この形態素解析処理そのものは、既存の技術を用いて行なう。
次にステップS35において、当該文に含まれる単語(本実施形態においては、単語を言語的単位とする)を取り出す。
次にステップS36において、現在の文に出現する単語の頻度(出現回数)を計算し、これに基づいてセグメントベクトルを生成する。セグメントベクトルの具体的な生成方法については後述する。
【0034】
次にステップS37において、現セグメントの最後の文の処理を終えたか否かを判断する。つまり、現セグメントに含まれるすべての文の処理を終えたか否かを判断する。そして、最後の文の処理を終えた場合には次のステップS38に進み、その他の場合には次の文を処理するためにステップS33に戻る。
次にステップS38において、当該放送回の最後のセグメントの処理を終えたか否かを判断する。つまり、当該放送回のすべてのセグメントの処理を終えたか否かを判断する。そして、最後のセグメントの処理を終えた場合には次のステップS39に進み、その他の場合には次のセグメントを処理するためにステップS32に戻る。
最後にステップS39において、当該放送回の全セグメント分のセグメントベクトルを出力する。
【0035】
なお、このフローチャートで説明した処理は、放送1回分のクローズドキャプションデータからセグメントベクトルを生成するためのものである。セグメント特徴量生成部131は、レギュラー番組の複数回分のそれぞれについて、このセグメントベクトル生成の処理を行なう。
【0036】
図6は、セグメントアラインメント処理部132によるアラインメント処理の概略を示す概念図である。
この図において、横軸方向は時間を表わす。また、時間軸に付されている目盛は分単位である。各回の番組は、複数のセグメントを含んでいる。図示する例では、1セグメントの長さは2分であり、j番目のセグメント(j=1,2,3,・・・)は相対時刻(j−1)分に開始し相対時刻(j+1)分に終了する。つまり、セグメント1は相対時刻00:00:00(hh:mm:ss)に開始し相対時刻00:02:00に終了する。セグメント2は、相対時刻00:01:00に開始し相対時刻00:03:00に終了する。セグメント3以降についても同様である。このように隣り合うセグメントは、時間的に重なる領域を持っている。
【0037】
この図は、第1回から第N回までの番組を示しているが、その中でハッチングされた領域が、セグメントアラインメント処理部132によって特定されたセグメント系列である。つまり、図示する例では、第1回のセグメント2(00:01:00から00:03:00まで)と、第2回のセグメント4(00:03:00から00:05:00まで)と、第3回のセグメント3(00:02:00から00:04:00まで)と、・・・(途中記載省略)・・・、第N回のセグメント1(00:00:00から00:02:00)まで)が、ひとつのセグメント系列である。ひとつのセグメント系列は、各回から1つずつ選ばれたセグメントによって構成される。また、セグメントアラインメント処理部132は、後述する方法によって、互いにセグメント特徴量(セグメントベクトル)が近いセグメントを選んでひとつのセグメント系列とする。
なお、この図ではひとつのセグメント系列のみを示しているが、セグメントアラインメント処理部132が第1回から第N回までのデータに基づいて特定するセグメント系列の数は、1に限られず、複数であっても良い。
【0038】
次に、セグメントアラインメント処理部132による処理について、より詳細に説明する。
まず、セグメントアラインメント処理部132は、番組を、一定時間tの長さのセグメントに分割する。このとき、前述の通り、隣り合うセグメントが時間的に重なる領域を持っていても良い。
そして、セグメントアラインメント処理部132は、N回分の番組の入力データに基づき、i回目の番組のj番目のセグメントSijに対応するセグメントベクトルsijを算出する。セグメントベクトルsijは下の式(1)で表わされる。
【0039】
【数1】
【0040】
ここで、Kは、処理の対象としているN回分の番組に含まれる単語の種類数である。但し、助詞や助動詞などの出現頻度を考慮せずにセグメントベクトルを生成する場合には、Kは、それら助詞や助動詞などを除外した単語の種類数である。
そして、xkはK種類の単語の中のk番目(1≦k≦K)の単語wkに対応する値であり、その値は下の式(2)で表わされる。
【0041】
【数2】
【0042】
ここで、fkは、セグメントセグメントSij中の単語wkに対するFisherの正確確率検定による有意確率である(k番目の単語wkがセグメントSijに含まれる場合)。なお、単語wkがセグメントSijに含まれない場合には、xk=0とする。
ここでは、単語の偏りと頻度を考慮するために、Fisherの正確確率検定を用いている。なお、fkの算出法については後で説明する。
【0043】
そして、セグメントアラインメント処理部132は、セグメントベクトルsijに対して、残りのN−1回の番組の各々から、最もコサイン距離の近いセグメントベクトルを有するセグメントを1つずつ選択する。
ここで、第l(エル)回の番組から選択されるセグメントCij,lは、そのセグメントベクトルcij,lが下の式(3)を満たすものである。
【0044】
【数3】
【0045】
つまり、セグメントアラインメント処理部132は、第l(エル)回目の番組に属するセグメントベクトルの中から、K次元空間においてベクトルsijとなす角度が最も小さいセグメントベクトルを選択する。言い換えれば、その角度をθとしたとき、cos(θ)の値が最も大きくなるようなセグメントベクトルを選択する。言い換えれば、ベクトルsijとのコサイン距離が最も小さくなるようなセグメントベクトルを抽出する。言い換えれば、ベクトルsijとの類似度が高いセグメントベクトルを抽出する。
この結果、セグメントアラインメント処理部132は、セグメントsijに対応するセグメント系列seqijを得る。この系列seqijは、下の式(4)で表わされる。
【0046】
【数4】
【0047】
上述したFisherの正確確率検定は、2変数間に統計学的に有意な差があるか否かを判定する検定手法であり、近似せずにすべての可能な事象について列挙し、直接有意確率を計算する。枠とある単語wの頻度の組み合わせを考える場合、下の表に示す2×2分割表を作成する。
【0048】
【表1】
【0049】
この表において枠内とは、第i回の番組のセグメントSijと第l(エル)回の番組のセグメントSlmを含むものである。また、枠外とは、第i回の番組のSij以外のすべてのセグメントと第l(エル)回の番組のSlm以外のすべてのセグメントを含むものである。
上の表に示す事例が出現する確率pは、下の式(5)で与えられる。
【0050】
【数5】
【0051】
そして、有意確率は下の式(6)で表わされる。
【0052】
【数6】
【0053】
つまり、セグメント特徴量生成部131は、言語的単位ごとの正確確率検定による有意確率に基づく値を要素とするベクトルとしてセグメント特徴量を算出する。
【0054】
図7は、上述した方法を用いてセグメントアラインメント処理部132がセグメント系列を求める処理手順を示すフローチャートである。
まず、セグメントアラインメント処理部132は、ステップS41において、番組の放送回の中から未処理のもの(第i回)を1つ選ぶ。
次に、ステップS42において、現放送回(第i回)に含まれるセグメントの中から未処理のものSijを1つ選ぶ。
次に、ステップS43において、前述の手法により、現セグメントSijに対するセグメント系列seqijを得る。
次に、ステップS44において、現放送回(第i回)に含まれるすべてのセグメントの処理を終えたか否かを判断する。終えている場合(YES)には、次のステップS45に進む。終えていない場合(NO)には、未処理のセグメントを処理するためにステップS42に戻る。
次に、ステップS45において、すべての放送回の処理を終えたか否かを判断する。終えている場合(YES)には、このフローチャート全体の処理を終了する。終えていない場合(NO)には、未処理の放送回を処理するためにステップS41に戻る。
【0055】
次に、スコア算出部133によるスコアの算出方法の詳細を説明する。
スコア算出部133は、セグメントSijに対応するセグメント系列seqij内に出現する単語
【0056】
【数7】
【0057】
のスコアscoreij,kを下の式(7)により算出する。
【0058】
【数8】
【0059】
式(7)において、
【0060】
【数9】
【0061】
は、単語
【0062】
【数10】
【0063】
がセグメント系列seqij内で出現した番組数(番組の回数)である。また、Dは、全番組数(番組の回数)である。また、fij,kは、単語
【0064】
【数11】
【0065】
に対するFisherの正確確率検定による有意確率である。なお、このスコア算出部133がスコアを算出する際のFisherの正確確率検定においては、枠内とはセグメント系列seqijに含まれるすべてのセグメントである。また、枠外とは、第1回から第N回までの番組においてセグメント系列seqijに含まれないすべてのセグメントである。
このようなスコアの計算方法によれば、セグメント系列内においてより多くの番組に出現し且つセグメント系列外では出現頻度がより小さいような単語に、より良いスコアを与えることができる。
【0066】
式(7)により計算したスコアが高い単語ほど、シーン分割のために適切なキーフレーズとなりやすい。そして、スコア算出部133は、各セグメントについて単語のスコアを計算し、各セグメントでスコアが上位となる(例えば、上位3個などの)単語をキーフレーズとして獲得する。スコア算出部133は、このようにして獲得したキーフレーズに関するデータをキーフレーズ記憶部14に書き込む。
【0067】
以上述べたように、スコア算出部133は、言語的単位ごとに、全番組数のうちのその言語的単位が出現する番組数の割合が高いほど良い値となり、且つ、正確確率検定による有意確率が低いほど良い値となるスコアを算出する。
【0068】
図8は、上述した方法を用いてスコア算出部133がセグメント系列を求める処理手順を示すフローチャートである。
まず、スコア算出部133は、ステップS51において、番組の放送回の中から未処理のもの(第i回)を1つ選ぶ。
次に、ステップS52において、現放送回(第i回)に含まれるセグメントの中から未処理のものSijを1つ選ぶ。
次に、ステップS53において、現セグメントSijに含まれる単語それぞれについて、式(7)によるスコアを計算する。
次に、ステップS54において、現セグメントSijに含まれる単語の中から、算出したスコアが上位のもの(例えば、上位3個)を選択し、その単語(キーフレーズ)に関するデータをキーフレーズ記憶部14に書き込む。
次に、ステップS55において、現放送回(第i回)に含まれるすべてのセグメントの処理を終えたか否かを判断する。終えている場合(YES)には、次のステップS56に進む。終えていない場合(NO)には、未処理のセグメントを処理するためにステップS52に戻る。
次に、ステップS56において、すべての放送回の処理を終えたか否かを判断する。終えている場合(YES)には、このフローチャート全体の処理を終了する。終えていない場合(NO)には、未処理の放送回を処理するためにステップS51に戻る。
【0069】
図9は、キーフレーズ記憶部14が記憶するデータの構成を示す概略図である。図示するように、キーフレーズ記憶部14が記憶するデータは、番組名、放送回、セグメント、キーフレーズ(単語等の言語的単位)、スコアの項目を有している。番組名は、複数回にわたるレギュラー番組の名称である。放送回(i)は、当該レギュラー番組の第何回の放送であるかを表わすデータである。セグメント(j)は、当該放送回におけるセグメントの番号を表わすデータである。また、このテーブルは、ひとつのセグメント(Sij)につき上位3個のキーフレーズを記憶し、そのそれぞれのキーフレーズに対するスコアも記憶するようになっている。
【0070】
前述したように、シーン分割装置20のキーフレーズ記憶部24は、上のキーフレーズ記憶部14と同様のデータを記憶する。そして、シーン分割装置20の検索処理部25は、キーフレーズ記憶部24から読み出したキーフレーズのデータに基づいて、クローズドキャプションデータ記憶部22を検索する。このとき、検索処理部25が、キーフレーズ記憶部24に記憶されているすべてのキーフレーズを使う代わりに、スコアの高いキーフレーズのみを用いるようにしても良い。そして、検索処理部25は、キーフレーズ記憶部24から読み出したデータに基づき、使用するキーフレーズが属するセグメントを特定し、さらに特定されたセグメントが属するセグメント系列を特定し、その特定されたセグメント系列に含まれるセグメントの中で当該キーフレーズが含まれる箇所を探す処理を行なう。そして、そのキーフレーズが見つかった箇所が、番組映像を複数シーンに分割すべきポイント(分割時刻)となる。
【0071】
図10は、キーフレーズ抽出装置10によって得られたキーフレーズを用いて、検索処理部25がクローズドキャプションデータ記憶部22を検索したことにより得られた分割時刻情報を含む、検索結果データの構成を示す概略図である。この検索結果データは、図3において符号26で示したものである。
【0072】
以上説明したように、本実施形態では、クローズドキャプションデータに基づいて、セグメントごとの言語的単位の特徴を表わすベクトルであるセグメントベクトルを生成し、セグメントベクトル間の類似度を算出することにより、その特徴が類似のセグメントの系列であるセグメント系列を生成し、そのセグメント系列内での言語的単位の出現頻度に基づく言語的単位毎のスコアを算出し、このスコアに基づいて、シーン分割の手がかりとなるキーフレーズを抽出している。これにより、人手によらず、効率よくシーン分割を行なうことが可能となる。
【0073】
[第2の実施形態]
次に、本発明の第2の実施形態について説明する。
第1の実施形態では番組のクローズドキャプションデータを用いたのに対し、本実施形態では、音声を元に音声認識処理を行なって得られた認識結果のテキストを用いる。この音声認識処理に用いられる音声は、元々番組の映像に含まれるものである。従って、音声認識結果のテキストは番組の相対時刻に関連付けられている。
本実施形態では、キーフレーズ抽出装置は、第1の実施形態で用いたクローズドキャプションデータ記憶部12の代わりに、音声認識結果記憶部を備えている。また、シーン分割装置は、第1の実施形態で用いたクローズドキャプションデータ記憶部22の代わりに、音声認識結果記憶部を備えている。この音声認識結果記憶部は、音声認識結果のテキストとその時刻(番組の相対時刻)とを関連付けて保持する。従って、第1の実施形態の場合と同様に、この第2の実施形態においても、テキストを時刻およびセグメントに関連付けて処理することが可能である。
本実施形態では、キーフレーズ抽出処理部(図1の符号13に相当)は、この音声認識結果記憶部から読み出したテキストを用いて処理を行なう。また、検索処理部(図2の符号25に相当)は、この音声認識結果記憶部から読み出したテキストを用いて処理を行なう。
なお、クローズドキャプションデータの代わりに音声認識結果を用いる点以外は、第1の実施形態と同様であるので、第1の実施形態と共通の部分については説明を省略する。
【0074】
[第3の実施形態]
次に、本発明の第3の実施形態について説明する。
第1の実施形態では番組のクローズドキャプションデータを用いたのに対し、本実施形態では、番組台本のテキストを用いる。番組台本のテキストは番組の相対時刻に関連付けられている。
本実施形態では、キーフレーズ抽出装置は、第1の実施形態で用いたクローズドキャプションデータ記憶部12の代わりに、番組台本記憶部を備えている。また、シーン分割装置は、第1の実施形態で用いたクローズドキャプションデータ記憶部22の代わりに、番組台本記憶部を備えている。この番組台本記憶部は、番組台本のテキストとその時刻(番組の相対時刻)とを関連付けて保持する。従って、第1の実施形態の場合と同様に、この第3の実施形態においても、テキストを時刻およびセグメントに関連付けて処理することが可能である。
本実施形態では、キーフレーズ抽出処理部(図1の符号13に相当)は、この番組台本記憶部から読み出したテキストを用いて処理を行なう。また、検索処理部(図2の符号25に相当)は、この番組台本記憶部から読み出したテキストを用いて処理を行なう。
なお、クローズドキャプションデータの代わりに番組台本を用いる点以外は、第1の実施形態と同様であるので、第1の実施形態と共通の部分については説明を省略する。
【0075】
[第4の実施形態]
次に、本発明の第4の実施形態について説明する。
第1〜第3の実施形態では言語的単位として単語を用いていたのに対し、本実施形態では言語的単位として文節を用いる。つまり、本実施形態では、セグメント特徴量生成部(図4の符号131に相当)は、単語の頻度の代わりに文節の頻度を用いてFisherの正確確率検定を行ない、セグメントベクトルを算出する。また、スコア算出部(図4の符号133に相当)は、単語のスコアを算出する代わりに文節ごとのスコアを算出し、スコア値が上位のものをキーフレーズとして抽出する。
なお、言語的単位として文節を用いる点以外は、第1〜第3の実施形態と同様であるので、それらの実施形態と共通の部分については説明を省略する。
【0076】
[第5の実施形態]
次に、本発明の第5の実施形態について説明する。
第1〜第3の実施形態では言語的単位として単語を用いていたのに対し、本実施形態では言語的単位としてnグラム(n−gram)を用いる。ここで用いるnグラムは、文字のnグラム、単語のnグラム、あるいは文節のnグラムのいずれかである。文字のnグラムは、テキスト中で連続して並ぶn文字である。単語のnグラムは、テキスト中で連続して並ぶn単語である。文節のnグラムは、テキスト中で連続して並ぶn文節である。
つまり、本実施形態では、セグメント特徴量生成部(図4の符号131に相当)は、単語の頻度の代わりにnグラムの頻度を用いてFisherの正確確率検定を行ない、セグメントベクトルを算出する。また、スコア算出部(図4の符号133に相当)は、単語のスコアを算出する代わりにnグラムごとのスコアを算出し、スコア値が上位のものをキーフレーズとして抽出する。
なお、言語的単位としてnグラムを用いる点以外は、第1〜第3の実施形態と同様であるので、それらの実施形態と共通の部分については説明を省略する。
【0077】
[第6の実施形態]
次に、本発明の第6の実施形態について説明する。
第1の実施形態では、キーフレーズ抽出装置10が有するクローズドキャプションデータ記憶部12とシーン分割装置20が有するクローズドキャプションデータ記憶部22とは、同じデータ(同じ放送回のデータ)を保持していた。それに対して本実施形態では、それらが保持しているデータが互いに異なる。言い換えれば、それらが保持しているデータの放送回が互いに異なる。例えば、あるレギュラー番組について、キーフレーズ抽出装置10側では1月から7月までの放送分のクローズドキャプションデータを用いてキーフレーズの抽出を行い、それで得られたキーフレーズのデータを元に、シーン分割装置20側では8月から9月分までの放送分のクローズドキャプションデータを検索して、その映像の分割時刻を求める。
番組フォーマットがほぼ一定の場合には、異なる放送回から抽出されたキーフレーズを用いた場合にも良い精度でシーンの分割ができるため、本実施形態の装置が有効である。
本実施形態では、一旦抽出したキーフレーズを流用することができる。つまり、放送回を重ねるごとに改めてキーフレーズ抽出の処理を行なう必要がなく、効率が良い。
【0078】
[第7の実施形態]
次に、本発明の第7の実施形態について説明する。
第1〜第6の実施形態においてはセグメントアラインメント処理部132がセグメント系列を求める際に式(3)を用いていたのに対し、本実施形態では、下の式(8)を用いる。
【0079】
【数12】
【0080】
ただし、式(8)におけるf(x)の定義は、下の式(9)の通りである。
【0081】
【数13】
【0082】
この式(9)は正規分布(ガウス分布)である。ここで、μは、着目しているセグメントSijの開始時刻である。また、xは、第l(エル)回目の放送において選択の対象となるセグメントの開始時刻である。また、σは、この分布に対して適宜与えられる標準偏差である。つまり、式(8)において、関数f(x)が作用することにより、セグメントSijの相対時刻に近いセグメントがセグメント系列として選ばれやすく、セグメントSijの相対時刻から遠いセグメントはセグメント系列として選ばれにくい。
なお、正規分布関数に限らず、セグメントアラインメント処理部がセグメント系列を求める際に、セグメント時刻が遠いものに対するペナルティとして作用するような関数f(x)を適宜選択して用いても良い。
【0083】
本実施形態の特徴は、以上述べたように、セグメントアラインメント処理部が、あるセグメントについてのセグメント系列を生成する際に、当該セグメントの基準となる相対時刻と当該セグメントが属する番組以外の他の番組に属する他のセグメントの基準となる相対時刻との差の絶対値が大きいほど当該他のセグメントが選ばれにくくなるように作用するペナルティ関数値を、算出された類似度に乗じることにより、他のセグメントを選択することである。セグメントの基準となる相対時刻とは、例えば、各セグメントの開始時や終了時やちょうど真ん中の時点の相対時刻である。
【0084】
本実施形態では、セグメント時刻が遠いセグメント同士であるにも関わらずたまたまセグメントベクトルが類似になるようなものが番組フォーマット上存在するときも、そのように時刻の離れたセグメントがセグメント系列として選ばれにくくなる。本発明の趣旨からして、このようなペナルティを与える関数を用いてセグメント系列を選択することは、シーン分割の精度をより一層高めることにつながる。
なお、ペナルティ関数のピーク度合いが過度に急峻であると時間的にわずかに離れたセグメントが極端に選択されにくくなるという弊害も出るため、ペナルティ関数のピーク度合いが適度になだらかになるようなσを選択するようにする。
【0085】
[第8の実施形態]
次に、本発明の第8の実施形態について説明する。
図11は、本実施形態による機能構成を示すブロック図である。図示するように、本実施形態では、キーフレーズ抽出装置の機能とシーン分割装置の機能とを一体化させ、シーン分割装置120として構成している。
番組映像記憶部111は、図1に示した番組映像記憶部11および図3に示した番組映像記憶部21と同様の機能を有する。クローズドキャプションデータ記憶部112は、図1に示したクローズドキャプションデータ記憶部12および図3に示したクローズドキャプションデータ記憶部22と同様の機能を有する。
キーフレーズ抽出装置110は、キーフレーズ抽出処理部113とキーフレーズ記憶部114からなる。キーフレーズ抽出処理部113およびキーフレーズ記憶部114は、それぞれ、図1に示したキーフレーズ抽出処理部13およびキーフレーズ記憶部14と同様の機能を有する。
検索処理部125、検索結果データ126、映像分割処理部127、分割済番組映像記憶部128は、それぞれ、図3に示した検索処理部25、検索結果データ26、映像分割処理部27、分割済番組映像記憶部28と同様の機能を有する。
このシーン分割装置120では、キーフレーズ抽出処理部113が抽出したキーフレーズがキーフレーズ記憶部114に書き込まれ、検索処理部125はそのキーフレーズ記憶部114からキーフレーズの情報を読み出して前述した検索処理を行ない、その検索結果データ126を用いて映像分割処理部127が番組映像の分割を行なう。
【0086】
なお、上述した複数の実施形態におけるキーフレーズ抽出装置およびシーン分割装置の全部または一部の機能をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【0087】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
例えば、上記の各実施形態では、すべてのセグメント長を一定としたが、必ずしも厳密に一定のセグメント長でなくてもよい。
【産業上の利用可能性】
【0088】
本発明は、番組等の映像を効率よくシーン単位に分割するために利用できる。例えば、放送された番組映像の二次活用のために、番組映像を元にシーンごとに管理された映像ライブラリを構築する目的などに利用可能である。
【図面の簡単な説明】
【0089】
【図1】本発明の第1の実施形態によるキーフレーズ抽出装置の機能構成を示したブロック図である。
【図2】同実施形態によるクローズドキャプションデータ(番組テキストデータ)の構成とデータ例を示す概略図である。
【図3】同実施形態によるシーン分割装置の機能構成を示すブロック図である。
【図4】同実施形態によるキーフレーズ抽出処理部の詳細な機能構成を示すブロック図である。
【図5】同実施形態によるセグメント特徴量生成部がセグメントベクトルを生成するための処理の手順を示すフローチャートである。
【図6】同実施形態のセグメントアラインメント処理部によるアラインメント処理の概略を示す概念図である。
【図7】同実施形態によるセグメントアラインメント処理部がセグメント系列を求める処理手順を示すフローチャートである。
【図8】同実施形態によるスコア算出部がセグメント系列を求める処理手順を示すフローチャートである。
【図9】同実施形態によるキーフレーズ記憶部が記憶するデータの構成を示す概略図である。
【図10】同実施形態による検索処理部が検索により得る、分割時刻情報を含む検索結果データの構成を示す概略図である。
【図11】第8の実施形態によるシーン分割装置の機能構成を示すブロック図である。
【符号の説明】
【0090】
10 キーフレーズ抽出装置
11,21 番組映像記憶部
12,22 クローズドキャプションデータ記憶部(番組テキスト記憶部)
13 キーフレーズ抽出処理部
14,24 キーフレーズ記憶部
20 シーン分割装置
25 検索処理部
26 検索結果データ(分割時刻情報)
27 映像分割処理部
28 分割済番組映像記憶部
131 セグメント特徴量生成部
132 セグメントアラインメント処理部
133 スコア算出部
【特許請求の範囲】
【請求項1】
番組開始時からの相対時刻と、前記相対時刻に関連付けられたテキストとを記憶する番組テキスト記憶部と、
前記番組テキスト記憶部から読み出した前記相対時刻および前記テキストに基づき、番組を時間で区切ったセグメント毎に、言語的単位の出現頻度を表わすセグメント特徴量を算出するセグメント特徴量生成部と、
前記セグメント特徴量生成部によって算出された前記セグメント特徴量のセグメント間の類似度を算出することにより、複数の番組に属するセグメントから類似のセグメントを選択し、それら選択されたセグメントから成るセグメント系列を生成するセグメントアラインメント処理部と、
前記セグメントアラインメント処理部によって生成されたセグメント系列内における前記言語的単位の出現頻度に基づき言語的単位毎のスコアを算出し、算出されたスコアの良い言語的単位をキーフレーズとして抽出するスコア算出部と、
を具備することを特徴とするキーフレーズ抽出装置。
【請求項2】
セグメント特徴量生成部は、前記言語的単位ごとの正確確率検定による有意確率に基づく値を要素とするベクトルとして前記セグメント特徴量を算出する、
ことを特徴とする請求項1に記載のキーフレーズ抽出装置。
【請求項3】
前記スコア算出部は、言語的単位毎に、全番組数のうち前記セグメント系列内において当該言語的単位が出現する番組数の割合が高いほど良い値となり、且つ、正確確率検定による有意確率が低いほど良い値となる前記スコアを算出する、
ことを特徴とする請求項1又は2に記載のキーフレーズ抽出装置。
【請求項4】
前記セグメントアラインメント処理部は、あるセグメントについてのセグメント系列を生成する際に、当該セグメントの基準となる相対時刻と当該セグメントが属する番組以外の他の番組に属する他のセグメントの基準となる相対時刻との差の絶対値が大きいほど当該他のセグメントが選ばれにくくなるように作用するペナルティ関数値を、算出された前記類似度に乗じることにより、前記他のセグメントを選択する、
ことを特徴とする請求項1から3までのいずれか一項に記載のキーフレーズ抽出装置。
【請求項5】
請求項1から4までのいずれか一項に記載のキーフレーズ抽出装置と、
前記番組テキスト記憶部に記憶されたテキストに対応する番組映像を記憶する番組映像記憶部と、
前記スコア算出部が抽出したキーフレーズを用いて前記番組テキスト記憶部を検索することにより番組のシーンを分割すべき分割時刻情報を得る検索処理部と、
前記検索処理部によって得られた前記分割時刻情報を用いて、前記番組テキスト記憶部に記憶されたテキストに対応する番組映像を前記番組映像記憶部から読み出してシーンに分割する処理を行なう映像分割処理部と、
を具備することを特徴とするシーン分割装置。
【請求項6】
番組開始時からの相対時刻と、前記相対時刻に関連付けられたテキストとを記憶する番組テキスト記憶部を具備するコンピュータに、
前記番組テキスト記憶部から読み出した前記相対時刻および前記テキストに基づき、番組を時間で区切ったセグメント毎に、言語的単位の出現頻度を表わすセグメント特徴量を算出するセグメント特徴量生成過程と、
前記セグメント特徴量生成過程によって算出された前記セグメント特徴量のセグメント間の類似度を算出することにより、複数の番組に属するセグメントから類似のセグメントを選択し、それら選択されたセグメントから成るセグメント系列を生成するセグメントアラインメント処理過程と、
前記セグメントアラインメント処理過程によって生成されたセグメント系列内における前記言語的単位の出現頻度に基づき言語的単位毎のスコアを算出し、算出されたスコアの良い言語的単位をキーフレーズとして抽出するスコア算出過程と、
の処理を実行させるプログラム。
【請求項1】
番組開始時からの相対時刻と、前記相対時刻に関連付けられたテキストとを記憶する番組テキスト記憶部と、
前記番組テキスト記憶部から読み出した前記相対時刻および前記テキストに基づき、番組を時間で区切ったセグメント毎に、言語的単位の出現頻度を表わすセグメント特徴量を算出するセグメント特徴量生成部と、
前記セグメント特徴量生成部によって算出された前記セグメント特徴量のセグメント間の類似度を算出することにより、複数の番組に属するセグメントから類似のセグメントを選択し、それら選択されたセグメントから成るセグメント系列を生成するセグメントアラインメント処理部と、
前記セグメントアラインメント処理部によって生成されたセグメント系列内における前記言語的単位の出現頻度に基づき言語的単位毎のスコアを算出し、算出されたスコアの良い言語的単位をキーフレーズとして抽出するスコア算出部と、
を具備することを特徴とするキーフレーズ抽出装置。
【請求項2】
セグメント特徴量生成部は、前記言語的単位ごとの正確確率検定による有意確率に基づく値を要素とするベクトルとして前記セグメント特徴量を算出する、
ことを特徴とする請求項1に記載のキーフレーズ抽出装置。
【請求項3】
前記スコア算出部は、言語的単位毎に、全番組数のうち前記セグメント系列内において当該言語的単位が出現する番組数の割合が高いほど良い値となり、且つ、正確確率検定による有意確率が低いほど良い値となる前記スコアを算出する、
ことを特徴とする請求項1又は2に記載のキーフレーズ抽出装置。
【請求項4】
前記セグメントアラインメント処理部は、あるセグメントについてのセグメント系列を生成する際に、当該セグメントの基準となる相対時刻と当該セグメントが属する番組以外の他の番組に属する他のセグメントの基準となる相対時刻との差の絶対値が大きいほど当該他のセグメントが選ばれにくくなるように作用するペナルティ関数値を、算出された前記類似度に乗じることにより、前記他のセグメントを選択する、
ことを特徴とする請求項1から3までのいずれか一項に記載のキーフレーズ抽出装置。
【請求項5】
請求項1から4までのいずれか一項に記載のキーフレーズ抽出装置と、
前記番組テキスト記憶部に記憶されたテキストに対応する番組映像を記憶する番組映像記憶部と、
前記スコア算出部が抽出したキーフレーズを用いて前記番組テキスト記憶部を検索することにより番組のシーンを分割すべき分割時刻情報を得る検索処理部と、
前記検索処理部によって得られた前記分割時刻情報を用いて、前記番組テキスト記憶部に記憶されたテキストに対応する番組映像を前記番組映像記憶部から読み出してシーンに分割する処理を行なう映像分割処理部と、
を具備することを特徴とするシーン分割装置。
【請求項6】
番組開始時からの相対時刻と、前記相対時刻に関連付けられたテキストとを記憶する番組テキスト記憶部を具備するコンピュータに、
前記番組テキスト記憶部から読み出した前記相対時刻および前記テキストに基づき、番組を時間で区切ったセグメント毎に、言語的単位の出現頻度を表わすセグメント特徴量を算出するセグメント特徴量生成過程と、
前記セグメント特徴量生成過程によって算出された前記セグメント特徴量のセグメント間の類似度を算出することにより、複数の番組に属するセグメントから類似のセグメントを選択し、それら選択されたセグメントから成るセグメント系列を生成するセグメントアラインメント処理過程と、
前記セグメントアラインメント処理過程によって生成されたセグメント系列内における前記言語的単位の出現頻度に基づき言語的単位毎のスコアを算出し、算出されたスコアの良い言語的単位をキーフレーズとして抽出するスコア算出過程と、
の処理を実行させるプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【公開番号】特開2010−44614(P2010−44614A)
【公開日】平成22年2月25日(2010.2.25)
【国際特許分類】
【出願番号】特願2008−208602(P2008−208602)
【出願日】平成20年8月13日(2008.8.13)
【出願人】(000004352)日本放送協会 (2,206)
【Fターム(参考)】
【公開日】平成22年2月25日(2010.2.25)
【国際特許分類】
【出願日】平成20年8月13日(2008.8.13)
【出願人】(000004352)日本放送協会 (2,206)
【Fターム(参考)】
[ Back to top ]