説明

情報処理装置および方法、並びにプログラム

【課題】より好適にゴルフのプレーシーンをダイジェスト再生する。
【解決手段】注目区間抽出部51は、画像の動きに基づいて、ゴルフ中継番組において注目する時間区間である注目区間を抽出し、プレーシーン度計算部54は、注目区間抽出部51により抽出された注目区間における動き、色、およびショット音に基づいて、注目区間がゴルフのプレーシーンである度合を表すプレーシーン度を計算し、プレーシーン判定部55は、プレーシーン度計算部54により計算されたプレーシーン度に基づいて、注目区間がゴルフのプレーシーンであるか否かを判定する。本発明は、テレビジョン番組を編集する情報処理装置に適用することができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置および方法、並びにプログラムに関し、特に、より好適にゴルフのプレーシーンをダイジェスト再生することができるようにする情報処理装置および方法、並びにプログラムに関する。
【背景技術】
【0002】
近年、野球やサッカー等のスポーツ番組をダイジェスト再生するための様々な技術が提案されている。
【0003】
例えば、映像のカメラワークのパターンに基づいて、所望の映像区間を特定するようにしたものがある(例えば、特許文献1参照)。
【0004】
また、音声から観客の歓声を解析し、盛り上がっている場面を抽出することで、ハイライトシーンを生成するものがある。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2008−5204号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
ところで、スポーツ番組がゴルフ中継番組である場合、基本的にゴルフのプレー中は静かであるので、盛り上がっている場面を抽出する構成では、ゴルフのプレーシーンをハイライトシーンとして確実に抽出することができなかった。
【0007】
また、特許文献1の手法では、音声情報は用いず映像情報のみを用いているため、映像によっては、所望の映像区間を精度良く特定できない可能性があった。
【0008】
本発明は、このような状況に鑑みてなされたものであり、より好適にゴルフのプレーシーンをダイジェスト再生することができるようにするものである。
【課題を解決するための手段】
【0009】
本発明の一側面の情報処理装置は、番組における画像の動きおよび色を解析するとともに、前記番組における音声から、ゴルフのショット音および歓声を検出する情報処理装置であって、前記画像の動きに基づいて、前記番組において注目する時間区間である注目区間を抽出する抽出手段と、前記抽出手段により抽出された前記注目区間における動き、色、およびショット音に基づいて、前記注目区間がゴルフのプレーシーンである度合を表すプレーシーン度を計算する計算手段と、前記計算手段により計算された前記プレーシーン度に基づいて、前記注目区間がゴルフのプレーシーンであるか否かを判定する判定手段とを備える。
【0010】
前記抽出手段には、前記番組において、前記画像の動きの量が所定量より少ない静止区間を、前記注目区間の開始点および終了点として、前記注目区間を抽出させることができる。
【0011】
前記計算手段には、前記注目区間の開始点におけるショット音に基づいて、前記注目区間の前記プレーシーン度を計算させることができる。
【0012】
前記計算手段には、前記注目区間における動きの最大値に基づいて、前記注目区間の前記プレーシーン度を計算させることができる。
【0013】
前記計算手段には、前記注目区間において検出される色の青色度および白色度に基づいて、前記注目区間の前記プレーシーン度を計算させることができる。
【0014】
前記計算手段には、前記注目区間における動きの縦方向の変化に基づいて、前記注目区間の前記プレーシーン度を計算させることができる。
【0015】
前記計算手段には、前記注目区間の開始点および終了点における動きの少なさに基づいて、前記注目区間の前記プレーシーン度を計算させることができる。
【0016】
前記判定手段には、前記計算手段により計算された前記注目区間の前記プレーシーン度に対して、前記注目区間において検出される歓声に応じた重み付けをして、前記注目区間がゴルフのプレーシーンであるか否かを判定させることができる。
【0017】
前記情報処理装置には、前記判定手段による判定の結果、プレーシーンであるとされた前記注目区間を表すシーン情報に基づいて、前記番組におけるプレーシーンのみの再生を制御する再生制御手段をさらに設けることができる。
【0018】
本発明の一側面の情報処理方法は、番組における画像の動きおよび色を解析するとともに、前記番組における音声から、ゴルフのショット音および歓声を検出する情報処理装置であって、前記画像の動きに基づいて、前記番組において注目する時間区間である注目区間を抽出する抽出手段と、前記抽出手段により抽出された前記注目区間における動き、色、およびショット音に基づいて、前記注目区間がゴルフのプレーシーンである度合を表すプレーシーン度を計算する計算手段と、前記計算手段により計算された前記プレーシーン度に基づいて、前記注目区間がゴルフのプレーシーンであるか否かを判定する判定手段とを備える情報処理装置の情報処理方法であって、前記抽出手段が、前記画像の動きに基づいて、前記番組において注目する時間区間である注目区間を抽出する抽出ステップと、前記計算手段が、前記抽出ステップの処理により抽出された前記注目区間における動き、色、およびショット音に基づいて、前記注目区間がゴルフのプレーシーンであることの度合を表すプレーシーン度を計算する計算ステップと、前記判定手段が、前記計算ステップの処理により計算された前記プレーシーン度に基づいて、前記注目区間がゴルフのプレーシーンであるか否かを判定する判定ステップとを含む。
【0019】
本発明の一側面のプログラムは、番組における画像の動きおよび色を解析するとともに、前記番組における音声から、ゴルフのショット音および歓声を検出する処理をコンピュータに実行させるプログラムであって、前記画像の動きに基づいて、前記番組において注目する時間区間である注目区間を抽出する抽出ステップと、前記抽出ステップの処理により抽出された前記注目区間における動き、色、およびショット音に基づいて、前記注目区間がゴルフのプレーシーンである度合を表すプレーシーン度を計算する計算ステップと、前記計算ステップの処理により計算された前記プレーシーン度に基づいて、前記注目区間がゴルフのプレーシーンであるか否かを判定する判定ステップとを含む処理をコンピュータに実行させる。
【0020】
本発明の一側面においては、画像の動きに基づいて、番組において注目する時間区間である注目区間が抽出され、抽出された注目区間における動き、色、およびショット音に基づいて、注目区間がゴルフのプレーシーンである度合を表すプレーシーン度が計算され、計算されたプレーシーン度に基づいて、注目区間がゴルフのプレーシーンであるか否かが判定される。
【発明の効果】
【0021】
本発明の一側面によれば、より好適にゴルフのプレーシーンをダイジェスト再生することが可能となる。
【図面の簡単な説明】
【0022】
【図1】本発明を適用した情報処理装置の機能構成例を示すブロック図である。
【図2】ショット音の検出について説明する図である。
【図3】ショット音の検出について説明する図である。
【図4】プレーシーン抽出部の機能構成例を示すブロック図である。
【図5】プレーシーン抽出処理について説明するフローチャートである。
【図6】静止区間について説明する図である。
【図7】プレーシーン度の計算の例について説明する図である。
【図8】再生装置の機能構成例を示すブロック図である。
【図9】プレーシーン再生処理について説明するフローチャートである。
【図10】本発明を適用した記録再生装置の機能構成例を示すブロック図である。
【図11】コンピュータのハードウェアの構成例を示すブロック図である。
【発明を実施するための形態】
【0023】
以下、本発明の実施の形態について図を参照して説明する。なお、説明は以下の順序で行う。
1.第1の実施の形態(ゴルフ中継番組のプレーシーンを抽出する構成)
2.第2の実施の形態(ゴルフ中継番組のプレーシーンを抽出し、再生する構成)
【0024】
<1.第1の実施の形態>
[プレーシーン検出装置の機能構成例]
図1は、本発明を適用した情報処理装置としてのプレーシーン検出装置の機能構成例を示している。
【0025】
図1のプレーシーン検出装置11は、入力されたテレビジョン番組としてのゴルフ中継番組の番組データを、画像データと音声データとに分離し、それぞれから複数の特徴量を解析または検出する。そして、プレーシーン検出装置11は、解析または検出した特徴量に基づいて、入力されたゴルフ中継番組の番組データからプレーシーンを検出する。
【0026】
図1のプレーシーン検出装置11は、分離部31、カット検出部32、動き解析部33、色解析部34、ショット音検出部35、歓声検出部36、およびプレーシーン抽出部37から構成される。
【0027】
分離部31は、入力されたゴルフ中継番組の番組データ(以下、単に、ゴルフ番組ともいう)を、画像データと音声データとに分離する。分離された画像データ(以下、単に、画像ともいう)は、カット検出部32、動き解析部33、および色解析部34に供給され、音声データ(以下、単に、音声ともいう)は、ショット音検出部35および歓声検出部36に供給される。
【0028】
カット検出部32は、分離部31からの画像において、画像が切り替わる点(カットチェンジ)を検出し、そのカットチェンジの時刻を、カット情報としてプレーシーン抽出部37に供給する。例えば、カット検出部32は、特開2008−85540号公報に開示されている手法により、カットチェンジを検出する。
【0029】
すなわち、まず、カット検出部32は、分離部31からの画像において、時間的に連続するフレーム1乃至3のうちの2フレームについての類似度をそれぞれ算出する。次に、カット検出部32は、フレーム1およびフレーム3それぞれの縮小画像を合成した合成画像を生成し、フレーム2の縮小画像との類似度を算出する。そして、カット検出部32は、フレーム1乃至3のうちの2フレームについての類似度、および、合成画像とフレーム2の縮小画像との類似度に基づいて、フレーム1とフレーム3との間にカットチェンジがあるか否かを判定する。
【0030】
動き解析部33は、分離部31からの画像における動きを解析し、フレーム毎の動き量およびそのフレームの時刻を、動き情報としてプレーシーン抽出部37に供給する。例えば、動き解析部33は、テンプレートマッチング処理を行うことで、画像における動きを解析する。
【0031】
すなわち、動き解析部33は、分離部31からの所定のフレームの画像から縮小画像を生成し、その中心領域をテンプレートに設定する。動き解析部33は、設定したテンプレートを用いて、数フレーム前の画像内を探索範囲としてテンプレートマッチング処理を行い、以下の式(1)で表わされる評価関数が最小となる位置(画素位置)を移動位置として、動き量を算出する。
【0032】
【数1】

【0033】
なお、式(1)において、HtおよびWtは、それぞれテンプレートの高さおよび幅、すなわち、テンプレートにおける高さ方向および幅方向の画素数を表しており、iおよびjは、テンプレートにおける画素位置を表している。また、式(1)において、Ycは現フレームの画像における画素の輝度値、Ypは数フレーム前の画像における画素の輝度値を、それぞれ表している。
【0034】
色解析部34は、分離部31からの画像内の各画素の色をフレーム毎に解析し、分離部31からの画像に空が含まれる度合を表す空度を求め、求めた空度およびフレームの時刻を、色情報としてプレーシーン抽出部37に供給する。空度は、画像の青さ度合を表す青色度Pbと、画像の白さ度合を表す白色度Pwとの和で表わされるものとする。青色度Pbおよび白色度Pwは、以下の式(2)および式(3)によって表される。
【0035】
【数2】

【0036】
【数3】

【0037】
なお、式(2),(3)において、min()およびmax()は、それぞれ括弧内の最小値および最大値を出力する関数を表しており、Rij,Gij,Bij、およびYijは、各画素のR,G,Bそれぞれの色成分の値、および輝度値を表している。また、drgbは、色空間における、各画素と直線r=g=bとの距離を表している。なお、H,Wは、それぞれ画像の高さおよび幅、すなわち、高さ方向および幅方向の画素数を表しており、iおよびjは、画像における画素位置を表している。
【0038】
ショット音検出部35は、分離部31からの音声において、ゴルフの競技者がクラブでボールを打つ瞬間の音(以下、ショット音という)を検出し、そのときの時刻およびショット音らしさを表すショット音度を、ショット音情報としてプレーシーン抽出部37に供給する。
【0039】
一般的に、ゴルフにおいて、競技者がクラブでボールを打つ瞬間の前後は比較的静かであり音はほとんど検出されず、ショット音だけが非常に大きい音として検出される。
【0040】
そこで、ショット音検出部35は、例えば、図2に示されるような、音声(音声データ)の振幅のRMS(Root Mean Square)値を計算する。図2において、横軸は時刻(単位は秒)、縦軸はRMS値を表している。ショット音検出部35は、RMS値のピーク値Peakが所定の閾値Trmsより大きく、且つ、ピーク値Peak前後の値と比較してピーク値Peakが非常に大きい値となる場合、そのピーク値Peakをショット音として検出する。そして、ショット音検出部35は、検出したショット音が他の閾値Tshより大きい場合には1、小さい場合には0をショット音度とする。なお、ピーク値Peakと閾値Tshとの差Peak-Tshを、ショット音度とするようにしてもよい。
【0041】
また、ショット音の検出の精度をより高めるために、音声(音声データ)に対して、さらに、周波数分析を行うことで、図3に示されるようなスペクトログラムを求めるようにしてもよい。図3は、典型的なショット音のスペクトログラムを示しており、横軸は時刻、縦軸は周波数、座標上の各点の色の濃さは音声データの振幅の大きさを表している。図3のスペクトログラムにおいては、時間aにインパクト直前のスイングによる風切り音、時間bにインパクトの瞬間の音(ショット音)、時間cにインパクト後のクラブの共振音が示されている。
【0042】
すなわち、この場合、ショット音検出部35は、図3のスペクトログラムを、参照スペクトログラムとして予め記憶し、音声データに対して周波数分析を行うことで、スペクトログラムを求める。そして、ショット音検出部35は、求めたスペクトログラムと参照スペクトログラムとを比較することで、図3の時間a乃至cに示される特徴を有する区間をショット音が含まれる区間として、その区間について、図2で示された音声データの振幅のRMS値を計算する。
【0043】
なお、上述した説明においては、スペクトログラムによりショット音が含まれる区間をある程度特定して、音声データの振幅のRMS値を計算するようにしたが、例えば、GMM(Gaussian Mixture Model)やSVM(Support Vector Machine)等の統計モデル化手法と、音声データの振幅のRMS値を計算する手法とを組み合わせるようにしてもよい。
【0044】
図1に戻り、歓声検出部36は、分離部31からの音声において、観客が上げる歓声を検出し、そのときの時刻および歓声らしさを表す歓声度を、歓声情報としてプレーシーン抽出部37に供給する。例えば、歓声検出部36は、特許第3891111号公報に開示されている手法により、歓声を検出する。
【0045】
すなわち、歓声検出部36は、分離部31からの音声(音声データ)から音質に関する音質特徴量を抽出し、観客が歓声を上げる時、つまり、盛り上がり時に特有の音質を定量化することで、歓声を検出する。
【0046】
プレーシーン抽出部37は、カット検出部32からのカット情報、動き解析部33からの動き情報、色解析部34からの色情報、ショット音検出部35からのショット音情報、および歓声検索部36からの歓声情報に基づいて、プレーシーン抽出処理を実行し、ゴルフ中継番組からプレーシーンを抽出する。
【0047】
[プレーシーン抽出部の機能構成例]
ここで、図4を参照して、プレーシーン抽出部37の機能構成例について説明する。
【0048】
プレーシーン抽出部37は、注目区間抽出部51、区間長判定部52、カット数判定部53、プレーシーン度計算部54、プレーシーン判定部55、およびシーン情報出力部56から構成される。
【0049】
注目区間抽出部51は、動き解析部33からの動き情報に基づいて、ゴルフ番組において注目する時間区間である注目区間を抽出し、注目区間を表す注目区間情報を、区間長判定部52に供給する。
【0050】
区間長判定部52は、注目区間抽出部51からの注目区間情報に基づいて、注目区間の時間的な長さ(以下、区間長という)が、所定の閾値より短いか否かを判定し、判定の結果に応じた情報を、注目区間抽出部51またはカット数判定部53に供給する。
【0051】
カット数判定部53は、区間長判定部52から判定の結果に応じた情報が供給されると、カット検出部32からのカット情報に基づいて、注目区間におけるカット数が、所定の閾値より少ないか否かを判定する。カット数判定部53は、判定の結果に応じた情報を、注目区間抽出部51またはプレーシーン度計算部54に供給する。
【0052】
プレーシーン度計算部54は、カット数判定部53から判定の結果に応じた情報が供給されると、動き解析部33からの動き情報、色解析部34からの色情報、およびショット音検出部35からのショット音情報に基づいて、注目区間(注目区間のシーン)が、ゴルフのプレーシーンである度合を表すプレーシーン度を計算する。プレーシーン度計算部54は、計算したプレーシーン度をプレーシーン判定部55に供給する。
【0053】
プレーシーン判定部55は、プレーシーン度計算部54からのプレーシーン度に基づいて、注目区間がプレーシーンであるか否かを判定する。なお、プレーシーン判定部55は、判定の際、プレーシーン度計算部54からのプレーシーン度に対して、歓声検出部36からの歓声情報に応じた重み付けをする。プレーシーン判定部55は、判定の結果に応じた情報を、注目区間抽出部51またはシーン情報出力部56に供給する。
【0054】
シーン情報出力部56は、プレーシーン判定部55からの判定の結果に応じた情報に基づいて、プレーシーンであるとされた注目区間を表すシーン情報を、図示せぬ記録媒体や再生装置等に出力する。
【0055】
[プレーシーン抽出処理]
次に、図5のフローチャートを参照して、プレーシーン抽出部37のプレーシーン抽出処理について説明する。
【0056】
プレーシーン抽出処理は、プレーシーン検出装置11にゴルフ番組が入力され、分離部31によりゴルフ番組が画像と音声とに分離され、カット検出部32乃至歓声検出部36からの各情報がプレーシーン抽出部37に供給されることで開始される。
【0057】
なお、以下においては、カット検出部32乃至歓声検出部36からの各情報を、適宜、特徴情報という。
【0058】
ステップS11において、注目区間抽出部51は、動き解析部33からの動き情報に基づいて、ゴルフ番組における注目区間の開始点および終了点の候補となる候補区間を設定する。
【0059】
具体的には、まず、注目区間抽出部51は、動き解析部33からの動き情報に基づいて、ゴルフ番組において、画像の動き量が所定量より少ない静止区間を検出する。
【0060】
ここで、図6を参照して、注目区間抽出部51により検出される静止区間について説明する。
【0061】
図6は、ゴルフ番組の所定の時間区間における動き量の変化を示している。図6において、横軸は時刻、縦軸は動き(動き量)を表している。
【0062】
図6に示されるような動き量を表す動き情報が、動き解析部33から供給された場合、
注目区間抽出部51は、動き量が所定の閾値Tmより少ない区間を静止区間とする。
【0063】
ここで、一般的に、ゴルフのプレーシーンは、以下に示す3つのシーンから構成されていることが多い。
シーン1:競技者がボールを打つシーン
シーン2:打たれたボールが飛んでいくシーン
シーン3:ボールが落下して止まるシーン
【0064】
シーン1においては、テレビジョンカメラにより、定位置で、競技者がボールを打つ瞬間が撮影される。また、競技者がボールを打つ瞬間には、ショット音が発生する。
【0065】
シーン2においては、テレビジョンカメラにより、飛んでいくボールが追いかけられて撮影される。このとき撮影されるボールの背景は空であることが多い。
【0066】
シーン3においては、テレビジョンカメラにより、フェアウェイに落下したボールが、転がって、最終的に止まるまで撮影される。
【0067】
このようなシーン1乃至3から構成されるゴルフのプレーシーンで、その開始(シーン1)と終了(シーン3)においては、画像の動き量はほとんどないと考えられる。
【0068】
そこで、注目区間抽出部51は、動き量が所定の閾値Tmより少ない静止区間を、注目区間の開始点および終了点の候補である候補区間に設定する。図6においては、5つの静止区間が候補区間1乃至5として設定されている。このとき、注目区間抽出部51は、候補区間1乃至5のそれぞれに対応するインデックス0乃至4を生成する。
【0069】
ステップS12において、注目区間抽出部51は、注目区間の開始点となる候補区間のインデックス(以下、開始インデックスという)Index_startを、Index_start=0とする。すなわち、図6の例では、候補区間1が注目区間の開始点に設定される。
【0070】
ステップS13において、注目区間抽出部51は、開始インデックスIndex_startが、候補区間の総数Ns(図6の例では、Ns=5)から1を減じた値Ns-1より小さいか否かを判定する。
【0071】
ステップS13において、開始インデックスIndex_startがNs-1より小さいと判定された場合、処理はステップS14に進み、注目区間抽出部51は、注目区間の終了点となる候補区間のインデックス(以下、終了インデックスという)Index_endをIndex_start+1とする。Index_start=0である場合、Index_end=1となるので、図6の例では、候補区間2が注目区間の終了点に設定される。
【0072】
すなわち、注目区間抽出部51は、開始点が候補区間1で、終了点が候補区間2である注目区間を設定する。より具体的には、候補区間1の開始時刻を開始点とし、候補区間2の終了時刻を終了点とする注目区間が設定される。なお、以下では、開始点が候補区間1で、終了点が候補区間2である注目区間を、注目区間1乃至2などということとする。
【0073】
すなわち、図6の例では、注目区間として、注目区間1乃至2の他に、注目区間1乃至3、注目区間1乃至4、注目区間1乃至5、注目区間2乃至3、注目区間2乃至4、注目区間2乃至5、注目区間3乃至4、注目区間3乃至5、および注目区間4乃至5が、後述する処理により順次設定されるようになる。
【0074】
ステップS15において、注目区間抽出部51は、終了インデックスIndex_endが、候補区間の総数Nsより小さいか否かを判定する。
【0075】
ステップS15において、終了インデックスIndex_endが候補区間の総数Nsより小さいと判定された場合、注目区間抽出部51は、注目区間の開始点および終了点を表す情報(具体的には、開始点となる候補区間の開始時刻および終了点となる候補区間の終了時刻)を、注目区間情報として区間長判定部52に供給し、処理はステップS16に進む。
【0076】
ステップS16において、区間長判定部52は、注目区間抽出部51からの注目区間情報に基づいて、注目区間の区間長Tが、閾値Thより短いか否かを判定する。閾値Thは、競技者がボールを打ってから、打たれたボールが飛んでいき、落下して止まるまでの平均的な時間に基づいて設定され、例えば、30秒などとされる。
【0077】
ステップS16において、注目区間の区間長Tが閾値Thより短いと判定された場合、区間長判定部52は、注目区間情報をカット数判定部53に供給し、処理はステップS17に進む。
【0078】
ステップS17において、カット数判定部53は、区間長判定部52から注目区間情報が供給されると、カット検出部32からのカット情報としてのカットチェンジの時刻に基づいて、注目区間情報で表わされる注目区間に含まれるカット数を求める。そして、カット数判定部53は、注目区間のカット数が、閾値Tcより少ないか否かを判定する。閾値Tcは、競技者がボールを打ってから、打たれたボールが飛んでいき、落下して止まるまでの平均的なカット数に基づいて設定され、例えば、4などとされる。
【0079】
ステップS17において、注目区間のカット数が閾値Tcより少ないと判定された場合、カット数判定部53は、注目区間情報をプレーシーン度計算部54に供給し、処理はステップS18に進む。
【0080】
ステップS18において、プレーシーン度計算部54は、カット数判定部53から注目区間情報が供給されると、動き解析部33、色解析部34、およびショット音検出部35からの特徴情報に基づいて、注目区間情報で表わされる注目区間についてのプレーシーン度を計算する。
【0081】
ここで、図7を参照して、プレーシーン度計算部54によるプレーシーン度の計算の例について説明する。
【0082】
図7は、注目区間として、図6に示される候補区間1乃至3が抽出された場合の、注目区間1乃至3に対応する特徴情報を示している。
【0083】
図7の上から1番目には、動き解析部33からの動き情報に基づいた、注目区間1乃至3における動き量の変化を示しており、図6で示されたものと同一である。なお、図7においては、候補区間1の開始時刻から候補区間3の終了時刻までの時間が、区間長Tで示されている。
【0084】
図7の上から2番目には、ショット音検出部35からのショット音情報に基づいた、注目区間におけるショット音度の変化を示しており、横軸が時刻、縦軸がショット音度を示している。
【0085】
図7の上から3番目には、色解析部34からの色情報に基づいた、注目区間における空度の変化を示しており、横軸が時刻、縦軸が空度を示している。
【0086】
図7の上から4番目には、動き解析部33からの動き情報に基づいた、注目区間における縦方向の動き(動き量)を示しており、横軸が時刻、縦軸が縦方向の動きを示している。縦方向の動きは、テレビジョンカメラが上方向にパンされたとき、すなわち、相対的に、画像内の動きの方向が下方向であるときに正の値をとり、テレビジョンカメラが下方向にパンされたとき、すなわち、相対的に、画像内の動きの方向が上方向であるときに負の値をとる。
【0087】
このような特徴情報から、プレーシーン度計算部54は、注目区間において、各特徴情報に対応するプレーシーン度の要素となるプレーシーン要素を決定する。以下に、注目区間におけるプレーシーン要素の例を挙げる。
プレーシーン要素x:動き量の最大値
プレーシーン要素x:開始点(静止区間)におけるショット音度の最大値
プレーシーン要素x:空度の最大値
プレーシーン要素x:縦方向の動きのゼロ交差数
プレーシーン要素x:各静止区間における静止の度合
プレーシーン要素x:注目区間の時間
【0088】
図7の例では、プレーシーン要素xは、候補区間2乃至3における動き量Maxmとして、プレーシーン要素xは、候補区間1におけるショット音度Maxaとして、プレーシーン要素xは、候補区間1乃至2における空度Maxsとして、プレーシーン要素xは、候補区間2におけるゼロ交差数ZCyとして決定される。また、プレーシーン要素xは、例えば、開始点および終了点(候補区間1および3)における動きの少なさが、動き量の平均値として決定され、プレーシーン要素xは、注目区間の区間長Tとして決定される。
【0089】
そして、プレーシーン度計算部54は、決定したプレーシーン要素に基づいて、例えば、以下の式(4)で示されるプレーシーン度yを計算する。
【0090】
【数4】

【0091】
ここで、プレーシーン要素の総数をMとすると、式(4)において、iは、0≦i≦M-1の範囲の値をとる。また、wは加重係数を示し、bは所定のバイアス値を示す。加重係数wおよびバイアス値bの決定には、種々の統計的判別法を利用することができる。例えば、予め多数のシーンのプレーシーン度を主観的に評価し、特徴ベクトルと、望ましいプレーシーン度(例えば、プレーシーンであれば1、プレーシーンでなければ−1等)とを組にした学習データを重回帰分析により直線近似される加重を求め、加重係数wおよびバイアス値bを決定することができる。また、パーセプトロン等のニューラルネットワークやSVM等の統計的判別手法を用いるようにしてもよい。
【0092】
このようにして、プレーシーン度計算部54は、プレーシーン度yを計算し、注目区間情報とともにプレーシーン判定部55に供給する。
【0093】
ステップS19において、プレーシーン判定部55は、プレーシーン度計算部54からのプレーシーン度yが、所定の閾値Tyより大きいか否かを判定することで、注目区間情報で表わされる注目区間がプレーシーンであるか否かを判定する。
【0094】
なお、プレーシーン判定部55は、判定の際、歓声検出部36からの歓声情報としての歓声度の、注目区間における最大値に応じて、プレーシーン度yに対して重み付けをして判定を行う。すなわち、注目区間における歓声度の最大値が大きいほど、プレーシーン度yに対する重み付けが大きくなる。
【0095】
ステップS19において、注目区間がプレーシーンであると判定された場合、プレーシーン判定部55は、プレーシーン度yおよび注目区間情報を、シーン情報出力部56に供給する。また、プレーシーン判定部55は、注目区間がプレーシーンであると判定された旨の情報を注目区間抽出部51に供給する。
【0096】
ステップS20において、シーン情報出力部56は、プレーシーン判定部55からの注目区間情報に基づいて、プレーシーンの開始時刻および時間長を求める。また、シーン情報出力部56は、プレーシーン判定部55からのプレーシーン度yを、プレーシーンの重要度として、プレーシーンの開始時刻および時間長に対応付ける。そして、シーン情報出力部56は、プレーシーンの開始時刻、時間長、および重要度を、そのプレーシーンを表すシーン情報として保持(記憶)する。
【0097】
一方、ステップS19において、注目区間がプレーシーンでないと判定された場合、プレーシーン判定部55は、注目区間がプレーシーンでないと判定された旨の情報を注目区間抽出部51に供給する。その後、ステップS20の処理はスキップされ、ステップS21に進むる。
【0098】
ステップS21において、注目区間抽出部51は、プレーシーン判定部55からの情報に応じて、終了インデックスIndex_endを1インクリメントし、処理はステップS15に戻る。これにより、例えば、Index_start=0の場合、注目区間1乃至2、注目区間1乃至3、注目区間1乃至4、注目区間1乃至5と、注目区間の終了点が1ずつシフトする。
【0099】
そして、ステップS15において、終了インデックスIndex_endが、候補区間の総数Nsより小さくないと判定された場合、処理はステップS22に進む。
【0100】
また、ステップS16において、注目区間の区間長Tが閾値Thより短くないと判定されたか、または、ステップS17において、注目区間のカット数が閾値Tcより少なくないと判定された場合、区間長判定部52またはカット数判定部53は、それぞれの判定内容を表す情報を、注目区間抽出部51に供給し、処理はステップS22に進む。
【0101】
ステップS22において、注目区間抽出部51は、開始インデックスIndex_startを1インクリメントする。これにより、注目区間の開始点が1シフトする。ステップS22の後、処理はステップS13に戻り、ステップS13乃至S22の処理が繰り返される。
【0102】
このようにして、図6の例では、注目区間が、注目区間1乃至2、注目区間1乃至3、注目区間1乃至4、注目区間1乃至5、注目区間2乃至3、注目区間2乃至4、注目区間2乃至5、注目区間3乃至4、注目区間3乃至5、注目区間4乃至5の順に遷移していく。
【0103】
そして、ステップS13において、開始インデックスIndex_startがNs-1より小さくないと判定された場合、例えば、図6の例において、注目区間の開始点が候補区間5になった場合、注目区間抽出部51は、全ての注目区間についての処理を終えた旨の情報をシーン情報出力部56に供給し、処理はステップS23に進む。
【0104】
ステップS23において、シーン情報出力部56は、保持しているシーン情報を、図示せぬ記録媒体や再生装置等に出力する。
【0105】
このとき、シーン情報で表わされるプレーシーン(注目区間)が、他のシーン情報で表わされるプレーシーンに完全に含まれる場合には、そのシーン情報は出力されず、他のシーン情報のみが出力される。すなわち、図6の例で、注目区間1乃至2、注目区間1乃至3、および注目区間1乃至4がプレーシーンとして判定された場合、注目区間1乃至4に含まれる、注目区間1乃至2および注目区間1乃至3についてのシーン情報は出力されない。
【0106】
また、シーン情報で表わされるプレーシーンの一部が、他のシーン情報で表わされるプレーシーンに含まれる場合には、シーン情報の重要度(プレーシーン度)の大きい方が出力される。すなわち、図6の例で、注目区間1乃至3および注目区間2乃至4がプレーシーンとして判定された場合、候補区間2乃至3がいずれのプレーシーンにも含まれる。このとき、それぞれのプレーシーンについてのシーン情報の重要度が比較され、例えば、注目区間1乃至3についての重要度の方が大きいとされた場合、注目区間2乃至4についてのシーン情報は出力されない。
【0107】
以上の処理によれば、静止区間を開始点および終了点とした注目区間が抽出され、抽出された注目区間に対して、その区間における特徴情報に応じたプレーシーン度が計算され、計算されたプレーシーン度が高い注目区間がゴルフのプレーシーンであると判定される。そして、プレーシーンであると判定された注目区間を表すシーン情報が、記録媒体や再生装置等に出力される。したがって、ユーザは、録画したゴルフ番組を視聴する際、シーン情報の開始時刻に基づいて、プレーシーンから次のプレーシーンに簡単にスキップすることができるようになり、より好適にゴルフのプレーシーンをダイジェスト再生することが可能となる。
【0108】
なお、以上においては、ユーザは、シーン情報の開始時刻に基づいてプレーシーンをスキップ再生することができるものとしたが、シーン情報が出力(供給)された再生装置において、シーン情報の開始時刻に基づいて、プレーシーンを自動的に頭出しさせるようにしてもよい。
【0109】
[再生装置の機能構成例]
そこで、図8を参照して、シーン情報に基づいて、ゴルフ番組のプレーシーンを自動的に頭出しして再生する再生装置の機能構成例について説明する。
【0110】
図8の再生装置111は、シーン情報保持部131、再生制御部132、表示部133、および音声出力部134から構成される。
【0111】
シーン情報保持部131は、図示せぬ記録媒体を介して供給されたか、または、図1のプレーシーン検出装置11から直接供給されたシーン情報を記憶(保持)する。シーン情報保持部131に保持されているシーン情報は、必要に応じて、再生制御部132に読み出される。
【0112】
再生制御部132は、入力されたゴルフ番組に基づいて、ゴルフ番組のうちの、シーン情報保持部131に保持されているシーン情報で表わされるプレーシーンのみの再生を制御する。
【0113】
再生制御部132は、頭出し部151、重要度判定部152、および時間判定部153を備えている。頭出し部151は、シーン情報保持部131に保持されているシーン情報の開始時刻に基づいて、ゴルフ番組のプレーシーンを頭出しする。重要度判定部152は、シーン情報保持部131に保持されているシーン情報の重要度(プレーシーン度)に基づいて、プレーシーンを再生するか否かを判定する。時間判定部153は、シーン情報保持部131に保持されているシーン情報の時間長で示される間、プレーシーンを再生させる。
【0114】
表示部133は、再生制御部132において再生が制御されているゴルフ番組(番組データ)のうちの画像データに基づいて、ゴルフ番組を表示する。
【0115】
音声出力部134は、再生制御部132において再生が制御されているゴルフ番組(番組データ)のうちの音声データに基づいて、ゴルフ番組に含まれる音声を出力する。
【0116】
[プレーシーン再生処理]
次に、図9のフローチャートを参照して、図8の再生装置111のプレーシーン再生処理について説明する。なお、シーン情報保持部131に保持されているシーン情報は、再生装置111に入力されるゴルフ番組についてのシーン情報であるものとする。
【0117】
ステップS61において、頭出し部151は、シーン情報保持部131に保持されているシーン情報の開始時刻に基づいて、入力されたゴルフ番組に対して、プレーシーンを頭出しする。
【0118】
ステップS62において、重要度判定部152は、シーン情報保持部131に保持されているシーン情報の重要度に基づいて、頭出しされたプレーシーンの重要度が、予め設定された閾値Tiより大きいか否かを判定する。
【0119】
ステップS62において、頭出しされたプレーシーンの重要度が閾値Tiより大きくないと判定された場合、処理はステップS61に戻り、次のプレーシーンが頭出しされる。
【0120】
これにより、重要度が低い、すなわち、プレーシーンである可能性が低いシーンを再生しないようにすることができる。
【0121】
一方、ステップS62において、頭出しされたプレーシーンの重要度が閾値Tiより大きいと判定された場合、処理はステップS63に進み、時間判定部153は、プレーシーンの再生を制御する。これにより、表示部133にはプレーシーンが表示され、音声出力部134にはプレーシーンに含まれる音声が出力される。
【0122】
ステップS64において、時間判定部153は、シーン情報保持部131に保持されているシーン情報の時間長に基づいて、そのプレーシーンの再生時間が、シーン情報の時間長を超えるか否かを判定する。
【0123】
ステップS64において、プレーシーンの再生時間がシーン情報の時間長を超えないと判定された場合、処理はステップS63に戻り、プレーシーンの再生時間がシーン情報の時間長を超えるまで、ステップS62,S63の処理が繰り返される。
【0124】
そして、ステップS64において、プレーシーンの再生時間がシーン情報の時間長を超えると判定された場合、処理はステップS65に進む。
【0125】
ステップS65において、頭出し部151は、シーン情報保持部131に保持されているシーン情報の開始時刻に基づいて、次のプレーシーンがあるか否かを判定する。具体的には、頭出し部151は、シーン情報保持部131において、現在再生されているプレーシーンの開始時刻の次に時間的に後の開始時刻を有するシーン情報が存在するか否かを判定する。
【0126】
ステップS65において、次のプレーシーンがあると判定された場合、処理はステップS61に戻り、ステップS61乃至S65の処理が繰り返される。
【0127】
一方、ステップS65において、次のプレーシーンがないと判定された場合、入力されたゴルフ番組において、これ以降プレーシーンは存在しないので、処理は終了する。
【0128】
以上の処理によれば、ゴルフ番組において、プレーシーンを表すシーン情報に基づいて、プレーシーンが頭出しされ、頭出しされたプレーシーンの重要度に応じて、そのプレーシーンが再生される。結果として、ゴルフ番組におけるプレーシーンのみが、ハイライトシーンとして再生されるようになる。また、重要度の高いプレーシーンのみが再生されるので、プレーシーンでない可能性があるシーンの再生を避けることができ、より好適にゴルフのプレーシーンをダイジェスト再生することが可能となる。
【0129】
以上においては、プレーシーンを抽出するプレーシーン検出装置11と、プレーシーンを再生する再生装置111とは、別個に構成されるものとして説明したが、プレーシーン検出装置11と再生装置111とが一体に構成されるようにしてもよい。以下においては、プレーシーン検出装置11と再生装置111とが一体に構成される例について説明する。
【0130】
<2.第2の実施の形態>
[記録再生装置の機能構成例]
図10は、図1のプレーシーン検出装置11と、図8の再生装置111とが一体にされた記録再生装置の機能構成例を示している。
【0131】
なお、図10の記録再生装置211において、図1のプレーシーン検出装置11および図8の再生装置111に設けられたものと同様の機能を備える構成については、同一名称および同一符号を付するものとし、その説明は、適宜省略するものとする。
【0132】
すなわち、図1のプレーシーン検出装置11と図8の再生装置111とを一体として見た場合、図10の記録再生装置211において、図1のプレーシーン検出装置11および図8の再生装置111と異なるのは、記録制御部231および記録部232を新たに設けた点である。
【0133】
なお、図10において、プレーシーン抽出部37は、プレーシーン抽出処理を実行することで得られるシーン情報を、シーン情報保持部131に供給する。
【0134】
記録制御部231は、記録再生装置211に入力されるゴルフ番組(番組データ)の、記録部232への記録を制御する。
【0135】
記録部232は、記録制御部231の制御に基づいて、ゴルフ番組を記録する。記録されたゴルフ番組は、図示せぬ操作部からの、ユーザの操作内容に応じた情報に基づいて、分離部31に読み出されたり、再生制御部132に読み出されたりする。
【0136】
なお、図10の記録再生装置211においても、図1のプレーシーン検出装置11および図8の再生装置111と同様の作用効果を奏することができる。
【0137】
すなわち、図10の記録再生装置211によるプレーシーン抽出処理については、図5のフローチャートを参照して説明した、図1のプレーシーン検出装置11のプレーシーン抽出部37(図4)の処理と基本的に同様であるので、その説明は省略する。
【0138】
また、図10の記録再生装置211によるプレーシーン再生処理については、図9のフローチャートを参照して説明した、図8の再生装置111の処理と基本的に同様であるので、その説明は省略する。
【0139】
なお、ゴルフ番組で放送されるシーンには、ティーインググラウンドやフェアウェイからのショットのシーンの他に、グリーン上でのパッティングのシーンも含まれる。
【0140】
上述したプレーシーン抽出処理によれば、ティーインググラウンドやフェアウェイからのショットのシーンをプレーシーンとして抽出することが可能である。しかしながら、パッティングのシーンには、ショット音がほぼ無いに等しく、また、画像内の動きも小さいため、上述したプレーシーン抽出処理によって、パッティングのシーンをプレーシーンとして正確に抽出することはできない。
【0141】
一般的に、パッティングのシーンには、以下に示す特徴が含まれていることが多い。
・画像の動き量がほとんどない
・画像の色の大部分が緑色である
・ボールがカップインしたときに拍手とともに歓声が上がる
【0142】
そこで、色解析部34に色情報として緑色度を求めさせ、プレーシーン度計算部54に、特徴情報として、動き情報、色情報、および歓声情報を用いてプレーシーン度を計算させることで、パッティングのシーンをプレーシーンとして抽出することも可能となる。
【0143】
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータ等に、プログラム記録媒体からインストールされる。
【0144】
図11は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
【0145】
コンピュータにおいて、CPU(Central Processing Unit)901,ROM(Read Only Memory)902,RAM(Random Access Memory)903は、バス904により相互に接続されている。
【0146】
バス904には、さらに、入出力インタフェース905が接続されている。入出力インタフェース905には、キーボード、マウス、マイクロホン等よりなる入力部906、ディスプレイ、スピーカ等よりなる出力部907、ハードディスクや不揮発性のメモリ等よりなる記憶部908、ネットワークインタフェース等よりなる通信部909、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリ等のリムーバブルメディア911を駆動するドライブ910が接続されている。
【0147】
以上のように構成されるコンピュータでは、CPU901が、例えば、記憶部908に記憶されているプログラムを、入出力インタフェース905およびバス904を介して、RAM903にロードして実行することにより、上述した一連の処理が行われる。
【0148】
コンピュータ(CPU901)が実行するプログラムは、例えば、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)、光磁気ディスク、もしくは半導体メモリ等よりなるパッケージメディアであるリムーバブルメディア911に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。
【0149】
そして、プログラムは、リムーバブルメディア911をドライブ910に装着することにより、入出力インタフェース905を介して、記憶部908にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部909で受信し、記憶部908にインストールすることができる。その他、プログラムは、ROM902や記憶部908に、あらかじめインストールしておくことができる。
【0150】
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
【0151】
また、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
【符号の説明】
【0152】
11 プレーシーン検出装置, 32 カット検出部, 33 動き解析部, 34 色解析部, 35 ショット音検出部, 36 歓声検出部, 37 プレーシーン抽出部, 51 注目区間抽出部, 52 区間長判定部, 53 カット数判定部, 54 プレーシーン度計算部, 55 プレーシーン判定部, 56 シーン情報出力部, 111 再生装置, 131 シーン情報保持部, 132 再生制御部, 151 頭出し部, 152 重要度判定部, 153 時間判定部, 211 記録再生装置

【特許請求の範囲】
【請求項1】
番組における画像の動きおよび色を解析するとともに、前記番組における音声から、ゴルフのショット音および歓声を検出する情報処理装置において、
前記画像の動きに基づいて、前記番組において注目する時間区間である注目区間を抽出する抽出手段と、
前記抽出手段により抽出された前記注目区間における動き、色、およびショット音に基づいて、前記注目区間がゴルフのプレーシーンである度合を表すプレーシーン度を計算する計算手段と、
前記計算手段により計算された前記プレーシーン度に基づいて、前記注目区間がゴルフのプレーシーンであるか否かを判定する判定手段と
を備える情報処理装置。
【請求項2】
前記抽出手段は、前記番組において、前記画像の動きの量が所定量より少ない静止区間を、前記注目区間の開始点および終了点として、前記注目区間を抽出する
請求項1に記載の情報処理方法。
【請求項3】
前記計算手段は、前記注目区間の開始点におけるショット音に基づいて、前記注目区間の前記プレーシーン度を計算する
請求項2に記載の情報処理装置。
【請求項4】
前記計算手段は、前記注目区間における動きの最大値に基づいて、前記注目区間の前記プレーシーン度を計算する
請求項2に記載の情報処理装置。
【請求項5】
前記計算手段は、前記注目区間において検出される色の青色度および白色度に基づいて、前記注目区間の前記プレーシーン度を計算する
請求項2に記載の情報処理装置。
【請求項6】
前記計算手段は、前記注目区間における動きの縦方向の変化に基づいて、前記注目区間の前記プレーシーン度を計算する
請求項2に記載の情報処理装置。
【請求項7】
前記計算手段は、前記注目区間の開始点および終了点における動きの少なさに基づいて、前記注目区間の前記プレーシーン度を計算する
請求項2に記載の情報処理装置。
【請求項8】
前記判定手段は、前記計算手段により計算された前記注目区間の前記プレーシーン度に対して、前記注目区間において検出される歓声に応じた重み付けをして、前記注目区間がゴルフのプレーシーンであるか否かを判定する
請求項1に記載の情報処理装置。
【請求項9】
前記判定手段による判定の結果、プレーシーンであるとされた前記注目区間を表すシーン情報に基づいて、前記番組におけるプレーシーンのみの再生を制御する再生制御手段をさらに備える
請求項1に記載の情報処理装置。
【請求項10】
番組における画像の動きおよび色を解析するとともに、前記番組における音声から、ゴルフのショット音および歓声を検出する情報処理装置であって、
前記画像の動きに基づいて、前記番組において注目する時間区間である注目区間を抽出する抽出手段と、
前記抽出手段により抽出された前記注目区間における動き、色、およびショット音に基づいて、前記注目区間がゴルフのプレーシーンである度合を表すプレーシーン度を計算する計算手段と、
前記計算手段により計算された前記プレーシーン度に基づいて、前記注目区間がゴルフのプレーシーンであるか否かを判定する判定手段とを備える情報処理装置の情報処理方法において、
前記抽出手段が、前記画像の動きに基づいて、前記番組において注目する時間区間である注目区間を抽出する抽出ステップと、
前記計算手段が、前記抽出ステップの処理により抽出された前記注目区間における動き、色、およびショット音に基づいて、前記注目区間がゴルフのプレーシーンであることの度合を表すプレーシーン度を計算する計算ステップと、
前記判定手段が、前記計算ステップの処理により計算された前記プレーシーン度に基づいて、前記注目区間がゴルフのプレーシーンであるか否かを判定する判定ステップと
を含む情報処理方法。
【請求項11】
番組における画像の動きおよび色を解析するとともに、前記番組における音声から、ゴルフのショット音および歓声を検出する処理をコンピュータに実行させるプログラムにおいて、
前記画像の動きに基づいて、前記番組において注目する時間区間である注目区間を抽出する抽出ステップと、
前記抽出ステップの処理により抽出された前記注目区間における動き、色、およびショット音に基づいて、前記注目区間がゴルフのプレーシーンである度合を表すプレーシーン度を計算する計算ステップと、
前記計算ステップの処理により計算された前記プレーシーン度に基づいて、前記注目区間がゴルフのプレーシーンであるか否かを判定する判定ステップと
を含む処理をコンピュータに実行させるプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate


【公開番号】特開2011−234018(P2011−234018A)
【公開日】平成23年11月17日(2011.11.17)
【国際特許分類】
【出願番号】特願2010−100927(P2010−100927)
【出願日】平成22年4月26日(2010.4.26)
【出願人】(000002185)ソニー株式会社 (34,172)
【Fターム(参考)】