シーン重要点抽出装置、シーン重要点抽出方法及びシーン重要点抽出プログラム
【課題】番組コンテンツのユーザに対してより適切なシーン検索を提供すること。
【解決手段】人気発言データ群とブーム生起発言データ群とに含まれる発言データを引用していたユーザに対して所定の重みの重要度を付与したユーザ重要度を生成し、過去発言記録情報及び現在発言記録情報で出現するキーワードの出現特徴量をキーワード重要度として算出し、それら2つの重要度の演算により番組コンテンツ中のシーン重要度を算出してキーワードに関連付けて記憶しておく。
【解決手段】人気発言データ群とブーム生起発言データ群とに含まれる発言データを引用していたユーザに対して所定の重みの重要度を付与したユーザ重要度を生成し、過去発言記録情報及び現在発言記録情報で出現するキーワードの出現特徴量をキーワード重要度として算出し、それら2つの重要度の演算により番組コンテンツ中のシーン重要度を算出してキーワードに関連付けて記憶しておく。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ソーシャルメディア上における番組コンテンツのシーン重要点を抽出する技術に関する。
【背景技術】
【0002】
動画コンテンツに関するメタデータ付与は古くから行われている。音声・字幕・クローズドキャプション等の情報を活用し、文字認識・画像認識・音声認識等の技術を用いて、ビデオ映像中に出現する人や物や事象を特定し、時系列に沿って、その認識内容を記述し、検索のための索引作成や動画コンテンツの分類が行われてきた。なお、これらの技術の詳細は、「岩波講座 マルチメディア情報学8 情報の構造化と検索」(西尾、岩波書店、2000年)(以下、参考文献)に詳しく記載されている。
【0003】
一方、最近では、ソーシャルメディア上での番組視聴者が番組コンテンツに対して入力する発言情報をもとに、番組コンテンツに対するメタデータを付与する試みが行われてきている。
【0004】
例えば、非特許文献1によれば、番組視聴者が興味を持っている場面では、チャットでの発言回数や発言文字列の数が増大するという二つのパラメータを用いて盛り上がりを抽出し、その盛り上がりの中に含まれている発言からキーワードを抽出し、番組コンテンツのメタデータとする手法を提案している。
【0005】
また、非特許文献2によれば、書き込みテキストのエントリ数や、書き込みテキスト中のアスキーアートの出現頻度から、盛り上がり・落胆の感動度数を求めてシーンのインデキシングを行う方法が記載されている。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】大黒、「インターネットチャットを利用した番組メタデータの自動生成システムの実装と評価」、2005-AVM-18、情報処理学会 研究報告、2005年
【非特許文献2】宮森、「番組実況チャットに基づく視聴者視点を利用した放送番組のビュー生成」、DEWS2005 4B-i9、2005年
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、文字認識・画像認識・音声認識の技術を用いる場合は、番組コンテンツの放送局側から提供される情報のみであるため、番組作成者や配信側の意図に基づくメタデータ付与しかできないという課題があった。また、付与されたメタデータ(キーワード等)の重要度が、一人一人の発言に対して平等に扱われているため、視聴者全員の反応を反映することはできたものの、他の人に引用されるような人気のある発言を拾い上げることはできないという課題があった。
【0008】
また、非特許文献1では、書き込みの頻度や発言文字列長により、シーンの重要度について求めているが、キーワード毎に重要度を求めていないため、動画コンテンツのキーワードによるシーン検索ができないという課題があった。
【0009】
また、非特許文献2では、時系列に沿って動的にキーワードを抽出することができる。しかしながら、すべての発言やユーザが均等に扱われているため、目的の情報をフィルタするのに人間の能力を必要とするという課題があった。
【0010】
本発明は、上記を鑑みてなされたものであり、その課題とするところは、番組コンテンツの視聴者(以下、ユーザ)に対してより適切なシーン検索を提供することにある。
【課題を解決するための手段】
【0011】
請求項1記載のシーン重要点抽出装置は、放送済の番組コンテンツに対する発言データと当該発言データを引用した発言データとを、発言データの入力時刻に関連付けた過去発言記録情報を記憶しておく発言記録情報記憶手段と、放送中の番組コンテンツに対する発言データと当該発言データを引用した発言データとを発言データの入力時刻に関連付けた現在発言記録情報を用いて、一定回数を超えて引用された人気発言データ群と、単位時間あたりの引用回数が一定増加度を超えて増加するブーム生起発言データ群とを生成し、当該2つの発言データ群に含まれる発言データを引用していたユーザに対して所定の重みの重要度を付与するユーザ重要度算出手段と、前記発言記録情報記憶手段から過去発言記録情報を読み出して発言データからキーワードを抽出し、当該キーワードが当該過去発言記録情報内で出現するキーワード過去出現特徴量を算出し、当該キーワードと同一のキーワードが前記現在発言記録情報内で出現するキーワード現在出現特徴量を算出して、当該2つの出現特徴量の演算値をキーワードの重要度として算出するキーワード重要度算出手段と、前記現在発言記録情報内で同一のキーワードが入力された時間間隔が一定時間以下の区間をシーンとし、当該キーワードに対する前記重要度と当該キーワードを発言したユーザの前記重要度との演算値を前記シーンの重要度として算出し、キーワードに関連付けて記憶手段に記憶させるシーン重要度算出手段と、を有することを特徴とする。
【0012】
本発明によれば、人気発言データ群とブーム生起発言データ群とに含まれる発言データを引用していたユーザに対して所定の重みの重要度を付与したユーザ重要度を生成し、過去発言記録情報及び現在発言記録情報で出現するキーワードの出現特徴量をキーワード重要度として算出し、それら2つの重要度の演算により番組コンテンツ中のシーン重要度を算出してキーワードに関連付けて記憶しておくため、番組コンテンツのユーザに対してより納得感のある適切なシーン検索を提供することができる。
【0013】
請求項2記載のシーン重要点抽出装置は、請求項1記載のシーン重要点抽出装置において、前記ユーザ重要度算出手段は、前記引用していたユーザのうち発言データの入力時刻が早いユーザに対して高い重みを付与し、遅いユーザに対して低い重みを付与することを特徴とする。
【0014】
請求項3記載のシーン重要点抽出装置は、請求項1又は2記載のシーン重要点抽出装置において、前記キーワード過去出現特徴量は、前記過去発言記録情報内の全ての番組コンテンツに対する発言データで出現する前記キーワードの逆出現頻度と、前記過去発言記録情報内の各番組コンテンツに対する発言データで出現する前記キーワードの逆出現頻度とであることを特徴とする。
【0015】
請求項4記載のシーン重要点抽出装置は、請求項1乃至3のいずれかに記載のシーン重要点抽出装置において、前記キーワード現在出現特徴量は、前記同一のキーワードが現在発言記録情報内で出現する出現頻度であることを特徴とする。
【0016】
請求項5記載のシーン重要点抽出装置は、請求項1乃至4のいずれかに記載のシーン重要点抽出装置において、前記ユーザ重要度算出手段は、発言データの引用回数、及び/又は、単位時間あたりの引用回数の増加度の最高値を前記重みに付与することを特徴とする。
【0017】
請求項6記載のシーン重要点抽出装置は、請求項1乃至5のいずれかに記載のシーン重要点抽出装置において、前記シーン重要度算出手段は、前記シーンの区間内に含まれる同一のキーワードの総数、及び/又は、当該キーワードを発言したユーザの総数を前記シーンの重要度に付与することを特徴とする。
【0018】
請求項7記載のシーン重要点抽出装置は、請求項1乃至6のいずれかに記載のシーン重要点抽出装置において、前記シーンの重要度をメタデータとして番組コンテンツのシーンに付与するメタデータ付与手段を更に有することを特徴とする。
【0019】
請求項8記載のシーン重要点抽出方法は、コンピュータにより行うシーン重要点抽出方法において、放送済の番組コンテンツに対する発言データと当該発言データを引用した発言データとを、発言データの入力時刻に関連付けた過去発言記録情報を記憶しておく発言記録情報記憶ステップと、放送中の番組コンテンツに対する発言データと当該発言データを引用した発言データとを発言データの入力時刻に関連付けた現在発言記録情報を用いて、一定回数を超えて引用された人気発言データ群と、単位時間あたりの引用回数が一定増加度を超えて増加するブーム生起発言データ群とを生成し、当該2つの発言データ群に含まれる発言データを引用していたユーザに対して所定の重みの重要度を付与するユーザ重要度算出ステップと、前記発言記録情報記憶手段から過去発言記録情報を読み出して発言データからキーワードを抽出し、当該キーワードが当該過去発言記録情報内で出現するキーワード過去出現特徴量を算出し、当該キーワードと同一のキーワードが前記現在発言記録情報内で出現するキーワード現在出現特徴量を算出して、当該2つの出現特徴量の演算値をキーワードの重要度として算出するキーワード重要度算出ステップと、前記現在発言記録情報内で同一のキーワードが入力された時間間隔が一定時間以下の区間をシーンとし、当該キーワードに対する前記重要度と当該キーワードを発言したユーザの前記重要度との演算値を前記シーンの重要度として算出し、キーワードに関連付けて記憶手段に記憶させるシーン重要度算出ステップと、を有することを特徴とする。
【0020】
本発明によれば、人気発言データ群とブーム生起発言データ群とに含まれる発言データを引用していたユーザに対して所定の重みの重要度を付与したユーザ重要度を生成し、過去発言記録情報及び現在発言記録情報で出現するキーワードの出現特徴量をキーワード重要度として算出し、それら2つの重要度の演算により番組コンテンツ中のシーン重要度を算出してキーワードに関連付けて記憶しておくため、番組コンテンツのユーザに対してより納得感のある適切なシーン検索を提供することができる。
【0021】
請求項9記載のシーン重要点抽出方法は、請求項8記載のシーン重要点抽出方法において、前記ユーザ重要度算出ステップは、前記引用していたユーザのうち発言データの入力時刻が早いユーザに対して高い重みを付与し、遅いユーザに対して低い重みを付与することを特徴とする。
【0022】
請求項10記載のシーン重要点抽出プログラムは、請求項8又は9記載の各ステップをコンピュータに実行させることを特徴とする。
【発明の効果】
【0023】
本発明によれば、番組コンテンツのユーザに対してより適切なシーン検索を提供することができる。
【図面の簡単な説明】
【0024】
【図1】シーン重要点抽出システムの全体構成を示す図である。
【図2】発言記録情報の例を示す図である。
【図3】シーン重要点抽出装置の機能ブロック構成を示す図である。
【図4】ユーザ重要度抽出方法を示すフローチャートである。
【図5】ユーザ重要度重みテーブルの例を示す図である。
【図6】キーワード重要度抽出処理前の事前処理を示すフローチャートである。
【図7】現在放送中の番組コンテンツに対する発言毎のキーワードリストである。
【図8】キーワード重要度抽出方法を示すフローチャートである。
【図9】キーワード重要度リストの例を示す図である。
【図10】シーン仮重要度算出方法を示すフローチャートである。
【図11】シーン仮重要度算出方法を説明する図である。
【図12】シーン重要度算出方法を示すフローチャートである。
【図13】シーン重要度リストの例を示す図である。
【発明を実施するための形態】
【0025】
以下、本発明を実施する一実施の形態について図面を用いて説明する。但し、本発明は多くの異なる様態で実施することが可能であり、本実施の形態の記載内容に限定して解釈すべきではない。
【0026】
本発明は、協調フィルタリングのアイテム評価値や他のアイテムへの類似度に対して、現在のログからの値のみではなく、将来の予測値を「先進的なユーザのログ」について重みを付けて算出し、それに基づいて協調フィルタリングを適用することを最も主要な特徴としている。なお、「先進的なユーザ」とは、過去において、多くの人に評価されたアイテムを初期の段階で発見したユーザをいう。
【0027】
すなわち、本発明は、ユーザ重要度とキーワード重要度とを用いて番組の動画コンテンツのシーン重要度を得ることを主要な特徴としている。
【0028】
キーワード重要度を算出する際には、従来のtf/idfのみならず、キーワードの時間局所性・発言密度、キーワードを発した発言のユニークユーザ数を加味し、キーワードが発生した近傍の区間においてキーワード区間(シーン)の重要度を算出する。
【0029】
また、過去の発言記録を参照し、「重要なユーザ」の発言に含まれるキーワードについての重要度重みを付与する。なお、「重要なユーザ」とは、過去において、多くの人に評価された(数多く引用された、又は数多く引用される発言を人より早く引用できた)ユーザである。シーンへのメタデータとして、キーワード及びシーン重要度を付与することにより、同じキーワードが付与された複数のシーンをシーン重要度の順に提示することができる。
【0030】
以下、一実施の形態について詳述する。
【0031】
〔シーン重要点抽出システムの全体について〕
図1は、ソーシャルメディアからのシーン重要点抽出システムの全体構成を示す図である。このシーン重要度抽出システムは、複数のユーザa〜nにそれぞれ使用される複数のクライアント端末5a〜5n(以下、端末5)と、通信ネットワークを介してそれら端末5に通信可能に接続されたチャットサーバ3及びメタデータサーバ1とで主に構成される。
【0032】
端末5は、チャットサーバ3から提供されるチャットデータの表示や再生を実行する。また、メタデータサーバ1に対して、検索の実行や応答を表示する。
【0033】
チャットサーバ3は、番組の動画コンテンツを見ながら端末5で入力されたユーザの発言データを集約し、現在アクセスしている全ての端末5に対して集約された発言データを提供する。また、各ユーザの発言データを記録した発言記録情報を生成し、メタデータサーバ1に送信する。
【0034】
メタデータサーバ1は、チャットサーバ3から送信された発言記録情報から重要なユーザを抽出すると共に、インデキシング処理を行い、端末5からのユーザ検索要求に応じてレコメンド結果を送信する。ユーザ検索要求は、キーワードでなされ、その応答は、キーワードが含まれるシーンの起点と重要度とのセットが複数個含まれる。
【0035】
図2は、発言記録情報の例を示す図である。番組コンテンツへのアクセスの1回分が1レコードとして記録され、1レコードは、発言ID、日時(アクセス時刻又は入力時刻)、ユーザID、発言データ、引用元発言IDで構成されている。引用元発言IDがない場合(他の発言を引用していない場合)は、該発言の発言IDが引用元発言IDに記録される。
【0036】
以下、ユーザ検索要求に対して応答を行うシーン重要点抽出装置について説明する。なお、このシーン重要点抽出装置は、メタデータサーバ1で動作することが好ましいが、メタデータサーバ1に接続された単独のサーバで動作することも可能である。
【0037】
〔シーン重要点抽出装置について〕
図3は、本実施の形態に係るシーン重要点抽出装置の機能ブロック構成を示す図である。このシーン重要点抽出装置100は、ユーザ重要度算出部11と、キーワード重要度算出部12と、シーン重要度算出部13と、メタデータ付与部14と、発言記録情報記憶部15とで主に構成される。
【0038】
発言記録情報記憶部15は、過去に放送された放送済の番組コンテンツに対するユーザの発言データ等を記録した過去発言記録情報を記憶しておく機能を有している。具体的には、図2に示した発言記録情報が記憶されている。
【0039】
ユーザ重要度算出部11は、現在放送中の番組コンテンツに対する発言データ等を記録した現在発言記録情報(具体的には、図2に示した発言記録情報)をチャットサーバ3から受信し、その現在発言記録情報を用いて、一定回数を超えて引用された人気発言データ群と、単位時間あたりの引用回数が一定増加度を超えて増加するブーム生起発言データ群とを生成し、それら2つの発言データ群に含まれる発言データを引用していたユーザに対して所定の重みの重要度を付与する機能を有している。
【0040】
また、ユーザ重要度算出部11は、引用していたユーザのうち当該ユーザによる発言データの入力時刻が早いユーザに対して高い重みを付与し、遅いユーザに対して低い重みを付与する機能を有している。
【0041】
また、ユーザ重要度算出部11は、発言データの引用回数、及び/又は、単位時間あたりの引用回数の増加度の最高値を重要度の重みに付与する機能を有している。
【0042】
キーワード重要度算出部12は、発言記録情報記憶部15から過去発言記録情報を読み出して発言データからキーワードを抽出し、そのキーワードが過去発言記録情報内で出現するキーワード過去出現特徴量を算出し、そのキーワードと同一のキーワードが上記受信した現在発言記録情報内で出現するキーワード現在出現特徴量を算出して、それら2つの出現特徴量の演算値をキーワードの重要度として算出する機能を有している。
【0043】
なお、キーワード過去出現特徴量の例としては、過去発言記録情報内の全ての番組コンテンツに対する発言データで出現するキーワードの逆出現頻度と、過去発言記録情報内の各番組コンテンツに対する発言データで出現するキーワードの逆出現頻度とが挙げられる。
【0044】
また、キーワード現在出現特徴量の例としては、同一のキーワードが現在発言記録情報内で出現する出現頻度が挙げられる。
【0045】
シーン重要度算出部13は、現在発言記録情報内で同一のキーワードが入力された時間間隔が一定時間以下の区間をシーンとし、そのキーワードに対するキーワード重要度と当該キーワードを発言したユーザのユーザ重要度との演算値をシーンの重要度として算出し、キーワードに関連付けて記憶手段に記憶させる機能を有している。
【0046】
また、シーン重要度算出部13は、シーンの区間内に含まれる同一のキーワードの総数、及び/又は、そのキーワードを発言したユーザの総数をシーン重要度に付与する機能を有している。
【0047】
メタデータ付与部14は、シーン重要度算出部13により算出されたシーン重要度と当該シーン重要度に対応するキーワードを、メタデータとして番組コンテンツの各シーンに付与する機能を有している。
【0048】
なお、ユーザ重要度算出部11と、キーワード重要度算出部12と、シーン重要度算出部13と、メタデータ付与部14とは、CPU等により実現される。また、発言記録情報記憶部15は、メモリやハードディスク等により実現される。各機能部の処理はプログラムにより実行される。
【0049】
以下、ユーザ重要度算出部11と、キーワード重要度算出部12と、シーン重要度算出部13とで行う具体的処理方法について詳述する。
【0050】
〔ユーザの重要度抽出方法について〕
最初に、ユーザ重要度算出部11で行うユーザ重要度抽出方法について説明する。以降説明するユーザ重要度抽出方法は、ユーザ間での発言データの引用に対して、流行する前にその発言を行ったユーザや引用ユーザを高く評価するように、ユーザ重要度の重みを算出することを特徴としている。
【0051】
図4は、ユーザ重要度抽出方法を示すフローチャートである。なお、重要なユーザとは、コンテンツ視聴者が引用したくなるような発言をしたユーザや引用者をいう。
【0052】
最初に、チャットサーバ3から送信される現在発言記録情報に基づいて、しきい値Th_pop(一定回数)を超えて、多くの人に引用された発言群(すなわち、ユーザ間に人気のある人気発言データ群)Chat_popを求める(S101:p0)。
【0053】
例えば、放送中の番組コンテンツに対する現在発言記録情報を用いて、発言ID(i)毎の引用頻度fiをカウントし、しきい値Th_popを超えた発言ID群を引用頻度fiと共にデータベーステーブルに出力して、人気発言データ群Chat_popと定義する。
【0054】
次に、チャットサーバ3から送信される現在発言記録情報に基づいて、しきい値Th_boom(一定増加度)を超えて、単位時間τあたりに急激に引用数が増えた履歴を持つコンテンツ群(すなわち、ブームが生起したブーム生起発言データ群)Chat_boomを求める(S102〜S107:p1)。
【0055】
例えば、ある発言ID(i)が最初に引用された時刻Tiから、ある時間T(=l*τ)経過後までの引用履歴を抽出し、それをある単位時間τ毎に集約して引用回数の増加度Vi(=[V1,V2,…,Vl])を求め、しきい値Th_boomを超える増加度Viを持つ発言ID(i)をブームが生起した発言と定義する。
【0056】
そして、増加度Viの最高値max[Vi]と共に、発言IDとその時刻とをデータベーステーブルに出力し、ブーム生起発言データ群Chat_boomと定義する。なお、引用回数の増加度が最初にしきい値Th_boomを超えた時刻をTboom_iとする。
【0057】
最後に、人気発言データ群Chat_popとブーム生起発言データ群Chat_boomとを発言IDで結合(例えば、Chat_pop∪Chat_boom、又はChat_pop∩Chat_boom)し、ユーザ重要度テーブルを初期化した後に、初期の段階(時間区間[Ti,Ti+T_earlyth])で発言ID(i)を引用でアクセスしていたユーザに対するユーザ重要度の重みWを計算する(S108〜S112)。
【0058】
例えば、以下の式(1)を用いてユーザjのユーザ重要度の重みWjを求める。
【0059】
Wj=Σp0(Tij−Ti)+p1(Tij−Tboom_i)+p2(fi)+p3(max[Vi])+p4(Wj_init) ・・・式(1)
なお、Tjiは、発言ID(i)に対するユーザjのアクセス時間(引用時間)である。また、式(1)では、全てのチャット群及び/又は発言ID群について加算される。
【0060】
式(1)の右辺第1項のp0は、上記S101で求めた人気発言データ群Chat_popに基づいて生成される単調減少関数である。右辺第2項のp1は、上記S102〜S107で求めたブーム生起発言データ群Chat_boomに基づいて生成される単調減少関数である。
【0061】
なお、重みの付与の仕方は、早い時刻でチャットサーバ3にアクセス(発言や引用)したユーザほど高く、遅い時刻でアクセスしたユーザほど低くすることが望ましい。これにより、流行する前に発言したユーザに対して高い評価値を付与することができる。
【0062】
右辺第1項及び第2項のp2のみでも良いが、増加する前に予測するという観点を入れるため、ブームが起こったと判断できる時刻であるTboom_iからの発言引用時刻を加味するように、式(1)に示したように、第2項に(Tij−Tboom_i)を加えても良い。
【0063】
式(1)の右辺第3項のp2は、発言ID(i)の引用回数fiに基づいて生成される単調増加関数である。右辺第4項のp3は、単位時間あたりの引用回数の増加度の最高値max[Vi]に基づいて生成される単調増加関数である。右辺第5項のp4は、ユーザjのユーザ重要度重みWjの過去の実績値や規定値(例えば、1.0等のデフォルト値)である。
【0064】
右辺第1項や第2項のみでもよいが、式(1)に示したように、第3項〜第5項のうち1つ以上を加えても良い。
【0065】
以上の処理により、図5に示すようなユーザ重要度重みテーブルが生成される。
【0066】
〔キーワードの重要度抽出方法について〕
次に、キーワード重要度算出部12で行うキーワード重要度抽出方法について説明する。以降説明するキーワード重要度抽出方法及びシーン重要度抽出方法は、従来のtf/idfのみならず、キーワードの時間局所性・発言密度、キーワードを発した発言のユニークユーザ数の特徴量を加味し、キーワードが発生した近傍の区間においてキーワード区間(シーン)の重要度を算出することを特徴としている。
【0067】
図6は、キーワード重要度抽出処理前の事前処理を示すフローチャートである。発言記録情報記憶部15から過去発言記録情報を読み出して形態素解析し、その解析により得られた全てのキーワードについて、キーワードの重要度tfidfのパラメータとなるキーワード逆出現頻度idfを算出し、DBに登録する。
【0068】
キーワード逆出現頻度idfは、全番組に対する逆出現頻度idf1(キーワードが出現した放送回数の逆数)と、各番組に対する逆出現頻度idf2(同一シリーズの番組においてキーワードが出現した放送回数の逆数)とをそれぞれ算出する。以下、詳述する。
【0069】
最初に、過去の全番組コンテンツにおける全キーワードの出現頻度を算出し、DBに登録する(S201)。
【0070】
次に、過去の全番組コンテンツ数に対して、全キーワードの出現があった番組数をカウントし、以下の式(2)を用いて全番組コンテンツに対する逆出現頻度idf1を求める(S202)。
【0071】
idf1=log(|Pall|/|{pall:pall∋ti}|) ・・・式(2)
【0072】
最後に、過去の各番組コンテンツの過去の放送数に対して、キーワードの出現があった放送数をカウントし、以下の式(3)を用いて各番組に対する逆出現頻度idf2を求める(S203)。
【0073】
idf2=log(|P|/|{p:p∋ti}|) ・・・式(3)
なお、|Pall|は、全番組コンテンツ数においてキーワードiを含む放送回数であり、|P|は、各番組においてキーワードiを含む放送回数であり、tiは、カウント対象のキーワードである。このようなidfの具体的算出方法は、前述の参考文献(p.114-115)に記載されている。
【0074】
次に、上記と同様の形態素解析処理によって図2に示したような現在発言記録情報内のレコードからキーワードを抽出し、現在発言中の各キーワードを1レコードとして記録する(図7参照)。1レコードは、キーワード、発言ID、日時、ユーザID、発言で構成され、発言がされるたびに追加される。
【0075】
続いて、以上より計算された過去発言記録情報からの逆出現頻度idf1,idf2と、現在発言記録情報からのキーワードリストとを用いて行う頻度によるキーワード重要度算出方法について説明する。
【0076】
図8は、キーワード重要度抽出方法を示すフローチャートである。
【0077】
最初に、リアルタイムに表示されるキーワードであって、現在放送中の番組コンテンツにおいて過去に出現したキーワードと同一のキーワードの出現頻度tfを実時間で算出する(S301)。
【0078】
例えば、以下の式(4)を用いて、過去の放送番組でのチャットの発言数に対する、現在の放送番組でのチャットの発言数の割合で出現頻度tfを求める。
【0079】
tf=Keyi/Σ(keyj) ・・・式(4)
なお、Keyiは、あるキーワードが今見ている番組中のチャットで出現した出現頻度(出現回数)であり、keyjは、同一キーワードが過去のある番組中のチャットで出現した出現頻度(出現回数)である。Σ(keyj)は、過去の全ての番組中のチャットで出現した出現頻度の総数である。
【0080】
また、実時間で算出とは、現在放送中の番組コンテンツに対してS301の計算を逐次行うことをいう。
【0081】
次に、事前に算出した全番組に対する逆出現頻度idf1と、各番組に対する逆出現頻度idf2とをDBより読み込み、式(4)で計算された出現頻度tfを用いて、以下の式(5)により各キーワードの重要度tfidfを算出し、キーワードリストのレコードにキーワード毎に登録する(S302〜S304)。
【0082】
tfidf=tf×idf1×idf2 ・・・式(5)
【0083】
以上の処理により、図9に示すような集約されたキーワード重要度リストが生成される。図7のレコードが図6と同様のidf算出処理によって集約され、1種類のキーワードが1レコードとして記録され、1レコードは、キーワード重要度、全番組idf、番組数分の番組IDと各番組idfとのペアで構成されている。
【0084】
〔(ユーザの重要度を加味した)シーンの重要度抽出方法について〕
次に、シーン重要度算出部13で行うシーン重要度抽出方法について説明する。
【0085】
図9に示したキーワード重要度を用いて図10のフローチャートに従ってシーン仮重要度を算出し、図12のフローチャートに従ってシーン仮重要度に対してユーザ重要度等を付与することにより、図13のシーン重要度を求める。以下、それら各処理について説明する。
【0086】
まず、連続性によるシーン仮重要度の算出方法について説明する。図10は、シーン仮重要度算出方法を示すフローチャートである。
【0087】
最初に、現在放送中の番組コンテンツの放送開始から現時点までの間に出現した同一のキーワードの数が一定数Ckeyよりも多い場合は、同一キーワードの出現時間間隔(t(i)−t(i−1))を算出する(S401〜S402(S402については後述))。なお、t(i)は、あるキーワードがある時点で出現した時刻であり、t(i−1)は、同じキーワードが次以降で出現した時刻である。
【0088】
一方、同一キーワード数が一定数Ckeyよりも少ない場合には、コメントとシーンが対応づいていないとみなし、該当キーワードを処理しない。
【0089】
次に、算出された同一キーワードの出現時間間隔が一定時間Ctよりも短い場合は、同一キーワードを1つの纏まり(同一キーワード群による1シーン)とみなし、t(i―1)を最初のコメント時間とし、キーワード群リストの長さLGjとキーワード出現順序番号iとをインクリメントして、図13のレコード内のキーワード群リストGjに、キーワードと、キーワード群リストの長さLGjと、最初にキーワードが入力された最初のコメント時間とを記録する(S403〜S406、図11参照)。なお、キーワード群リストの長さLGjとは、1シーン内での同一キーワードの総数に相当する。そして、S402に戻る。
【0090】
一方、同一キーワードの出現時間間隔が一定時間Ctよりも長い場合は、別のキーワード群とみなし、t(i―1)を最後のコメント時間とし、キーワード群リストのリスト番号jをインクリメントして、先と同一レコードに最後のコメント時間を記録する(S407〜S408、図11参照)。そして、S402に戻る。
【0091】
その後、キーワード群リストの長さLGiが一定数Cseqよりも長い場合には、キーワード群はシーンに対応するコメントの集合であるとみなし、キーワード重要度算出部12により求められたキーワードの重要度tfidfを用いて、該当するシーンの仮重要度Iseqを以下の式(6)により算出する(S409)。
【0092】
Iseq=tfidf×LGi ・・・式(6)
【0093】
一方、キーワード群の長さLGiが一定数Cseqよりも短い場合には、コメントとシーンが対応していないとみなし、該当キーワード群リストを処理しない。
【0094】
最後に、ユニークユーザ数によるシーン仮重要度の算出方法について説明する。図12は、シーン重要度算出方法を示すフローチャートである。
【0095】
まず、シーンの仮重要度Iseqが一定数Cuniqよりも大きい場合に、図5のユーザ重要度重みテーブルより、該当するキーワードを含む発言をしたユーザjの重要度重みWjを読み込み、そのキーワードを発言したユーザjの人数をカウントして1シーンにおけるユニークユーザ数Nuを求める(S501〜S503)。
【0096】
その後、そのシーン仮重要度Iseqを用いて、以下の式(7)によりシーン重要度Iuniqを算出する(S504)。
【0097】
Iuniq=Iseq×sqrt(Σ(Wj)/Nu) ・・・式(7)
【0098】
図13は、番組コンテンツにおけるシーン重要度の記録例を示す図である。図8、図10、図12の処理によって各シーンに関連するデータが算出され、1つのシーン(キーワード群リスト)が1レコードとして記録される。1レコードは、キーワード群リスト名・シーン名、重要度Iuniq、仮重要度Iseq、キーワード、キーワード群リストの長さLGj、最初のコメント時間、最後のコメント時間、ユニークユーザ数で構成されている。
【0099】
以上より、本実施の形態によれば、人気発言データ群とブーム生起発言データ群とに含まれる発言データを引用していたユーザに対して所定の重みの重要度を付与したユーザ重要度を生成し、過去発言記録情報及び現在発言記録情報で出現するキーワードの出現特徴量をキーワード重要度として算出し、それら2つの重要度の演算により番組コンテンツ中のシーン重要度を算出してキーワードに関連付けて記憶しておくので、番組コンテンツのユーザに対してより納得感のある適切なシーン検索を提供することができる。
【0100】
すなわち、従来の頻度のような指標以外に、重要なユーザの発言に基づくキーワードの重みを利用しているので、同一キーワードが複数出現した場合や複数のキーワードが同一シーンに紐付いた場合等に、より納得感のあるシーン検索や推薦が可能となり、シーン検索の精度を向上することができる。
【0101】
また、Web上のデータをシーンに紐づいたキーワードで検索可能となる。このとき、検索キーワードはユーザの重要度によって重み付けられているので、従来の検索よりもユーザにとって納得感のある検索結果を提供することができる。
【符号の説明】
【0102】
1…メタデータサーバ
3…チャットサーバ
5…クライアント端末
100…シーン重要点抽出装置
11…ユーザ重要度算出部
12…キーワード重要度算出部
13…シーン重要度算出部
14…メタデータ付与部
15…発言記録情報記憶部
S101〜S112、S201〜S203、S301〜S304、S401〜S409、S501〜S504…処理ステップ
【技術分野】
【0001】
本発明は、ソーシャルメディア上における番組コンテンツのシーン重要点を抽出する技術に関する。
【背景技術】
【0002】
動画コンテンツに関するメタデータ付与は古くから行われている。音声・字幕・クローズドキャプション等の情報を活用し、文字認識・画像認識・音声認識等の技術を用いて、ビデオ映像中に出現する人や物や事象を特定し、時系列に沿って、その認識内容を記述し、検索のための索引作成や動画コンテンツの分類が行われてきた。なお、これらの技術の詳細は、「岩波講座 マルチメディア情報学8 情報の構造化と検索」(西尾、岩波書店、2000年)(以下、参考文献)に詳しく記載されている。
【0003】
一方、最近では、ソーシャルメディア上での番組視聴者が番組コンテンツに対して入力する発言情報をもとに、番組コンテンツに対するメタデータを付与する試みが行われてきている。
【0004】
例えば、非特許文献1によれば、番組視聴者が興味を持っている場面では、チャットでの発言回数や発言文字列の数が増大するという二つのパラメータを用いて盛り上がりを抽出し、その盛り上がりの中に含まれている発言からキーワードを抽出し、番組コンテンツのメタデータとする手法を提案している。
【0005】
また、非特許文献2によれば、書き込みテキストのエントリ数や、書き込みテキスト中のアスキーアートの出現頻度から、盛り上がり・落胆の感動度数を求めてシーンのインデキシングを行う方法が記載されている。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】大黒、「インターネットチャットを利用した番組メタデータの自動生成システムの実装と評価」、2005-AVM-18、情報処理学会 研究報告、2005年
【非特許文献2】宮森、「番組実況チャットに基づく視聴者視点を利用した放送番組のビュー生成」、DEWS2005 4B-i9、2005年
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、文字認識・画像認識・音声認識の技術を用いる場合は、番組コンテンツの放送局側から提供される情報のみであるため、番組作成者や配信側の意図に基づくメタデータ付与しかできないという課題があった。また、付与されたメタデータ(キーワード等)の重要度が、一人一人の発言に対して平等に扱われているため、視聴者全員の反応を反映することはできたものの、他の人に引用されるような人気のある発言を拾い上げることはできないという課題があった。
【0008】
また、非特許文献1では、書き込みの頻度や発言文字列長により、シーンの重要度について求めているが、キーワード毎に重要度を求めていないため、動画コンテンツのキーワードによるシーン検索ができないという課題があった。
【0009】
また、非特許文献2では、時系列に沿って動的にキーワードを抽出することができる。しかしながら、すべての発言やユーザが均等に扱われているため、目的の情報をフィルタするのに人間の能力を必要とするという課題があった。
【0010】
本発明は、上記を鑑みてなされたものであり、その課題とするところは、番組コンテンツの視聴者(以下、ユーザ)に対してより適切なシーン検索を提供することにある。
【課題を解決するための手段】
【0011】
請求項1記載のシーン重要点抽出装置は、放送済の番組コンテンツに対する発言データと当該発言データを引用した発言データとを、発言データの入力時刻に関連付けた過去発言記録情報を記憶しておく発言記録情報記憶手段と、放送中の番組コンテンツに対する発言データと当該発言データを引用した発言データとを発言データの入力時刻に関連付けた現在発言記録情報を用いて、一定回数を超えて引用された人気発言データ群と、単位時間あたりの引用回数が一定増加度を超えて増加するブーム生起発言データ群とを生成し、当該2つの発言データ群に含まれる発言データを引用していたユーザに対して所定の重みの重要度を付与するユーザ重要度算出手段と、前記発言記録情報記憶手段から過去発言記録情報を読み出して発言データからキーワードを抽出し、当該キーワードが当該過去発言記録情報内で出現するキーワード過去出現特徴量を算出し、当該キーワードと同一のキーワードが前記現在発言記録情報内で出現するキーワード現在出現特徴量を算出して、当該2つの出現特徴量の演算値をキーワードの重要度として算出するキーワード重要度算出手段と、前記現在発言記録情報内で同一のキーワードが入力された時間間隔が一定時間以下の区間をシーンとし、当該キーワードに対する前記重要度と当該キーワードを発言したユーザの前記重要度との演算値を前記シーンの重要度として算出し、キーワードに関連付けて記憶手段に記憶させるシーン重要度算出手段と、を有することを特徴とする。
【0012】
本発明によれば、人気発言データ群とブーム生起発言データ群とに含まれる発言データを引用していたユーザに対して所定の重みの重要度を付与したユーザ重要度を生成し、過去発言記録情報及び現在発言記録情報で出現するキーワードの出現特徴量をキーワード重要度として算出し、それら2つの重要度の演算により番組コンテンツ中のシーン重要度を算出してキーワードに関連付けて記憶しておくため、番組コンテンツのユーザに対してより納得感のある適切なシーン検索を提供することができる。
【0013】
請求項2記載のシーン重要点抽出装置は、請求項1記載のシーン重要点抽出装置において、前記ユーザ重要度算出手段は、前記引用していたユーザのうち発言データの入力時刻が早いユーザに対して高い重みを付与し、遅いユーザに対して低い重みを付与することを特徴とする。
【0014】
請求項3記載のシーン重要点抽出装置は、請求項1又は2記載のシーン重要点抽出装置において、前記キーワード過去出現特徴量は、前記過去発言記録情報内の全ての番組コンテンツに対する発言データで出現する前記キーワードの逆出現頻度と、前記過去発言記録情報内の各番組コンテンツに対する発言データで出現する前記キーワードの逆出現頻度とであることを特徴とする。
【0015】
請求項4記載のシーン重要点抽出装置は、請求項1乃至3のいずれかに記載のシーン重要点抽出装置において、前記キーワード現在出現特徴量は、前記同一のキーワードが現在発言記録情報内で出現する出現頻度であることを特徴とする。
【0016】
請求項5記載のシーン重要点抽出装置は、請求項1乃至4のいずれかに記載のシーン重要点抽出装置において、前記ユーザ重要度算出手段は、発言データの引用回数、及び/又は、単位時間あたりの引用回数の増加度の最高値を前記重みに付与することを特徴とする。
【0017】
請求項6記載のシーン重要点抽出装置は、請求項1乃至5のいずれかに記載のシーン重要点抽出装置において、前記シーン重要度算出手段は、前記シーンの区間内に含まれる同一のキーワードの総数、及び/又は、当該キーワードを発言したユーザの総数を前記シーンの重要度に付与することを特徴とする。
【0018】
請求項7記載のシーン重要点抽出装置は、請求項1乃至6のいずれかに記載のシーン重要点抽出装置において、前記シーンの重要度をメタデータとして番組コンテンツのシーンに付与するメタデータ付与手段を更に有することを特徴とする。
【0019】
請求項8記載のシーン重要点抽出方法は、コンピュータにより行うシーン重要点抽出方法において、放送済の番組コンテンツに対する発言データと当該発言データを引用した発言データとを、発言データの入力時刻に関連付けた過去発言記録情報を記憶しておく発言記録情報記憶ステップと、放送中の番組コンテンツに対する発言データと当該発言データを引用した発言データとを発言データの入力時刻に関連付けた現在発言記録情報を用いて、一定回数を超えて引用された人気発言データ群と、単位時間あたりの引用回数が一定増加度を超えて増加するブーム生起発言データ群とを生成し、当該2つの発言データ群に含まれる発言データを引用していたユーザに対して所定の重みの重要度を付与するユーザ重要度算出ステップと、前記発言記録情報記憶手段から過去発言記録情報を読み出して発言データからキーワードを抽出し、当該キーワードが当該過去発言記録情報内で出現するキーワード過去出現特徴量を算出し、当該キーワードと同一のキーワードが前記現在発言記録情報内で出現するキーワード現在出現特徴量を算出して、当該2つの出現特徴量の演算値をキーワードの重要度として算出するキーワード重要度算出ステップと、前記現在発言記録情報内で同一のキーワードが入力された時間間隔が一定時間以下の区間をシーンとし、当該キーワードに対する前記重要度と当該キーワードを発言したユーザの前記重要度との演算値を前記シーンの重要度として算出し、キーワードに関連付けて記憶手段に記憶させるシーン重要度算出ステップと、を有することを特徴とする。
【0020】
本発明によれば、人気発言データ群とブーム生起発言データ群とに含まれる発言データを引用していたユーザに対して所定の重みの重要度を付与したユーザ重要度を生成し、過去発言記録情報及び現在発言記録情報で出現するキーワードの出現特徴量をキーワード重要度として算出し、それら2つの重要度の演算により番組コンテンツ中のシーン重要度を算出してキーワードに関連付けて記憶しておくため、番組コンテンツのユーザに対してより納得感のある適切なシーン検索を提供することができる。
【0021】
請求項9記載のシーン重要点抽出方法は、請求項8記載のシーン重要点抽出方法において、前記ユーザ重要度算出ステップは、前記引用していたユーザのうち発言データの入力時刻が早いユーザに対して高い重みを付与し、遅いユーザに対して低い重みを付与することを特徴とする。
【0022】
請求項10記載のシーン重要点抽出プログラムは、請求項8又は9記載の各ステップをコンピュータに実行させることを特徴とする。
【発明の効果】
【0023】
本発明によれば、番組コンテンツのユーザに対してより適切なシーン検索を提供することができる。
【図面の簡単な説明】
【0024】
【図1】シーン重要点抽出システムの全体構成を示す図である。
【図2】発言記録情報の例を示す図である。
【図3】シーン重要点抽出装置の機能ブロック構成を示す図である。
【図4】ユーザ重要度抽出方法を示すフローチャートである。
【図5】ユーザ重要度重みテーブルの例を示す図である。
【図6】キーワード重要度抽出処理前の事前処理を示すフローチャートである。
【図7】現在放送中の番組コンテンツに対する発言毎のキーワードリストである。
【図8】キーワード重要度抽出方法を示すフローチャートである。
【図9】キーワード重要度リストの例を示す図である。
【図10】シーン仮重要度算出方法を示すフローチャートである。
【図11】シーン仮重要度算出方法を説明する図である。
【図12】シーン重要度算出方法を示すフローチャートである。
【図13】シーン重要度リストの例を示す図である。
【発明を実施するための形態】
【0025】
以下、本発明を実施する一実施の形態について図面を用いて説明する。但し、本発明は多くの異なる様態で実施することが可能であり、本実施の形態の記載内容に限定して解釈すべきではない。
【0026】
本発明は、協調フィルタリングのアイテム評価値や他のアイテムへの類似度に対して、現在のログからの値のみではなく、将来の予測値を「先進的なユーザのログ」について重みを付けて算出し、それに基づいて協調フィルタリングを適用することを最も主要な特徴としている。なお、「先進的なユーザ」とは、過去において、多くの人に評価されたアイテムを初期の段階で発見したユーザをいう。
【0027】
すなわち、本発明は、ユーザ重要度とキーワード重要度とを用いて番組の動画コンテンツのシーン重要度を得ることを主要な特徴としている。
【0028】
キーワード重要度を算出する際には、従来のtf/idfのみならず、キーワードの時間局所性・発言密度、キーワードを発した発言のユニークユーザ数を加味し、キーワードが発生した近傍の区間においてキーワード区間(シーン)の重要度を算出する。
【0029】
また、過去の発言記録を参照し、「重要なユーザ」の発言に含まれるキーワードについての重要度重みを付与する。なお、「重要なユーザ」とは、過去において、多くの人に評価された(数多く引用された、又は数多く引用される発言を人より早く引用できた)ユーザである。シーンへのメタデータとして、キーワード及びシーン重要度を付与することにより、同じキーワードが付与された複数のシーンをシーン重要度の順に提示することができる。
【0030】
以下、一実施の形態について詳述する。
【0031】
〔シーン重要点抽出システムの全体について〕
図1は、ソーシャルメディアからのシーン重要点抽出システムの全体構成を示す図である。このシーン重要度抽出システムは、複数のユーザa〜nにそれぞれ使用される複数のクライアント端末5a〜5n(以下、端末5)と、通信ネットワークを介してそれら端末5に通信可能に接続されたチャットサーバ3及びメタデータサーバ1とで主に構成される。
【0032】
端末5は、チャットサーバ3から提供されるチャットデータの表示や再生を実行する。また、メタデータサーバ1に対して、検索の実行や応答を表示する。
【0033】
チャットサーバ3は、番組の動画コンテンツを見ながら端末5で入力されたユーザの発言データを集約し、現在アクセスしている全ての端末5に対して集約された発言データを提供する。また、各ユーザの発言データを記録した発言記録情報を生成し、メタデータサーバ1に送信する。
【0034】
メタデータサーバ1は、チャットサーバ3から送信された発言記録情報から重要なユーザを抽出すると共に、インデキシング処理を行い、端末5からのユーザ検索要求に応じてレコメンド結果を送信する。ユーザ検索要求は、キーワードでなされ、その応答は、キーワードが含まれるシーンの起点と重要度とのセットが複数個含まれる。
【0035】
図2は、発言記録情報の例を示す図である。番組コンテンツへのアクセスの1回分が1レコードとして記録され、1レコードは、発言ID、日時(アクセス時刻又は入力時刻)、ユーザID、発言データ、引用元発言IDで構成されている。引用元発言IDがない場合(他の発言を引用していない場合)は、該発言の発言IDが引用元発言IDに記録される。
【0036】
以下、ユーザ検索要求に対して応答を行うシーン重要点抽出装置について説明する。なお、このシーン重要点抽出装置は、メタデータサーバ1で動作することが好ましいが、メタデータサーバ1に接続された単独のサーバで動作することも可能である。
【0037】
〔シーン重要点抽出装置について〕
図3は、本実施の形態に係るシーン重要点抽出装置の機能ブロック構成を示す図である。このシーン重要点抽出装置100は、ユーザ重要度算出部11と、キーワード重要度算出部12と、シーン重要度算出部13と、メタデータ付与部14と、発言記録情報記憶部15とで主に構成される。
【0038】
発言記録情報記憶部15は、過去に放送された放送済の番組コンテンツに対するユーザの発言データ等を記録した過去発言記録情報を記憶しておく機能を有している。具体的には、図2に示した発言記録情報が記憶されている。
【0039】
ユーザ重要度算出部11は、現在放送中の番組コンテンツに対する発言データ等を記録した現在発言記録情報(具体的には、図2に示した発言記録情報)をチャットサーバ3から受信し、その現在発言記録情報を用いて、一定回数を超えて引用された人気発言データ群と、単位時間あたりの引用回数が一定増加度を超えて増加するブーム生起発言データ群とを生成し、それら2つの発言データ群に含まれる発言データを引用していたユーザに対して所定の重みの重要度を付与する機能を有している。
【0040】
また、ユーザ重要度算出部11は、引用していたユーザのうち当該ユーザによる発言データの入力時刻が早いユーザに対して高い重みを付与し、遅いユーザに対して低い重みを付与する機能を有している。
【0041】
また、ユーザ重要度算出部11は、発言データの引用回数、及び/又は、単位時間あたりの引用回数の増加度の最高値を重要度の重みに付与する機能を有している。
【0042】
キーワード重要度算出部12は、発言記録情報記憶部15から過去発言記録情報を読み出して発言データからキーワードを抽出し、そのキーワードが過去発言記録情報内で出現するキーワード過去出現特徴量を算出し、そのキーワードと同一のキーワードが上記受信した現在発言記録情報内で出現するキーワード現在出現特徴量を算出して、それら2つの出現特徴量の演算値をキーワードの重要度として算出する機能を有している。
【0043】
なお、キーワード過去出現特徴量の例としては、過去発言記録情報内の全ての番組コンテンツに対する発言データで出現するキーワードの逆出現頻度と、過去発言記録情報内の各番組コンテンツに対する発言データで出現するキーワードの逆出現頻度とが挙げられる。
【0044】
また、キーワード現在出現特徴量の例としては、同一のキーワードが現在発言記録情報内で出現する出現頻度が挙げられる。
【0045】
シーン重要度算出部13は、現在発言記録情報内で同一のキーワードが入力された時間間隔が一定時間以下の区間をシーンとし、そのキーワードに対するキーワード重要度と当該キーワードを発言したユーザのユーザ重要度との演算値をシーンの重要度として算出し、キーワードに関連付けて記憶手段に記憶させる機能を有している。
【0046】
また、シーン重要度算出部13は、シーンの区間内に含まれる同一のキーワードの総数、及び/又は、そのキーワードを発言したユーザの総数をシーン重要度に付与する機能を有している。
【0047】
メタデータ付与部14は、シーン重要度算出部13により算出されたシーン重要度と当該シーン重要度に対応するキーワードを、メタデータとして番組コンテンツの各シーンに付与する機能を有している。
【0048】
なお、ユーザ重要度算出部11と、キーワード重要度算出部12と、シーン重要度算出部13と、メタデータ付与部14とは、CPU等により実現される。また、発言記録情報記憶部15は、メモリやハードディスク等により実現される。各機能部の処理はプログラムにより実行される。
【0049】
以下、ユーザ重要度算出部11と、キーワード重要度算出部12と、シーン重要度算出部13とで行う具体的処理方法について詳述する。
【0050】
〔ユーザの重要度抽出方法について〕
最初に、ユーザ重要度算出部11で行うユーザ重要度抽出方法について説明する。以降説明するユーザ重要度抽出方法は、ユーザ間での発言データの引用に対して、流行する前にその発言を行ったユーザや引用ユーザを高く評価するように、ユーザ重要度の重みを算出することを特徴としている。
【0051】
図4は、ユーザ重要度抽出方法を示すフローチャートである。なお、重要なユーザとは、コンテンツ視聴者が引用したくなるような発言をしたユーザや引用者をいう。
【0052】
最初に、チャットサーバ3から送信される現在発言記録情報に基づいて、しきい値Th_pop(一定回数)を超えて、多くの人に引用された発言群(すなわち、ユーザ間に人気のある人気発言データ群)Chat_popを求める(S101:p0)。
【0053】
例えば、放送中の番組コンテンツに対する現在発言記録情報を用いて、発言ID(i)毎の引用頻度fiをカウントし、しきい値Th_popを超えた発言ID群を引用頻度fiと共にデータベーステーブルに出力して、人気発言データ群Chat_popと定義する。
【0054】
次に、チャットサーバ3から送信される現在発言記録情報に基づいて、しきい値Th_boom(一定増加度)を超えて、単位時間τあたりに急激に引用数が増えた履歴を持つコンテンツ群(すなわち、ブームが生起したブーム生起発言データ群)Chat_boomを求める(S102〜S107:p1)。
【0055】
例えば、ある発言ID(i)が最初に引用された時刻Tiから、ある時間T(=l*τ)経過後までの引用履歴を抽出し、それをある単位時間τ毎に集約して引用回数の増加度Vi(=[V1,V2,…,Vl])を求め、しきい値Th_boomを超える増加度Viを持つ発言ID(i)をブームが生起した発言と定義する。
【0056】
そして、増加度Viの最高値max[Vi]と共に、発言IDとその時刻とをデータベーステーブルに出力し、ブーム生起発言データ群Chat_boomと定義する。なお、引用回数の増加度が最初にしきい値Th_boomを超えた時刻をTboom_iとする。
【0057】
最後に、人気発言データ群Chat_popとブーム生起発言データ群Chat_boomとを発言IDで結合(例えば、Chat_pop∪Chat_boom、又はChat_pop∩Chat_boom)し、ユーザ重要度テーブルを初期化した後に、初期の段階(時間区間[Ti,Ti+T_earlyth])で発言ID(i)を引用でアクセスしていたユーザに対するユーザ重要度の重みWを計算する(S108〜S112)。
【0058】
例えば、以下の式(1)を用いてユーザjのユーザ重要度の重みWjを求める。
【0059】
Wj=Σp0(Tij−Ti)+p1(Tij−Tboom_i)+p2(fi)+p3(max[Vi])+p4(Wj_init) ・・・式(1)
なお、Tjiは、発言ID(i)に対するユーザjのアクセス時間(引用時間)である。また、式(1)では、全てのチャット群及び/又は発言ID群について加算される。
【0060】
式(1)の右辺第1項のp0は、上記S101で求めた人気発言データ群Chat_popに基づいて生成される単調減少関数である。右辺第2項のp1は、上記S102〜S107で求めたブーム生起発言データ群Chat_boomに基づいて生成される単調減少関数である。
【0061】
なお、重みの付与の仕方は、早い時刻でチャットサーバ3にアクセス(発言や引用)したユーザほど高く、遅い時刻でアクセスしたユーザほど低くすることが望ましい。これにより、流行する前に発言したユーザに対して高い評価値を付与することができる。
【0062】
右辺第1項及び第2項のp2のみでも良いが、増加する前に予測するという観点を入れるため、ブームが起こったと判断できる時刻であるTboom_iからの発言引用時刻を加味するように、式(1)に示したように、第2項に(Tij−Tboom_i)を加えても良い。
【0063】
式(1)の右辺第3項のp2は、発言ID(i)の引用回数fiに基づいて生成される単調増加関数である。右辺第4項のp3は、単位時間あたりの引用回数の増加度の最高値max[Vi]に基づいて生成される単調増加関数である。右辺第5項のp4は、ユーザjのユーザ重要度重みWjの過去の実績値や規定値(例えば、1.0等のデフォルト値)である。
【0064】
右辺第1項や第2項のみでもよいが、式(1)に示したように、第3項〜第5項のうち1つ以上を加えても良い。
【0065】
以上の処理により、図5に示すようなユーザ重要度重みテーブルが生成される。
【0066】
〔キーワードの重要度抽出方法について〕
次に、キーワード重要度算出部12で行うキーワード重要度抽出方法について説明する。以降説明するキーワード重要度抽出方法及びシーン重要度抽出方法は、従来のtf/idfのみならず、キーワードの時間局所性・発言密度、キーワードを発した発言のユニークユーザ数の特徴量を加味し、キーワードが発生した近傍の区間においてキーワード区間(シーン)の重要度を算出することを特徴としている。
【0067】
図6は、キーワード重要度抽出処理前の事前処理を示すフローチャートである。発言記録情報記憶部15から過去発言記録情報を読み出して形態素解析し、その解析により得られた全てのキーワードについて、キーワードの重要度tfidfのパラメータとなるキーワード逆出現頻度idfを算出し、DBに登録する。
【0068】
キーワード逆出現頻度idfは、全番組に対する逆出現頻度idf1(キーワードが出現した放送回数の逆数)と、各番組に対する逆出現頻度idf2(同一シリーズの番組においてキーワードが出現した放送回数の逆数)とをそれぞれ算出する。以下、詳述する。
【0069】
最初に、過去の全番組コンテンツにおける全キーワードの出現頻度を算出し、DBに登録する(S201)。
【0070】
次に、過去の全番組コンテンツ数に対して、全キーワードの出現があった番組数をカウントし、以下の式(2)を用いて全番組コンテンツに対する逆出現頻度idf1を求める(S202)。
【0071】
idf1=log(|Pall|/|{pall:pall∋ti}|) ・・・式(2)
【0072】
最後に、過去の各番組コンテンツの過去の放送数に対して、キーワードの出現があった放送数をカウントし、以下の式(3)を用いて各番組に対する逆出現頻度idf2を求める(S203)。
【0073】
idf2=log(|P|/|{p:p∋ti}|) ・・・式(3)
なお、|Pall|は、全番組コンテンツ数においてキーワードiを含む放送回数であり、|P|は、各番組においてキーワードiを含む放送回数であり、tiは、カウント対象のキーワードである。このようなidfの具体的算出方法は、前述の参考文献(p.114-115)に記載されている。
【0074】
次に、上記と同様の形態素解析処理によって図2に示したような現在発言記録情報内のレコードからキーワードを抽出し、現在発言中の各キーワードを1レコードとして記録する(図7参照)。1レコードは、キーワード、発言ID、日時、ユーザID、発言で構成され、発言がされるたびに追加される。
【0075】
続いて、以上より計算された過去発言記録情報からの逆出現頻度idf1,idf2と、現在発言記録情報からのキーワードリストとを用いて行う頻度によるキーワード重要度算出方法について説明する。
【0076】
図8は、キーワード重要度抽出方法を示すフローチャートである。
【0077】
最初に、リアルタイムに表示されるキーワードであって、現在放送中の番組コンテンツにおいて過去に出現したキーワードと同一のキーワードの出現頻度tfを実時間で算出する(S301)。
【0078】
例えば、以下の式(4)を用いて、過去の放送番組でのチャットの発言数に対する、現在の放送番組でのチャットの発言数の割合で出現頻度tfを求める。
【0079】
tf=Keyi/Σ(keyj) ・・・式(4)
なお、Keyiは、あるキーワードが今見ている番組中のチャットで出現した出現頻度(出現回数)であり、keyjは、同一キーワードが過去のある番組中のチャットで出現した出現頻度(出現回数)である。Σ(keyj)は、過去の全ての番組中のチャットで出現した出現頻度の総数である。
【0080】
また、実時間で算出とは、現在放送中の番組コンテンツに対してS301の計算を逐次行うことをいう。
【0081】
次に、事前に算出した全番組に対する逆出現頻度idf1と、各番組に対する逆出現頻度idf2とをDBより読み込み、式(4)で計算された出現頻度tfを用いて、以下の式(5)により各キーワードの重要度tfidfを算出し、キーワードリストのレコードにキーワード毎に登録する(S302〜S304)。
【0082】
tfidf=tf×idf1×idf2 ・・・式(5)
【0083】
以上の処理により、図9に示すような集約されたキーワード重要度リストが生成される。図7のレコードが図6と同様のidf算出処理によって集約され、1種類のキーワードが1レコードとして記録され、1レコードは、キーワード重要度、全番組idf、番組数分の番組IDと各番組idfとのペアで構成されている。
【0084】
〔(ユーザの重要度を加味した)シーンの重要度抽出方法について〕
次に、シーン重要度算出部13で行うシーン重要度抽出方法について説明する。
【0085】
図9に示したキーワード重要度を用いて図10のフローチャートに従ってシーン仮重要度を算出し、図12のフローチャートに従ってシーン仮重要度に対してユーザ重要度等を付与することにより、図13のシーン重要度を求める。以下、それら各処理について説明する。
【0086】
まず、連続性によるシーン仮重要度の算出方法について説明する。図10は、シーン仮重要度算出方法を示すフローチャートである。
【0087】
最初に、現在放送中の番組コンテンツの放送開始から現時点までの間に出現した同一のキーワードの数が一定数Ckeyよりも多い場合は、同一キーワードの出現時間間隔(t(i)−t(i−1))を算出する(S401〜S402(S402については後述))。なお、t(i)は、あるキーワードがある時点で出現した時刻であり、t(i−1)は、同じキーワードが次以降で出現した時刻である。
【0088】
一方、同一キーワード数が一定数Ckeyよりも少ない場合には、コメントとシーンが対応づいていないとみなし、該当キーワードを処理しない。
【0089】
次に、算出された同一キーワードの出現時間間隔が一定時間Ctよりも短い場合は、同一キーワードを1つの纏まり(同一キーワード群による1シーン)とみなし、t(i―1)を最初のコメント時間とし、キーワード群リストの長さLGjとキーワード出現順序番号iとをインクリメントして、図13のレコード内のキーワード群リストGjに、キーワードと、キーワード群リストの長さLGjと、最初にキーワードが入力された最初のコメント時間とを記録する(S403〜S406、図11参照)。なお、キーワード群リストの長さLGjとは、1シーン内での同一キーワードの総数に相当する。そして、S402に戻る。
【0090】
一方、同一キーワードの出現時間間隔が一定時間Ctよりも長い場合は、別のキーワード群とみなし、t(i―1)を最後のコメント時間とし、キーワード群リストのリスト番号jをインクリメントして、先と同一レコードに最後のコメント時間を記録する(S407〜S408、図11参照)。そして、S402に戻る。
【0091】
その後、キーワード群リストの長さLGiが一定数Cseqよりも長い場合には、キーワード群はシーンに対応するコメントの集合であるとみなし、キーワード重要度算出部12により求められたキーワードの重要度tfidfを用いて、該当するシーンの仮重要度Iseqを以下の式(6)により算出する(S409)。
【0092】
Iseq=tfidf×LGi ・・・式(6)
【0093】
一方、キーワード群の長さLGiが一定数Cseqよりも短い場合には、コメントとシーンが対応していないとみなし、該当キーワード群リストを処理しない。
【0094】
最後に、ユニークユーザ数によるシーン仮重要度の算出方法について説明する。図12は、シーン重要度算出方法を示すフローチャートである。
【0095】
まず、シーンの仮重要度Iseqが一定数Cuniqよりも大きい場合に、図5のユーザ重要度重みテーブルより、該当するキーワードを含む発言をしたユーザjの重要度重みWjを読み込み、そのキーワードを発言したユーザjの人数をカウントして1シーンにおけるユニークユーザ数Nuを求める(S501〜S503)。
【0096】
その後、そのシーン仮重要度Iseqを用いて、以下の式(7)によりシーン重要度Iuniqを算出する(S504)。
【0097】
Iuniq=Iseq×sqrt(Σ(Wj)/Nu) ・・・式(7)
【0098】
図13は、番組コンテンツにおけるシーン重要度の記録例を示す図である。図8、図10、図12の処理によって各シーンに関連するデータが算出され、1つのシーン(キーワード群リスト)が1レコードとして記録される。1レコードは、キーワード群リスト名・シーン名、重要度Iuniq、仮重要度Iseq、キーワード、キーワード群リストの長さLGj、最初のコメント時間、最後のコメント時間、ユニークユーザ数で構成されている。
【0099】
以上より、本実施の形態によれば、人気発言データ群とブーム生起発言データ群とに含まれる発言データを引用していたユーザに対して所定の重みの重要度を付与したユーザ重要度を生成し、過去発言記録情報及び現在発言記録情報で出現するキーワードの出現特徴量をキーワード重要度として算出し、それら2つの重要度の演算により番組コンテンツ中のシーン重要度を算出してキーワードに関連付けて記憶しておくので、番組コンテンツのユーザに対してより納得感のある適切なシーン検索を提供することができる。
【0100】
すなわち、従来の頻度のような指標以外に、重要なユーザの発言に基づくキーワードの重みを利用しているので、同一キーワードが複数出現した場合や複数のキーワードが同一シーンに紐付いた場合等に、より納得感のあるシーン検索や推薦が可能となり、シーン検索の精度を向上することができる。
【0101】
また、Web上のデータをシーンに紐づいたキーワードで検索可能となる。このとき、検索キーワードはユーザの重要度によって重み付けられているので、従来の検索よりもユーザにとって納得感のある検索結果を提供することができる。
【符号の説明】
【0102】
1…メタデータサーバ
3…チャットサーバ
5…クライアント端末
100…シーン重要点抽出装置
11…ユーザ重要度算出部
12…キーワード重要度算出部
13…シーン重要度算出部
14…メタデータ付与部
15…発言記録情報記憶部
S101〜S112、S201〜S203、S301〜S304、S401〜S409、S501〜S504…処理ステップ
【特許請求の範囲】
【請求項1】
放送済の番組コンテンツに対する発言データと当該発言データを引用した発言データとを、発言データの入力時刻に関連付けた過去発言記録情報を記憶しておく発言記録情報記憶手段と、
放送中の番組コンテンツに対する発言データと当該発言データを引用した発言データとを発言データの入力時刻に関連付けた現在発言記録情報を用いて、一定回数を超えて引用された人気発言データ群と、単位時間あたりの引用回数が一定増加度を超えて増加するブーム生起発言データ群とを生成し、当該2つの発言データ群に含まれる発言データを引用していたユーザに対して所定の重みの重要度を付与するユーザ重要度算出手段と、
前記発言記録情報記憶手段から過去発言記録情報を読み出して発言データからキーワードを抽出し、当該キーワードが当該過去発言記録情報内で出現するキーワード過去出現特徴量を算出し、当該キーワードと同一のキーワードが前記現在発言記録情報内で出現するキーワード現在出現特徴量を算出して、当該2つの出現特徴量の演算値をキーワードの重要度として算出するキーワード重要度算出手段と、
前記現在発言記録情報内で同一のキーワードが入力された時間間隔が一定時間以下の区間をシーンとし、当該キーワードに対する前記重要度と当該キーワードを発言したユーザの前記重要度との演算値を前記シーンの重要度として算出し、キーワードに関連付けて記憶手段に記憶させるシーン重要度算出手段と、
を有することを特徴とするシーン重要点抽出装置。
【請求項2】
前記ユーザ重要度算出手段は、
前記引用していたユーザのうち発言データの入力時刻が早いユーザに対して高い重みを付与し、遅いユーザに対して低い重みを付与することを特徴とする請求項1記載のシーン重要点抽出装置。
【請求項3】
前記キーワード過去出現特徴量は、
前記過去発言記録情報内の全ての番組コンテンツに対する発言データで出現する前記キーワードの逆出現頻度と、前記過去発言記録情報内の各番組コンテンツに対する発言データで出現する前記キーワードの逆出現頻度とであることを特徴とする請求項1又は2記載のシーン重要点抽出装置。
【請求項4】
前記キーワード現在出現特徴量は、
前記同一のキーワードが現在発言記録情報内で出現する出現頻度であることを特徴とする請求項1乃至3のいずれかに記載のシーン重要点抽出装置。
【請求項5】
前記ユーザ重要度算出手段は、
発言データの引用回数、及び/又は、単位時間あたりの引用回数の増加度の最高値を前記重みに付与することを特徴とする請求項1乃至4のいずれかに記載のシーン重要点抽出装置。
【請求項6】
前記シーン重要度算出手段は、
前記シーンの区間内に含まれる同一のキーワードの総数、及び/又は、当該キーワードを発言したユーザの総数を前記シーンの重要度に付与することを特徴とする請求項1乃至5のいずれかに記載のシーン重要点抽出装置。
【請求項7】
前記シーンの重要度をメタデータとして番組コンテンツのシーンに付与するメタデータ付与手段を更に有することを特徴とする請求項1乃至6のいずれかに記載のシーン重要点抽出装置。
【請求項8】
コンピュータにより行うシーン重要点抽出方法において、
放送済の番組コンテンツに対する発言データと当該発言データを引用した発言データとを、発言データの入力時刻に関連付けた過去発言記録情報を記憶しておく発言記録情報記憶ステップと、
放送中の番組コンテンツに対する発言データと当該発言データを引用した発言データとを発言データの入力時刻に関連付けた現在発言記録情報を用いて、一定回数を超えて引用された人気発言データ群と、単位時間あたりの引用回数が一定増加度を超えて増加するブーム生起発言データ群とを生成し、当該2つの発言データ群に含まれる発言データを引用していたユーザに対して所定の重みの重要度を付与するユーザ重要度算出ステップと、
前記発言記録情報記憶手段から過去発言記録情報を読み出して発言データからキーワードを抽出し、当該キーワードが当該過去発言記録情報内で出現するキーワード過去出現特徴量を算出し、当該キーワードと同一のキーワードが前記現在発言記録情報内で出現するキーワード現在出現特徴量を算出して、当該2つの出現特徴量の演算値をキーワードの重要度として算出するキーワード重要度算出ステップと、
前記現在発言記録情報内で同一のキーワードが入力された時間間隔が一定時間以下の区間をシーンとし、当該キーワードに対する前記重要度と当該キーワードを発言したユーザの前記重要度との演算値を前記シーンの重要度として算出し、キーワードに関連付けて記憶手段に記憶させるシーン重要度算出ステップと、
を有することを特徴とするシーン重要点抽出方法。
【請求項9】
前記ユーザ重要度算出ステップは、
前記引用していたユーザのうち発言データの入力時刻が早いユーザに対して高い重みを付与し、遅いユーザに対して低い重みを付与することを特徴とする請求項8記載のシーン重要点抽出方法。
【請求項10】
請求項8又は9記載の各ステップをコンピュータに実行させることを特徴とするシーン重要点抽出プログラム。
【請求項1】
放送済の番組コンテンツに対する発言データと当該発言データを引用した発言データとを、発言データの入力時刻に関連付けた過去発言記録情報を記憶しておく発言記録情報記憶手段と、
放送中の番組コンテンツに対する発言データと当該発言データを引用した発言データとを発言データの入力時刻に関連付けた現在発言記録情報を用いて、一定回数を超えて引用された人気発言データ群と、単位時間あたりの引用回数が一定増加度を超えて増加するブーム生起発言データ群とを生成し、当該2つの発言データ群に含まれる発言データを引用していたユーザに対して所定の重みの重要度を付与するユーザ重要度算出手段と、
前記発言記録情報記憶手段から過去発言記録情報を読み出して発言データからキーワードを抽出し、当該キーワードが当該過去発言記録情報内で出現するキーワード過去出現特徴量を算出し、当該キーワードと同一のキーワードが前記現在発言記録情報内で出現するキーワード現在出現特徴量を算出して、当該2つの出現特徴量の演算値をキーワードの重要度として算出するキーワード重要度算出手段と、
前記現在発言記録情報内で同一のキーワードが入力された時間間隔が一定時間以下の区間をシーンとし、当該キーワードに対する前記重要度と当該キーワードを発言したユーザの前記重要度との演算値を前記シーンの重要度として算出し、キーワードに関連付けて記憶手段に記憶させるシーン重要度算出手段と、
を有することを特徴とするシーン重要点抽出装置。
【請求項2】
前記ユーザ重要度算出手段は、
前記引用していたユーザのうち発言データの入力時刻が早いユーザに対して高い重みを付与し、遅いユーザに対して低い重みを付与することを特徴とする請求項1記載のシーン重要点抽出装置。
【請求項3】
前記キーワード過去出現特徴量は、
前記過去発言記録情報内の全ての番組コンテンツに対する発言データで出現する前記キーワードの逆出現頻度と、前記過去発言記録情報内の各番組コンテンツに対する発言データで出現する前記キーワードの逆出現頻度とであることを特徴とする請求項1又は2記載のシーン重要点抽出装置。
【請求項4】
前記キーワード現在出現特徴量は、
前記同一のキーワードが現在発言記録情報内で出現する出現頻度であることを特徴とする請求項1乃至3のいずれかに記載のシーン重要点抽出装置。
【請求項5】
前記ユーザ重要度算出手段は、
発言データの引用回数、及び/又は、単位時間あたりの引用回数の増加度の最高値を前記重みに付与することを特徴とする請求項1乃至4のいずれかに記載のシーン重要点抽出装置。
【請求項6】
前記シーン重要度算出手段は、
前記シーンの区間内に含まれる同一のキーワードの総数、及び/又は、当該キーワードを発言したユーザの総数を前記シーンの重要度に付与することを特徴とする請求項1乃至5のいずれかに記載のシーン重要点抽出装置。
【請求項7】
前記シーンの重要度をメタデータとして番組コンテンツのシーンに付与するメタデータ付与手段を更に有することを特徴とする請求項1乃至6のいずれかに記載のシーン重要点抽出装置。
【請求項8】
コンピュータにより行うシーン重要点抽出方法において、
放送済の番組コンテンツに対する発言データと当該発言データを引用した発言データとを、発言データの入力時刻に関連付けた過去発言記録情報を記憶しておく発言記録情報記憶ステップと、
放送中の番組コンテンツに対する発言データと当該発言データを引用した発言データとを発言データの入力時刻に関連付けた現在発言記録情報を用いて、一定回数を超えて引用された人気発言データ群と、単位時間あたりの引用回数が一定増加度を超えて増加するブーム生起発言データ群とを生成し、当該2つの発言データ群に含まれる発言データを引用していたユーザに対して所定の重みの重要度を付与するユーザ重要度算出ステップと、
前記発言記録情報記憶手段から過去発言記録情報を読み出して発言データからキーワードを抽出し、当該キーワードが当該過去発言記録情報内で出現するキーワード過去出現特徴量を算出し、当該キーワードと同一のキーワードが前記現在発言記録情報内で出現するキーワード現在出現特徴量を算出して、当該2つの出現特徴量の演算値をキーワードの重要度として算出するキーワード重要度算出ステップと、
前記現在発言記録情報内で同一のキーワードが入力された時間間隔が一定時間以下の区間をシーンとし、当該キーワードに対する前記重要度と当該キーワードを発言したユーザの前記重要度との演算値を前記シーンの重要度として算出し、キーワードに関連付けて記憶手段に記憶させるシーン重要度算出ステップと、
を有することを特徴とするシーン重要点抽出方法。
【請求項9】
前記ユーザ重要度算出ステップは、
前記引用していたユーザのうち発言データの入力時刻が早いユーザに対して高い重みを付与し、遅いユーザに対して低い重みを付与することを特徴とする請求項8記載のシーン重要点抽出方法。
【請求項10】
請求項8又は9記載の各ステップをコンピュータに実行させることを特徴とするシーン重要点抽出プログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【公開番号】特開2012−173774(P2012−173774A)
【公開日】平成24年9月10日(2012.9.10)
【国際特許分類】
【出願番号】特願2011−32089(P2011−32089)
【出願日】平成23年2月17日(2011.2.17)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
【公開日】平成24年9月10日(2012.9.10)
【国際特許分類】
【出願日】平成23年2月17日(2011.2.17)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
[ Back to top ]