シーン重要点抽出装置、シーン重要点抽出方法及びシーン重要点抽出プログラム

【課題】番組コンテンツのユーザに対してより適切なシーン検索を提供すること。
【解決手段】人気発言データ群とブーム生起発言データ群とに含まれる発言データを引用していたユーザに対して所定の重みの重要度を付与したユーザ重要度を生成し、過去発言記録情報及び現在発言記録情報で出現するキーワードの出現特徴量をキーワード重要度として算出し、それら２つの重要度の演算により番組コンテンツ中のシーン重要度を算出してキーワードに関連付けて記憶しておく。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、ソーシャルメディア上における番組コンテンツのシーン重要点を抽出する技術に関する。
【背景技術】
【０００２】
動画コンテンツに関するメタデータ付与は古くから行われている。音声・字幕・クローズドキャプション等の情報を活用し、文字認識・画像認識・音声認識等の技術を用いて、ビデオ映像中に出現する人や物や事象を特定し、時系列に沿って、その認識内容を記述し、検索のための索引作成や動画コンテンツの分類が行われてきた。なお、これらの技術の詳細は、「岩波講座マルチメディア情報学８情報の構造化と検索」（西尾、岩波書店、2000年）（以下、参考文献）に詳しく記載されている。
【０００３】
一方、最近では、ソーシャルメディア上での番組視聴者が番組コンテンツに対して入力する発言情報をもとに、番組コンテンツに対するメタデータを付与する試みが行われてきている。
【０００４】
例えば、非特許文献１によれば、番組視聴者が興味を持っている場面では、チャットでの発言回数や発言文字列の数が増大するという二つのパラメータを用いて盛り上がりを抽出し、その盛り上がりの中に含まれている発言からキーワードを抽出し、番組コンテンツのメタデータとする手法を提案している。
【０００５】
また、非特許文献２によれば、書き込みテキストのエントリ数や、書き込みテキスト中のアスキーアートの出現頻度から、盛り上がり・落胆の感動度数を求めてシーンのインデキシングを行う方法が記載されている。
【先行技術文献】
【非特許文献】
【０００６】
【非特許文献１】大黒、「インターネットチャットを利用した番組メタデータの自動生成システムの実装と評価」、2005-AVM-18、情報処理学会研究報告、2005年
【非特許文献２】宮森、「番組実況チャットに基づく視聴者視点を利用した放送番組のビュー生成」、DEWS2005 4B-i9、2005年
【発明の概要】
【発明が解決しようとする課題】
【０００７】
しかしながら、文字認識・画像認識・音声認識の技術を用いる場合は、番組コンテンツの放送局側から提供される情報のみであるため、番組作成者や配信側の意図に基づくメタデータ付与しかできないという課題があった。また、付与されたメタデータ（キーワード等）の重要度が、一人一人の発言に対して平等に扱われているため、視聴者全員の反応を反映することはできたものの、他の人に引用されるような人気のある発言を拾い上げることはできないという課題があった。
【０００８】
また、非特許文献１では、書き込みの頻度や発言文字列長により、シーンの重要度について求めているが、キーワード毎に重要度を求めていないため、動画コンテンツのキーワードによるシーン検索ができないという課題があった。
【０００９】
また、非特許文献２では、時系列に沿って動的にキーワードを抽出することができる。しかしながら、すべての発言やユーザが均等に扱われているため、目的の情報をフィルタするのに人間の能力を必要とするという課題があった。
【００１０】
本発明は、上記を鑑みてなされたものであり、その課題とするところは、番組コンテンツの視聴者（以下、ユーザ）に対してより適切なシーン検索を提供することにある。
【課題を解決するための手段】
【００１１】
請求項１記載のシーン重要点抽出装置は、放送済の番組コンテンツに対する発言データと当該発言データを引用した発言データとを、発言データの入力時刻に関連付けた過去発言記録情報を記憶しておく発言記録情報記憶手段と、放送中の番組コンテンツに対する発言データと当該発言データを引用した発言データとを発言データの入力時刻に関連付けた現在発言記録情報を用いて、一定回数を超えて引用された人気発言データ群と、単位時間あたりの引用回数が一定増加度を超えて増加するブーム生起発言データ群とを生成し、当該２つの発言データ群に含まれる発言データを引用していたユーザに対して所定の重みの重要度を付与するユーザ重要度算出手段と、前記発言記録情報記憶手段から過去発言記録情報を読み出して発言データからキーワードを抽出し、当該キーワードが当該過去発言記録情報内で出現するキーワード過去出現特徴量を算出し、当該キーワードと同一のキーワードが前記現在発言記録情報内で出現するキーワード現在出現特徴量を算出して、当該２つの出現特徴量の演算値をキーワードの重要度として算出するキーワード重要度算出手段と、前記現在発言記録情報内で同一のキーワードが入力された時間間隔が一定時間以下の区間をシーンとし、当該キーワードに対する前記重要度と当該キーワードを発言したユーザの前記重要度との演算値を前記シーンの重要度として算出し、キーワードに関連付けて記憶手段に記憶させるシーン重要度算出手段と、を有することを特徴とする。
【００１２】
本発明によれば、人気発言データ群とブーム生起発言データ群とに含まれる発言データを引用していたユーザに対して所定の重みの重要度を付与したユーザ重要度を生成し、過去発言記録情報及び現在発言記録情報で出現するキーワードの出現特徴量をキーワード重要度として算出し、それら２つの重要度の演算により番組コンテンツ中のシーン重要度を算出してキーワードに関連付けて記憶しておくため、番組コンテンツのユーザに対してより納得感のある適切なシーン検索を提供することができる。
【００１３】
請求項２記載のシーン重要点抽出装置は、請求項１記載のシーン重要点抽出装置において、前記ユーザ重要度算出手段は、前記引用していたユーザのうち発言データの入力時刻が早いユーザに対して高い重みを付与し、遅いユーザに対して低い重みを付与することを特徴とする。
【００１４】
請求項３記載のシーン重要点抽出装置は、請求項１又は２記載のシーン重要点抽出装置において、前記キーワード過去出現特徴量は、前記過去発言記録情報内の全ての番組コンテンツに対する発言データで出現する前記キーワードの逆出現頻度と、前記過去発言記録情報内の各番組コンテンツに対する発言データで出現する前記キーワードの逆出現頻度とであることを特徴とする。
【００１５】
請求項４記載のシーン重要点抽出装置は、請求項１乃至３のいずれかに記載のシーン重要点抽出装置において、前記キーワード現在出現特徴量は、前記同一のキーワードが現在発言記録情報内で出現する出現頻度であることを特徴とする。
【００１６】
請求項５記載のシーン重要点抽出装置は、請求項１乃至４のいずれかに記載のシーン重要点抽出装置において、前記ユーザ重要度算出手段は、発言データの引用回数、及び／又は、単位時間あたりの引用回数の増加度の最高値を前記重みに付与することを特徴とする。
【００１７】
請求項６記載のシーン重要点抽出装置は、請求項１乃至５のいずれかに記載のシーン重要点抽出装置において、前記シーン重要度算出手段は、前記シーンの区間内に含まれる同一のキーワードの総数、及び／又は、当該キーワードを発言したユーザの総数を前記シーンの重要度に付与することを特徴とする。
【００１８】
請求項７記載のシーン重要点抽出装置は、請求項１乃至６のいずれかに記載のシーン重要点抽出装置において、前記シーンの重要度をメタデータとして番組コンテンツのシーンに付与するメタデータ付与手段を更に有することを特徴とする。
【００１９】
請求項８記載のシーン重要点抽出方法は、コンピュータにより行うシーン重要点抽出方法において、放送済の番組コンテンツに対する発言データと当該発言データを引用した発言データとを、発言データの入力時刻に関連付けた過去発言記録情報を記憶しておく発言記録情報記憶ステップと、放送中の番組コンテンツに対する発言データと当該発言データを引用した発言データとを発言データの入力時刻に関連付けた現在発言記録情報を用いて、一定回数を超えて引用された人気発言データ群と、単位時間あたりの引用回数が一定増加度を超えて増加するブーム生起発言データ群とを生成し、当該２つの発言データ群に含まれる発言データを引用していたユーザに対して所定の重みの重要度を付与するユーザ重要度算出ステップと、前記発言記録情報記憶手段から過去発言記録情報を読み出して発言データからキーワードを抽出し、当該キーワードが当該過去発言記録情報内で出現するキーワード過去出現特徴量を算出し、当該キーワードと同一のキーワードが前記現在発言記録情報内で出現するキーワード現在出現特徴量を算出して、当該２つの出現特徴量の演算値をキーワードの重要度として算出するキーワード重要度算出ステップと、前記現在発言記録情報内で同一のキーワードが入力された時間間隔が一定時間以下の区間をシーンとし、当該キーワードに対する前記重要度と当該キーワードを発言したユーザの前記重要度との演算値を前記シーンの重要度として算出し、キーワードに関連付けて記憶手段に記憶させるシーン重要度算出ステップと、を有することを特徴とする。
【００２０】
本発明によれば、人気発言データ群とブーム生起発言データ群とに含まれる発言データを引用していたユーザに対して所定の重みの重要度を付与したユーザ重要度を生成し、過去発言記録情報及び現在発言記録情報で出現するキーワードの出現特徴量をキーワード重要度として算出し、それら２つの重要度の演算により番組コンテンツ中のシーン重要度を算出してキーワードに関連付けて記憶しておくため、番組コンテンツのユーザに対してより納得感のある適切なシーン検索を提供することができる。
【００２１】
請求項９記載のシーン重要点抽出方法は、請求項８記載のシーン重要点抽出方法において、前記ユーザ重要度算出ステップは、前記引用していたユーザのうち発言データの入力時刻が早いユーザに対して高い重みを付与し、遅いユーザに対して低い重みを付与することを特徴とする。
【００２２】
請求項１０記載のシーン重要点抽出プログラムは、請求項８又は９記載の各ステップをコンピュータに実行させることを特徴とする。
【発明の効果】
【００２３】
本発明によれば、番組コンテンツのユーザに対してより適切なシーン検索を提供することができる。
【図面の簡単な説明】
【００２４】
【図１】シーン重要点抽出システムの全体構成を示す図である。
【図２】発言記録情報の例を示す図である。
【図３】シーン重要点抽出装置の機能ブロック構成を示す図である。
【図４】ユーザ重要度抽出方法を示すフローチャートである。
【図５】ユーザ重要度重みテーブルの例を示す図である。
【図６】キーワード重要度抽出処理前の事前処理を示すフローチャートである。
【図７】現在放送中の番組コンテンツに対する発言毎のキーワードリストである。
【図８】キーワード重要度抽出方法を示すフローチャートである。
【図９】キーワード重要度リストの例を示す図である。
【図１０】シーン仮重要度算出方法を示すフローチャートである。
【図１１】シーン仮重要度算出方法を説明する図である。
【図１２】シーン重要度算出方法を示すフローチャートである。
【図１３】シーン重要度リストの例を示す図である。
【発明を実施するための形態】
【００２５】
以下、本発明を実施する一実施の形態について図面を用いて説明する。但し、本発明は多くの異なる様態で実施することが可能であり、本実施の形態の記載内容に限定して解釈すべきではない。
【００２６】
本発明は、協調フィルタリングのアイテム評価値や他のアイテムへの類似度に対して、現在のログからの値のみではなく、将来の予測値を「先進的なユーザのログ」について重みを付けて算出し、それに基づいて協調フィルタリングを適用することを最も主要な特徴としている。なお、「先進的なユーザ」とは、過去において、多くの人に評価されたアイテムを初期の段階で発見したユーザをいう。
【００２７】
すなわち、本発明は、ユーザ重要度とキーワード重要度とを用いて番組の動画コンテンツのシーン重要度を得ることを主要な特徴としている。
【００２８】
キーワード重要度を算出する際には、従来のｔｆ／ｉｄｆのみならず、キーワードの時間局所性・発言密度、キーワードを発した発言のユニークユーザ数を加味し、キーワードが発生した近傍の区間においてキーワード区間（シーン）の重要度を算出する。
【００２９】
また、過去の発言記録を参照し、「重要なユーザ」の発言に含まれるキーワードについての重要度重みを付与する。なお、「重要なユーザ」とは、過去において、多くの人に評価された（数多く引用された、又は数多く引用される発言を人より早く引用できた）ユーザである。シーンへのメタデータとして、キーワード及びシーン重要度を付与することにより、同じキーワードが付与された複数のシーンをシーン重要度の順に提示することができる。
【００３０】
以下、一実施の形態について詳述する。
【００３１】
〔シーン重要点抽出システムの全体について〕
図１は、ソーシャルメディアからのシーン重要点抽出システムの全体構成を示す図である。このシーン重要度抽出システムは、複数のユーザａ〜ｎにそれぞれ使用される複数のクライアント端末５ａ〜５ｎ（以下、端末５）と、通信ネットワークを介してそれら端末５に通信可能に接続されたチャットサーバ３及びメタデータサーバ１とで主に構成される。
【００３２】
端末５は、チャットサーバ３から提供されるチャットデータの表示や再生を実行する。また、メタデータサーバ１に対して、検索の実行や応答を表示する。
【００３３】
チャットサーバ３は、番組の動画コンテンツを見ながら端末５で入力されたユーザの発言データを集約し、現在アクセスしている全ての端末５に対して集約された発言データを提供する。また、各ユーザの発言データを記録した発言記録情報を生成し、メタデータサーバ１に送信する。
【００３４】
メタデータサーバ１は、チャットサーバ３から送信された発言記録情報から重要なユーザを抽出すると共に、インデキシング処理を行い、端末５からのユーザ検索要求に応じてレコメンド結果を送信する。ユーザ検索要求は、キーワードでなされ、その応答は、キーワードが含まれるシーンの起点と重要度とのセットが複数個含まれる。
【００３５】
図２は、発言記録情報の例を示す図である。番組コンテンツへのアクセスの１回分が１レコードとして記録され、１レコードは、発言ＩＤ、日時（アクセス時刻又は入力時刻）、ユーザＩＤ、発言データ、引用元発言ＩＤで構成されている。引用元発言ＩＤがない場合（他の発言を引用していない場合）は、該発言の発言ＩＤが引用元発言ＩＤに記録される。
【００３６】
以下、ユーザ検索要求に対して応答を行うシーン重要点抽出装置について説明する。なお、このシーン重要点抽出装置は、メタデータサーバ１で動作することが好ましいが、メタデータサーバ１に接続された単独のサーバで動作することも可能である。
【００３７】
〔シーン重要点抽出装置について〕
図３は、本実施の形態に係るシーン重要点抽出装置の機能ブロック構成を示す図である。このシーン重要点抽出装置１００は、ユーザ重要度算出部１１と、キーワード重要度算出部１２と、シーン重要度算出部１３と、メタデータ付与部１４と、発言記録情報記憶部１５とで主に構成される。
【００３８】
発言記録情報記憶部１５は、過去に放送された放送済の番組コンテンツに対するユーザの発言データ等を記録した過去発言記録情報を記憶しておく機能を有している。具体的には、図２に示した発言記録情報が記憶されている。
【００３９】
ユーザ重要度算出部１１は、現在放送中の番組コンテンツに対する発言データ等を記録した現在発言記録情報（具体的には、図２に示した発言記録情報）をチャットサーバ３から受信し、その現在発言記録情報を用いて、一定回数を超えて引用された人気発言データ群と、単位時間あたりの引用回数が一定増加度を超えて増加するブーム生起発言データ群とを生成し、それら２つの発言データ群に含まれる発言データを引用していたユーザに対して所定の重みの重要度を付与する機能を有している。
【００４０】
また、ユーザ重要度算出部１１は、引用していたユーザのうち当該ユーザによる発言データの入力時刻が早いユーザに対して高い重みを付与し、遅いユーザに対して低い重みを付与する機能を有している。
【００４１】
また、ユーザ重要度算出部１１は、発言データの引用回数、及び／又は、単位時間あたりの引用回数の増加度の最高値を重要度の重みに付与する機能を有している。
【００４２】
キーワード重要度算出部１２は、発言記録情報記憶部１５から過去発言記録情報を読み出して発言データからキーワードを抽出し、そのキーワードが過去発言記録情報内で出現するキーワード過去出現特徴量を算出し、そのキーワードと同一のキーワードが上記受信した現在発言記録情報内で出現するキーワード現在出現特徴量を算出して、それら２つの出現特徴量の演算値をキーワードの重要度として算出する機能を有している。
【００４３】
なお、キーワード過去出現特徴量の例としては、過去発言記録情報内の全ての番組コンテンツに対する発言データで出現するキーワードの逆出現頻度と、過去発言記録情報内の各番組コンテンツに対する発言データで出現するキーワードの逆出現頻度とが挙げられる。
【００４４】
また、キーワード現在出現特徴量の例としては、同一のキーワードが現在発言記録情報内で出現する出現頻度が挙げられる。
【００４５】
シーン重要度算出部１３は、現在発言記録情報内で同一のキーワードが入力された時間間隔が一定時間以下の区間をシーンとし、そのキーワードに対するキーワード重要度と当該キーワードを発言したユーザのユーザ重要度との演算値をシーンの重要度として算出し、キーワードに関連付けて記憶手段に記憶させる機能を有している。
【００４６】
また、シーン重要度算出部１３は、シーンの区間内に含まれる同一のキーワードの総数、及び／又は、そのキーワードを発言したユーザの総数をシーン重要度に付与する機能を有している。
【００４７】
メタデータ付与部１４は、シーン重要度算出部１３により算出されたシーン重要度と当該シーン重要度に対応するキーワードを、メタデータとして番組コンテンツの各シーンに付与する機能を有している。
【００４８】
なお、ユーザ重要度算出部１１と、キーワード重要度算出部１２と、シーン重要度算出部１３と、メタデータ付与部１４とは、ＣＰＵ等により実現される。また、発言記録情報記憶部１５は、メモリやハードディスク等により実現される。各機能部の処理はプログラムにより実行される。
【００４９】
以下、ユーザ重要度算出部１１と、キーワード重要度算出部１２と、シーン重要度算出部１３とで行う具体的処理方法について詳述する。
【００５０】
〔ユーザの重要度抽出方法について〕
最初に、ユーザ重要度算出部１１で行うユーザ重要度抽出方法について説明する。以降説明するユーザ重要度抽出方法は、ユーザ間での発言データの引用に対して、流行する前にその発言を行ったユーザや引用ユーザを高く評価するように、ユーザ重要度の重みを算出することを特徴としている。
【００５１】
図４は、ユーザ重要度抽出方法を示すフローチャートである。なお、重要なユーザとは、コンテンツ視聴者が引用したくなるような発言をしたユーザや引用者をいう。
【００５２】
最初に、チャットサーバ３から送信される現在発言記録情報に基づいて、しきい値Ｔｈ＿ｐｏｐ（一定回数）を超えて、多くの人に引用された発言群（すなわち、ユーザ間に人気のある人気発言データ群）Ｃｈａｔ＿ｐｏｐを求める（Ｓ１０１：ｐ０）。
【００５３】
例えば、放送中の番組コンテンツに対する現在発言記録情報を用いて、発言ＩＤ（ｉ）毎の引用頻度ｆｉをカウントし、しきい値Ｔｈ＿ｐｏｐを超えた発言ＩＤ群を引用頻度ｆｉと共にデータベーステーブルに出力して、人気発言データ群Ｃｈａｔ＿ｐｏｐと定義する。
【００５４】
次に、チャットサーバ３から送信される現在発言記録情報に基づいて、しきい値Ｔｈ＿ｂｏｏｍ（一定増加度）を超えて、単位時間τあたりに急激に引用数が増えた履歴を持つコンテンツ群（すなわち、ブームが生起したブーム生起発言データ群）Ｃｈａｔ＿ｂｏｏｍを求める（Ｓ１０２〜Ｓ１０７：ｐ１）。
【００５５】
例えば、ある発言ＩＤ（ｉ）が最初に引用された時刻Ｔｉから、ある時間Ｔ（＝ｌ＊τ）経過後までの引用履歴を抽出し、それをある単位時間τ毎に集約して引用回数の増加度Ｖｉ（＝［Ｖ１，Ｖ２，…，Ｖｌ］）を求め、しきい値Ｔｈ＿ｂｏｏｍを超える増加度Ｖｉを持つ発言ＩＤ（ｉ）をブームが生起した発言と定義する。
【００５６】
そして、増加度Ｖｉの最高値ｍａｘ［Ｖｉ］と共に、発言ＩＤとその時刻とをデータベーステーブルに出力し、ブーム生起発言データ群Ｃｈａｔ＿ｂｏｏｍと定義する。なお、引用回数の増加度が最初にしきい値Ｔｈ＿ｂｏｏｍを超えた時刻をＴｂｏｏｍ＿ｉとする。
【００５７】
最後に、人気発言データ群Ｃｈａｔ＿ｐｏｐとブーム生起発言データ群Ｃｈａｔ＿ｂｏｏｍとを発言ＩＤで結合（例えば、Ｃｈａｔ＿ｐｏｐ∪Ｃｈａｔ＿ｂｏｏｍ、又はＣｈａｔ＿ｐｏｐ∩Ｃｈａｔ＿ｂｏｏｍ）し、ユーザ重要度テーブルを初期化した後に、初期の段階（時間区間［Ｔｉ，Ｔｉ＋Ｔ＿ｅａｒｌｙｔｈ］）で発言ＩＤ（ｉ）を引用でアクセスしていたユーザに対するユーザ重要度の重みＷを計算する（Ｓ１０８〜Ｓ１１２）。
【００５８】
例えば、以下の式（１）を用いてユーザｊのユーザ重要度の重みＷｊを求める。
【００５９】
Ｗｊ＝Σｐ０（Ｔｉｊ−Ｔｉ）＋ｐ１（Ｔｉｊ−Ｔｂｏｏｍ＿ｉ）＋ｐ２（ｆｉ）＋ｐ３（ｍａｘ［Ｖｉ］）＋ｐ４（Ｗｊ＿ｉｎｉｔ）・・・式（１）
なお、Ｔｊｉは、発言ＩＤ（ｉ）に対するユーザｊのアクセス時間（引用時間）である。また、式（１）では、全てのチャット群及び／又は発言ＩＤ群について加算される。
【００６０】
式（１）の右辺第１項のｐ０は、上記Ｓ１０１で求めた人気発言データ群Ｃｈａｔ＿ｐｏｐに基づいて生成される単調減少関数である。右辺第２項のｐ１は、上記Ｓ１０２〜Ｓ１０７で求めたブーム生起発言データ群Ｃｈａｔ＿ｂｏｏｍに基づいて生成される単調減少関数である。
【００６１】
なお、重みの付与の仕方は、早い時刻でチャットサーバ３にアクセス（発言や引用）したユーザほど高く、遅い時刻でアクセスしたユーザほど低くすることが望ましい。これにより、流行する前に発言したユーザに対して高い評価値を付与することができる。
【００６２】
右辺第１項及び第２項のｐ２のみでも良いが、増加する前に予測するという観点を入れるため、ブームが起こったと判断できる時刻であるＴｂｏｏｍ＿ｉからの発言引用時刻を加味するように、式（１）に示したように、第２項に（Ｔｉｊ−Ｔｂｏｏｍ＿ｉ）を加えても良い。
【００６３】
式（１）の右辺第３項のｐ２は、発言ＩＤ（ｉ）の引用回数ｆｉに基づいて生成される単調増加関数である。右辺第４項のｐ３は、単位時間あたりの引用回数の増加度の最高値ｍａｘ［Ｖｉ］に基づいて生成される単調増加関数である。右辺第５項のｐ４は、ユーザｊのユーザ重要度重みＷｊの過去の実績値や規定値（例えば、１．０等のデフォルト値）である。
【００６４】
右辺第１項や第２項のみでもよいが、式（１）に示したように、第３項〜第５項のうち１つ以上を加えても良い。
【００６５】
以上の処理により、図５に示すようなユーザ重要度重みテーブルが生成される。
【００６６】
〔キーワードの重要度抽出方法について〕
次に、キーワード重要度算出部１２で行うキーワード重要度抽出方法について説明する。以降説明するキーワード重要度抽出方法及びシーン重要度抽出方法は、従来のｔｆ／ｉｄｆのみならず、キーワードの時間局所性・発言密度、キーワードを発した発言のユニークユーザ数の特徴量を加味し、キーワードが発生した近傍の区間においてキーワード区間（シーン）の重要度を算出することを特徴としている。
【００６７】
図６は、キーワード重要度抽出処理前の事前処理を示すフローチャートである。発言記録情報記憶部１５から過去発言記録情報を読み出して形態素解析し、その解析により得られた全てのキーワードについて、キーワードの重要度ｔｆｉｄｆのパラメータとなるキーワード逆出現頻度ｉｄｆを算出し、ＤＢに登録する。
【００６８】
キーワード逆出現頻度ｉｄｆは、全番組に対する逆出現頻度ｉｄｆ１（キーワードが出現した放送回数の逆数）と、各番組に対する逆出現頻度ｉｄｆ２（同一シリーズの番組においてキーワードが出現した放送回数の逆数）とをそれぞれ算出する。以下、詳述する。
【００６９】
最初に、過去の全番組コンテンツにおける全キーワードの出現頻度を算出し、ＤＢに登録する（Ｓ２０１）。
【００７０】
次に、過去の全番組コンテンツ数に対して、全キーワードの出現があった番組数をカウントし、以下の式（２）を用いて全番組コンテンツに対する逆出現頻度ｉｄｆ１を求める（Ｓ２０２）。
【００７１】
ｉｄｆ１＝ｌｏｇ（｜Ｐａｌｌ｜／｜｛ｐａｌｌ：ｐａｌｌ∋ｔｉ｝｜）・・・式（２）
【００７２】
最後に、過去の各番組コンテンツの過去の放送数に対して、キーワードの出現があった放送数をカウントし、以下の式（３）を用いて各番組に対する逆出現頻度ｉｄｆ２を求める（Ｓ２０３）。
【００７３】
ｉｄｆ２＝ｌｏｇ（｜Ｐ｜／｜｛ｐ：ｐ∋ｔｉ｝｜）・・・式（３）
なお、｜Ｐａｌｌ｜は、全番組コンテンツ数においてキーワードｉを含む放送回数であり、｜Ｐ｜は、各番組においてキーワードｉを含む放送回数であり、ｔｉは、カウント対象のキーワードである。このようなｉｄｆの具体的算出方法は、前述の参考文献（p.114-115）に記載されている。
【００７４】
次に、上記と同様の形態素解析処理によって図２に示したような現在発言記録情報内のレコードからキーワードを抽出し、現在発言中の各キーワードを１レコードとして記録する（図７参照）。１レコードは、キーワード、発言ＩＤ、日時、ユーザＩＤ、発言で構成され、発言がされるたびに追加される。
【００７５】
続いて、以上より計算された過去発言記録情報からの逆出現頻度ｉｄｆ１，ｉｄｆ２と、現在発言記録情報からのキーワードリストとを用いて行う頻度によるキーワード重要度算出方法について説明する。
【００７６】
図８は、キーワード重要度抽出方法を示すフローチャートである。
【００７７】
最初に、リアルタイムに表示されるキーワードであって、現在放送中の番組コンテンツにおいて過去に出現したキーワードと同一のキーワードの出現頻度ｔｆを実時間で算出する（Ｓ３０１）。
【００７８】
例えば、以下の式（４）を用いて、過去の放送番組でのチャットの発言数に対する、現在の放送番組でのチャットの発言数の割合で出現頻度ｔｆを求める。
【００７９】
ｔｆ＝Ｋｅｙｉ／Σ（ｋｅｙｊ）・・・式（４）
なお、Ｋｅｙｉは、あるキーワードが今見ている番組中のチャットで出現した出現頻度（出現回数）であり、ｋｅｙｊは、同一キーワードが過去のある番組中のチャットで出現した出現頻度（出現回数）である。Σ（ｋｅｙｊ）は、過去の全ての番組中のチャットで出現した出現頻度の総数である。
【００８０】
また、実時間で算出とは、現在放送中の番組コンテンツに対してＳ３０１の計算を逐次行うことをいう。
【００８１】
次に、事前に算出した全番組に対する逆出現頻度ｉｄｆ１と、各番組に対する逆出現頻度ｉｄｆ２とをＤＢより読み込み、式（４）で計算された出現頻度ｔｆを用いて、以下の式（５）により各キーワードの重要度ｔｆｉｄｆを算出し、キーワードリストのレコードにキーワード毎に登録する（Ｓ３０２〜Ｓ３０４）。
【００８２】
ｔｆｉｄｆ＝ｔｆ×ｉｄｆ１×ｉｄｆ２・・・式（５）
【００８３】
以上の処理により、図９に示すような集約されたキーワード重要度リストが生成される。図７のレコードが図６と同様のｉｄｆ算出処理によって集約され、１種類のキーワードが１レコードとして記録され、１レコードは、キーワード重要度、全番組ｉｄｆ、番組数分の番組ＩＤと各番組ｉｄｆとのペアで構成されている。
【００８４】
〔（ユーザの重要度を加味した）シーンの重要度抽出方法について〕
次に、シーン重要度算出部１３で行うシーン重要度抽出方法について説明する。
【００８５】
図９に示したキーワード重要度を用いて図１０のフローチャートに従ってシーン仮重要度を算出し、図１２のフローチャートに従ってシーン仮重要度に対してユーザ重要度等を付与することにより、図１３のシーン重要度を求める。以下、それら各処理について説明する。
【００８６】
まず、連続性によるシーン仮重要度の算出方法について説明する。図１０は、シーン仮重要度算出方法を示すフローチャートである。
【００８７】
最初に、現在放送中の番組コンテンツの放送開始から現時点までの間に出現した同一のキーワードの数が一定数Ｃｋｅｙよりも多い場合は、同一キーワードの出現時間間隔（ｔ（ｉ）−ｔ（ｉ−１））を算出する（Ｓ４０１〜Ｓ４０２（Ｓ４０２については後述））。なお、ｔ（ｉ）は、あるキーワードがある時点で出現した時刻であり、ｔ（ｉ−１）は、同じキーワードが次以降で出現した時刻である。
【００８８】
一方、同一キーワード数が一定数Ｃｋｅｙよりも少ない場合には、コメントとシーンが対応づいていないとみなし、該当キーワードを処理しない。
【００８９】
次に、算出された同一キーワードの出現時間間隔が一定時間Ｃｔよりも短い場合は、同一キーワードを１つの纏まり（同一キーワード群による１シーン）とみなし、ｔ（ｉ―１）を最初のコメント時間とし、キーワード群リストの長さＬＧｊとキーワード出現順序番号ｉとをインクリメントして、図１３のレコード内のキーワード群リストＧｊに、キーワードと、キーワード群リストの長さＬＧｊと、最初にキーワードが入力された最初のコメント時間とを記録する（Ｓ４０３〜Ｓ４０６、図１１参照）。なお、キーワード群リストの長さＬＧｊとは、１シーン内での同一キーワードの総数に相当する。そして、Ｓ４０２に戻る。
【００９０】
一方、同一キーワードの出現時間間隔が一定時間Ｃｔよりも長い場合は、別のキーワード群とみなし、ｔ（ｉ―１）を最後のコメント時間とし、キーワード群リストのリスト番号ｊをインクリメントして、先と同一レコードに最後のコメント時間を記録する（Ｓ４０７〜Ｓ４０８、図１１参照）。そして、Ｓ４０２に戻る。
【００９１】
その後、キーワード群リストの長さＬＧｉが一定数Ｃｓｅｑよりも長い場合には、キーワード群はシーンに対応するコメントの集合であるとみなし、キーワード重要度算出部１２により求められたキーワードの重要度ｔｆｉｄｆを用いて、該当するシーンの仮重要度Ｉｓｅｑを以下の式（６）により算出する（Ｓ４０９）。
【００９２】
Ｉｓｅｑ＝ｔｆｉｄｆ×ＬＧｉ・・・式（６）
【００９３】
一方、キーワード群の長さＬＧｉが一定数Ｃｓｅｑよりも短い場合には、コメントとシーンが対応していないとみなし、該当キーワード群リストを処理しない。
【００９４】
最後に、ユニークユーザ数によるシーン仮重要度の算出方法について説明する。図１２は、シーン重要度算出方法を示すフローチャートである。
【００９５】
まず、シーンの仮重要度Ｉｓｅｑが一定数Ｃｕｎｉｑよりも大きい場合に、図５のユーザ重要度重みテーブルより、該当するキーワードを含む発言をしたユーザｊの重要度重みＷｊを読み込み、そのキーワードを発言したユーザｊの人数をカウントして１シーンにおけるユニークユーザ数Ｎｕを求める（Ｓ５０１〜Ｓ５０３）。
【００９６】
その後、そのシーン仮重要度Ｉｓｅｑを用いて、以下の式（７）によりシーン重要度Ｉｕｎｉｑを算出する（Ｓ５０４）。
【００９７】
Ｉｕｎｉｑ＝Ｉｓｅｑ×ｓｑｒｔ（Σ（Ｗｊ）／Ｎｕ）・・・式（７）
【００９８】
図１３は、番組コンテンツにおけるシーン重要度の記録例を示す図である。図８、図１０、図１２の処理によって各シーンに関連するデータが算出され、１つのシーン（キーワード群リスト）が１レコードとして記録される。１レコードは、キーワード群リスト名・シーン名、重要度Ｉｕｎｉｑ、仮重要度Ｉｓｅｑ、キーワード、キーワード群リストの長さＬＧｊ、最初のコメント時間、最後のコメント時間、ユニークユーザ数で構成されている。
【００９９】
以上より、本実施の形態によれば、人気発言データ群とブーム生起発言データ群とに含まれる発言データを引用していたユーザに対して所定の重みの重要度を付与したユーザ重要度を生成し、過去発言記録情報及び現在発言記録情報で出現するキーワードの出現特徴量をキーワード重要度として算出し、それら２つの重要度の演算により番組コンテンツ中のシーン重要度を算出してキーワードに関連付けて記憶しておくので、番組コンテンツのユーザに対してより納得感のある適切なシーン検索を提供することができる。
【０１００】
すなわち、従来の頻度のような指標以外に、重要なユーザの発言に基づくキーワードの重みを利用しているので、同一キーワードが複数出現した場合や複数のキーワードが同一シーンに紐付いた場合等に、より納得感のあるシーン検索や推薦が可能となり、シーン検索の精度を向上することができる。
【０１０１】
また、Ｗｅｂ上のデータをシーンに紐づいたキーワードで検索可能となる。このとき、検索キーワードはユーザの重要度によって重み付けられているので、従来の検索よりもユーザにとって納得感のある検索結果を提供することができる。
【符号の説明】
【０１０２】
１…メタデータサーバ
３…チャットサーバ
５…クライアント端末
１００…シーン重要点抽出装置
１１…ユーザ重要度算出部
１２…キーワード重要度算出部
１３…シーン重要度算出部
１４…メタデータ付与部
１５…発言記録情報記憶部
Ｓ１０１〜Ｓ１１２、Ｓ２０１〜Ｓ２０３、Ｓ３０１〜Ｓ３０４、Ｓ４０１〜Ｓ４０９、Ｓ５０１〜Ｓ５０４…処理ステップ

【特許請求の範囲】
【請求項１】
放送済の番組コンテンツに対する発言データと当該発言データを引用した発言データとを、発言データの入力時刻に関連付けた過去発言記録情報を記憶しておく発言記録情報記憶手段と、
放送中の番組コンテンツに対する発言データと当該発言データを引用した発言データとを発言データの入力時刻に関連付けた現在発言記録情報を用いて、一定回数を超えて引用された人気発言データ群と、単位時間あたりの引用回数が一定増加度を超えて増加するブーム生起発言データ群とを生成し、当該２つの発言データ群に含まれる発言データを引用していたユーザに対して所定の重みの重要度を付与するユーザ重要度算出手段と、
前記発言記録情報記憶手段から過去発言記録情報を読み出して発言データからキーワードを抽出し、当該キーワードが当該過去発言記録情報内で出現するキーワード過去出現特徴量を算出し、当該キーワードと同一のキーワードが前記現在発言記録情報内で出現するキーワード現在出現特徴量を算出して、当該２つの出現特徴量の演算値をキーワードの重要度として算出するキーワード重要度算出手段と、
前記現在発言記録情報内で同一のキーワードが入力された時間間隔が一定時間以下の区間をシーンとし、当該キーワードに対する前記重要度と当該キーワードを発言したユーザの前記重要度との演算値を前記シーンの重要度として算出し、キーワードに関連付けて記憶手段に記憶させるシーン重要度算出手段と、
を有することを特徴とするシーン重要点抽出装置。
【請求項２】
前記ユーザ重要度算出手段は、
前記引用していたユーザのうち発言データの入力時刻が早いユーザに対して高い重みを付与し、遅いユーザに対して低い重みを付与することを特徴とする請求項１記載のシーン重要点抽出装置。
【請求項３】
前記キーワード過去出現特徴量は、
前記過去発言記録情報内の全ての番組コンテンツに対する発言データで出現する前記キーワードの逆出現頻度と、前記過去発言記録情報内の各番組コンテンツに対する発言データで出現する前記キーワードの逆出現頻度とであることを特徴とする請求項１又は２記載のシーン重要点抽出装置。
【請求項４】
前記キーワード現在出現特徴量は、
前記同一のキーワードが現在発言記録情報内で出現する出現頻度であることを特徴とする請求項１乃至３のいずれかに記載のシーン重要点抽出装置。
【請求項５】
前記ユーザ重要度算出手段は、
発言データの引用回数、及び／又は、単位時間あたりの引用回数の増加度の最高値を前記重みに付与することを特徴とする請求項１乃至４のいずれかに記載のシーン重要点抽出装置。
【請求項６】
前記シーン重要度算出手段は、
前記シーンの区間内に含まれる同一のキーワードの総数、及び／又は、当該キーワードを発言したユーザの総数を前記シーンの重要度に付与することを特徴とする請求項１乃至５のいずれかに記載のシーン重要点抽出装置。
【請求項７】
前記シーンの重要度をメタデータとして番組コンテンツのシーンに付与するメタデータ付与手段を更に有することを特徴とする請求項１乃至６のいずれかに記載のシーン重要点抽出装置。
【請求項８】
コンピュータにより行うシーン重要点抽出方法において、
放送済の番組コンテンツに対する発言データと当該発言データを引用した発言データとを、発言データの入力時刻に関連付けた過去発言記録情報を記憶しておく発言記録情報記憶ステップと、
放送中の番組コンテンツに対する発言データと当該発言データを引用した発言データとを発言データの入力時刻に関連付けた現在発言記録情報を用いて、一定回数を超えて引用された人気発言データ群と、単位時間あたりの引用回数が一定増加度を超えて増加するブーム生起発言データ群とを生成し、当該２つの発言データ群に含まれる発言データを引用していたユーザに対して所定の重みの重要度を付与するユーザ重要度算出ステップと、
前記発言記録情報記憶手段から過去発言記録情報を読み出して発言データからキーワードを抽出し、当該キーワードが当該過去発言記録情報内で出現するキーワード過去出現特徴量を算出し、当該キーワードと同一のキーワードが前記現在発言記録情報内で出現するキーワード現在出現特徴量を算出して、当該２つの出現特徴量の演算値をキーワードの重要度として算出するキーワード重要度算出ステップと、
前記現在発言記録情報内で同一のキーワードが入力された時間間隔が一定時間以下の区間をシーンとし、当該キーワードに対する前記重要度と当該キーワードを発言したユーザの前記重要度との演算値を前記シーンの重要度として算出し、キーワードに関連付けて記憶手段に記憶させるシーン重要度算出ステップと、
を有することを特徴とするシーン重要点抽出方法。
【請求項９】
前記ユーザ重要度算出ステップは、
前記引用していたユーザのうち発言データの入力時刻が早いユーザに対して高い重みを付与し、遅いユーザに対して低い重みを付与することを特徴とする請求項８記載のシーン重要点抽出方法。
【請求項１０】
請求項８又は９記載の各ステップをコンピュータに実行させることを特徴とするシーン重要点抽出プログラム。

【図１】