情報処理システム、情報処理方法、プログラム及び情報記憶媒体
【課題】提供される情報に関連する情報の登録に基づくユーザの特徴の特定を可能とする。
【解決手段】クラスタバリュー特定部26は、提供される情報に関連する情報の登録に応じて決定される、提供される情報に関する盛り上がりの高さを表すパラメータの値を特定する。期間特定部28は、パラメータの値に基づいて、提供される情報に関する盛り上がりが時間経過とともに高くなる期間を特定する。ユーザ特徴特定部30は、特定される期間に基づいて、関連する情報を登録するユーザの特徴を特定する。
【解決手段】クラスタバリュー特定部26は、提供される情報に関連する情報の登録に応じて決定される、提供される情報に関する盛り上がりの高さを表すパラメータの値を特定する。期間特定部28は、パラメータの値に基づいて、提供される情報に関する盛り上がりが時間経過とともに高くなる期間を特定する。ユーザ特徴特定部30は、特定される期間に基づいて、関連する情報を登録するユーザの特徴を特定する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理システム、情報処理方法、プログラム及び情報記憶媒体に関する。
【背景技術】
【0002】
ユーザが手軽に情報発信することができる様々なソーシャルメディアが存在する。このようなソーシャルメディアとしては、例えば、電子掲示板、ブログ、ウィキ、ソーシャルブックマーク、Twitter(登録商標)、ソーシャル・ネットワーキング・サービス、などが挙げられる。
【0003】
また、ソーシャルメディアに登録されたコンテンツを分析するツールも知られている。このようなツールを用いることによって、例えば、ソーシャルメディアを利用するユーザ同士の関係の特定や、旬な話題の特定などを行うことができる。
【発明の概要】
【発明が解決しようとする課題】
【0004】
ソーシャルメディアにおいて、ユーザに提供されるニュース等の情報(ここでは、提供情報と呼ぶ。)に関連する情報(ここでは、関連情報と呼ぶ。)の登録(例えば、提供情報に対する感想等のリアクションが示されたブログ記事やコメントの投稿、ニュースが掲載されたウェブページに対するソーシャルブックマークの登録、など)が行われることがある。そして、関連情報を登録するユーザのなかには、提供情報に関する盛り上がりが時間経過とともに高くなる期間に関連情報を登録するものもいれば、提供情報に関する盛り上がりのピークを過ぎた後に関連情報を登録するものもいると思われる。
【0005】
そのため、例えば、提供情報に関する盛り上がりが時間経過とともに高くなる期間に関連情報を登録するユーザ群をトレンドに対する感度が高いユーザ群として特定する、あるいは、提供情報に関する盛り上がりのピークを過ぎた後に関連情報を登録するユーザ群をトレンドに対する感度が低いユーザ群として特定する、などといった、ユーザによる関連情報の登録の分析に基づくユーザの特徴の特定が可能になると考えられる。しかし、従来の分析技術では、関連情報の登録に基づくユーザの特徴の特定を行うことができなかった。
【0006】
本発明は上記課題に鑑みてなされたものであって、その目的の1つは、提供される情報に関連する情報の登録に基づくユーザの特徴の特定を可能とすることにある。
【課題を解決するための手段】
【0007】
上記課題を解決するために、本発明に係る情報処理システムは、提供される情報に関連する情報の登録に応じて決定される、前記提供される情報に関する盛り上がりの高さを表すパラメータの値を特定する値特定手段と、前記パラメータの値に基づいて、前記提供される情報に関する盛り上がりが時間経過とともに高くなる期間を特定する期間特定手段と、特定される期間に基づいて、前記関連する情報を登録するユーザの特徴を特定する特徴特定手段と、を含むことを特徴とする。
【0008】
また、本発明に係る情報処理方法は、提供される情報に関連する情報の登録に応じて決定される、前記提供される情報に関する盛り上がりの高さを表すパラメータの値を特定する値特定ステップと、前記パラメータの値に基づいて、前記提供される情報に関する盛り上がりが時間経過とともに高くなる期間を特定する期間特定ステップと、特定される期間に基づいて、前記関連する情報を登録するユーザの特徴を特定する特徴特定ステップと、を含むことを特徴とする。
【0009】
また、本発明に係るプログラムは、提供される情報に関連する情報の登録に応じて決定される、前記提供される情報に関する盛り上がりの高さを表すパラメータの値を特定する値特定手段、前記パラメータの値に基づいて、前記提供される情報に関する盛り上がりが時間経過とともに高くなる期間を特定する期間特定手段、特定される期間に基づいて、前記関連する情報を登録するユーザの特徴を特定する特徴特定手段、としてコンピュータを機能させることを特徴とする。
【0010】
また、本発明に係る情報記憶媒体は、提供される情報に関連する情報の登録に応じて決定される、前記提供される情報に関する盛り上がりの高さを表すパラメータの値を特定する値特定手段、前記パラメータの値に基づいて、前記提供される情報に関する盛り上がりが時間経過とともに高くなる期間を特定する期間特定手段、特定される期間に基づいて、前記関連する情報を登録するユーザの特徴を特定する特徴特定手段、としてコンピュータを機能させることを特徴とするプログラムを記憶したコンピュータ読み取り可能な情報記憶媒体である。
【0011】
本発明によれば、提供される情報に関する盛り上がりが時間経過とともに高くなる期間に基づいて、関連する情報を登録するユーザの特徴が特定されるので、提供される情報に関連する情報の登録に基づくユーザの特徴の特定が可能となる。
【0012】
本発明の一態様では、前記特徴特定手段は、前記期間特定手段により特定される期間にユーザにより登録される前記関連する情報の数に基づいて、当該ユーザの特徴を特定することを特徴とする。
【0013】
また、本発明の一態様では、前記値特定手段は、単位時間あたりに前記関連する情報が登録される数を特定し、前記期間特定手段は、単位時間あたりに前記関連する情報が登録される数が増加傾向にある期間を特定することを特徴とする。
【0014】
また、本発明の一態様では、前記値特定手段は、前記提供される情報に関連するキーワードを含むコメントの単位時間あたりの登録回数を特定し、前記期間特定手段は、前記キーワードを含むコメントの単位時間あたりの登録回数が増加傾向にある期間を特定することを特徴とする。
【0015】
また、本発明の一態様では、前記値特定手段は、情報が提供されるウェブページに対するソーシャルブックマークの単位時間あたりの登録回数を特定し、前記期間特定手段は、情報が提供されるウェブページに対するソーシャルブックマークの単位時間あたりの登録回数が増加傾向にある期間を特定することを特徴とする。
【0016】
また、本発明に係る別の情報処理システムは、(1)提供される情報に関連する情報の登録に応じて決定される、前記提供される情報に関する盛り上がりの高さを表すパラメータの値、(2)前記パラメータの値に基づいて特定される、前記提供される情報に関する盛り上がりが時間経過とともに高くなる期間を示す情報、及び、(3)特定される期間に基づいて特定される、前記関連する情報を登録するユーザの特徴を示す情報、のうちの少なくとも1つを取得する取得手段と、前記取得手段により取得される情報に基づいて生成される情報を提示する提示手段と、を含むことを特徴とする。
【図面の簡単な説明】
【0017】
【図1】本発明の一実施形態に係るコンピュータネットワークの全体構成図である。
【図2】本発明の一実施形態に係る分析システムで実現される機能の一例を示す機能ブロック図である。
【図3】本発明の一実施形態に係る分析システムで行われる処理の流れの一例を示すフロー図である。
【図4】コンテンツ管理データの一例を示す図である。
【図5】本発明の一実施形態に係る分析システムで行われる処理の流れの一例を示すフロー図である。
【図6】本発明の一実施形態に係る分析システムで行われる処理の実行状況の一例を模式的に示す図である。
【図7】先駆けユーザデータの一例を示す図である。
【図8】クラスタ検出結果ページの一例を示す図である。
【図9】先駆けユーザ一覧ページの一例を示す図である。
【図10】ソーシャルブックマーク管理データの一例を示す図である。
【図11】ヒストグラムの一例を模式的に示す図である。
【発明を実施するための形態】
【0018】
[第1実施形態]
以下、本発明の一実施形態である第1実施形態について図面に基づき詳細に説明する。
【0019】
図1は、本発明の第1実施形態に係るコンピュータネットワークの全体構成図である。図1に示すように、インターネットなどのコンピュータネットワーク16には、いずれもコンピュータを中心に構成された分析システム10、ソーシャルメディアシステム12、クライアント14(14−1〜14−n)が接続されている。そして、分析システム10、ソーシャルメディアシステム12、クライアント14、は互いに通信可能になっている。
【0020】
分析システム10は、本実施形態に係る情報処理システムとして機能するサーバ等のコンピュータシステムであり、ソーシャルメディアシステム12に登録されているデータに対する分析を行う。ソーシャルメディアシステム12は、例えば、ユーザから受け付けるコンテンツを公開するサービスを提供するサーバ等のコンピュータシステムである。本実施形態に係るソーシャルメディアシステム12は、電子掲示板サービスを提供する。
【0021】
分析システム10、ソーシャルメディアシステム12は、それぞれ、例えば、自装置にインストールされるプログラムに従って動作するCPU等のプログラム制御デバイスである制御部、ROMやRAM等の記憶素子やハードディスクドライブなどである記憶部、ネットワークボードなどの通信インタフェースである通信部、を含んで構成されている。これらの要素は、バスを介して接続される。分析システム10、ソーシャルメディアシステム12の記憶部には、自装置の制御部によって実行されるプログラムが記憶される。また、分析システム10、及び、ソーシャルメディアシステム12の記憶部は、自装置のワークメモリとしても動作する。
【0022】
クライアント14は、分析システム10やソーシャルメディアシステム12のユーザが利用するコンピュータであり、例えば、パーソナルコンピュータ、ゲームコンソール、テレビ受像機、携帯型ゲーム装置、携帯情報端末、などである。そして、クライアント14は、例えば、CPU等の制御部、ROMやRAM等の記憶素子やハードディスクドライブ等の記憶部、ディスプレイ、スピーカ等の出力部、ゲームコントローラ、タッチパッド、マウス、キーボード、マイク等の入力部、ネットワークボード等の通信部、DVD−ROMやBlu−ray(登録商標)ディスクなどの光ディスク(コンピュータ読み取り可能な情報記憶媒体)を読み取る光ディスクドライブ部、等を備えている。
【0023】
また、本実施形態に係るクライアント14には、ウェブブラウザが予めインストールされている。そして、本実施形態では、クライアント14が、ウェブブラウザを通じて分析システム10にアクセスし、分析システム10に登録されているユーザID及びパスワードを入力してログインしてから、その後に所定のURLにアクセスすると、クライアント14のディスプレイに所定のURLに対応する画面が表示される。また、本実施形態では、クライアント14が、ウェブブラウザを通じてソーシャルメディアシステム12にアクセスし、ソーシャルメディアシステム12に登録されているユーザのユーザID及びパスワードを入力してログインしてから、その後に所定のURLにアクセスすると、クライアント14のディスプレイに所定のURLに対応する画面が表示される。なお、分析システム10やソーシャルメディアシステム12では、ユーザID及びパスワードが入力された後は、例えば、セッションIDを参照すること等により、クライアント14を利用するユーザのユーザIDを特定することができるようになっている。
【0024】
本実施形態に係るソーシャルメディアシステム12は、コメント等のコンテンツの投稿をクライアント14から受け付けることができるようになっている。そして、投稿されたコンテンツは、ソーシャルメディアシステム12が備える記憶部に記憶される。そして、ソーシャルメディアシステム12は、クライアント14からの要求に応じて、投稿されたコンテンツをクライアント14に送信する。クライアント14は、コンテンツを受信するとディスプレイに表示出力する。このようにして、ユーザにより投稿されたコンテンツが公開されることとなる。
【0025】
図2は、本実施形態に係る分析システム10で実現される機能の一例を示す機能ブロック図である。図2に示すように、分析システム10は、機能的には、データ記憶部20、データ収集部22、コンテンツ管理データ取得部24、クラスタバリュー特定部26、期間特定部28、ユーザ特徴特定部30、ページ生成部32、ページ出力部34、を含んでいる。データ記憶部20は、分析システム10が備える記憶部を主として実現されている。その他の要素は、分析システム10が備える制御部を主として実現されている。
【0026】
これらの機能は、コンピュータである分析システム10で、本実施形態に係るプログラムが実行されることにより実現される。このプログラムは、コンピュータ通信ネットワーク経由で通信インタフェースを介して他のコンピュータからダウンロードされてもよいし、光ディスク(例えば、CD−ROM、DVD−ROM、Blu−rayディスクなど)、USBメモリ等のコンピュータ読み取り可能な情報記憶媒体に格納され、そこから光ディスクドライブやUSB(Universal Serial Bus)ポートなどを介して分析システム10にインストールされてもよい。
【0027】
ここで、本実施形態に係る分析システム10で行われる、分析対象となるコンテンツの収集処理の流れの一例を、図3に示すフロー図を参照しながら説明する。なお、本実施形態では、予め、データ記憶部20に、ソーシャルメディアシステム12から取得されるコンテンツに関する条件を示す条件データが記憶されている。そして、条件データは、分析システム10のユーザによって設定することができるようになっている。ここでは、例えば、所定のキーワード文字列が条件データとしてデータ記憶部20に記憶されていることとする。
【0028】
まず、データ収集部22は、ソーシャルメディアシステム12から、ユーザによりソーシャルメディアシステム12に投稿されたコンテンツであって、上述の条件データが示す条件を満足するコンテンツを取得する(S101)。そして、データ収集部22は、S101に示す処理で取得したコンテンツについて、取得済であるコンテンツと重複するものがないか否かを確認して、取得済であるコンテンツを以降の処理の対象から除外する(S102)。そして、データ収集部22は、S102に示す処理で除外されなかったコンテンツに基づいて、図4に例示するコンテンツ管理データ40を生成する(S103)。このように、本実施形態では、ソーシャルメディアシステム12から取得されるコンテンツは、コンテンツ管理データ40として管理される。コンテンツ管理データ40は、図4に示すように、例えば、コンテンツ管理データ40の識別子であるコンテンツ管理ID、コンテンツの投稿を行ったユーザの識別子であるユーザID、コンテンツの投稿が行われた日時を示す投稿日時データ、投稿されたコンテンツ(本実施形態では、コメント)を示すコンテンツデータ、などが含まれている。そして、データ収集部22は、S103に示す処理で生成されたコンテンツ管理データ40をデータ記憶部20に記憶させる(S104)。そして、データ収集部22は、予め定められたループタイミングが到来したか否か(例えば、S101に示す処理の開始時点から1時間が経過したか否か)を監視して(S105)、ループタイミングが到来したら、S101以降の処理を再度実行する。
【0029】
このようにして、本実施形態では、ソーシャルメディアシステム12に投稿されたコンテンツに基づくコンテンツ管理データ40が、データ記憶部20に蓄積されていくこととなる。
【0030】
次に、本実施形態に係る分析システム10で行われる、コンテンツ管理データ40に基づく、ソーシャルメディアシステム12に投稿されたコンテンツの分析処理の流れの一例を、図5に示すフロー図を参照しながら説明する。
【0031】
まず、コンテンツ管理データ取得部24が、データ記憶部20に記憶されているコンテンツ管理データ40を取得する。(S201)。そして、クラスタバリュー特定部26が、S201に示す処理で取得されたコンテンツ管理データ40を、コンテンツ管理データ40に含まれる投稿日時データが示す投稿日時が早いものから遅いものへの順序となるようソートする(S202)。そして、クラスタバリュー特定部26は、コンテンツが投稿された日時の順序が最初ではないコンテンツ管理データ40のそれぞれについて、当該コンテンツ管理データ40に含まれる投稿日時データが示す投稿日時と、コンテンツが投稿された日時の順序が直前であるコンテンツ管理データ40に含まれる投稿日時データが示す投稿日時と、の時間差である投稿時間差を関連付ける。(S203)。そして、クラスタバリュー特定部26が、S203に示す処理でコンテンツが投稿された日時の順序が最初ではないコンテンツ管理データ40のそれぞれについて算出された投稿時間差の代表値(本実施形態では、例えば、複数の投稿時間差の中央値(メジアン))を算出する(S204)。
【0032】
そして、クラスタバリュー特定部26は、関連付けられている投稿時間差に基づく、コンテンツ管理データ40のクラスタリングを実行する(S205)。
【0033】
図6は、S205以降の処理の実行状況の一例を模式的に示す図である。本処理例では、クラスタバリュー特定部26は、S205に示す処理において、例えば、コンテンツが投稿された日時の順序が最初であるコンテンツ管理データ40を最初のクラスタ42に属するメンバとして設定する。そして、コンテンツが投稿された日時の順序が2番目以降であるコンテンツ管理データ40について、関連付けられている投稿時間差がS204に示す処理で算出された代表値よりも小さければ、当該コンテンツ管理データ40を、コンテンツが投稿された日時の順序が直前であるコンテンツ管理データ40と同一のクラスタ42に属するメンバとして設定し、そうでない場合は、当該コンテンツ管理データ40を新たなクラスタ42に属するメンバとして設定する。
【0034】
図6では、コンテンツ管理データ40に対応する投稿が丸印によって表されている。そして、図6に示されている横軸は、左が早い時刻、右が遅い時刻を示す時間軸である。そして、それぞれの丸印について、丸印を横軸に射影した位置は、丸印に対応するコンテンツの投稿が行われた時刻に対応している。
【0035】
そして、線分によって互いに連結されている丸印群は、上述のクラスタ42を表している。図6には、5つのクラスタ42(第1のクラスタ42−1、第2のクラスタ42−2、第3のクラスタ42−3、第4のクラスタ42−4、及び、第5のクラスタ42−5)が表されている。図6では、第1のクラスタ42−1には3つのコンテンツ管理データ40、第2のクラスタ42−2には2つのコンテンツ管理データ40、第3のクラスタ42−3には1つのコンテンツ管理データ40、第4のクラスタ42−4には2つのコンテンツ管理データ40、第5のクラスタ42−5には3つのコンテンツ管理データ40が属していることが示されている。図6に示すように、S205に示す処理では、コンテンツが投稿された日時の間隔が上述の代表値よりも小さな一連のコンテンツ管理データ40が、同一のクラスタ42に属するよう設定されることとなる。
【0036】
そして、クラスタバリュー特定部26は、S205に示す処理によって設定された各クラスタ42について、上述の条件データが示す条件を満足する投稿の盛り上がりの高さを示すパラメータの値であるクラスタバリューを特定して、クラスタ42に対応付ける(S206)。本処理例では、クラスタバリューは、クラスタ42に属するコンテンツ管理データ40が表すコンテンツの投稿速度(単位時間あたりの投稿回数)を示しており、例えば、(クラスタ42に属するコンテンツ管理データ40の数−1)/(クラスタ42に属するコンテンツ管理データ40のうちの最初に投稿されたコンテンツに対応するコンテンツ管理データ40に含まれる投稿日時データが示す投稿日時からクラスタ42に属するコンテンツ管理データ40のうちの最後に投稿されたコンテンツに対応するコンテンツ管理データ40に含まれる投稿日時データが示す投稿日時までの時間)という数式によって算出される。なお、本処理例では、属するメンバの数が1であるクラスタ42(図6の例では第3のクラスタ42−3)については、クラスタバリューの値は設定されない。
【0037】
図6の縦軸は、クラスタバリューの大きさを示している。そして、図6には、第1のクラスタ42−1、第2のクラスタ42−2、第4のクラスタ42−4、及び、第5のクラスタ42−5に対応するクラスタバリューが四角印により示されている。また、図6には、第2のクラスタ42−2、第4のクラスタ42−4、に対応付けられるクラスタバリューが、第1のクラスタ42−2、第5のクラスタ42−4、に対応付けられるクラスタバリューよりも大きいことが示されている。
【0038】
そして、クラスタバリュー特定部26は、S205に示す処理によって設定されたクラスタ42のそれぞれについて、クラスタ42に属するコンテンツ管理データ40に含まれるコンテンツデータが示す文字列から、所定回数以上登場している技術用語の抽出を行って、抽出された技術用語をクラスタに関連付ける(S207)。
【0039】
そして、期間特定部28は、S206に示す処理で特定されるクラスタバリューの値が大きなクラスタ42(例えば、対応付けられているクラスタバリューの値の大きさが、クラスタバリューが算出されたクラスタのうちの上位5%であるクラスタ42)を特定する(S208)。ここでは、例えば、図6における、第2のクラスタ42−2及び第4のクラスタ42−4が特定されたこととする。
【0040】
そして、期間特定部28は、クラスタバリューが対応付けられたクラスタ42(すなわち、S208に示す処理における特定の対象となったクラスタ42)において、対応付けられる投稿日時が連続する複数のクラスタ42がS208に示す処理で特定された際には、これら複数のクラスタをまとめて1つのクラスタに統合する(S209)。図6では、第2のクラスタ42−2及び第4のクラスタ42−4が特定されているので、第2のクラスタ42−2及び第4のクラスタ42−4をまとめて1つのクラスタ42(統合クラスタ42a)に統合する。
【0041】
そして、期間特定部28は、S208及びS209に示す処理で特定されたクラスタ42に対応する時間(例えば、図6における、統合クラスタ42aに属するコンテンツ管理データ40のうちの最初に投稿されたコンテンツに対応するコンテンツ管理データ40に含まれる投稿日時データが示す日時から、統合クラスタ42aに属するコンテンツ管理データ40のうち最後に投稿されたコンテンツに対応するコンテンツ管理データ40に含まれる投稿日時データが示す投稿日時までの時間T1)を、時間の長さが等しい3つの時間(例えば、それぞれの時間の長さはT1/3である3つの時間)に分割する(S210)。そして、期間特定部28は、分割されたそれぞれの時間を、早いものから順に、先頭時間、中間時間、末尾時間と設定する(S211)。図6の例では、S208及びS209に示す処理で1つのクラスタ42(統合クラスタ42a)だけが特定されるが、S208に示す処理で複数のクラスタ42(統合クラスタ42aも含まれる。)が特定された場合には、S209に示す処理で特定されたクラスタ42それぞれについて先頭時間、中間時間、及び、末尾時間が設定されることとなる。第1実施形態では、先頭期間が、ユーザに提供される情報に関する盛り上がりが時間経過とともに高くなる期間として取り扱われる。
【0042】
そして、ユーザ特徴特定部30は、コンテンツ管理データ40に基づいて、ユーザ毎の、先頭時間の範囲内に投稿された投稿数を特定する(S212)。S211に示す処理で複数の先頭時間が設定された場合には、ユーザ毎の、それぞれの先頭時間の範囲内に投稿された投稿数の合計を特定する。そして、ユーザ特徴特定部30は、各ユーザに対応付けられる、S212に示す処理で特定された投稿数の多いユーザから順に設定された順位、当該ユーザのユーザID、当該ユーザについてS212に示す処理で特定された投稿数を示すスコア、が含まれる、図7に例示する先駆けユーザデータ44を生成して、データ記憶部20に記憶させて(S213)、本処理例に示す処理を終了する。
【0043】
ページ生成部32は、上述の処理の終了後に受け付ける分析システム10のユーザからの要求に応じて、クラスタバリュー、先駆け時間区間を示す情報、及び、先駆けユーザデータ44のうちの少なくとも1つを取得する。そして、ページ生成部32は、取得したデータに基づいて、図8に示すクラスタ検出結果ページ46を生成する。そして、ページ出力部34は、生成されたクラスタ検出結果ページ46をクライアント14に送信する。そして、クライアント14は、クラスタ検出結果ページ46を受信すると、ディスプレイに表示出力する。
【0044】
図8に示すクラスタ検出結果ページ46には、図6に示されている内容と同様のクラスタバリューの時間変化が示されている。また、図8に示すクラスタ検出結果ページ46では、クラスタバリューが算出されたクラスタ42について、上述のS207に示す処理でクラスタ42に属するコンテンツ管理データ40に含まれるコンテンツデータから抽出された技術用語が関連付けられている。なお、クラスタ検出結果ページ46に、上述の第3のクラスタ42−3について抽出された技術用語が配置されていても構わない。
【0045】
また、ページ生成部32は、上述の処理の終了後に受け付ける分析システム10のユーザからの要求に応じて、図9に示す先駆けユーザ一覧ページ48を生成する。そして、ページ出力部34は、生成された先駆けユーザ一覧ページ48をクライアント14に送信する。クライアント14は、先駆けユーザ一覧ページ48を受信すると、ディスプレイに表示出力する。先駆けユーザ一覧ページ48には、先駆けユーザデータ44における順位が5位以内であるユーザの順位、ユーザID、及び、スコアが配置されている。
【0046】
なお、先駆けユーザ一覧ページ48に配置されているユーザIDをユーザがクリックした際に、ページ生成部32が、クリックされたユーザIDに関連するコンテンツ(例えば、クリックされたユーザIDに対応付けられるユーザにより投稿されたコンテンツ)が配置されたページを生成するようにしてもよい。そして、ページ出力部34が、このページをクライアント14に送信し、クライアント14が、受信したこのページを表示するようにしてもよい。
【0047】
また、先駆けユーザ一覧ページ48に配置されているユーザIDをユーザがクリックした際に、分析システム10が、クリックしたユーザIDに、クリックを行ったユーザのユーザIDを関連づけて記憶するようにしてもよい。そして、分析システム10は、クライアント14からの要求に応じて、当該クライアント14のユーザに関連づけられているユーザに関する情報を、要求元のクライアント14に提供するようにしてもよい。
【0048】
また、ページ生成部32は、先駆けユーザ一覧ページ48に、ユーザの順位、ユーザID、及び、スコアに加え、先駆けユーザ一覧ページ48に配置されているユーザIDの選択を行うユーザにとって参考となる情報(例えば、ユーザIDに対応付けられるユーザによる先駆け時間区間内におけるコンテンツの投稿数などといった分析システム10による分析で用いられた情報、ユーザIDに対応付けられるユーザにより投稿されたコンテンツに所定数以上含まれる語句、ユーザIDに対応付けられるユーザの属性(例えば、性別や住所)など)も併せて配置するようにしてもよい。
【0049】
なお、本実施形態に係る分析システム10で行われるコンテンツの分析処理の流れの一例は上述の処理例には限定されない。
【0050】
例えば、クラスタバリュー特定部26によるクラスタの決定処理は、上述のS204及びS205に示す処理に限定されない。例えば、クラスタバリュー特定部26は、予め定められた複数の閾値(例えば、1秒、2秒、3秒・・・)のそれぞれについて、投稿日時の間隔が閾値よりも小さい一連のコンテンツ管理データ40が同一のクラスタ42に属するようクラスタ42の設定を行ってもよい。そして、クラスタバリュー特定部26は、設定されたクラスタ42の個数と、クラスタ42とクラスタ42との間の隙間の数と、の和を算出するようにしてもよい。例えば、図6のように、クラスタ42の数が5であり、クラスタ42とクラスタ42との間の隙間の数が4である場合には、上述の和は9と算出される。そして、クラスタバリュー特定部26は、このようにして算出される和が最大となる閾値を特定するようにしてもよい。そして、クラスタバリュー特定部26は、コンテンツが投稿された日時の間隔が、特定された閾値よりも小さな一連のコンテンツ管理データ40が、同一のクラスタ42に属するようクラスタ42の設定を行うようにしてもよい。
【0051】
また、例えば、投稿時間差の定義は、上述の処理例に示す定義に限定されない。例えば、クラスタバリュー特定部26が、所定の1サイクルの時間(例えば、24時間)を所定数(例えば、100)に分割した時間範囲(標準投稿速度適用時間範囲と呼ぶ。)毎に、その時間範囲内の投稿に対応付けられるコンテンツ管理データ40について、当該コンテンツ管理データ40の投稿日時と、投稿日時の順序が直前であるコンテンツ管理データ40の投稿日時と、の時間差の逆数を算出するようにしてもよい。ここでは、時間差が0.5秒以下である場合には、時間差の逆数は2.0として取り扱うこととする。そして、クラスタバリュー特定部26は、このようにして算出された時間差の逆数の平均値を、対応する標準投稿速度適用時間範囲における標準投稿速度として算出するようにしてもよい。そして、上述のS203に示す処理において、クラスタバリュー特定部26は、投稿日時の順序が最初ではないコンテンツ管理データ40のそれぞれについて、当該コンテンツ管理データ40に含まれる投稿日時データが示す投稿日時と、コンテンツが投稿された日時の順序が直前であるコンテンツ管理データ40に含まれる投稿日時データが示す投稿日時と、の時間差と、当該コンテンツ管理データ40の投稿日時が含まれる標準投稿速度適用時間範囲における標準投稿速度と、の積である標準投稿時間差を上述の投稿時間差の代わりに関連付けるようにしてもよい。そして、分析システム10は、S204以降の処理において、このようにして関連付けられた標準投稿時間差を、上述の処理例における投稿時間差の代わりに用いるようにしてもよい。
【0052】
また、例えば、期間特定部28は、上述のS209に示す処理において、S208に示す処理で特定されたクラスタ42(又は統合クラスタ42a)に対応する時間を、時間内におけるコンテンツの投稿数が等しい3つの時間に分割するようにしてもよい。
【0053】
また、例えば、上述のS209に示す処理において、期間特定部28は、対応付けられる投稿日時が、第2のクラスタ42−2と第4のクラスタ42−4の間である第3のクラスタ42−3も統合クラスタ42aに統合するようにしてもよい。
【0054】
また、例えば、条件データは、コンテンツ名を表す文字列、サイトURLを表す文字列、タグ名を表す文字列、などを示すものであっても構わない。そして、データ収集部22が、上述の条件を満足するコンテンツ(例えば、条件データが示す文字列に名称が合致するコンテンツ、条件データが示すサイトURLで所在が示されるブログ記事等のコンテンツ、条件データが示す文字列にタグ名が合致するタグを含むコンテンツ、など)を取得するようにしてもよい。そして、分析システム10が、データ収集部22により取得されたコンテンツに対して上述のような分析を行うようにしてもよい。
【0055】
[第2実施形態]
以下、本発明の別の実施形態である第2実施形態について図面に基づき詳細に説明する。
【0056】
第2実施形態に係るコンピュータネットワークの全体構成は、図1と同様の全体構成図により表される。また、第2実施形態に係るソーシャルメディアシステム12は、ソーシャルブックマークサービスを提供する。また、第2実施形態に係る分析システム10で実現される機能の一例は、図2と同様の機能ブロック図により表される。
【0057】
第2実施形態では、データ記憶部20に、所定のURLが条件データとして予め記憶されている。そして、データ収集部22は、ソーシャルメディアシステム12から、ソーシャルメディアシステム12に登録されたソーシャルブックマークであって、上述の条件データが示す条件を満足する(例えば、条件データが示すURLで所在が表されたウェブページに対するソーシャルブックマークである、等)ソーシャルブックマークを取得する。そして、データ収集部22は、ソーシャルメディアシステム12から取得されるソーシャルブックマークの解析を実行することによって、図10に例示するソーシャルブックマーク管理データ50を生成して、データ記憶部20に記憶させる。本実施形態では、ソーシャルメディアシステム12から取得されるソーシャルブックマークは、ソーシャルブックマーク管理データ50として管理される。図10に示すように、ソーシャルブックマーク管理データ50は、ソーシャルブックマーク管理データ50の識別子であるソーシャルブックマーク管理ID、ソーシャルブックマークの登録を行ったユーザの識別子であるユーザID、ソーシャルブックマークの登録が行われた日時を示す登録日時データ、ソーシャルブックマークの対象となるウェブページのURL(リンク先のURL)を示すURLデータ、ソーシャルブックマークの登録の際にユーザにより登録されたコメントを示すコメントデータ、などが含まれている。
【0058】
このようにして、本実施形態では、ソーシャルメディアシステム12に登録されたソーシャルブックマークに基づくソーシャルブックマーク管理データ50が、データ記憶部20に記憶される。
【0059】
以下、データ記憶部20に記憶されたソーシャルブックマーク管理データ50のうち、ソーシャルブックマークの登録日時が最も早いソーシャルブックマーク管理データ50に含まれる登録日時データが示す登録日時から、ソーシャルブックマークの登録日時が最も遅いソーシャルブックマーク管理データ50に含まれる登録日時データが示す登録日時までの時間を分析対象時間T2と呼ぶこととする。
【0060】
そして、クラスタバリュー特定部26が、データ記憶部20に記憶されたソーシャルブックマーク管理データ50に基づいて、ソーシャルブックマークの登録頻度を表すヒストグラム52を生成する(図11参照)。本実施形態に係るヒストグラム52では、条件データが示すURLで所在が表されたウェブページに対する最初のソーシャルブックマークが登録された時点からの経過時間を、所定時間毎(例えば、5分毎)に区切った時間区間(以下、ヒストグラム区間と呼ぶ。)それぞれについての、登録日時が時間区間によって表される時間の範囲内であるソーシャルブックマーク数(単位時間あたりのソーシャルブックマークの登録回数)が表される。
【0061】
そして、クラスタバリュー特定部26は、ヒストグラム52に対して平滑化を実行する。クラスタバリュー特定部26は、具体的には、例えば、あるヒストグラム区間に対応付けられるソーシャルブックマークの数=直前のヒストグラム区間に対応付けられるソーシャルブックマークの数の1/5+当該ヒストグラム区間に対応付けられるソーシャルブックマークの数の3/5+直後のヒストグラム区間に対応付けられるソーシャルブックマークの数の1/5という数式によって、各ヒストグラム区間に対応付けられるソーシャルブックマークの数を変更する。図11は、上述の平滑化が実行された後のヒストグラム52の一例を模式的に示した図である。そして、図11には、平滑化が実行された後における、各ヒストグラム区間に対応付けられるソーシャルブックマーク数が示されている。第2実施形態では、ヒストグラム区間に対応付けられるソーシャルブックマーク数が、ユーザに提供される情報であるウェブページに関する盛り上がりの高さを表すパラメータの値として取り扱われる。
【0062】
そして、クラスタバリュー特定部26は、上述の平滑化の後の、各ヒストグラム区間に対応付けられるソーシャルブックマーク数に基づいて、分析対象時間を等時間間隔で分割した時間区間であり、かつ、連続する所定数(図11の例では、3)のヒストグラム区間に対応付けられる時間区間である分析単位時間区間のそれぞれについて、分析単位時間区間における、ソーシャルブックマークの単位時間あたりの平均登録数(以下、区間平均登録数と呼ぶ。)を算出する。また、クラスタバリュー特定部26は、解析の対象となる時間についての、ソーシャルブックマークの単位時間あたりの平均登録数(以下、全体平均登録数と呼ぶ。)を算出する。図11には、区間平均登録数及び全体平均登録数も示されている。
【0063】
そして、期間特定部28は、区間平均登録数が全体平均登録数以上である分析単位時間区間における、対応付けられるソーシャルブックマークの数が最大であるヒストグラム区間をピークヒストグラム区間として特定する。ピークヒストグラム区間は、区間平均登録数が全体平均登録数以上である分析単位時間区間毎に特定される。そして、期間特定部28は、区間平均登録数が全体平均登録数未満である分析単位時間区間における、対応付けられるソーシャルブックマークの数が最小である(0でもよい。)ヒストグラム区間をディップヒストグラム区間として特定する。ディップヒストグラム区間は、区間平均登録数が全体平均登録数未満である分析単位時間区間毎に特定される。
【0064】
なお、本実施形態では、区間平均登録数が全体平均登録数以上である分析単位時間区間において、ヒストグラム52が示すソーシャルブックマークの数が最大であるヒストグラム区間が複数存在する場合は、最も早い時間に対応付けられるヒストグラム区間をピークヒストグラム区間として特定する。また、本実施形態では、区間平均登録数が全体平均登録数未満である分析単位時間区間において、ヒストグラム52が示すソーシャルブックマークの数が最小であるヒストグラム区間が複数存在する場合は、最も遅い時間に対応付けられるヒストグラム区間をディップヒストグラム区間として特定する。
【0065】
そして、期間特定部28は、時間において隣接し、かつ、ディップヒストグラム区間に対する時間がピークヒストグラム区間に対応する時間よりも前である、ディップヒストグラム区間とピークヒストグラム区間の組合せのそれぞれについて、ディップヒストグラム区間の開始時点からピークヒストグラム区間の終了時点までに対応する時間区間を、先駆け時間区間として特定する。図11の例では、3つの先駆け時間区間が特定されている。第2実施形態では、先駆け時間区間が、ユーザに提供される情報であるウェブページに関する盛り上がりが時間経過とともに高くなる期間として取り扱われる。
【0066】
そして、ユーザ特徴特定部30は、各ユーザのスコアの初期値を0に設定する。そして、ユーザ特徴特定部30が、ソーシャルブックマーク管理データ50に基づいて、先駆け時間区間の範囲内である各ヒストグラム区間について、ソーシャルブックマークの登録を行ったユーザを特定する。そして、特定されたユーザについては、当該ヒストグラム区間が含まれる分析単位時間区間における区間平均登録数を当該ユーザのスコアに加算する。
【0067】
そして、ユーザ特徴特定部30は、各ユーザに対応付けられる、上述のようにして算出されたスコアが大きなユーザから順に設定された順位、当該ユーザのユーザID、当該ユーザについて算出されたスコア、が含まれる、図7と同様の先駆けユーザデータ44を生成して、データ記憶部20に記憶させる。
【0068】
第2実施形態では、ページ生成部32は、上述の処理の終了後に受け付ける分析システム10のユーザからの要求に応じて、区間平均登録数、全体平均登録数、先駆け時間区間を示す情報、及び、先駆けユーザデータ44のうちの少なくとも1つを取得する。そして、ページ生成部32は、取得したデータに基づいて、図9と同様の先駆けユーザ一覧ページ48を生成する。そして、ページ出力部34は、生成された先駆けユーザ一覧ページ48をクライアント14に送信する。クライアント14は、先駆けユーザ一覧ページ48を受信すると、ディスプレイに表示出力する。先駆けユーザ一覧ページ48には、先駆けユーザデータ44における順位が5位以内であるユーザの順位、ユーザID、及び、スコアが配置されている。
【0069】
また、第2実施形態では、ページ生成部32は、上述の処理の終了後に受け付ける分析システム10のユーザからの要求に応じて、ユーザにより指定される先駆けユーザにより最近登録されたソーシャルブックマークのタイトルのリスト、及び、ユーザにより指定される先駆けユーザにより先駆け時間区間に登録されたソーシャルブックマークのタイトルのリストが一覧で表された先駆けソーシャルブックマークリストページ(図示せず)を生成する。このとき、リストに含まれるタイトルのそれぞれは、ソーシャルブックマークの対象となるウェブページへのリンクとして設定される。そして、ページ出力部34は、生成された先駆けソーシャルブックマークリストページをクライアント14に送信する。クライアント14は、先駆けソーシャルブックマークリストページを受信すると、ディスプレイに表示出力する。
【0070】
また、ページ生成部32は、先駆けユーザ一覧ページ48に、ユーザの順位、ユーザID、及び、スコアに加え、先駆けユーザの指定を行うユーザにとって参考となる情報(例えば、ユーザIDに対応付けられるユーザによる先駆け時間区間内におけるソーシャルブックマークの登録数など分析システム10による分析で用いられた情報、ユーザIDに対応付けられるユーザにより登録されたソーシャルブックマークの対象となるウェブページに所定数以上含まれる語句、ユーザIDに対応付けられるユーザの属性(例えば、性別や住所)など)も併せて配置されていてもよい。
【0071】
例えば、ニュース等の情報が掲載されたウェブページがユーザに提供された際には、電子掲示板サービスを提供するソーシャルメディアシステム12に、その情報に対するリアクションであるコメントが投稿されたり、ソーシャルブックマークサービスを提供するソーシャルメディアシステム12に、そのニュース等の情報が掲載されたウェブページに対するソーシャルブックマークが登録されたりする。このようにして、ユーザに提供された情報に関連する情報が、ソーシャルメディアシステム12に登録されることとなる。
【0072】
そして、そのようなコンテンツは、例えば、第1実施形態におけるキーワード、あるいは、第2実施形態におけるURL、などといった条件を指定することで、ソーシャルメディアシステム12から収集することができる。そして、第1実施形態における先頭時間、あるいは、第2実施形態における先駆け時間区間、などといった、ユーザに提供された情報に関する盛り上がりが時間経過とともに高くなる期間に、ソーシャルメディアシステム12にコンテンツを登録する傾向の強いユーザは、ユーザに提供された情報に対する感度が高いユーザ(先駆けユーザ)である可能性が高いと考えられる。よって、第1実施形態や第2実施形態における先駆けユーザデータ44における順位の高い(スコアの大きい)ユーザは、ユーザに提供された情報に対する感度が高いユーザ(先駆けユーザ)であると考えられる。よって、先駆けユーザデータ44によって、ユーザが先駆けユーザであるか否かを判別することができることとなる。
【0073】
なお、第1実施形態において、分析システム10が、例えば、ユーザ毎の、第1実施形態における末尾時間(又は、中間時間)の範囲内に投稿された投稿数の多いユーザから順に設定された順位、当該ユーザのユーザID、当該ユーザについてS210に示す処理で特定された投稿数を示すスコア、が含まれる後追いユーザデータ(又は、目利きユーザデータ)を生成して、データ記憶部20に記憶させるようにしてもよい。
【0074】
また、第2実施形態において、分析システム10が、時間において隣接し、かつ、ピークヒストグラム区間に対する時間がディップヒストグラム区間に対応する時間よりも前である、ピークヒストグラム区間とディップヒストグラム区間の組合せのそれぞれについて、ピークヒストグラム区間の開始時点からディップヒストグラム区間の終了時点までに対応する時間区間を、後追い時間区間として特定するようにしてもよい。そして、分析システム10が、後追い時間区間の範囲内である各ヒストグラム区間にソーシャルブックマークの登録を行ったユーザについて、ヒストグラム区間が含まれる分析単位時間区間における区間平均登録数を加算することによりスコアを算出するようにしてもよい。そして、分析システム10が、上述のようにして算出されたスコアが大きなユーザから順に設定された順位、当該ユーザのユーザID、当該ユーザについて算出されたスコア、が含まれる、後追いユーザデータを生成して、データ記憶部20に記憶させるようにしてもよい。
【0075】
このようにして、第1実施形態や第2実施形態によれば、提供される情報に関連するコンテンツの投稿に基づくユーザの特徴(例えば、先駆けユーザであるか、目利きユーザであるか、後追いユーザであるか、など。)の特定が可能となる。
【0076】
そして、先駆けユーザデータや目利きユーザデータや後追いユーザデータは、広告、宣伝、情報推薦、情報提供等に役立つと考えられる。具体的には、例えば、先駆けユーザには新商品の情報を提供するようにして、後追いユーザにはベストセラーになった商品の情報を提供する、などのようにすることが考えられる。また、先駆けユーザが投稿するコンテンツを監視することによって、今後の流行の予測を行うことが考えられる。また、先駆けユーザに、レビュー記事の依頼をするということも考えられる。また、先駆けユーザに新情報を提供することによって、コンテンツの投稿を促し、新情報の発信を行ってもらうようにすることも考えられる。
【0077】
また、第1実施形態や第2実施形態において、例えば、ページ生成部32が、(1)先駆け時間区間と、当該先駆け時間区間に対応付けられる値(例えば、第1実施形態における先駆け時間区間内におけるクラスタバリューの代表値(例えば、先駆け時間区間内におけるクラスタバリューの最大値等)や、第2実施形態における先駆け時間区間内における区間平均登録数の代表値(例えば、先駆け時間区間内における区間平均登録数の最大値等))と、を対応付けた情報、(2)先駆け時間区間と、当該先駆け時間区間に対応付けられる語句及び当該語句が含まれる個数(例えば、第1実施形態における投稿されたコンテンツに含まれる語句及び語句が含まれる個数や、第2実施形態におけるソーシャルブックマークの対象となるウェブページに含まれる語句及び語句が含まれる個数)と、を対応付けた情報、(3)先駆け時間区間と、当該先駆け時間区間におけるコンテンツの投稿数やソーシャルブックマーク登録数などが所定数以上であるユーザの数の、先駆け時間区間にコンテンツの投稿やソーシャルブックマークの登録などを行ったユーザの総数に対する割合と、を対応付けた情報等が配置されたページを生成するようにしてもよい。
【0078】
また、第1実施形態や第2実施形態において、例えば、本実施形態に係る分析システム10が、分析システム10による解析により得られる語句、URL、タグ等の情報を提示するようにしてもよい。例えば、ページ生成部32が、先駆け時間区間と、当該先駆け時間区間に投稿されたコンテンツに所定数以上多く含まれる語句、タグ、URLなどと、を対応付けた情報等が配置されたページを生成するようにしてもよい。また、第1実施形態や第2実施形態において、例えば、ページ生成部32が、先駆け時間区間に投稿されたコンテンツのタイトル等のリストが配置されたページを生成するようにしてもよい。そして、ページ出力部34が、このページをクライアント14に送信し、クライアント14が、受信したこのページを表示するようにしてもよい。そして、分析システム10が、このリストに含まれるタイトル等のユーザによる選択をクライアント14から受け付けると、ページ生成部32が、選択されたタイトル等に対応付けられるコンテンツが配置されたページを生成するようにしてもよい。そして、ページ出力部34が、このページをクライアント14に送信し、クライアント14が、受信したこのページを表示するようにしてもよい。
【0079】
また、第1実施形態や第2実施形態において、例えば、分析システム10が、クライアント14から、先駆け時間区間の指定を受け付けてもよい。そして、分析システム10が、先駆け時間区間に基づいて特定される値(例えば、先駆け時間区間内におけるクラスタバリューの最大値や区間平均登録数の最大値など)が、指定された先駆け時間区間に基づいて特定される値を超える先駆け時間区間が発生した際に、その旨を先駆け時間区間の指定の送信元のクライアント14に通知するようにしてもよい。
【0080】
また、例えば、分析システム10が、ユーザの特徴(先駆けユーザであるのか、目利きユーザであるのか、あるいは、後追いユーザであるのか、など)に基づいて、当該ユーザに推薦されるコンテンツを特定するようにしてもよい。そして、分析システム10が、ユーザからの要求に応じて、当該ユーザに推薦されるコンテンツを提供するようにしてもよい。
【0081】
また、例えば、分析システム10が、複数の先駆け時間区間のそれぞれに対応付けられるキーワードや先駆けユーザ等に基づいて、先駆け時間区間同士の関係を特定するようにしてもよい。そして、特定された関係を表す情報をクライアント14に提供するようにしてもよい。
【0082】
なお、本発明は上述の実施形態に限定されるものではない。
【0083】
例えば、分析システム10は、時間経過と共に内容が変化する電子掲示板の投稿スレッドに投稿されたコメントを分析するようにしてもよい。このとき、分析システム10は、定期的に、分析を実行する時刻の所定時間前(例えば、3時間前)から分析を実行する時刻までの時間の範囲に投稿されたコメントに応じた特徴量に基づいて、当該時間の範囲における投稿の盛り上がりの高さを示す指標(ここでは、尤度と呼ぶ。)の値を算出するようにしてもよい。
【0084】
分析システム10は、例えば、上述の時間の範囲に投稿されたコメントに基づいて、以下の(1)〜(13)のそれぞれの特徴量の算出を行う。そして、分析システム10は、算出された特徴量が所定の条件を満足するか否かを確認し、条件を満足する場合には尤度の値を1増加させる。ここで、尤度の初期値は0であることとする。
【0085】
(1)常連密度:複数の人が所定の投稿件数内に登場しており、それぞれの人が複数回登場している程度。例えば、分析システム10は、「所定の投稿数A1だけ連続する投稿についての、質問型の投稿(例えば、文末が「?」である投稿)を所定数A2以上含む、所定数A3以上の投稿を行ったユーザ数V_A1を計算する。」という処理を、解析対象の投稿の範囲内で、所定の投稿数A1だけ連続する投稿の範囲を所定の投稿数ずつ(例えば、1投稿ずつ)ずらしながら繰り返し、それぞれの範囲におけるV_A1を計算する。そして、分析システム10は、それぞれの範囲について計算されたV_A1の最大値V_A2を常連密度として特定する。そして、分析システム10は、V_A2が所定の閾値th_A2以上であれば、上述の尤度の値を1増加させる。
【0086】
(2)同時多発度:短期間内に、短い投稿の連鎖が入り乱れた多数発生する程度を表す。例えば、分析システム10は、「所定期間B1内に投稿された投稿についての、投稿と、その投稿から所定時間B2内に行われた返信投稿の組合せの数V_B1を計算する。」という処理を、解析対象の投稿の範囲内で、所定期間B1内に投稿された投稿の範囲を所定時間ずつ(例えば、1分ずつ)ずらしながら繰り返し、それぞれの範囲におけるV_B1を計算する。そして、分析システム10は、V_B1が所定数B3以上である上述の範囲の数V_B2を同時多発度として特定する。そして、分析システム10は、V_B2が所定の閾値th_B2以上であれば、上述の尤度の値を1増加させる。
【0087】
(3)キャッチボール度:複数のユーザによりコメントが交互に投稿される程度を表す。例えば、分析システム10は、「所定の投稿数C1だけ連続する投稿についての、質問型の投稿(例えば、文末が「?」である投稿)を所定数C2以上含む、所定数C3以上の投稿を行ったユーザを特定する。そして、そのユーザの投稿を投稿時刻に古い順に並べ、同一のユーザによる投稿が連続する投稿群を1グループとした際の、グループの個数V_C1を計算する。」という処理を、解析対象の投稿の範囲内で、所定の投稿数C1だけ連続する投稿の範囲を所定の投稿数ずつ(例えば、1投稿ずつ)ずらしながら、それぞれの範囲におけるV_C1を計算する。そして、分析システム10は、計算されたV_C1の最大値V_C2をキャッチボール度として特定する。そして、分析システム10は、V_C2が所定の閾値th_C2以上であれば、上述の尤度の値を1増加させる。
【0088】
(4)同意度:他人の投稿に対して同意する趣旨のコメントが投稿される程度を表す。例えば、分析システム10は、「所定の投稿数D1だけ連続する投稿のうち、所定のマジックワード(例えば、「俺も」)を含む投稿数V_D1を計算する。」という処理を、解析対象の投稿の範囲内で、所定の投稿数D1だけ連続する投稿の範囲を所定の投稿数ずつ(例えば、1投稿ずつ)ずらしながら、それぞれの範囲におけるV_D1を計算する。そして、分析システム10は、計算されたV_D1の最大値V_D2を同意度として特定する。そして、分析システム10は、V_D2が所定の閾値th_D2以上であれば上述の尤度の値を1増加させる。
【0089】
(5)正常度:コメントの内容が意味をなしており、文章構造や論理構造がある程度存在する程度を表す。例えば、分析システム10は、「所定の投稿数E1だけ連続する投稿のうち、アスキーアート(同一の記号のE2個以上の連続)や半角のカタカナが含まれないコメントであって、バイト数が所定数E3以上であるコメントの数V_E1を計算する。」という処理を、解析対象の投稿の範囲内で、所定の投稿数E1だけ連続する投稿の範囲を所定の投稿数ずつ(例えば、1投稿ずつ)ずらしながら、それぞれの範囲におけるV_E1を計算する。そして、分析システム10は、計算されたV_E1の最大値V_E2を正常度として特定する。そして、分析システム10は、V_E2が所定の閾値th_E2以上であれば、上述の尤度の値を1増加させる。
【0090】
(6)長文反応連続度:長文のコメントへの返信として、短文での返信投稿が複数連続して行われる程度を表す。例えば、分析システム10は、投稿の返信の連続をチェーンと呼ぶこととした際に、解析対象の投稿の範囲内におけるすべてのチェーンについて、最初の投稿がバイト数が所定数F1以上であるコメントであって、それに対するバイト数が所定数F2以下である返信投稿(返信投稿に対する返信投稿も含む)の数V_F1を計算する。そして、分析システム10は、計算されたV_F1の最大値V_F2を長文反応連続度として特定する。そして、分析システム10は、V_F2が所定の閾値th_F2以上であれば、上述の尤度の値を1増加させる。
【0091】
(7)感謝度:一定の区間内の投稿において、感謝の趣旨のコメントが含まれる程度を表す。例えば、分析システム10は、「所定の投稿数G1だけ連続する投稿のうち、感謝の種別に属する所定のマジックワード(例えば、「ありがとう」。ただし、所定のNGワード(例えば、「本当にありがとうございました。」)は除く。)を含むコメントの数V_G1を計算する。」という処理を、解析対象の投稿の範囲内で、所定の投稿数G1だけ連続する投稿の範囲を所定の投稿数ずつ(例えば、1投稿ずつ)ずらしながら、それぞれの範囲におけるV_G1を計算する。そして、分析システム10は、計算されたV_G1の最大値V_G2を感謝度として特定する。そして、分析システム10は、V_G2が所定の閾値th_G2以上であれば、上述の尤度の値を1増加させる。
【0092】
(8)短文連続度:短文でのコメントが連続しない程度を表す。例えば、分析システム10は、「所定の投稿数H1だけ連続する投稿のうち、バイト数が所定数H2以下のコメントが連続して出現する数V_H1を計算する。」という処理を、解析対象の投稿の範囲内で、所定の投稿数H1だけ連続する投稿の範囲を所定の投稿数ずつ(例えば、1投稿ずつ)ずらしながら、それぞれの範囲におけるV_H1を計算する。そして、分析システム10は、計算されたV_H1の最大値V_H2を短文連続度として特定する。そして、分析システム10は、V_H2が所定の閾値th_H2以下であれば、上述の尤度の値を1増加させる。
【0093】
(9)瞬間風速:単位時間あたりの投稿数が多い状況が発生する程度を表す。例えば、分析システム10は、「所定の投稿数I1だけ連続する投稿のうち、投稿回数が所定数H2以上であるか否かを確認する。」という処理を、解析対象の投稿の範囲内で、所定の投稿数E1だけ連続する投稿の範囲を所定の投稿数ずつ(例えば、1投稿ずつ)ずらしながら、それぞれの範囲について、投稿回数が所定のH2以上であるか否かを確認する。そして、分析システム10は、投稿回数が所定のH2以上であることが確認された回数V_I1を瞬間風速として特定する。そして、分析システム10は、V_I1が所定の閾値th_V1以上であれば、上述の尤度の値を1増加させる。
【0094】
(10)マジックワード出現頻度:所定のマジックワードの出現頻度。例えば、アラートモードである場合のマジックワードとしては、「ダウンロード」、「アップデート」、「始まった」、「仕様」、「対応」などが挙げられ、レピュートモードである場合のマジックワードとしては、「リリース」、「ありがとう」、「同様」などが挙げられる。なお、アラートモードのマジックワードとレピュートモードのマジックワードの少なくとも一部が共通していても構わない。なお、マジックワードは、予めデータ記憶部20に記憶されていることとする。分析システム10は、例えば、投稿スレッドデータのコメントデータに含まれるマジックワードの数mwaをマジックワード出現頻度として特定する。そして、分析システム10は、mwaが所定数th_mwa以上であれば、上述の尤度の値を1増加させる。
【0095】
(11)マジックワード直近出現頻度:所定のマジックワードの直近での出現頻度。分析システム10は、例えば、投稿スレッドデータのコメントデータのうち、直近投稿されたコメント(例えば、検索開始時点の直前1時間以内に投稿されたコメント)を示すコメントデータに含まれるマジックワードの数mwrをマジックワード直近出現頻度として特定する。そして、分析システム10は、mwrが所定数th_mwr以上であれば、上述の尤度の値を1増加させる。
【0096】
(12)ユーザ指定キーワード出現頻度:キーワード条件式に設定されているキーワードの出現頻度。なお、本実施形態では、一般的であると考えられる所定の語については出現頻度をカウントする対象とはならない。分析システム10は、例えば、投稿スレッドデータのコメントデータに含まれるカウントの対象となるキーワードの数kwaをユーザ指定キーワード出現頻度として特定する。そして、分析システム10は、kwaが所定数th_kwa以上であれば、上述の尤度の値を1増加させる。
【0097】
(13)ユーザ指定キーワード直近出現頻度:キーワード条件式に設定されているキーワードの直近での出現頻度。分析システム10は、例えば、投稿スレッドデータのコメントデータのうち、直近投稿されたコメント(例えば、検索開始時点の直前1時間以内に投稿されたコメント)を示すコメントデータに含まれるマジックワードの数kwrをユーザ指定キーワード直近出現頻度として特定する。そして、分析システム10は、kwrが所定数th_kwr以上であれば、上述の尤度の値を1増加させる。
【0098】
以上のようにして、尤度の値が算出される。そして、分析システム10は、対応付けられた尤度の値が所定値以上である時間の範囲におけるユーザ毎のコメントの投稿数を特定するようにしてもよい。そして、分析システム10は、各ユーザに対応付けられる、特定された投稿数の多いユーザから順に設定された順位、当該ユーザのユーザID、当該ユーザについて特定された投稿数を示すスコア、が含まれる、先駆けユーザデータ44を生成して、データ記憶部20に記憶させるようにしてもよい。
【0099】
また、分析システム10は、例えば、電子掲示板におけるコメントの投稿やソーシャルブックマークの登録に限らず、ブログ記事の登録タイミング、ウィキの記事の登録、Twitter(登録商標)におけるツイート等を、上述と同様の方法によって分析することで、ユーザの特徴を特定するようにしてもよい。
【0100】
また、本実施形態に係る分析システム10、ソーシャルメディアシステム12、及びクライアント14の役割分担は上述のものには限定されない。また、上記の具体的な文字列や図面中の具体的な文字列は例示であり、これらの文字列には限定されない。
【符号の説明】
【0101】
10 分析システム、12 ソーシャルメディアシステム、14 クライアント、16 コンピュータネットワーク、20 データ記憶部、22 データ収集部、24 コンテンツ管理データ取得部、26 クラスタバリュー特定部、28 期間特定部、30 ユーザ特徴特定部、32 ページ生成部、34 ページ出力部、40 コンテンツ管理データ、42 クラスタ、42a 統合クラスタ、44 先駆けユーザデータ、46 クラスタ検出結果ページ、48 先駆けユーザ一覧ページ、50 ソーシャルブックマーク管理データ、52 ヒストグラム。
【技術分野】
【0001】
本発明は、情報処理システム、情報処理方法、プログラム及び情報記憶媒体に関する。
【背景技術】
【0002】
ユーザが手軽に情報発信することができる様々なソーシャルメディアが存在する。このようなソーシャルメディアとしては、例えば、電子掲示板、ブログ、ウィキ、ソーシャルブックマーク、Twitter(登録商標)、ソーシャル・ネットワーキング・サービス、などが挙げられる。
【0003】
また、ソーシャルメディアに登録されたコンテンツを分析するツールも知られている。このようなツールを用いることによって、例えば、ソーシャルメディアを利用するユーザ同士の関係の特定や、旬な話題の特定などを行うことができる。
【発明の概要】
【発明が解決しようとする課題】
【0004】
ソーシャルメディアにおいて、ユーザに提供されるニュース等の情報(ここでは、提供情報と呼ぶ。)に関連する情報(ここでは、関連情報と呼ぶ。)の登録(例えば、提供情報に対する感想等のリアクションが示されたブログ記事やコメントの投稿、ニュースが掲載されたウェブページに対するソーシャルブックマークの登録、など)が行われることがある。そして、関連情報を登録するユーザのなかには、提供情報に関する盛り上がりが時間経過とともに高くなる期間に関連情報を登録するものもいれば、提供情報に関する盛り上がりのピークを過ぎた後に関連情報を登録するものもいると思われる。
【0005】
そのため、例えば、提供情報に関する盛り上がりが時間経過とともに高くなる期間に関連情報を登録するユーザ群をトレンドに対する感度が高いユーザ群として特定する、あるいは、提供情報に関する盛り上がりのピークを過ぎた後に関連情報を登録するユーザ群をトレンドに対する感度が低いユーザ群として特定する、などといった、ユーザによる関連情報の登録の分析に基づくユーザの特徴の特定が可能になると考えられる。しかし、従来の分析技術では、関連情報の登録に基づくユーザの特徴の特定を行うことができなかった。
【0006】
本発明は上記課題に鑑みてなされたものであって、その目的の1つは、提供される情報に関連する情報の登録に基づくユーザの特徴の特定を可能とすることにある。
【課題を解決するための手段】
【0007】
上記課題を解決するために、本発明に係る情報処理システムは、提供される情報に関連する情報の登録に応じて決定される、前記提供される情報に関する盛り上がりの高さを表すパラメータの値を特定する値特定手段と、前記パラメータの値に基づいて、前記提供される情報に関する盛り上がりが時間経過とともに高くなる期間を特定する期間特定手段と、特定される期間に基づいて、前記関連する情報を登録するユーザの特徴を特定する特徴特定手段と、を含むことを特徴とする。
【0008】
また、本発明に係る情報処理方法は、提供される情報に関連する情報の登録に応じて決定される、前記提供される情報に関する盛り上がりの高さを表すパラメータの値を特定する値特定ステップと、前記パラメータの値に基づいて、前記提供される情報に関する盛り上がりが時間経過とともに高くなる期間を特定する期間特定ステップと、特定される期間に基づいて、前記関連する情報を登録するユーザの特徴を特定する特徴特定ステップと、を含むことを特徴とする。
【0009】
また、本発明に係るプログラムは、提供される情報に関連する情報の登録に応じて決定される、前記提供される情報に関する盛り上がりの高さを表すパラメータの値を特定する値特定手段、前記パラメータの値に基づいて、前記提供される情報に関する盛り上がりが時間経過とともに高くなる期間を特定する期間特定手段、特定される期間に基づいて、前記関連する情報を登録するユーザの特徴を特定する特徴特定手段、としてコンピュータを機能させることを特徴とする。
【0010】
また、本発明に係る情報記憶媒体は、提供される情報に関連する情報の登録に応じて決定される、前記提供される情報に関する盛り上がりの高さを表すパラメータの値を特定する値特定手段、前記パラメータの値に基づいて、前記提供される情報に関する盛り上がりが時間経過とともに高くなる期間を特定する期間特定手段、特定される期間に基づいて、前記関連する情報を登録するユーザの特徴を特定する特徴特定手段、としてコンピュータを機能させることを特徴とするプログラムを記憶したコンピュータ読み取り可能な情報記憶媒体である。
【0011】
本発明によれば、提供される情報に関する盛り上がりが時間経過とともに高くなる期間に基づいて、関連する情報を登録するユーザの特徴が特定されるので、提供される情報に関連する情報の登録に基づくユーザの特徴の特定が可能となる。
【0012】
本発明の一態様では、前記特徴特定手段は、前記期間特定手段により特定される期間にユーザにより登録される前記関連する情報の数に基づいて、当該ユーザの特徴を特定することを特徴とする。
【0013】
また、本発明の一態様では、前記値特定手段は、単位時間あたりに前記関連する情報が登録される数を特定し、前記期間特定手段は、単位時間あたりに前記関連する情報が登録される数が増加傾向にある期間を特定することを特徴とする。
【0014】
また、本発明の一態様では、前記値特定手段は、前記提供される情報に関連するキーワードを含むコメントの単位時間あたりの登録回数を特定し、前記期間特定手段は、前記キーワードを含むコメントの単位時間あたりの登録回数が増加傾向にある期間を特定することを特徴とする。
【0015】
また、本発明の一態様では、前記値特定手段は、情報が提供されるウェブページに対するソーシャルブックマークの単位時間あたりの登録回数を特定し、前記期間特定手段は、情報が提供されるウェブページに対するソーシャルブックマークの単位時間あたりの登録回数が増加傾向にある期間を特定することを特徴とする。
【0016】
また、本発明に係る別の情報処理システムは、(1)提供される情報に関連する情報の登録に応じて決定される、前記提供される情報に関する盛り上がりの高さを表すパラメータの値、(2)前記パラメータの値に基づいて特定される、前記提供される情報に関する盛り上がりが時間経過とともに高くなる期間を示す情報、及び、(3)特定される期間に基づいて特定される、前記関連する情報を登録するユーザの特徴を示す情報、のうちの少なくとも1つを取得する取得手段と、前記取得手段により取得される情報に基づいて生成される情報を提示する提示手段と、を含むことを特徴とする。
【図面の簡単な説明】
【0017】
【図1】本発明の一実施形態に係るコンピュータネットワークの全体構成図である。
【図2】本発明の一実施形態に係る分析システムで実現される機能の一例を示す機能ブロック図である。
【図3】本発明の一実施形態に係る分析システムで行われる処理の流れの一例を示すフロー図である。
【図4】コンテンツ管理データの一例を示す図である。
【図5】本発明の一実施形態に係る分析システムで行われる処理の流れの一例を示すフロー図である。
【図6】本発明の一実施形態に係る分析システムで行われる処理の実行状況の一例を模式的に示す図である。
【図7】先駆けユーザデータの一例を示す図である。
【図8】クラスタ検出結果ページの一例を示す図である。
【図9】先駆けユーザ一覧ページの一例を示す図である。
【図10】ソーシャルブックマーク管理データの一例を示す図である。
【図11】ヒストグラムの一例を模式的に示す図である。
【発明を実施するための形態】
【0018】
[第1実施形態]
以下、本発明の一実施形態である第1実施形態について図面に基づき詳細に説明する。
【0019】
図1は、本発明の第1実施形態に係るコンピュータネットワークの全体構成図である。図1に示すように、インターネットなどのコンピュータネットワーク16には、いずれもコンピュータを中心に構成された分析システム10、ソーシャルメディアシステム12、クライアント14(14−1〜14−n)が接続されている。そして、分析システム10、ソーシャルメディアシステム12、クライアント14、は互いに通信可能になっている。
【0020】
分析システム10は、本実施形態に係る情報処理システムとして機能するサーバ等のコンピュータシステムであり、ソーシャルメディアシステム12に登録されているデータに対する分析を行う。ソーシャルメディアシステム12は、例えば、ユーザから受け付けるコンテンツを公開するサービスを提供するサーバ等のコンピュータシステムである。本実施形態に係るソーシャルメディアシステム12は、電子掲示板サービスを提供する。
【0021】
分析システム10、ソーシャルメディアシステム12は、それぞれ、例えば、自装置にインストールされるプログラムに従って動作するCPU等のプログラム制御デバイスである制御部、ROMやRAM等の記憶素子やハードディスクドライブなどである記憶部、ネットワークボードなどの通信インタフェースである通信部、を含んで構成されている。これらの要素は、バスを介して接続される。分析システム10、ソーシャルメディアシステム12の記憶部には、自装置の制御部によって実行されるプログラムが記憶される。また、分析システム10、及び、ソーシャルメディアシステム12の記憶部は、自装置のワークメモリとしても動作する。
【0022】
クライアント14は、分析システム10やソーシャルメディアシステム12のユーザが利用するコンピュータであり、例えば、パーソナルコンピュータ、ゲームコンソール、テレビ受像機、携帯型ゲーム装置、携帯情報端末、などである。そして、クライアント14は、例えば、CPU等の制御部、ROMやRAM等の記憶素子やハードディスクドライブ等の記憶部、ディスプレイ、スピーカ等の出力部、ゲームコントローラ、タッチパッド、マウス、キーボード、マイク等の入力部、ネットワークボード等の通信部、DVD−ROMやBlu−ray(登録商標)ディスクなどの光ディスク(コンピュータ読み取り可能な情報記憶媒体)を読み取る光ディスクドライブ部、等を備えている。
【0023】
また、本実施形態に係るクライアント14には、ウェブブラウザが予めインストールされている。そして、本実施形態では、クライアント14が、ウェブブラウザを通じて分析システム10にアクセスし、分析システム10に登録されているユーザID及びパスワードを入力してログインしてから、その後に所定のURLにアクセスすると、クライアント14のディスプレイに所定のURLに対応する画面が表示される。また、本実施形態では、クライアント14が、ウェブブラウザを通じてソーシャルメディアシステム12にアクセスし、ソーシャルメディアシステム12に登録されているユーザのユーザID及びパスワードを入力してログインしてから、その後に所定のURLにアクセスすると、クライアント14のディスプレイに所定のURLに対応する画面が表示される。なお、分析システム10やソーシャルメディアシステム12では、ユーザID及びパスワードが入力された後は、例えば、セッションIDを参照すること等により、クライアント14を利用するユーザのユーザIDを特定することができるようになっている。
【0024】
本実施形態に係るソーシャルメディアシステム12は、コメント等のコンテンツの投稿をクライアント14から受け付けることができるようになっている。そして、投稿されたコンテンツは、ソーシャルメディアシステム12が備える記憶部に記憶される。そして、ソーシャルメディアシステム12は、クライアント14からの要求に応じて、投稿されたコンテンツをクライアント14に送信する。クライアント14は、コンテンツを受信するとディスプレイに表示出力する。このようにして、ユーザにより投稿されたコンテンツが公開されることとなる。
【0025】
図2は、本実施形態に係る分析システム10で実現される機能の一例を示す機能ブロック図である。図2に示すように、分析システム10は、機能的には、データ記憶部20、データ収集部22、コンテンツ管理データ取得部24、クラスタバリュー特定部26、期間特定部28、ユーザ特徴特定部30、ページ生成部32、ページ出力部34、を含んでいる。データ記憶部20は、分析システム10が備える記憶部を主として実現されている。その他の要素は、分析システム10が備える制御部を主として実現されている。
【0026】
これらの機能は、コンピュータである分析システム10で、本実施形態に係るプログラムが実行されることにより実現される。このプログラムは、コンピュータ通信ネットワーク経由で通信インタフェースを介して他のコンピュータからダウンロードされてもよいし、光ディスク(例えば、CD−ROM、DVD−ROM、Blu−rayディスクなど)、USBメモリ等のコンピュータ読み取り可能な情報記憶媒体に格納され、そこから光ディスクドライブやUSB(Universal Serial Bus)ポートなどを介して分析システム10にインストールされてもよい。
【0027】
ここで、本実施形態に係る分析システム10で行われる、分析対象となるコンテンツの収集処理の流れの一例を、図3に示すフロー図を参照しながら説明する。なお、本実施形態では、予め、データ記憶部20に、ソーシャルメディアシステム12から取得されるコンテンツに関する条件を示す条件データが記憶されている。そして、条件データは、分析システム10のユーザによって設定することができるようになっている。ここでは、例えば、所定のキーワード文字列が条件データとしてデータ記憶部20に記憶されていることとする。
【0028】
まず、データ収集部22は、ソーシャルメディアシステム12から、ユーザによりソーシャルメディアシステム12に投稿されたコンテンツであって、上述の条件データが示す条件を満足するコンテンツを取得する(S101)。そして、データ収集部22は、S101に示す処理で取得したコンテンツについて、取得済であるコンテンツと重複するものがないか否かを確認して、取得済であるコンテンツを以降の処理の対象から除外する(S102)。そして、データ収集部22は、S102に示す処理で除外されなかったコンテンツに基づいて、図4に例示するコンテンツ管理データ40を生成する(S103)。このように、本実施形態では、ソーシャルメディアシステム12から取得されるコンテンツは、コンテンツ管理データ40として管理される。コンテンツ管理データ40は、図4に示すように、例えば、コンテンツ管理データ40の識別子であるコンテンツ管理ID、コンテンツの投稿を行ったユーザの識別子であるユーザID、コンテンツの投稿が行われた日時を示す投稿日時データ、投稿されたコンテンツ(本実施形態では、コメント)を示すコンテンツデータ、などが含まれている。そして、データ収集部22は、S103に示す処理で生成されたコンテンツ管理データ40をデータ記憶部20に記憶させる(S104)。そして、データ収集部22は、予め定められたループタイミングが到来したか否か(例えば、S101に示す処理の開始時点から1時間が経過したか否か)を監視して(S105)、ループタイミングが到来したら、S101以降の処理を再度実行する。
【0029】
このようにして、本実施形態では、ソーシャルメディアシステム12に投稿されたコンテンツに基づくコンテンツ管理データ40が、データ記憶部20に蓄積されていくこととなる。
【0030】
次に、本実施形態に係る分析システム10で行われる、コンテンツ管理データ40に基づく、ソーシャルメディアシステム12に投稿されたコンテンツの分析処理の流れの一例を、図5に示すフロー図を参照しながら説明する。
【0031】
まず、コンテンツ管理データ取得部24が、データ記憶部20に記憶されているコンテンツ管理データ40を取得する。(S201)。そして、クラスタバリュー特定部26が、S201に示す処理で取得されたコンテンツ管理データ40を、コンテンツ管理データ40に含まれる投稿日時データが示す投稿日時が早いものから遅いものへの順序となるようソートする(S202)。そして、クラスタバリュー特定部26は、コンテンツが投稿された日時の順序が最初ではないコンテンツ管理データ40のそれぞれについて、当該コンテンツ管理データ40に含まれる投稿日時データが示す投稿日時と、コンテンツが投稿された日時の順序が直前であるコンテンツ管理データ40に含まれる投稿日時データが示す投稿日時と、の時間差である投稿時間差を関連付ける。(S203)。そして、クラスタバリュー特定部26が、S203に示す処理でコンテンツが投稿された日時の順序が最初ではないコンテンツ管理データ40のそれぞれについて算出された投稿時間差の代表値(本実施形態では、例えば、複数の投稿時間差の中央値(メジアン))を算出する(S204)。
【0032】
そして、クラスタバリュー特定部26は、関連付けられている投稿時間差に基づく、コンテンツ管理データ40のクラスタリングを実行する(S205)。
【0033】
図6は、S205以降の処理の実行状況の一例を模式的に示す図である。本処理例では、クラスタバリュー特定部26は、S205に示す処理において、例えば、コンテンツが投稿された日時の順序が最初であるコンテンツ管理データ40を最初のクラスタ42に属するメンバとして設定する。そして、コンテンツが投稿された日時の順序が2番目以降であるコンテンツ管理データ40について、関連付けられている投稿時間差がS204に示す処理で算出された代表値よりも小さければ、当該コンテンツ管理データ40を、コンテンツが投稿された日時の順序が直前であるコンテンツ管理データ40と同一のクラスタ42に属するメンバとして設定し、そうでない場合は、当該コンテンツ管理データ40を新たなクラスタ42に属するメンバとして設定する。
【0034】
図6では、コンテンツ管理データ40に対応する投稿が丸印によって表されている。そして、図6に示されている横軸は、左が早い時刻、右が遅い時刻を示す時間軸である。そして、それぞれの丸印について、丸印を横軸に射影した位置は、丸印に対応するコンテンツの投稿が行われた時刻に対応している。
【0035】
そして、線分によって互いに連結されている丸印群は、上述のクラスタ42を表している。図6には、5つのクラスタ42(第1のクラスタ42−1、第2のクラスタ42−2、第3のクラスタ42−3、第4のクラスタ42−4、及び、第5のクラスタ42−5)が表されている。図6では、第1のクラスタ42−1には3つのコンテンツ管理データ40、第2のクラスタ42−2には2つのコンテンツ管理データ40、第3のクラスタ42−3には1つのコンテンツ管理データ40、第4のクラスタ42−4には2つのコンテンツ管理データ40、第5のクラスタ42−5には3つのコンテンツ管理データ40が属していることが示されている。図6に示すように、S205に示す処理では、コンテンツが投稿された日時の間隔が上述の代表値よりも小さな一連のコンテンツ管理データ40が、同一のクラスタ42に属するよう設定されることとなる。
【0036】
そして、クラスタバリュー特定部26は、S205に示す処理によって設定された各クラスタ42について、上述の条件データが示す条件を満足する投稿の盛り上がりの高さを示すパラメータの値であるクラスタバリューを特定して、クラスタ42に対応付ける(S206)。本処理例では、クラスタバリューは、クラスタ42に属するコンテンツ管理データ40が表すコンテンツの投稿速度(単位時間あたりの投稿回数)を示しており、例えば、(クラスタ42に属するコンテンツ管理データ40の数−1)/(クラスタ42に属するコンテンツ管理データ40のうちの最初に投稿されたコンテンツに対応するコンテンツ管理データ40に含まれる投稿日時データが示す投稿日時からクラスタ42に属するコンテンツ管理データ40のうちの最後に投稿されたコンテンツに対応するコンテンツ管理データ40に含まれる投稿日時データが示す投稿日時までの時間)という数式によって算出される。なお、本処理例では、属するメンバの数が1であるクラスタ42(図6の例では第3のクラスタ42−3)については、クラスタバリューの値は設定されない。
【0037】
図6の縦軸は、クラスタバリューの大きさを示している。そして、図6には、第1のクラスタ42−1、第2のクラスタ42−2、第4のクラスタ42−4、及び、第5のクラスタ42−5に対応するクラスタバリューが四角印により示されている。また、図6には、第2のクラスタ42−2、第4のクラスタ42−4、に対応付けられるクラスタバリューが、第1のクラスタ42−2、第5のクラスタ42−4、に対応付けられるクラスタバリューよりも大きいことが示されている。
【0038】
そして、クラスタバリュー特定部26は、S205に示す処理によって設定されたクラスタ42のそれぞれについて、クラスタ42に属するコンテンツ管理データ40に含まれるコンテンツデータが示す文字列から、所定回数以上登場している技術用語の抽出を行って、抽出された技術用語をクラスタに関連付ける(S207)。
【0039】
そして、期間特定部28は、S206に示す処理で特定されるクラスタバリューの値が大きなクラスタ42(例えば、対応付けられているクラスタバリューの値の大きさが、クラスタバリューが算出されたクラスタのうちの上位5%であるクラスタ42)を特定する(S208)。ここでは、例えば、図6における、第2のクラスタ42−2及び第4のクラスタ42−4が特定されたこととする。
【0040】
そして、期間特定部28は、クラスタバリューが対応付けられたクラスタ42(すなわち、S208に示す処理における特定の対象となったクラスタ42)において、対応付けられる投稿日時が連続する複数のクラスタ42がS208に示す処理で特定された際には、これら複数のクラスタをまとめて1つのクラスタに統合する(S209)。図6では、第2のクラスタ42−2及び第4のクラスタ42−4が特定されているので、第2のクラスタ42−2及び第4のクラスタ42−4をまとめて1つのクラスタ42(統合クラスタ42a)に統合する。
【0041】
そして、期間特定部28は、S208及びS209に示す処理で特定されたクラスタ42に対応する時間(例えば、図6における、統合クラスタ42aに属するコンテンツ管理データ40のうちの最初に投稿されたコンテンツに対応するコンテンツ管理データ40に含まれる投稿日時データが示す日時から、統合クラスタ42aに属するコンテンツ管理データ40のうち最後に投稿されたコンテンツに対応するコンテンツ管理データ40に含まれる投稿日時データが示す投稿日時までの時間T1)を、時間の長さが等しい3つの時間(例えば、それぞれの時間の長さはT1/3である3つの時間)に分割する(S210)。そして、期間特定部28は、分割されたそれぞれの時間を、早いものから順に、先頭時間、中間時間、末尾時間と設定する(S211)。図6の例では、S208及びS209に示す処理で1つのクラスタ42(統合クラスタ42a)だけが特定されるが、S208に示す処理で複数のクラスタ42(統合クラスタ42aも含まれる。)が特定された場合には、S209に示す処理で特定されたクラスタ42それぞれについて先頭時間、中間時間、及び、末尾時間が設定されることとなる。第1実施形態では、先頭期間が、ユーザに提供される情報に関する盛り上がりが時間経過とともに高くなる期間として取り扱われる。
【0042】
そして、ユーザ特徴特定部30は、コンテンツ管理データ40に基づいて、ユーザ毎の、先頭時間の範囲内に投稿された投稿数を特定する(S212)。S211に示す処理で複数の先頭時間が設定された場合には、ユーザ毎の、それぞれの先頭時間の範囲内に投稿された投稿数の合計を特定する。そして、ユーザ特徴特定部30は、各ユーザに対応付けられる、S212に示す処理で特定された投稿数の多いユーザから順に設定された順位、当該ユーザのユーザID、当該ユーザについてS212に示す処理で特定された投稿数を示すスコア、が含まれる、図7に例示する先駆けユーザデータ44を生成して、データ記憶部20に記憶させて(S213)、本処理例に示す処理を終了する。
【0043】
ページ生成部32は、上述の処理の終了後に受け付ける分析システム10のユーザからの要求に応じて、クラスタバリュー、先駆け時間区間を示す情報、及び、先駆けユーザデータ44のうちの少なくとも1つを取得する。そして、ページ生成部32は、取得したデータに基づいて、図8に示すクラスタ検出結果ページ46を生成する。そして、ページ出力部34は、生成されたクラスタ検出結果ページ46をクライアント14に送信する。そして、クライアント14は、クラスタ検出結果ページ46を受信すると、ディスプレイに表示出力する。
【0044】
図8に示すクラスタ検出結果ページ46には、図6に示されている内容と同様のクラスタバリューの時間変化が示されている。また、図8に示すクラスタ検出結果ページ46では、クラスタバリューが算出されたクラスタ42について、上述のS207に示す処理でクラスタ42に属するコンテンツ管理データ40に含まれるコンテンツデータから抽出された技術用語が関連付けられている。なお、クラスタ検出結果ページ46に、上述の第3のクラスタ42−3について抽出された技術用語が配置されていても構わない。
【0045】
また、ページ生成部32は、上述の処理の終了後に受け付ける分析システム10のユーザからの要求に応じて、図9に示す先駆けユーザ一覧ページ48を生成する。そして、ページ出力部34は、生成された先駆けユーザ一覧ページ48をクライアント14に送信する。クライアント14は、先駆けユーザ一覧ページ48を受信すると、ディスプレイに表示出力する。先駆けユーザ一覧ページ48には、先駆けユーザデータ44における順位が5位以内であるユーザの順位、ユーザID、及び、スコアが配置されている。
【0046】
なお、先駆けユーザ一覧ページ48に配置されているユーザIDをユーザがクリックした際に、ページ生成部32が、クリックされたユーザIDに関連するコンテンツ(例えば、クリックされたユーザIDに対応付けられるユーザにより投稿されたコンテンツ)が配置されたページを生成するようにしてもよい。そして、ページ出力部34が、このページをクライアント14に送信し、クライアント14が、受信したこのページを表示するようにしてもよい。
【0047】
また、先駆けユーザ一覧ページ48に配置されているユーザIDをユーザがクリックした際に、分析システム10が、クリックしたユーザIDに、クリックを行ったユーザのユーザIDを関連づけて記憶するようにしてもよい。そして、分析システム10は、クライアント14からの要求に応じて、当該クライアント14のユーザに関連づけられているユーザに関する情報を、要求元のクライアント14に提供するようにしてもよい。
【0048】
また、ページ生成部32は、先駆けユーザ一覧ページ48に、ユーザの順位、ユーザID、及び、スコアに加え、先駆けユーザ一覧ページ48に配置されているユーザIDの選択を行うユーザにとって参考となる情報(例えば、ユーザIDに対応付けられるユーザによる先駆け時間区間内におけるコンテンツの投稿数などといった分析システム10による分析で用いられた情報、ユーザIDに対応付けられるユーザにより投稿されたコンテンツに所定数以上含まれる語句、ユーザIDに対応付けられるユーザの属性(例えば、性別や住所)など)も併せて配置するようにしてもよい。
【0049】
なお、本実施形態に係る分析システム10で行われるコンテンツの分析処理の流れの一例は上述の処理例には限定されない。
【0050】
例えば、クラスタバリュー特定部26によるクラスタの決定処理は、上述のS204及びS205に示す処理に限定されない。例えば、クラスタバリュー特定部26は、予め定められた複数の閾値(例えば、1秒、2秒、3秒・・・)のそれぞれについて、投稿日時の間隔が閾値よりも小さい一連のコンテンツ管理データ40が同一のクラスタ42に属するようクラスタ42の設定を行ってもよい。そして、クラスタバリュー特定部26は、設定されたクラスタ42の個数と、クラスタ42とクラスタ42との間の隙間の数と、の和を算出するようにしてもよい。例えば、図6のように、クラスタ42の数が5であり、クラスタ42とクラスタ42との間の隙間の数が4である場合には、上述の和は9と算出される。そして、クラスタバリュー特定部26は、このようにして算出される和が最大となる閾値を特定するようにしてもよい。そして、クラスタバリュー特定部26は、コンテンツが投稿された日時の間隔が、特定された閾値よりも小さな一連のコンテンツ管理データ40が、同一のクラスタ42に属するようクラスタ42の設定を行うようにしてもよい。
【0051】
また、例えば、投稿時間差の定義は、上述の処理例に示す定義に限定されない。例えば、クラスタバリュー特定部26が、所定の1サイクルの時間(例えば、24時間)を所定数(例えば、100)に分割した時間範囲(標準投稿速度適用時間範囲と呼ぶ。)毎に、その時間範囲内の投稿に対応付けられるコンテンツ管理データ40について、当該コンテンツ管理データ40の投稿日時と、投稿日時の順序が直前であるコンテンツ管理データ40の投稿日時と、の時間差の逆数を算出するようにしてもよい。ここでは、時間差が0.5秒以下である場合には、時間差の逆数は2.0として取り扱うこととする。そして、クラスタバリュー特定部26は、このようにして算出された時間差の逆数の平均値を、対応する標準投稿速度適用時間範囲における標準投稿速度として算出するようにしてもよい。そして、上述のS203に示す処理において、クラスタバリュー特定部26は、投稿日時の順序が最初ではないコンテンツ管理データ40のそれぞれについて、当該コンテンツ管理データ40に含まれる投稿日時データが示す投稿日時と、コンテンツが投稿された日時の順序が直前であるコンテンツ管理データ40に含まれる投稿日時データが示す投稿日時と、の時間差と、当該コンテンツ管理データ40の投稿日時が含まれる標準投稿速度適用時間範囲における標準投稿速度と、の積である標準投稿時間差を上述の投稿時間差の代わりに関連付けるようにしてもよい。そして、分析システム10は、S204以降の処理において、このようにして関連付けられた標準投稿時間差を、上述の処理例における投稿時間差の代わりに用いるようにしてもよい。
【0052】
また、例えば、期間特定部28は、上述のS209に示す処理において、S208に示す処理で特定されたクラスタ42(又は統合クラスタ42a)に対応する時間を、時間内におけるコンテンツの投稿数が等しい3つの時間に分割するようにしてもよい。
【0053】
また、例えば、上述のS209に示す処理において、期間特定部28は、対応付けられる投稿日時が、第2のクラスタ42−2と第4のクラスタ42−4の間である第3のクラスタ42−3も統合クラスタ42aに統合するようにしてもよい。
【0054】
また、例えば、条件データは、コンテンツ名を表す文字列、サイトURLを表す文字列、タグ名を表す文字列、などを示すものであっても構わない。そして、データ収集部22が、上述の条件を満足するコンテンツ(例えば、条件データが示す文字列に名称が合致するコンテンツ、条件データが示すサイトURLで所在が示されるブログ記事等のコンテンツ、条件データが示す文字列にタグ名が合致するタグを含むコンテンツ、など)を取得するようにしてもよい。そして、分析システム10が、データ収集部22により取得されたコンテンツに対して上述のような分析を行うようにしてもよい。
【0055】
[第2実施形態]
以下、本発明の別の実施形態である第2実施形態について図面に基づき詳細に説明する。
【0056】
第2実施形態に係るコンピュータネットワークの全体構成は、図1と同様の全体構成図により表される。また、第2実施形態に係るソーシャルメディアシステム12は、ソーシャルブックマークサービスを提供する。また、第2実施形態に係る分析システム10で実現される機能の一例は、図2と同様の機能ブロック図により表される。
【0057】
第2実施形態では、データ記憶部20に、所定のURLが条件データとして予め記憶されている。そして、データ収集部22は、ソーシャルメディアシステム12から、ソーシャルメディアシステム12に登録されたソーシャルブックマークであって、上述の条件データが示す条件を満足する(例えば、条件データが示すURLで所在が表されたウェブページに対するソーシャルブックマークである、等)ソーシャルブックマークを取得する。そして、データ収集部22は、ソーシャルメディアシステム12から取得されるソーシャルブックマークの解析を実行することによって、図10に例示するソーシャルブックマーク管理データ50を生成して、データ記憶部20に記憶させる。本実施形態では、ソーシャルメディアシステム12から取得されるソーシャルブックマークは、ソーシャルブックマーク管理データ50として管理される。図10に示すように、ソーシャルブックマーク管理データ50は、ソーシャルブックマーク管理データ50の識別子であるソーシャルブックマーク管理ID、ソーシャルブックマークの登録を行ったユーザの識別子であるユーザID、ソーシャルブックマークの登録が行われた日時を示す登録日時データ、ソーシャルブックマークの対象となるウェブページのURL(リンク先のURL)を示すURLデータ、ソーシャルブックマークの登録の際にユーザにより登録されたコメントを示すコメントデータ、などが含まれている。
【0058】
このようにして、本実施形態では、ソーシャルメディアシステム12に登録されたソーシャルブックマークに基づくソーシャルブックマーク管理データ50が、データ記憶部20に記憶される。
【0059】
以下、データ記憶部20に記憶されたソーシャルブックマーク管理データ50のうち、ソーシャルブックマークの登録日時が最も早いソーシャルブックマーク管理データ50に含まれる登録日時データが示す登録日時から、ソーシャルブックマークの登録日時が最も遅いソーシャルブックマーク管理データ50に含まれる登録日時データが示す登録日時までの時間を分析対象時間T2と呼ぶこととする。
【0060】
そして、クラスタバリュー特定部26が、データ記憶部20に記憶されたソーシャルブックマーク管理データ50に基づいて、ソーシャルブックマークの登録頻度を表すヒストグラム52を生成する(図11参照)。本実施形態に係るヒストグラム52では、条件データが示すURLで所在が表されたウェブページに対する最初のソーシャルブックマークが登録された時点からの経過時間を、所定時間毎(例えば、5分毎)に区切った時間区間(以下、ヒストグラム区間と呼ぶ。)それぞれについての、登録日時が時間区間によって表される時間の範囲内であるソーシャルブックマーク数(単位時間あたりのソーシャルブックマークの登録回数)が表される。
【0061】
そして、クラスタバリュー特定部26は、ヒストグラム52に対して平滑化を実行する。クラスタバリュー特定部26は、具体的には、例えば、あるヒストグラム区間に対応付けられるソーシャルブックマークの数=直前のヒストグラム区間に対応付けられるソーシャルブックマークの数の1/5+当該ヒストグラム区間に対応付けられるソーシャルブックマークの数の3/5+直後のヒストグラム区間に対応付けられるソーシャルブックマークの数の1/5という数式によって、各ヒストグラム区間に対応付けられるソーシャルブックマークの数を変更する。図11は、上述の平滑化が実行された後のヒストグラム52の一例を模式的に示した図である。そして、図11には、平滑化が実行された後における、各ヒストグラム区間に対応付けられるソーシャルブックマーク数が示されている。第2実施形態では、ヒストグラム区間に対応付けられるソーシャルブックマーク数が、ユーザに提供される情報であるウェブページに関する盛り上がりの高さを表すパラメータの値として取り扱われる。
【0062】
そして、クラスタバリュー特定部26は、上述の平滑化の後の、各ヒストグラム区間に対応付けられるソーシャルブックマーク数に基づいて、分析対象時間を等時間間隔で分割した時間区間であり、かつ、連続する所定数(図11の例では、3)のヒストグラム区間に対応付けられる時間区間である分析単位時間区間のそれぞれについて、分析単位時間区間における、ソーシャルブックマークの単位時間あたりの平均登録数(以下、区間平均登録数と呼ぶ。)を算出する。また、クラスタバリュー特定部26は、解析の対象となる時間についての、ソーシャルブックマークの単位時間あたりの平均登録数(以下、全体平均登録数と呼ぶ。)を算出する。図11には、区間平均登録数及び全体平均登録数も示されている。
【0063】
そして、期間特定部28は、区間平均登録数が全体平均登録数以上である分析単位時間区間における、対応付けられるソーシャルブックマークの数が最大であるヒストグラム区間をピークヒストグラム区間として特定する。ピークヒストグラム区間は、区間平均登録数が全体平均登録数以上である分析単位時間区間毎に特定される。そして、期間特定部28は、区間平均登録数が全体平均登録数未満である分析単位時間区間における、対応付けられるソーシャルブックマークの数が最小である(0でもよい。)ヒストグラム区間をディップヒストグラム区間として特定する。ディップヒストグラム区間は、区間平均登録数が全体平均登録数未満である分析単位時間区間毎に特定される。
【0064】
なお、本実施形態では、区間平均登録数が全体平均登録数以上である分析単位時間区間において、ヒストグラム52が示すソーシャルブックマークの数が最大であるヒストグラム区間が複数存在する場合は、最も早い時間に対応付けられるヒストグラム区間をピークヒストグラム区間として特定する。また、本実施形態では、区間平均登録数が全体平均登録数未満である分析単位時間区間において、ヒストグラム52が示すソーシャルブックマークの数が最小であるヒストグラム区間が複数存在する場合は、最も遅い時間に対応付けられるヒストグラム区間をディップヒストグラム区間として特定する。
【0065】
そして、期間特定部28は、時間において隣接し、かつ、ディップヒストグラム区間に対する時間がピークヒストグラム区間に対応する時間よりも前である、ディップヒストグラム区間とピークヒストグラム区間の組合せのそれぞれについて、ディップヒストグラム区間の開始時点からピークヒストグラム区間の終了時点までに対応する時間区間を、先駆け時間区間として特定する。図11の例では、3つの先駆け時間区間が特定されている。第2実施形態では、先駆け時間区間が、ユーザに提供される情報であるウェブページに関する盛り上がりが時間経過とともに高くなる期間として取り扱われる。
【0066】
そして、ユーザ特徴特定部30は、各ユーザのスコアの初期値を0に設定する。そして、ユーザ特徴特定部30が、ソーシャルブックマーク管理データ50に基づいて、先駆け時間区間の範囲内である各ヒストグラム区間について、ソーシャルブックマークの登録を行ったユーザを特定する。そして、特定されたユーザについては、当該ヒストグラム区間が含まれる分析単位時間区間における区間平均登録数を当該ユーザのスコアに加算する。
【0067】
そして、ユーザ特徴特定部30は、各ユーザに対応付けられる、上述のようにして算出されたスコアが大きなユーザから順に設定された順位、当該ユーザのユーザID、当該ユーザについて算出されたスコア、が含まれる、図7と同様の先駆けユーザデータ44を生成して、データ記憶部20に記憶させる。
【0068】
第2実施形態では、ページ生成部32は、上述の処理の終了後に受け付ける分析システム10のユーザからの要求に応じて、区間平均登録数、全体平均登録数、先駆け時間区間を示す情報、及び、先駆けユーザデータ44のうちの少なくとも1つを取得する。そして、ページ生成部32は、取得したデータに基づいて、図9と同様の先駆けユーザ一覧ページ48を生成する。そして、ページ出力部34は、生成された先駆けユーザ一覧ページ48をクライアント14に送信する。クライアント14は、先駆けユーザ一覧ページ48を受信すると、ディスプレイに表示出力する。先駆けユーザ一覧ページ48には、先駆けユーザデータ44における順位が5位以内であるユーザの順位、ユーザID、及び、スコアが配置されている。
【0069】
また、第2実施形態では、ページ生成部32は、上述の処理の終了後に受け付ける分析システム10のユーザからの要求に応じて、ユーザにより指定される先駆けユーザにより最近登録されたソーシャルブックマークのタイトルのリスト、及び、ユーザにより指定される先駆けユーザにより先駆け時間区間に登録されたソーシャルブックマークのタイトルのリストが一覧で表された先駆けソーシャルブックマークリストページ(図示せず)を生成する。このとき、リストに含まれるタイトルのそれぞれは、ソーシャルブックマークの対象となるウェブページへのリンクとして設定される。そして、ページ出力部34は、生成された先駆けソーシャルブックマークリストページをクライアント14に送信する。クライアント14は、先駆けソーシャルブックマークリストページを受信すると、ディスプレイに表示出力する。
【0070】
また、ページ生成部32は、先駆けユーザ一覧ページ48に、ユーザの順位、ユーザID、及び、スコアに加え、先駆けユーザの指定を行うユーザにとって参考となる情報(例えば、ユーザIDに対応付けられるユーザによる先駆け時間区間内におけるソーシャルブックマークの登録数など分析システム10による分析で用いられた情報、ユーザIDに対応付けられるユーザにより登録されたソーシャルブックマークの対象となるウェブページに所定数以上含まれる語句、ユーザIDに対応付けられるユーザの属性(例えば、性別や住所)など)も併せて配置されていてもよい。
【0071】
例えば、ニュース等の情報が掲載されたウェブページがユーザに提供された際には、電子掲示板サービスを提供するソーシャルメディアシステム12に、その情報に対するリアクションであるコメントが投稿されたり、ソーシャルブックマークサービスを提供するソーシャルメディアシステム12に、そのニュース等の情報が掲載されたウェブページに対するソーシャルブックマークが登録されたりする。このようにして、ユーザに提供された情報に関連する情報が、ソーシャルメディアシステム12に登録されることとなる。
【0072】
そして、そのようなコンテンツは、例えば、第1実施形態におけるキーワード、あるいは、第2実施形態におけるURL、などといった条件を指定することで、ソーシャルメディアシステム12から収集することができる。そして、第1実施形態における先頭時間、あるいは、第2実施形態における先駆け時間区間、などといった、ユーザに提供された情報に関する盛り上がりが時間経過とともに高くなる期間に、ソーシャルメディアシステム12にコンテンツを登録する傾向の強いユーザは、ユーザに提供された情報に対する感度が高いユーザ(先駆けユーザ)である可能性が高いと考えられる。よって、第1実施形態や第2実施形態における先駆けユーザデータ44における順位の高い(スコアの大きい)ユーザは、ユーザに提供された情報に対する感度が高いユーザ(先駆けユーザ)であると考えられる。よって、先駆けユーザデータ44によって、ユーザが先駆けユーザであるか否かを判別することができることとなる。
【0073】
なお、第1実施形態において、分析システム10が、例えば、ユーザ毎の、第1実施形態における末尾時間(又は、中間時間)の範囲内に投稿された投稿数の多いユーザから順に設定された順位、当該ユーザのユーザID、当該ユーザについてS210に示す処理で特定された投稿数を示すスコア、が含まれる後追いユーザデータ(又は、目利きユーザデータ)を生成して、データ記憶部20に記憶させるようにしてもよい。
【0074】
また、第2実施形態において、分析システム10が、時間において隣接し、かつ、ピークヒストグラム区間に対する時間がディップヒストグラム区間に対応する時間よりも前である、ピークヒストグラム区間とディップヒストグラム区間の組合せのそれぞれについて、ピークヒストグラム区間の開始時点からディップヒストグラム区間の終了時点までに対応する時間区間を、後追い時間区間として特定するようにしてもよい。そして、分析システム10が、後追い時間区間の範囲内である各ヒストグラム区間にソーシャルブックマークの登録を行ったユーザについて、ヒストグラム区間が含まれる分析単位時間区間における区間平均登録数を加算することによりスコアを算出するようにしてもよい。そして、分析システム10が、上述のようにして算出されたスコアが大きなユーザから順に設定された順位、当該ユーザのユーザID、当該ユーザについて算出されたスコア、が含まれる、後追いユーザデータを生成して、データ記憶部20に記憶させるようにしてもよい。
【0075】
このようにして、第1実施形態や第2実施形態によれば、提供される情報に関連するコンテンツの投稿に基づくユーザの特徴(例えば、先駆けユーザであるか、目利きユーザであるか、後追いユーザであるか、など。)の特定が可能となる。
【0076】
そして、先駆けユーザデータや目利きユーザデータや後追いユーザデータは、広告、宣伝、情報推薦、情報提供等に役立つと考えられる。具体的には、例えば、先駆けユーザには新商品の情報を提供するようにして、後追いユーザにはベストセラーになった商品の情報を提供する、などのようにすることが考えられる。また、先駆けユーザが投稿するコンテンツを監視することによって、今後の流行の予測を行うことが考えられる。また、先駆けユーザに、レビュー記事の依頼をするということも考えられる。また、先駆けユーザに新情報を提供することによって、コンテンツの投稿を促し、新情報の発信を行ってもらうようにすることも考えられる。
【0077】
また、第1実施形態や第2実施形態において、例えば、ページ生成部32が、(1)先駆け時間区間と、当該先駆け時間区間に対応付けられる値(例えば、第1実施形態における先駆け時間区間内におけるクラスタバリューの代表値(例えば、先駆け時間区間内におけるクラスタバリューの最大値等)や、第2実施形態における先駆け時間区間内における区間平均登録数の代表値(例えば、先駆け時間区間内における区間平均登録数の最大値等))と、を対応付けた情報、(2)先駆け時間区間と、当該先駆け時間区間に対応付けられる語句及び当該語句が含まれる個数(例えば、第1実施形態における投稿されたコンテンツに含まれる語句及び語句が含まれる個数や、第2実施形態におけるソーシャルブックマークの対象となるウェブページに含まれる語句及び語句が含まれる個数)と、を対応付けた情報、(3)先駆け時間区間と、当該先駆け時間区間におけるコンテンツの投稿数やソーシャルブックマーク登録数などが所定数以上であるユーザの数の、先駆け時間区間にコンテンツの投稿やソーシャルブックマークの登録などを行ったユーザの総数に対する割合と、を対応付けた情報等が配置されたページを生成するようにしてもよい。
【0078】
また、第1実施形態や第2実施形態において、例えば、本実施形態に係る分析システム10が、分析システム10による解析により得られる語句、URL、タグ等の情報を提示するようにしてもよい。例えば、ページ生成部32が、先駆け時間区間と、当該先駆け時間区間に投稿されたコンテンツに所定数以上多く含まれる語句、タグ、URLなどと、を対応付けた情報等が配置されたページを生成するようにしてもよい。また、第1実施形態や第2実施形態において、例えば、ページ生成部32が、先駆け時間区間に投稿されたコンテンツのタイトル等のリストが配置されたページを生成するようにしてもよい。そして、ページ出力部34が、このページをクライアント14に送信し、クライアント14が、受信したこのページを表示するようにしてもよい。そして、分析システム10が、このリストに含まれるタイトル等のユーザによる選択をクライアント14から受け付けると、ページ生成部32が、選択されたタイトル等に対応付けられるコンテンツが配置されたページを生成するようにしてもよい。そして、ページ出力部34が、このページをクライアント14に送信し、クライアント14が、受信したこのページを表示するようにしてもよい。
【0079】
また、第1実施形態や第2実施形態において、例えば、分析システム10が、クライアント14から、先駆け時間区間の指定を受け付けてもよい。そして、分析システム10が、先駆け時間区間に基づいて特定される値(例えば、先駆け時間区間内におけるクラスタバリューの最大値や区間平均登録数の最大値など)が、指定された先駆け時間区間に基づいて特定される値を超える先駆け時間区間が発生した際に、その旨を先駆け時間区間の指定の送信元のクライアント14に通知するようにしてもよい。
【0080】
また、例えば、分析システム10が、ユーザの特徴(先駆けユーザであるのか、目利きユーザであるのか、あるいは、後追いユーザであるのか、など)に基づいて、当該ユーザに推薦されるコンテンツを特定するようにしてもよい。そして、分析システム10が、ユーザからの要求に応じて、当該ユーザに推薦されるコンテンツを提供するようにしてもよい。
【0081】
また、例えば、分析システム10が、複数の先駆け時間区間のそれぞれに対応付けられるキーワードや先駆けユーザ等に基づいて、先駆け時間区間同士の関係を特定するようにしてもよい。そして、特定された関係を表す情報をクライアント14に提供するようにしてもよい。
【0082】
なお、本発明は上述の実施形態に限定されるものではない。
【0083】
例えば、分析システム10は、時間経過と共に内容が変化する電子掲示板の投稿スレッドに投稿されたコメントを分析するようにしてもよい。このとき、分析システム10は、定期的に、分析を実行する時刻の所定時間前(例えば、3時間前)から分析を実行する時刻までの時間の範囲に投稿されたコメントに応じた特徴量に基づいて、当該時間の範囲における投稿の盛り上がりの高さを示す指標(ここでは、尤度と呼ぶ。)の値を算出するようにしてもよい。
【0084】
分析システム10は、例えば、上述の時間の範囲に投稿されたコメントに基づいて、以下の(1)〜(13)のそれぞれの特徴量の算出を行う。そして、分析システム10は、算出された特徴量が所定の条件を満足するか否かを確認し、条件を満足する場合には尤度の値を1増加させる。ここで、尤度の初期値は0であることとする。
【0085】
(1)常連密度:複数の人が所定の投稿件数内に登場しており、それぞれの人が複数回登場している程度。例えば、分析システム10は、「所定の投稿数A1だけ連続する投稿についての、質問型の投稿(例えば、文末が「?」である投稿)を所定数A2以上含む、所定数A3以上の投稿を行ったユーザ数V_A1を計算する。」という処理を、解析対象の投稿の範囲内で、所定の投稿数A1だけ連続する投稿の範囲を所定の投稿数ずつ(例えば、1投稿ずつ)ずらしながら繰り返し、それぞれの範囲におけるV_A1を計算する。そして、分析システム10は、それぞれの範囲について計算されたV_A1の最大値V_A2を常連密度として特定する。そして、分析システム10は、V_A2が所定の閾値th_A2以上であれば、上述の尤度の値を1増加させる。
【0086】
(2)同時多発度:短期間内に、短い投稿の連鎖が入り乱れた多数発生する程度を表す。例えば、分析システム10は、「所定期間B1内に投稿された投稿についての、投稿と、その投稿から所定時間B2内に行われた返信投稿の組合せの数V_B1を計算する。」という処理を、解析対象の投稿の範囲内で、所定期間B1内に投稿された投稿の範囲を所定時間ずつ(例えば、1分ずつ)ずらしながら繰り返し、それぞれの範囲におけるV_B1を計算する。そして、分析システム10は、V_B1が所定数B3以上である上述の範囲の数V_B2を同時多発度として特定する。そして、分析システム10は、V_B2が所定の閾値th_B2以上であれば、上述の尤度の値を1増加させる。
【0087】
(3)キャッチボール度:複数のユーザによりコメントが交互に投稿される程度を表す。例えば、分析システム10は、「所定の投稿数C1だけ連続する投稿についての、質問型の投稿(例えば、文末が「?」である投稿)を所定数C2以上含む、所定数C3以上の投稿を行ったユーザを特定する。そして、そのユーザの投稿を投稿時刻に古い順に並べ、同一のユーザによる投稿が連続する投稿群を1グループとした際の、グループの個数V_C1を計算する。」という処理を、解析対象の投稿の範囲内で、所定の投稿数C1だけ連続する投稿の範囲を所定の投稿数ずつ(例えば、1投稿ずつ)ずらしながら、それぞれの範囲におけるV_C1を計算する。そして、分析システム10は、計算されたV_C1の最大値V_C2をキャッチボール度として特定する。そして、分析システム10は、V_C2が所定の閾値th_C2以上であれば、上述の尤度の値を1増加させる。
【0088】
(4)同意度:他人の投稿に対して同意する趣旨のコメントが投稿される程度を表す。例えば、分析システム10は、「所定の投稿数D1だけ連続する投稿のうち、所定のマジックワード(例えば、「俺も」)を含む投稿数V_D1を計算する。」という処理を、解析対象の投稿の範囲内で、所定の投稿数D1だけ連続する投稿の範囲を所定の投稿数ずつ(例えば、1投稿ずつ)ずらしながら、それぞれの範囲におけるV_D1を計算する。そして、分析システム10は、計算されたV_D1の最大値V_D2を同意度として特定する。そして、分析システム10は、V_D2が所定の閾値th_D2以上であれば上述の尤度の値を1増加させる。
【0089】
(5)正常度:コメントの内容が意味をなしており、文章構造や論理構造がある程度存在する程度を表す。例えば、分析システム10は、「所定の投稿数E1だけ連続する投稿のうち、アスキーアート(同一の記号のE2個以上の連続)や半角のカタカナが含まれないコメントであって、バイト数が所定数E3以上であるコメントの数V_E1を計算する。」という処理を、解析対象の投稿の範囲内で、所定の投稿数E1だけ連続する投稿の範囲を所定の投稿数ずつ(例えば、1投稿ずつ)ずらしながら、それぞれの範囲におけるV_E1を計算する。そして、分析システム10は、計算されたV_E1の最大値V_E2を正常度として特定する。そして、分析システム10は、V_E2が所定の閾値th_E2以上であれば、上述の尤度の値を1増加させる。
【0090】
(6)長文反応連続度:長文のコメントへの返信として、短文での返信投稿が複数連続して行われる程度を表す。例えば、分析システム10は、投稿の返信の連続をチェーンと呼ぶこととした際に、解析対象の投稿の範囲内におけるすべてのチェーンについて、最初の投稿がバイト数が所定数F1以上であるコメントであって、それに対するバイト数が所定数F2以下である返信投稿(返信投稿に対する返信投稿も含む)の数V_F1を計算する。そして、分析システム10は、計算されたV_F1の最大値V_F2を長文反応連続度として特定する。そして、分析システム10は、V_F2が所定の閾値th_F2以上であれば、上述の尤度の値を1増加させる。
【0091】
(7)感謝度:一定の区間内の投稿において、感謝の趣旨のコメントが含まれる程度を表す。例えば、分析システム10は、「所定の投稿数G1だけ連続する投稿のうち、感謝の種別に属する所定のマジックワード(例えば、「ありがとう」。ただし、所定のNGワード(例えば、「本当にありがとうございました。」)は除く。)を含むコメントの数V_G1を計算する。」という処理を、解析対象の投稿の範囲内で、所定の投稿数G1だけ連続する投稿の範囲を所定の投稿数ずつ(例えば、1投稿ずつ)ずらしながら、それぞれの範囲におけるV_G1を計算する。そして、分析システム10は、計算されたV_G1の最大値V_G2を感謝度として特定する。そして、分析システム10は、V_G2が所定の閾値th_G2以上であれば、上述の尤度の値を1増加させる。
【0092】
(8)短文連続度:短文でのコメントが連続しない程度を表す。例えば、分析システム10は、「所定の投稿数H1だけ連続する投稿のうち、バイト数が所定数H2以下のコメントが連続して出現する数V_H1を計算する。」という処理を、解析対象の投稿の範囲内で、所定の投稿数H1だけ連続する投稿の範囲を所定の投稿数ずつ(例えば、1投稿ずつ)ずらしながら、それぞれの範囲におけるV_H1を計算する。そして、分析システム10は、計算されたV_H1の最大値V_H2を短文連続度として特定する。そして、分析システム10は、V_H2が所定の閾値th_H2以下であれば、上述の尤度の値を1増加させる。
【0093】
(9)瞬間風速:単位時間あたりの投稿数が多い状況が発生する程度を表す。例えば、分析システム10は、「所定の投稿数I1だけ連続する投稿のうち、投稿回数が所定数H2以上であるか否かを確認する。」という処理を、解析対象の投稿の範囲内で、所定の投稿数E1だけ連続する投稿の範囲を所定の投稿数ずつ(例えば、1投稿ずつ)ずらしながら、それぞれの範囲について、投稿回数が所定のH2以上であるか否かを確認する。そして、分析システム10は、投稿回数が所定のH2以上であることが確認された回数V_I1を瞬間風速として特定する。そして、分析システム10は、V_I1が所定の閾値th_V1以上であれば、上述の尤度の値を1増加させる。
【0094】
(10)マジックワード出現頻度:所定のマジックワードの出現頻度。例えば、アラートモードである場合のマジックワードとしては、「ダウンロード」、「アップデート」、「始まった」、「仕様」、「対応」などが挙げられ、レピュートモードである場合のマジックワードとしては、「リリース」、「ありがとう」、「同様」などが挙げられる。なお、アラートモードのマジックワードとレピュートモードのマジックワードの少なくとも一部が共通していても構わない。なお、マジックワードは、予めデータ記憶部20に記憶されていることとする。分析システム10は、例えば、投稿スレッドデータのコメントデータに含まれるマジックワードの数mwaをマジックワード出現頻度として特定する。そして、分析システム10は、mwaが所定数th_mwa以上であれば、上述の尤度の値を1増加させる。
【0095】
(11)マジックワード直近出現頻度:所定のマジックワードの直近での出現頻度。分析システム10は、例えば、投稿スレッドデータのコメントデータのうち、直近投稿されたコメント(例えば、検索開始時点の直前1時間以内に投稿されたコメント)を示すコメントデータに含まれるマジックワードの数mwrをマジックワード直近出現頻度として特定する。そして、分析システム10は、mwrが所定数th_mwr以上であれば、上述の尤度の値を1増加させる。
【0096】
(12)ユーザ指定キーワード出現頻度:キーワード条件式に設定されているキーワードの出現頻度。なお、本実施形態では、一般的であると考えられる所定の語については出現頻度をカウントする対象とはならない。分析システム10は、例えば、投稿スレッドデータのコメントデータに含まれるカウントの対象となるキーワードの数kwaをユーザ指定キーワード出現頻度として特定する。そして、分析システム10は、kwaが所定数th_kwa以上であれば、上述の尤度の値を1増加させる。
【0097】
(13)ユーザ指定キーワード直近出現頻度:キーワード条件式に設定されているキーワードの直近での出現頻度。分析システム10は、例えば、投稿スレッドデータのコメントデータのうち、直近投稿されたコメント(例えば、検索開始時点の直前1時間以内に投稿されたコメント)を示すコメントデータに含まれるマジックワードの数kwrをユーザ指定キーワード直近出現頻度として特定する。そして、分析システム10は、kwrが所定数th_kwr以上であれば、上述の尤度の値を1増加させる。
【0098】
以上のようにして、尤度の値が算出される。そして、分析システム10は、対応付けられた尤度の値が所定値以上である時間の範囲におけるユーザ毎のコメントの投稿数を特定するようにしてもよい。そして、分析システム10は、各ユーザに対応付けられる、特定された投稿数の多いユーザから順に設定された順位、当該ユーザのユーザID、当該ユーザについて特定された投稿数を示すスコア、が含まれる、先駆けユーザデータ44を生成して、データ記憶部20に記憶させるようにしてもよい。
【0099】
また、分析システム10は、例えば、電子掲示板におけるコメントの投稿やソーシャルブックマークの登録に限らず、ブログ記事の登録タイミング、ウィキの記事の登録、Twitter(登録商標)におけるツイート等を、上述と同様の方法によって分析することで、ユーザの特徴を特定するようにしてもよい。
【0100】
また、本実施形態に係る分析システム10、ソーシャルメディアシステム12、及びクライアント14の役割分担は上述のものには限定されない。また、上記の具体的な文字列や図面中の具体的な文字列は例示であり、これらの文字列には限定されない。
【符号の説明】
【0101】
10 分析システム、12 ソーシャルメディアシステム、14 クライアント、16 コンピュータネットワーク、20 データ記憶部、22 データ収集部、24 コンテンツ管理データ取得部、26 クラスタバリュー特定部、28 期間特定部、30 ユーザ特徴特定部、32 ページ生成部、34 ページ出力部、40 コンテンツ管理データ、42 クラスタ、42a 統合クラスタ、44 先駆けユーザデータ、46 クラスタ検出結果ページ、48 先駆けユーザ一覧ページ、50 ソーシャルブックマーク管理データ、52 ヒストグラム。
【特許請求の範囲】
【請求項1】
提供される情報に関連する情報の登録に応じて決定される、前記提供される情報に関する盛り上がりの高さを表すパラメータの値を特定する値特定手段と、
前記パラメータの値に基づいて、前記提供される情報に関する盛り上がりが時間経過とともに高くなる期間を特定する期間特定手段と、
特定される期間に基づいて、前記関連する情報を登録するユーザの特徴を特定する特徴特定手段と、
を含むことを特徴とする情報処理システム。
【請求項2】
前記特徴特定手段は、前記期間特定手段により特定される期間にユーザにより登録される前記関連する情報の数に基づいて、当該ユーザの特徴を特定する、
ことを特徴とする請求項1に記載の情報処理システム。
【請求項3】
前記値特定手段は、単位時間あたりに前記関連する情報が登録される数を特定し、
前記期間特定手段は、単位時間あたりに前記関連する情報が登録される数が増加傾向にある期間を特定する、
ことを特徴とする請求項1又は2に記載の情報処理システム。
【請求項4】
前記値特定手段は、前記提供される情報に関連するキーワードを含むコメントの単位時間あたりの登録回数を特定し、
前記期間特定手段は、前記キーワードを含むコメントの単位時間あたりの登録回数が増加傾向にある期間を特定する、
ことを特徴とする請求項1又は2に記載の情報処理システム。
【請求項5】
前記値特定手段は、情報が提供されるウェブページに対するソーシャルブックマークの単位時間あたりの登録回数を特定し、
前記期間特定手段は、情報が提供されるウェブページに対するソーシャルブックマークの単位時間あたりの登録回数が増加傾向にある期間を特定する、
ことを特徴とする請求項1又は2に記載の情報処理システム。
【請求項6】
(1)提供される情報に関連する情報の登録に応じて決定される、前記提供される情報に関する盛り上がりの高さを表すパラメータの値、(2)前記パラメータの値に基づいて特定される、前記提供される情報に関する盛り上がりが時間経過とともに高くなる期間を示す情報、及び、(3)特定される期間に基づいて特定される、前記関連する情報を登録するユーザの特徴を示す情報、のうちの少なくとも1つを取得する取得手段と、
前記取得手段により取得される情報に基づいて生成される情報を提示する提示手段と、
を含むことを特徴とする情報処理システム。
【請求項7】
提供される情報に関連する情報の登録に応じて決定される、前記提供される情報に関する盛り上がりの高さを表すパラメータの値を特定する値特定ステップと、
前記パラメータの値に基づいて、前記提供される情報に関する盛り上がりが時間経過とともに高くなる期間を特定する期間特定ステップと、
特定される期間に基づいて、前記関連する情報を登録するユーザの特徴を特定する特徴特定ステップと、
を含むことを特徴とする情報処理方法。
【請求項8】
提供される情報に関連する情報の登録に応じて決定される、前記提供される情報に関する盛り上がりの高さを表すパラメータの値を特定する値特定手段、
前記パラメータの値に基づいて、前記提供される情報に関する盛り上がりが時間経過とともに高くなる期間を特定する期間特定手段、
特定される期間に基づいて、前記関連する情報を登録するユーザの特徴を特定する特徴特定手段、
としてコンピュータを機能させることを特徴とするプログラム。
【請求項9】
提供される情報に関連する情報の登録に応じて決定される、前記提供される情報に関する盛り上がりの高さを表すパラメータの値を特定する値特定手段、
前記パラメータの値に基づいて、前記提供される情報に関する盛り上がりが時間経過とともに高くなる期間を特定する期間特定手段、
特定される期間に基づいて、前記関連する情報を登録するユーザの特徴を特定する特徴特定手段、
としてコンピュータを機能させることを特徴とするプログラムを記憶したコンピュータ読み取り可能な情報記憶媒体。
【請求項1】
提供される情報に関連する情報の登録に応じて決定される、前記提供される情報に関する盛り上がりの高さを表すパラメータの値を特定する値特定手段と、
前記パラメータの値に基づいて、前記提供される情報に関する盛り上がりが時間経過とともに高くなる期間を特定する期間特定手段と、
特定される期間に基づいて、前記関連する情報を登録するユーザの特徴を特定する特徴特定手段と、
を含むことを特徴とする情報処理システム。
【請求項2】
前記特徴特定手段は、前記期間特定手段により特定される期間にユーザにより登録される前記関連する情報の数に基づいて、当該ユーザの特徴を特定する、
ことを特徴とする請求項1に記載の情報処理システム。
【請求項3】
前記値特定手段は、単位時間あたりに前記関連する情報が登録される数を特定し、
前記期間特定手段は、単位時間あたりに前記関連する情報が登録される数が増加傾向にある期間を特定する、
ことを特徴とする請求項1又は2に記載の情報処理システム。
【請求項4】
前記値特定手段は、前記提供される情報に関連するキーワードを含むコメントの単位時間あたりの登録回数を特定し、
前記期間特定手段は、前記キーワードを含むコメントの単位時間あたりの登録回数が増加傾向にある期間を特定する、
ことを特徴とする請求項1又は2に記載の情報処理システム。
【請求項5】
前記値特定手段は、情報が提供されるウェブページに対するソーシャルブックマークの単位時間あたりの登録回数を特定し、
前記期間特定手段は、情報が提供されるウェブページに対するソーシャルブックマークの単位時間あたりの登録回数が増加傾向にある期間を特定する、
ことを特徴とする請求項1又は2に記載の情報処理システム。
【請求項6】
(1)提供される情報に関連する情報の登録に応じて決定される、前記提供される情報に関する盛り上がりの高さを表すパラメータの値、(2)前記パラメータの値に基づいて特定される、前記提供される情報に関する盛り上がりが時間経過とともに高くなる期間を示す情報、及び、(3)特定される期間に基づいて特定される、前記関連する情報を登録するユーザの特徴を示す情報、のうちの少なくとも1つを取得する取得手段と、
前記取得手段により取得される情報に基づいて生成される情報を提示する提示手段と、
を含むことを特徴とする情報処理システム。
【請求項7】
提供される情報に関連する情報の登録に応じて決定される、前記提供される情報に関する盛り上がりの高さを表すパラメータの値を特定する値特定ステップと、
前記パラメータの値に基づいて、前記提供される情報に関する盛り上がりが時間経過とともに高くなる期間を特定する期間特定ステップと、
特定される期間に基づいて、前記関連する情報を登録するユーザの特徴を特定する特徴特定ステップと、
を含むことを特徴とする情報処理方法。
【請求項8】
提供される情報に関連する情報の登録に応じて決定される、前記提供される情報に関する盛り上がりの高さを表すパラメータの値を特定する値特定手段、
前記パラメータの値に基づいて、前記提供される情報に関する盛り上がりが時間経過とともに高くなる期間を特定する期間特定手段、
特定される期間に基づいて、前記関連する情報を登録するユーザの特徴を特定する特徴特定手段、
としてコンピュータを機能させることを特徴とするプログラム。
【請求項9】
提供される情報に関連する情報の登録に応じて決定される、前記提供される情報に関する盛り上がりの高さを表すパラメータの値を特定する値特定手段、
前記パラメータの値に基づいて、前記提供される情報に関する盛り上がりが時間経過とともに高くなる期間を特定する期間特定手段、
特定される期間に基づいて、前記関連する情報を登録するユーザの特徴を特定する特徴特定手段、
としてコンピュータを機能させることを特徴とするプログラムを記憶したコンピュータ読み取り可能な情報記憶媒体。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【公開番号】特開2013−61756(P2013−61756A)
【公開日】平成25年4月4日(2013.4.4)
【国際特許分類】
【出願番号】特願2011−199072(P2011−199072)
【出願日】平成23年9月13日(2011.9.13)
【出願人】(310021766)株式会社ソニー・コンピュータエンタテインメント (417)
【Fターム(参考)】
【公開日】平成25年4月4日(2013.4.4)
【国際特許分類】
【出願日】平成23年9月13日(2011.9.13)
【出願人】(310021766)株式会社ソニー・コンピュータエンタテインメント (417)
【Fターム(参考)】
[ Back to top ]