説明

情報分析装置及び情報分析プログラム

【課題】将来的に流行につながる可能性の高い情報を早期かつ確実に発見することができる情報分析装置及び情報分析プログラムを提供すること。
【解決手段】情報分析装置3は、トレンドワード候補と当該トレンドワード候補が属するカテゴリとを相互に対応付けたトレンド候補情報を取得し、提供情報を情報提供装置4からネットワーク2を介して取得し、取得した提供情報に含まれるトレンドワード候補の出現数の時系列推移を、提供情報を提供した第1情報提供者が属するカテゴリ毎に計数する出現数監視部32bと、トレンド候補情報に基づき特定されるトレンドワード候補に対応するカテゴリとは異なるカテゴリについて出現数監視部32bによって計数されたトレンドワード候補の出現数の変化に基づき、トレンドワード候補が流行の特定段階にあることを検知する流行検知部32cとを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、WEB上にてブログを公開するブロガーの如き情報提供者から提供される情報を分析するための情報分析装置及び情報分析プログラムに関する。
【背景技術】
【0002】
従来から、大規模な流行に発展することが期待される物、人、あるいはサービスを流行の初期段階で抽出することにより、新規市場の開拓や、適切な需要予測に基づく物流管理、投資情報としての活用等が可能となり、ビジネス活動を一層効果的に推進し得るものと考えられている。
【0003】
近年では、一般の人々がインターネットを利用して情報を入手するだけでなく、ブログやSNS(Social Network Service)を介して、仕事、趣味、あるいは社会等に関する様々な情報を発信するようになっていることから、流行に対するインターネットの影響力が注目されている。これに伴い、Web上の情報に基づいて流行アイテムを発見するための方法が提案されている。
【0004】
例えば、所定のWebサーバに利用者がアクセスして情報を取得するサービスにおいて、既に流行したアイテムに関する情報にいち早くアクセスしていた利用者群を把握し、当該利用者群が現在アクセスしている情報を次期流行アイテムとして予測する流行アイテム予測方法が提案されている(例えば、特許文献1参照)。
【0005】
また、ブログ記事等の情報から抽出したキーワードの注目度、出現頻度、及び、当該キーワードに対する肯定的な意見の割合に基づき、近い将来の流行に関連するキーワードを選定するトレンド予測装置も提案されている(例えば、特許文献2参照)。
【0006】
【特許文献1】特開2001−350875号公報(段落0043〜0046)
【特許文献2】特開2006−227965号公報(段落0042〜0054)
【発明の開示】
【発明が解決しようとする課題】
【0007】
一般的に、マーケティング理論において、あるアイテムが大きな流行に至るには、当該アイテムが属するカテゴリに興味を有する人のみならず、他のカテゴリに興味を有する人の注目をも集める必要があると言われている。
【0008】
しかし、特許文献1に記載の方法では、過去に流行したアイテムにいち早く着目した利用者群が新たに着目したアイテムが、当該利用者群の注目を集めるのみの小流行に留まるのか、カテゴリの枠を越えた注目を集めて大流行に至るのかまでは判定できない。
【0009】
また、特許文献2に記載の方法では、キーワードの提供者が誰なのか、キーワードが誰に注目されているのか、キーワードが誰の記事に出現しているのか、キーワードに対して誰が肯定的で誰が否定的なのか等、キーワードに関する情報の発信者の属性を考慮していない。従って、全カテゴリにわたって注目度や出現頻度が上昇しなければ流行の可能性を検出できず、所定のカテゴリから他のカテゴリに注目が波及し始めた状況を把握することも不可能である。
【0010】
このように、従来の方法では、早期かつ確実に流行アイテムを発見する為の仕組みが不十分であった。
【0011】
本発明は、上記に鑑みてなされたものであって、将来的に流行につながる可能性の高い情報を、早期かつ確実に発見することができる、情報分析装置及び情報分析プログラムを提供することを目的とする。
【課題を解決するための手段】
【0012】
この請求項1又は5に記載の情報分析装置又は情報分析プログラムによれば、分析対象の自然言語が属するカテゴリとは異なるカテゴリに属する第1情報提供者によって提供された提供情報における当該自然言語の出現数累積値の変化率が一定の閾値を超えた場合、当該自然言語が流行の初期段階にあると検知手段が判定するので、当該自然言語が属する分野とは異なる他の分野への波及をいち早く検知することができる。これにより、複数分野にわたり注目され始めた段階、かつ、雑誌やテレビ等のマスメディアに取り上げられることで広く一般に流行する前の段階で、当該自然言語を早期かつ確実に発見することができる。
【0013】
また、今日では、アイテムに対する肯定的な意見が拡大する場合のみでなく、否定的な意見(ネガティブキャンペーン)が拡大することについても、これを早期に発見して防止することが、企業の情報リスクの管理上重要となっている。このような否定的意見の拡大を早期かつ確実に発見することに関しても、本情報分析装置又は情報分析プログラムは有効である。すなわち、分析対象の自然言語が否定的な態様で出現することに関する出現数累積値の変化率が一定の閾値を超えた場合、当該自然言語がネガティブキャンペーンの初期段階にあると検知手段が判定することができ、ネガティブキャンペーンの拡大をも早期かつ確実に発見することができる。
【0014】
また、請求項2に記載の情報分析装置によれば、情報提供者によって提供された全ての提供情報における自然言語の出現数累積値の変化率が一定の閾値を超えた場合、当該自然言語が流行の初期段階にあると検知手段が判定するので、広く一般的に流行し始めた段階にある自然言語を確実に発見することができる。
【0015】
また、請求項3に記載の情報分析装置によれば、自然言語が属するカテゴリと同一のカテゴリに属する第1情報提供者によって提供された提供情報における当該自然言語の出現数累積値の変化率が一定の閾値を超えた場合、当該自然言語が流行の初期段階にあると検知手段が判定するので、同一の分野を得意とする第1情報提供者達によって注目され始めた自然言語を早期に発見することができる。
【0016】
また、請求項4に記載の情報分析装置によれば、流行の特定段階にあることが検知された自然言語が提供情報に含まれていたか否かによって、当該提供情報を提供した情報提供者の情報提供における影響度を評価するので、常に最新の流行に対応しながら第1情報提供者を特定し、当該第1情報提供者が提供する情報に基づき次に流行する可能性の高い自然言語を抽出することができる。
【発明を実施するための最良の形態】
【0017】
以下に添付図面を参照して、この発明に係る情報分析装置、及び情報分析プログラムの実施の形態を詳細に説明する。
【0018】
(構成)
まず、情報分析システムの構成を説明する。図1は情報分析システムの全体構成を機能概念的に示す説明図である。この情報分析システム1は、インターネット等のネットワーク2を介して、情報分析装置3、複数の情報提供装置4、マスメディアデータサーバ5、及び、POS(Point of Sale)データサーバ6、及び端末装置7を相互に通信可能に接続して構成されている。
【0019】
(構成−情報分析装置)
情報分析装置3の構成について説明する。情報分析装置3は、記憶部30、ネットワークインタフェース(以下「ネットワークIF」)31、及び制御部32をバス33にて通信可能に接続して構成されている。
【0020】
記憶部30は、例えばハードディスクやその他の記録媒体によって構成されており、抽出元テーブル30a、推移データベース(以下「DB」)30b、ランキングDB30c、マスメディアDB30d、及びPOSデータDB30eを備えている。
【0021】
ネットワークIF31は、情報分析装置3がネットワーク2を介した通信を行うための通信制御インターフェースであり、入力手段及び出力手段である。このネットワークIF31は、例えばネットワークボードとして構成されている。
【0022】
制御部32は、情報分析装置3の各部を制御する制御手段であり、機能概念的に、トレンドワード候補抽出部32a、出現数監視部32b、流行検知部32c、推移推測部32d、抽出元評価処理部32e、及び、抽出元更新部32fを備えている。この制御部32は、具体的には、CPU(Central Processing Unit)や、このCPU上で解釈実行される各種のプログラム(OSなどの制御プログラムや、各種の処理手順などを規定したプログラム)、及び、所要プログラムや所要データを格納するための内部メモリを備えて構成される。
【0023】
次に、上述した記憶部30に格納されている情報の具体的な内容について説明する。抽出元テーブル30aは、情報分析装置3が情報提供装置4から抽出する自然言語の抽出元に関する情報を格納するための抽出元情報格納手段であり、図2(a)に例示するように、テーブル項目として「ブロガID」「URL」「得意カテゴリ」「クラス」を備え、これらに対応する情報が相互に関連付けて格納されている。項目「ブロガID」に対応して格納される情報は、自然言語の抽出元となる情報提供者を一意に識別するための識別情報であり、例えば情報提供者毎に割り当てられた「BID001」等の識別記号を用いることができる。項目「URL」に対応して格納される情報は、各情報提供者から提供される提供情報の格納先を示す情報であり、例えばURLアドレスや、RSS(Rich Site Summary 又は RDF Site Summary)情報等を用いることができる。項目「得意カテゴリ」に対応して格納される情報は、提供する提供情報の内容に応じて各情報提供者が属するカテゴリを特定するための情報であり、例えば「グルメ」、「音楽」等のカテゴリ情報を用いることができ、一つのブロガIDに対して複数のカテゴリ情報を対応付けて格納することもできる。項目「クラス」に対応して格納される情報は、情報提供者の情報提供における影響度を特定するための情報であり、例えば、流行に至る可能性のあるアイテムにいち早く着目するサイバーブロガであることを示す「サイバー」、サイバーブロガと比較して流行に至る可能性のあるアイテムに着目するタイミングは遅いものの、他の情報提供者に対してサイバーブロガよりも強い影響力を有するオピニオンリーダであることを示す「OP」、オピニオンリーダやサイバーブロガに該当しない一般ブロガであることを示す「一般」等の情報を用いることができる。
【0024】
図1の推移DB30bは、分析対象の自然言語と当該自然言語が属するカテゴリとを相互に対応付けたトレンド候補情報、及び提供情報における自然言語の出現数の推移に関する情報を格納するための推移情報格納手段であり、図3に例示するように、DB項目として「トレンドワード候補」「ワードカテゴリ」「登録日」「計数日」「出現数」「流行検知フラグ」を備え、これらに対応する情報が相互に関連付けて格納されている。項目「トレンドワード候補」に対応して格納される情報は、情報分析装置3によって出現数の推移の監視や流行の特定段階の検知等の分析対象となる自然言語(名詞、動詞、形容詞、文節、あるいは文章を含む。以下「トレンドワード候補」と呼ぶ)を特定するための情報であり、例えば図3に示したように「B級グルメ」「タンバリン」等を格納することができる。項目「ワードカテゴリ」に対応して格納される情報は、各トレンドワード候補が属するカテゴリを特定するカテゴリ情報である。項目「登録日」に対応して格納される情報は、項目「トレンドワード候補」に対応付けて各トレンドワード候補が格納された日を特定する情報である。項目「計数日」に対応して格納される情報は、提供情報における各トレンドワード候補の出現数を計数した日を特定する情報である。項目「出現数」に対応して格納される情報は、提供情報において各トレンドワード候補が出現した数を特定する情報である。例えば、提供情報を提供した第1情報提供者が属するカテゴリ毎(図3における項目「グルメ」「音楽」等に対応)に、各計数日における出現数(図3では出現数)及び登録日から各計数日までの累積出現数(図3では累積)を、各トレンドワード候補に対する肯定的(ポジティブ)な評価がされた場合(図3ではポジ)、及び否定的(ネガティブ)な評価がされた場合(図3ではネガ)の各々の場合について格納させる。さらに、全カテゴリの合計の出現数及び当該合計の累積出現数を格納させる。項目「流行検知フラグ」に対応付けて格納される情報は、各トレンドワード候補がポジティブ又はネガティブな流行の特定段階にあることが流行検知部32cによって検知されているか否かを一意に特定するための情報であり、例えば検知されていない場合は「0」、検知された場合は「1」を格納させることができる。この推移DB30bに格納される各情報は、後述する発見処理、監視処理、及び検知処理において、情報提供装置4からネットワーク2を介して制御部32によって取得され、当該推移DB30bに格納される。
【0025】
図1のランキングDB30cは、トレンドワード候補の出現数の順位に関する情報を格納するためのランキング情報格納手段であり、図2(b)に例示するように、DB項目として「取得日」「順位」「トレンドワード候補」を備え、これらに対応する情報が相互に関連付けて格納されている。項目「取得日」に対応して格納される情報は、トレンドワード候補のランキングを取得した日を特定する情報である。項目「順位」に対応して格納される情報は、各ランキング取得日における順位を特定する情報である。項目「トレンドワード候補」は、図3の項目「トレンドワード候補」に対応する。これらの各情報をランキングDB30cに格納するタイミングや方法は任意であり、例えば後述する監視処理において出現数監視部32bが各トレンドワード候補の出現数を計数した場合において、計数結果に基づき出現数順にトレンドワード候補を順位付けさせ、当該順位に応じて各情報を格納させることができる。
【0026】
図1のマスメディアDB30dは、マスメディアデータサーバ5から取得した自然言語に関する情報を格納するためのマスメディア情報格納手段であり、図4に例示するように、DB項目として「トレンドワード候補」「ワードカテゴリ」「計数日」「出現数」を備え、これらに対応する情報が相互に関連付けて格納されている。項目「出現数」に対応して格納される情報は、雑誌やテレビ等のマスメディアにおいて各トレンドワード候補が出現した数を特定する情報であり、例えば、マスメディアが属するカテゴリ毎に、各計数日における出現数(図4では時系列)及び登録日から各計数日までの累積出現数(図4では累積)を格納させることができる。これらの各情報をマスメディアDB30dに格納するタイミングや方法は任意であり、例えば後述する監視処理において、マスメディアデータサーバ5からネットワーク2を介して制御部32によって取得され、当該マスメディアDB30dに格納される。
【0027】
図1のPOSデータDB30eは、POSデータサーバ6から取得した自然言語に関する情報を格納するためのPOSデータ情報格納手段であり、図5に例示したように、DB項目として「トレンドワード候補」「ワードカテゴリ」「関連商品」「計上日」「売上高」を備え、これらに対応する情報が相互に関連付けて格納されている。項目「トレンドワード候補」及び項目「ワードカテゴリ」は、図3の項目「トレンドワード候補」及び項目「ワードカテゴリ」に対応する。項目「関連商品」に対応して格納される情報は、各トレンドワード候補に関連付けて連想される商品を特定するための情報であり、図5に例示したように、一つのトレンドワード候補に対して複数の関連商品を特定する情報を格納することもできる(例えば「B級グルメ」に対して「ラーメン」、「餃子」等)。項目「計上日」に対応して格納される情報は、各関連商品についての売上高の計上日を特定するための情報である。項目「売上高」に対応して格納される情報は、各トレンドワード候補に関連する商品の売上高を特定する情報であり、例えば、関連商品毎に、各計上日における売上高(図5では時系列)及び登録日から各計上日までの累積売上高(図5では累積)を格納させることができる。これらの各情報をPOSデータDB30eに格納するタイミングや方法は任意であり、例えば後述する監視処理において、POSデータサーバ6からネットワーク2を介して制御部32によって取得され、当該POSデータDB30eに格納される。
【0028】
(構成−情報提供装置)
図1の情報提供装置4は、例えば、SNS(Social Network Service)サーバや、各種ブログサイトのサーバの如き公知のWebサーバとして構成することができ、その具体的な提供情報の内容は任意である。この情報提供装置4は、情報提供者から提供された情報を格納し、当該格納した情報を情報分析装置3や端末装置7からの要求に応じて当該情報分析装置3に送信する機能を有する。
【0029】
(構成−端末装置)
図1の端末装置7は、情報提供者が情報分析装置3又は情報提供装置4との間において情報の入出力を行うための端末である。
【0030】
(構成−マスメディアデータサーバ、及びPOSデータサーバ)
図1のマスメディアデータサーバ5は、雑誌やテレビ等のマスメディアにおいて各トレンドワード候補が出現した数を、ワードカテゴリや出現日等と相互に対応付けて特定する情報を格納する。POSデータサーバ6は、各トレンドワード候補に関連する商品の売上高の推移を、ワードカテゴリや売上計上日等と対応付けて特定する情報を格納する。なお、これらのサーバは、格納した情報を、情報分析装置3からの要求に応じて当該情報分析装置3や端末装置7に送信する機能を有するものであり、例えばマスメディアの出現ログデータを記録するデータサーバやWebサーバ等の公知のサーバとして構成することができるためにその詳細な説明は省略する。
【0031】
(処理内容)
次に、図1に示した情報分析装置3にて行われる処理について、抽出元更新処理、発見処理、監視処理、検知処理、推測処理、及び、評価処理に大別して説明する。
【0032】
(処理内容−抽出元更新処理)
まず、抽出元テーブル30aに格納されている情報の内容を更新するための抽出元更新処理について説明する。図6は抽出元更新処理の流れを示したフローチャートである。この抽出元更新処理を、後述する発見処理や監視処理とは非同期に並行して繰り返し実行することにより、発見処理や監視処理において常に最新の情報に基づく抽出元テーブル30aを参照することが可能となる。
【0033】
この抽出元更新処理の前提として、管理者等は、著名な情報提供者のブログを任意の方法で特定した後、この情報提供者及びブログに関する情報を抽出元テーブル30aに設定する。例えば、この情報提供者にブロガIDを付与して項目「ブロガID」の情報とし、このブログのURLアドレスやRSSを項目「URL」の情報として設定し、このブログのカテゴリ及びクラスを特定してそれぞれを項目「得意カテゴリ」と項目「クラス」の情報として設定する。以下、このように初期設定されたブログを「初期設定ブログ」と称する。
【0034】
このような前提の下、情報提供装置が起動されると、抽出元更新部32fは、抽出元テーブル30aを参照し、情報提供装置4に対するクローリングを行うことで、項目「URL」に対応して格納されているURLアドレスやRSSにて特定される初期設定ブログに対してリンクしている他のブログ(以下、「1次リンク元ブログ」)や、この1次リンク元に対してリンクしている他のブログ(以下、「2次リンク元ブログ」)を特定する。以降同様に、さらにクローリング対象のリンクの階層を深め、n−1次リンク元に対してリンクを張っている他のブログ(以下、「n次リンク元ブログ」)を特定する(ステップSA−1)。以下、これら1次リンク元ブログからn次リンク元ブログを「リンク元ブログ」と総称する。
【0035】
続いて、抽出元更新部32fは、リンク元ブログの中から、当該リンク元ブログに対するアクセス数が所定値以上であるリンク元ブログ(以下、「アクセス多数リンク元ブログ」)を特定する(ステップSA−2)。
【0036】
そして、抽出元更新部32fは、このアクセス多数リンク元ブログに関する情報を抽出元テーブル30aに追加等することで、抽出元テーブル30aを更新する。具体的には、抽出元更新部32fは、アクセス多数リンク元ブログの情報提供者にブロガIDを所定方法で発行し、このブロガIDと、アクセス多数リンク元ブログのURLアドレスやRSSを、それぞれ項目「ブロガID」と項目「URL」に対応する情報として追加する(ステップSA−3)。また、初期設定ブログの項目「得意カテゴリ」に設定されている情報を、当該アクセス多数リンク元ブログの項目「得意カテゴリ」にそのまま設定することで、初期設定ブログのカテゴリをアクセス多数リンク元ブログのカテゴリに伝播する(ステップSA−4)。
【0037】
続いて、抽出元更新部32fは、アクセス多数リンク元ブログのクラスを特定して、抽出元テーブル30aの項目「クラス」に設定する(ステップSA−5)。このため、最初に、過去に実際に流行したアイテムに関して、当該アイテムを特定する自然言語(具体例としてはアイテムの名称)と流行日を取得する。これらの情報は、例えば、推移DB30bにおいて流行検知フラグ「1」が立っているレコードから取得できる。そして、クローリングによって取得したアクセス多数リンク元ブログの情報を自然言語解析し、当該アイテムを特定する自然言語がアクセス多数リンク元ブログにおいて最初に出現した日を特定し、当該特定した日と、先に推移DB30bから取得した実際の流行日との前後関係に応じて、項目「クラス」に設定すべき情報を「サイバー」、「OP」、又は「一般」のいずれかに決定する。例えば、特定した日が実際の流行日より3日以上前である場合には「サイバー」、3日前から3日後である場合には「OP」、4日以降である場合には「一般」とする。このように更新された抽出元テーブル30aに設定されているブログを初期設定ブログとして、以降同様に、ステップSA−1からSA−5を再帰的に行う。
【0038】
(処理内容−発見処理)
次に、提供情報の中からトレンドワード候補を発見するための発見処理について説明する。図7は発見処理の流れを示したフローチャートである。情報分析装置3に定期的に発見処理を実行させることにより、常に最新の情報に基づいて流行可能性を有するトレンドワード候補を発見することができる。
【0039】
トレンドワード候補抽出部32aは、情報分析装置3が起動されると、情報提供装置4に対するクローリングを行う(ステップSB−1)。この場合において、トレンドワード候補抽出部32aは抽出元テーブル30aを参照し(ステップSB−2)、項目「クラス」に対応して格納されている情報が「OP」あるいは「サイバー」に該当する情報提供者(以下、第1情報提供者)について、項目「URL」に対応して格納されている情報によって特定される格納先に格納されている提供情報を、トレンドワード候補の抽出元となる情報として取得する(ステップSB−3)。
【0040】
続いて、トレンドワード候補抽出部32aは、取得した提供情報の内容を、例えば形態素解析や構文解析等の公知の自然言語処理手法を用いて解析する(ステップSB−4)。その結果、提供情報に未知語が含まれていた場合(ステップSB−5、Yes)、当該未知語をトレンドワード候補として推移DB30bの項目「トレンドワード候補」に対応づけて格納するとともに、当該未知語のワードカテゴリ、当該未知語を発見した日時を、それぞれ項目「ワードカテゴリ」及び「登録日」に対応付けて推移DB30bに格納する(ステップSB−6)。未知語の判定方法は任意で、例えば推移DB30bに格納されてない言葉を全て未知語を判定してもよく、あるいは管理者が判断してもよい。未知語のワードカテゴリを特定する方法は任意であり、例えば、抽出元テーブル30aを参照させ、当該未知語を含む提供情報を提供した第1情報提供者が属するカテゴリをワードカテゴリとして特定させてもよく、あるいは、トレンドワード候補抽出部32aによって既存のキーワード分類サイトを参照させ、当該未知語が属するカテゴリを判定させてもよい。
【0041】
ステップSB−5において提供情報に未知語が含まれていなかった場合(ステップSB−5、No)、あるいはステップSB−6において未知語に関する情報を推移DB30bに格納した場合、トレンドワード候補抽出部32aは、クローリング可能な情報提供装置4の全てを巡回したか否かを判定し(ステップSB−7)、全てを巡回したと判定した場合は(ステップSB−7、Yes)、処理を終了する。
【0042】
(処理内容−監視処理)
次に、提供情報におけるトレンドワード候補の出現数を監視するための監視処理について説明する。図8は監視処理の流れを示したフローチャートである。
【0043】
出現数監視部32bは、情報分析装置3が起動されると、情報提供装置4に対するクローリングを行い、提供情報を取得する(ステップSC−1)。
【0044】
続いて、出現数監視部32bは推移DB30bを参照してトレンドワード候補を特定し、ステップSC−1で取得した各提供情報において各トレンドワード候補が肯定的(ポジティブ)に評価されているのか、否定的(ネガティブ)に評価されているのかを判定する(ステップSC−2)。この判定については、公知の形態素解析や係り受け解析等の言語解析技術を用いることができ、例えば、トレンドワード候補に対する修飾語が肯定的な意味の所定の修飾語(「おいしい」「楽しい」「お勧め」等)である場合には、当該トレンドワード候補が肯定的に評価されていると判定し、修飾語が否定的な意味の所定の修飾語(「まずい」「つまらない」等)である場合には、当該トレンドワード候補が否定的に評価されていると判定する。
【0045】
そして、ポジティブな評価に係る出現数、及びネガティブな評価に係る出現数を計数し、各計数結果を全提供情報に含まれている出現数として計数日と対応付けて推移DB30bの項目「出現数」に格納する(ステップSC−3)。
【0046】
また、第1情報提供者によって提供された提供情報に含まれていたトレンドワード候補のポジティブな評価に係る出現数、及びネガティブな評価に係る出現数の計数結果については、当該提供情報を提供した各第1情報提供者が属するカテゴリを抽出元テーブル30aに基づき特定し、当該特定したカテゴリ毎に計数結果を推移DB30bの項目「出現数」に格納する(ステップSC−4)。
【0047】
さらに、ステップSC−3及びSC−4にて推移DB30bに格納した出現数に基づき、カテゴリ毎及び全ての提供情報に含まれている各トレンドワード候補のポジティブな評価に係る累積出現数、及びネガティブな評価に係る累積出現数を算出し、各々の「累積出現数」を「計数日」と対応付けて推移DB30bに格納し(ステップSC−5)、監視処理を終了する。
【0048】
なお、監視処理において出現数監視部32bによって計数されたトレンドワード候補の出現数推移をグラフ化し、公知の表示手段によって表示させることもできる。図9は、ワードカテゴリ「グルメ」に属する一つのトレンドワード候補について出現数監視部32bによって計数された出現数及び累積出現数の推移を示したグラフであり、横軸は日付、縦軸は出現数又は累積出現数を示す。図9(a)は全ての提供情報に含まれているトレンドワード候補の合計出現数推移を示すグラフであり、上方のグラフは出現数、下方のグラフは累積出現数の推移を示し、実線がポジティブな評価に係る出現数、破線がネガティブな評価に係る出現数の推移を示している。一方、図9(b)は第1情報提供者によって提供された提供情報に含まれているトレンドワード候補のカテゴリ毎の出現数推移を示すグラフであり、実線がポジティブな評価に係る出現数、破線がネガティブな評価に係る出現数、白抜きの棒グラフがポジティブな評価に係る累積出現数、黒塗りの棒グラフがポジティブな評価に係る累積出現数の推移を示している。
【0049】
(処理内容−検知処理)
次に、トレンドワード候補が流行の特定段階にあることを検知する検知処理について説明する。図10は検知処理の流れを示したフローチャートである。
【0050】
流行検知部32cは、例えば検知処理実行のコマンド入力が行われたり、所定時間が経過したことにより検知処理の開始タイミングであるものと判定した場合(ステップSD−1、Yes)、推移DB30bを参照し(ステップSD−2)、各トレンドワード候補について、ポジティブな評価及びネガティブな評価の各々について、カテゴリ毎の出現数推移及び提供情報全体における合計出現数の推移を取得する(ステップSD−3)。そして、取得した出現数推移に基づき、各トレンドワード候補がポジティブまたはネガティブな流行の特定段階にあるか否かを判定する(ステップSD−4)。
【0051】
流行の特定段階にあるか否かの判定は、具体的には、トレンドワード候補の出現数推移における少なくとも一種以上の判定基準に基づき、当該トレンドワード候補が流行の初期段階にあるか否かを判定する。この判定基準の具体例について以下に示す。
【0052】
推移DB30bの項目「合計」に対応して格納されているトレンドワード候補の合計出現数の累積値に関して流行検知部32cによって算出させた当該検知処理の実行日までの一定期間における変化率が、予め設定されている閾値を超えている場合には、社会全体における当該トレンドワード候補の注目度が上昇し始めているものと判断することができるので、当該トレンドワード候補が流行の初期段階にあると判定させることができる。例えば、図9(a)に示した例では、2008年3月31日以降において特にポジティブな評価に係る累積出現数の変化率(傾き)が大きくなっており、当該変化率が所定の閾値を超えている場合、当該グラフに対応するトレンドワード候補がポジティブな流行の初期段階にあると判定させることができる。
【0053】
また、当該トレンドワード候補が属するワードカテゴリと同一のカテゴリについて計数された当該トレンドワード候補の出現数の累積値に関して流行検知部32cによって算出させた変化率が予め設定されている閾値を超えている場合には、関心のある分野に関して高い同質性を有する第1情報提供者の集団において、当該トレンドワード候補の注目度が上昇し始めているものと判断することができるので、流行の初期段階にあると判定させることができる。例えば、図9はワードカテゴリ「グルメ」に属するトレンドワード候補の出現数推移を示したものであるが、図9(b)では、カテゴリ「グルメ」に属する第1提供情報者によって提供された提供情報おけるポジティブな評価に係る累積出現数の変化率は2008年2月9日の時点から既に高いレベルにある。すなわち、トレンドワード候補のワードカテゴリ「グルメ」と同一のカテゴリに属する第1情報提供者に肯定的に注目され始めていると考えられることから、ポジティブな流行の初期段階にあると判定させることができる。
【0054】
さらに、当該トレンドワード候補が属するワードカテゴリとは異なるいずれかのカテゴリについて計数された当該トレンドワード候補の出現数の累積値に関して流行検知部32cによって算出させた変化率が予め設定されている閾値を超えている場合には、当該トレンドワード候補が属する分野とは異なる他の分野への波及が始まったものと考えられるので、流行の初期段階にあると判定させることができる。例えば、図9(b)では、トレンドワード候補が属するワードカテゴリ「グルメ」とは異なるカテゴリである「芸能」に属する第1提供情報者によって提供された提供情報おけるポジティブな評価に係る累積出現数の変化率が、2008年3月8日の時点で大きくなっている。すなわち、「グルメ」に属するトレンドワード候補への注目が他分野にも波及し、本来は芸能分野のアイテムを得意とする第1情報提供者の間で、肯定的な注目を集め始めていると考えることができる。従って、ポジティブな流行の初期段階にあると判定させることができる。また、カテゴリ「音楽」に属する第1提供情報者によって提供された提供情報おけるネガティブな評価に係る累積出現数の変化率が、2008年3月8日の時点で大きくなっている。従って、本来は音楽分野のアイテムを得意とする第1情報提供者の間では、否定的な注目を集め始めていると考えることができる。従って、ネガティブな流行の初期段階にも該当していると判定させることができる。このような判定結果を利用することで、ポジティブな流行のみならず、ネガティブな流行をも早期に発見し、ネガティブな流行の拡大前に必要な対策を講じることが可能となる。
【0055】
なお、上記に例示した三種類の判定基準のうち、いずれか一種類のみの判定基準を用いて判定させてもよく、あるいは、任意に組合わせて判定させてもよい。
【0056】
図10に戻り、流行検知部32cは、いずれかのトレンドワード候補がポジティブまたはネガティブな流行の特定段階にあると判定した場合(ステップSD−4、Yes)、当該トレンドワード候補に対応する推移DB30bの項目「流行検知フラグ」に、ポジティブ又はネガティブ流行の特定段階であることを示す情報としてフラグ「1」を格納し(ステップSD−5)、処理を終了する。一方、いずれのトレンドワード候補も流行の特定段階にない場合(ステップSD−4、No)、流行検知部32cは推移DB30bの内容を更新することなく、処理を終了する。
【0057】
(処理内容−推測処理)
次に、各トレンドワード候補について将来の出現数推移を推測する推測処理について説明する。図11は推測処理の流れを示したフローチャートである。
【0058】
推移推測部32dは、例えば特定のトレンドワード候補を推測対象とする推測処理実行のコマンド入力が行われることにより推測処理の開始タイミングであるものと判定すると(ステップSE−1、Yes)、推移DB30bを参照し、推測対象のトレンドワード候補について項目「合計」に対応して格納されている合計出現数の累積値の一定期間の推移を取得する(ステップSE−2)。続いて推移推測部32dは、推測対象以外のトレンドワード候補についての合計出現数の累積値推移を参照し、ステップSE−2で取得した推測対象のトレンドワード候補の累積値推移と類似する推移を有するトレンドワード候補を検索する(ステップSE−3)。累積値推移の類似判断方法としては、時系列データの類似検索を行うための公知の手法を用いることができる。
【0059】
検索の結果、類似する累積値推移を有するトレンドワード候補が抽出された場合(ステップSE−4、Yes)、推移推測部32dは、抽出されたトレンドワード候補の累積値推移に基づき、推測対象のトレンドワード候補の出現数累積値の推測値を特定する(ステップSE−5)。
【0060】
一方、検索の結果、類似する累積値推移を有するトレンドワード候補が抽出されなかった場合は、(ステップSE−4、No)、累積値推移を取得する期間を変更した上で(ステップSE−6)、再度推測対象のトレンドワード候補について当該変更後の期間の推移を取得する(ステップSE−2)。
【0061】
図12は、推測処理において推移推測部32dによって推測された累積値推移を示したグラフである。図12においては、推測対象のトレンドワード候補の累積値推移の実績を実線、推移推測部32dによって推測された累積値推移を点線で表している。図12に示したように、ステップSE−5において、類似する累積値推移を有するトレンドワード候補が複数抽出された場合、各累積値推移の平均値を平均推測値としてもよく、さらに各累積値推移の最大値と最小値を最大推測値及び最小推測値として特定することもできる。
【0062】
(処理内容−評価処理)
最後に、第1情報提供者の情報提供における影響度を評価する評価処理について説明する。図13は評価処理の流れを示したフローチャートである。
【0063】
抽出元評価処理部32eは、例えば定期的な評価処理実行のコマンド入力が行われることにより評価処理の開始タイミングであるものと判定すると(ステップSF−1)、推移DB30bを参照し、ポジティブの流行検知フラグが「1」であるトレンドワード候補(以下、検知ワード)を特定すると共に、当該検知ワードの登録日、及び流行検知フラグが「1」となったときの計数日を特定する(ステップSF−2)。次に、抽出元評価処理部32eは、検知ワードの登録日から流行検知フラグが「1」となった日までの期間において提供された提供情報を情報提供装置4から取得し、当該取得した提供情報の中から、検知ワードを含む提供情報を抽出し、当該提供情報を提供した情報提供者を特定する(ステップSF−3)。
【0064】
続いて、抽出元評価処理部32eは抽出元テーブル30aを参照し(ステップSF−4)、特定した情報提供者について項目「クラス」に対応して格納されている情報が「一般」に該当するか否かを判定する(ステップSF−5)。その結果、「一般」に該当する場合(ステップSF−5、Yes)、当該情報提供者を新たにサイバーブロガであると認定し、項目「クラス」に対応する情報を「一般」から「サイバー」に更新すると共に、項目「得意カテゴリ」に対応する情報として、検知ワードが属するワードカテゴリを追加する(ステップSF−6)。一方、「一般」該当しない場合は(ステップSF−5、No)、項目「クラス」に対応する情報についての更新は行わず、項目「得意カテゴリ」に対応する情報について、検知ワードが属するワードカテゴリの追加のみを行う(ステップSF−7)。
【0065】
さらに、抽出元評価処理部32eは、抽出元テーブル30aに格納されている情報に基づき、検知ワードが属するワードカテゴリと同一のカテゴリを得意カテゴリとするサイバーブロガを特定し、検知ワードの登録日から流行検知フラグが「1」となった日までの期間において提供した提供情報に当該検知ワードが含まれていないサイバーブロガを抽出する(ステップSF−8)。抽出されたサイバーブロガについては、流行に至る可能性のあるアイテムにいち早く着目する能力が低下したものと判断し、当該ブロガについて項目「クラス」に対応する情報を「サイバー」から「一般」に更新する(ステップSF−9)。このように更新されたブロガのクラスを用いて、次回以降の発見処理が行われる。
【0066】
〔実施の形態に対する変形例〕
以上、本発明に係る実施の形態について説明したが、本発明の具体的な構成及び手段は、特許請求の範囲に記載した各発明の技術的思想の範囲内において、任意に改変及び改良することができる。以下、このような変形例について説明する。
【0067】
(発見処理について)
実施の形態では、情報分析装置3にて行われる処理について、発見処理、監視処理、検知処理、推測処理、及び評価処理に大別して説明したが、これらのうち発見、監視、検知処理を一つの処理として同時に実行させることもできる。すなわち、情報提供装置4に対するクローリングを行う中で、新たな未知語の発見や、トレンドワード候補の出現数の計数、あるいはトレンドワード候補の流行段階の特定等を並行して制御部32に実行させることができる。
【0068】
(検知処理について)
実施の形態では、流行検知部32cは、トレンドワード候補に対するポジティブな評価及びネガティブな評価の各々についての提供情報の出現数推移に基づき、ポジティブまたはネガティブな流行の特定段階にあることを検知すると説明したが、他の基準に基づいて検知を行わせてもよい。例えば、ポジティブな評価及びネガティブな評価の合計出現数の推移に基づいて流行の特定段階にあることの検知を行わせるとともに、検知時のポジティブな評価とネガティブな評価の各々の累積出現数を比較し、検知した流行がポジティブ又はネガティブの何れの流行かを判断させてもよい。あるいは、ポジティブ及びネガティブな評価の合計出現数推移に基づいて検知を行い、検知時におけるポジティブな評価の出現数とネガティブな評価の出現数との比率に基づき、検知した流行がポジティブ又はネガティブの何れの流行かを判断させてもよい。
【0069】
(変形例−分散や統合について)
また、上述した各電気的構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各部の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成できる。例えば、情報分析装置3と情報提供装置4を相互に統合してもよい。
【図面の簡単な説明】
【0070】
【図1】情報分析システムの全体構成を機能概念的に示す説明図である。
【図2】図2(a)は抽出元テーブルに格納されている情報を示す表、図2(b)はランキングDBに格納されている情報を示す表である。
【図3】推移DBに格納されている情報を示す表である。
【図4】マスメディアDBに格納されている情報を示す表である。
【図5】POSデータDBに格納されている情報を示す表である。
【図6】抽出元更新処理の流れを示したフローチャートである。
【図7】発見処理の流れを示したフローチャートである。
【図8】監視処理の流れを示したフローチャートである。
【図9】トレンドワード候補の出現数及び累積出現数の推移を示したグラフであり、図9(a)は全ての提供情報に含まれているトレンドワード候補の合計出現数推移を示すグラフ、図9(b)は第1情報提供者によって提供された提供情報に含まれているトレンドワード候補のカテゴリ毎の出現数推移を示すグラフである。
【図10】検知処理の流れを示したフローチャートである。
【図11】推測処理の流れを示したフローチャートである。
【図12】推測処理において推移推測部によって推測された累積値推移を示したグラフである。
【図13】評価処理の流れを示したフローチャートである。
【符号の説明】
【0071】
1 情報分析システム
2 ネットワーク
3 情報分析装置
4 情報提供装置
5 マスメディアデータサーバ
6 POSデータサーバ
7 端末装置
30 記憶部
30a 抽出元テーブル
30b 推移DB
30c ランキングDB
30d マスメディアDB
30e POSデータDB
31 ネットワークIF
32 制御部
32a トレンドワード候補抽出部
32b 出現数監視部
32c 流行検知部
32d 推移推測部
32e 抽出元評価処理部
32f 抽出元更新部
33 バス

【特許請求の範囲】
【請求項1】
第1情報提供者によって提供された提供情報を格納する情報提供装置に対して、ネットワークを介して通信可能に接続された情報分析装置であって、
分析対象の自然言語と当該自然言語が属するカテゴリとを相互に対応付けたトレンド候補情報を取得し、前記提供情報を前記情報提供装置から前記ネットワークを介して取得し、当該取得した提供情報に含まれる前記自然言語の出現数の時系列推移を、当該提供情報を提供した前記第1情報提供者が属するカテゴリ毎に計数する計数手段と、
前記トレンド候補情報に基づき特定される前記自然言語に対応する前記カテゴリとは異なるカテゴリについて前記計数手段によって計数された当該自然言語の出現数の変化に基づき、当該自然言語が流行の特定段階にあることを検知する検知手段と、
を備えることを特徴とする情報分析装置。
【請求項2】
前記情報提供装置が、前記第1情報提供者、及び前記第1情報提供者を含む情報提供者によって提供された提供情報を格納し、
前記計数手段は、前記情報提供者によって提供された全ての提供情報に含まれている前記自然言語の合計出現数の時系列推移を計数し、
前記検知手段は、前記計数手段によって計数された前記合計出現数の変化に基づき、前記自然言語が流行の特定段階にあることを検知すること、
を特徴とする請求項1に記載の情報分析装置。
【請求項3】
前記検知手段は、前記トレンド候補情報に基づき特定される前記自然言語に対応する前記カテゴリについて計数された当該自然言語の出現数の変化に基づき、当該自然言語が流行の特定段階にあることを検知すること、
を特徴とする請求項1又は2に記載の情報分析装置。
【請求項4】
前記自然言語が流行の特定段階にあることが前記検知手段によって検知された場合において、
前記計数手段による当該自然言語の計数開始から前記検知手段による検知までの間に提供された前記提供情報における当該自然言語の有無を、当該提供情報を提供した前記第1情報提供者毎に判定し、当該判定結果に基づき当該第1情報提供者の情報提供における影響度を評価する評価手段と、
前記評価手段によって評価された前記第1情報提供者の影響度に基づき、前記トレンド候補情報の取得対象となる前記第1情報提供者を選定し、当該選定した第1情報提供者により提供された前記提供情報を前記情報提供装置から前記ネットワークを介して取得し、当該取得した提供情報に基づき前記トレンド候補情報を取得するトレンド候補抽出手段と、
を備えること特徴とする請求項1から3のいずれか一項に記載の情報分析装置。
【請求項5】
第1情報提供者によって提供された提供情報を格納する情報提供装置に対して、ネットワークを介して通信可能に接続されたコンピュータとしての情報分析装置を動作させる情報分析プログラムであって、
分析対象の自然言語と当該自然言語が属するカテゴリとを相互に対応付けたトレンド候補情報を取得し、前記提供情報を前記情報提供装置から前記ネットワークを介して取得し、当該取得した提供情報に含まれる前記自然言語の出現数の時系列推移を、当該提供情報を提供した前記第1情報提供者が属するカテゴリ毎に計数する計数ステップと、
前記トレンド候補情報に基づき特定される前記自然言語に対応する前記カテゴリとは異なるカテゴリについて前記計数手段によって計数された当該自然言語の出現数の変化に基づき、当該自然言語が流行の特定段階にあることを検知する検知ステップと、
を前記情報分析装置に実行させることを特徴とする情報分析プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2010−20731(P2010−20731A)
【公開日】平成22年1月28日(2010.1.28)
【国際特許分類】
【出願番号】特願2008−183244(P2008−183244)
【出願日】平成20年7月14日(2008.7.14)
【出願人】(508212509)データセクション株式会社 (2)
【Fターム(参考)】