説明

インターネットサイト情報分析方法と装置

【課題】インターネット上に公開された多くのサイト情報を基に、それらの情報が持つ意味や背景、傾向を効果的に正確に知ることができる分析装置及び分析方法を提供する。
【解決手段】Webサイト12の文章情報の収集を行う情報収集手段であるクローラ14と、文章情報を単語に分割するアナライザ18による単語分割手段と、その単語を含む文章情報の数を算出する関連情報投稿数計算手段と、各Webサイトから収集した文章情報数に占める前記関連情報投稿数の割合を、各Webサイト毎に算出する関連情報投稿率計算手段と、各Webサイトの更新日付を収集する更新日情報収集手段とを備える。分析を行う基準日と更新日情報をもとに、各Webサイトの更新頻度を算出する更新頻度計算手段を備える。各Webサイト毎の関連情報投稿率と更新頻度とを相対比較して出力するポータルサーバ24から成るサイト活性度分析出力手段24bを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、インターネットのWebサイト上で公開されている情報を分析し、トレンド情報等を取得・提供するインターネットサイト情報分析方法と装置に関する。
【背景技術】
【0002】
インターネット上では、様々な人々が公開した膨大な量の情報がWebサイトに記憶され、現在もなお増え続けている。ここで、Webサイトとは、掲示板(BBS:Bulletin Board System)やホームページ、ブログと称されるウェブログ(Web Log)などの情報源を意味する。
【0003】
近年、Webサイトに蓄積された記事を分析して新しいトレンド情報を得ようとする取り組みが盛んに行われている。例えば、意見の内容がどの程度肯定的なのか或いは否定的なのかを分析する評判分析の技術や、所定のキーワードの出現頻度や注目度(Burst度)のトレンドを時系列に評価する技術や、検索エンジンを使用したとき検索結果内で特定のWebサイトが上位に表示されるようにする検索エンジン最適化の技術等、様々な技術を用いたサービスが実際に提供されている。
【0004】
例えば、特許文献1に開示されているように、Webサイトにアクセスして文章情報(風評情報)を所定の期間ごとに収集し、収集したキーワードの使用状況を定量化して、定量化したキーワードの使用状況を監視することにより、抽出したキーワードの中からトレンドキーワードとなるキーワードを選定して、近未来に検索エンジンで使用される可能性の高いトレンドキーワードをリアルタイムで予測し、そのトレンドキーワードに関連する情報を提供するトレンド予測装置がある。これは、実際に検索エンジンに入力された検索キーワードの使用実績を分析してトレンドキーワードを得るよりも、リアルタイム性に優れているという特徴がある。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2006−227965号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、特許文献1のトレンド予測装置は、分析の対象としたキーワードについて、そのキーワードを含む文章情報の肯定性/否定性やキーワードの発生頻度などを分析して、そのキーワード自体をトレンドキーワードに選定するか否かを判断するものであって、そのキーワードの周囲に広がっていく投稿者の興味の変化を実体的に把捉し得るものではなかった。
【0007】
また、特定のキーワードの周辺情報を収集する方法として相関分析手法が提案されており、そのキーワードから連想される別のキーワードを取得する連想検索等のサービスも行われているが、特許文献1と同様に、そのキーワードの周囲に広がっていく投稿者の興味の変化を実態的に把捉し得るものではなかった。
【0008】
また、有益な情報が得られる活発なWebサイトをリアルタイムに知りたいという要望があるが、そのような要望に応え得る方法やサービスは提案されておらず、未だ実用化されていないものであった。
【0009】
本発明は上記背景技術に鑑みて成されたもので、インターネット上に公開された多くのサイト情報を基に、それらの情報が持つ意味や背景、傾向を効果的に正確に知ることができる分析装置及び分析方法を提供するもので、特に、有益な情報が得られる活発なWebサイトをリアルタイムに抽出するWebサイト活性度分析、およびあるキーワードの周囲に広がっていく投稿者の興味の変化を実態的に把捉する共起情報分析を行い、Webサイトに蓄積された記事から新しいトレンドを正確に知ることができるインターネットサイト情報分析方法と装置を提供することを目的とする。
【課題を解決するための手段】
【0010】
この発明は、インターネット上に存在するWebサイトにアクセスしてその文章情報を収集し、分析を行うインターネットサイト情報分析方法において、前記文章情報と各Webサイトの更新日情報を収集する情報収集ステップと、前記文章情報を単語に分割する単語分割ステップと、前記単語群の中から所定のキーワードと同一または類似する単語を抽出し、その単語を含む文章情報の数を算出する関連情報投稿数計算ステップと、各Webサイトから収集した文章情報数に占める前記関連情報投稿数の割合を、各Webサイト毎に算出する関連情報投稿率計算ステップと、分析を行う基準日と前記更新日情報をもとに、各Webサイトの更新頻度を算出する更新頻度計算ステップと、各Webサイト毎の前記関連情報投稿率と前記更新頻度とを相対比較して出力するサイト活性度分析出力ステップとを備えるインターネットサイト情報分析方法である。
【0011】
またこの発明は、インターネット上に存在するWebサイトにアクセスしてその文章情報を収集し、分析を行うインターネットサイト情報分析方法において、前記Webサイトの文章情報の収集を所定の期間が経過するごとに行う情報収集ステップと、前記文章情報を単語に分割する単語分割ステップと、前記単語群の中から調査対象のキーワードと同一または類似する単語を含む文章情報を抽出する調査対象情報抽出ステップと、前記調査対象情報を構成する単語に含まれ、前記キーワードと別のキーワードである共起キーワードを抽出する共起キーワード抽出ステップと、調査対象情報に前記共起キーワードが出現する頻度をもとに、前記共起キーワード毎に評点計算する共起キーワード評点計算ステップと、前記共起キーワードを前記共起キーワード評点の順に並び替えて共起情報リストを作成するソートステップと、所定の期間ごとに得られた前記共起情報リストを、時系列に表して出力する共起情報分析出力ステップとを備えるインターネットサイト情報分析方法である。
【0012】
またこの発明は、コンピュータシステムにより構成され、インターネット上に存在するWebサイトにアクセスしてその文章情報を収集し、分析を行うインターネットサイト情報分析装置において、前記Webサイトの文章情報の収集を行う情報収集手段と、前記文章情報を単語に分割する単語分割手段と、前記単語群の中から所定のキーワードと同一または類似する単語を抽出し、その単語を含む文章情報の数を算出する関連情報投稿数計算手段と、各Webサイトから収集した文章情報数に占める前記関連情報投稿数の割合を、各Webサイト毎に算出する関連情報投稿率計算手段と、各Webサイトの更新日付を収集する更新日情報収集手段と、分析を行う基準日と前記更新日情報をもとに、各Webサイトの更新頻度を算出する更新頻度計算手段と、各Webサイト毎の前記関連情報投稿率と前記更新頻度とを相対比較して出力するサイト活性度分析出力手段とを備えるインターネットサイト情報分析装置である。
【0013】
前記活性度分析出力手段は、前記関連情報投稿率と前記更新頻度とを2次元グラフに表して出力するものである。
【0014】
またこの発明は、インターネット上に存在するWebサイトにアクセスしてその文章情報を収集し、分析を行うインターネットサイト情報分析装置において、前記Webサイトの文章情報の収集を所定の期間が経過するごとに行う情報収集手段と、前記文章情報を単語に分割する単語分割手段と、前記単語群の中から調査対象のキーワードと同一または類似する単語を含む文章情報を抽出する調査対象情報抽出手段と、前記調査対象情報を構成する単語に含まれ、前記調査対象のキーワードと同一または類似の単語を除く他の単語である共起キーワードを抽出する共起キーワード抽出手段と、調査対象情報に前記共起キーワードが出現する頻度をもとに、前記共起キーワード毎に評点計算する共起キーワード評点計算手段と、前記共起キーワードを前記共起キーワード評点の順に並び替えて共起情報リストを作成するソート手段と、所定の期間ごとに得られた前記共起情報リストを、時系列に表して出力する共起情報分析出力手段とを備えるインターネットサイト情報分析装置である。
【発明の効果】
【0015】
この発明によれば、Webサイトに公開され蓄積された膨大な量の情報を分析し、的確なトレンド情報を容易に得ることが可能になる。
【0016】
特に、請求項1,3及び4記載の発明によれば、各Webサイトについて所定キーワードに関連した情報の投稿率と更新頻度を計算するサイト活性度分析によって、活発に情報発信しているWebサイトを容易に知ることができ、それら情報発信源として注目すべきWebサイトに絞って情報収集を行えば、有益なトレンド情報を効率よく得ることができる。
【0017】
さらに、請求項2,5記載の発明によれば、所定のキーワードに共起する別のキーワードの変化を時系列で分析する共起情報分析によって、所定のキーワードの周囲に広がっていく投稿者の興味の変化を実態的に把捉することができる。
【図面の簡単な説明】
【0018】
【図1】この発明のインターネットサイト情報分析装置の一実施形態を配置したネットワークシステム全体の構成を示す図である。
【図2】この発明のインターネットサイト情報分析方法の第一の実施形態であるサイト活性度分析に係るフローチャートである。
【図3】本実施形態において文章情報と更新頻度計算の例を示す図である。
【図4】本実施形態において関連記事投稿数計算を行うステップに係るフローチャートである。
【図5】本実施形態において関連記事投稿率の計算結果リストの例を示す図である。
【図6】本実施形態においてサイト活性度分析結果の出力形式の例を示すグラフである。
【図7】この発明のインターネットサイト情報分析方法の第二の実施形態である共起情報分析に係るフローチャートである。
【図8】本実施形態において文章情報から調査対象情報を抽出する例を示す図である。
【図9】本実施形態において各共起キーワードの評点計算を行うステップに係るフローチャートである。
【図10】本実施形態において共起情報分析結果の出力形式の例を示す図である。
【発明を実施するための形態】
【0019】
以下、本発明のインターネットサイト情報分析装置10を配置したネットワークシステムの実施形態を図1に基づいて説明する。このネットワークシステムにおいては、多くの人が感想や意見などの情報を公開しているWebサイト12と、指定されたWebサイトから定期的にRSS(Rich Site Summary)フォーマットの文章情報を収集するクローラ14と、クローラ14が収集した情報がデータベース化して記憶している記事データベース16と、後述する分析を行うプログラムを備えたアナライザ18と、分析する評価軸に対応に対応する評価表現とその評価スコアが設定されている評価表現辞書群データベース20と、分析の結果を格納する分析結果データベース22と、利用者26が所持するパソコンが接続され、所望の分析結果を分析結果データベース22から抽出して利用者26に配信するポータルサーバ24とが、インターネット上にそれぞれ配置されている。
【0020】
以下、本発明の第一の実施形態に係るサイト活性度分析を行うインターネットサイト情報分析方法を、図2から図6に基づいて説明する。まず、図2に示すフローを用いて概要を説明する。ステップS210では、各Webサイトから文章情報と更新日情報を収集する。この時、インターネットサイト情報分析装置10では、クローラ14と、記事データベース16と、サイト活性度分析アナライザ18bとがこの情報収集手段および更新日情報取得手段としての働きを行う。次に、ステップS220で、収集した文章情報を単語(品詞)に分解する。インターネットサイト情報分析装置10では、サイト活性度分析アナライザ18bがこの単語分割手段としての働きを行う。そして、ステップS230で、分割された単語群の中に所定のキーワードと同一又は類似するものを含む文章情報、すなわち関連情報の投稿数を算出する。インターネットサイト情報分析装置10では、サイト活性度分析アナライザ18bがこの関連情報投稿数計算手段としての働きを行う。さらに、ステップS240で、そのWebサイトから収集した文章情報数に占める関連情報投稿数の割合である関連情報投稿率を計算し、計算結果を格納する。インターネットサイト情報分析装置10では、サイト活性度分析アナライザ18bと、サイト活性度分析結果データベース22bがこの関連情報投稿率計算手段としての働きを行う。
【0021】
ステップS250は、分析を行う基準日と更新日情報をもとに、各Webサイトの更新頻度を計算し、計算結果を格納するもので、インターネットサイト情報分析装置10では、サイト活性度分析アナライザ18bと、サイト活性度分析結果データベース22bとがこの更新頻度計算手段としての働きを行う。
【0022】
ステップS260は、利用者26の要求に応じ、関連情報投稿率と更新頻度という2つの計算値が割り付けられた各Webサイトをグラフに表示して出力する。インターネットサイト情報分析装置10では、サイト活性度分析結果データベース22bと、ポータルサーバ24が備えるサイト活性度分析表示フレームワーク24bとがこのサイト分析出力手段としての働きを行う。
【0023】
次に、上記サイト活性度分析の各ステップについて、詳細に説明する。図3に示すように各Webサイトには、複数の文章情報と各Webサイトの最終更新日の情報が存在する。ステップS210では、例えばWebサイト1であれば、文章情報a1,a2、および「最終更新日:9月11日」という更新日情報を収集する。さらにこれらの文章情報はステップS220において、名詞、形容詞、動詞等の単語(品詞)に分解される。
【0024】
ステップS230について、さらに詳細な処理について図4に基づいて説明する。ステップS230は、ステップS231で、調査対象となる所定のキーワードが与えられると、そのキーワードと類似の単語群を、類語辞典の一種であるシソーラスなどを用いて抽出する。そしてステップS232で、各Webサイト毎に、キーワードと同一または類似の単語群のいずれかを含む文章情報、すなわち関連情報を抽出する。さらにステップS233で、抽出された関連文章情報をカウントし、その数を累積計算する。そして判断ステップであるステップS234において、すべてのWebサイトについての計算がされたか否かを判断し、NOであれば次のWebサイトについてステップS232からS233を繰り返し、YESになった時点でステップS230が終了して次のステップ240へ移行する。
【0025】
このようにステップS230では、例えば、「車」というキーワードが与えられると、ステップS231によって「軽四」「ハイブリッドカー」「自動車」といった俗称、略称あるいは正式名称その他の単語を類似語として抽出する。従って、関連情報の内容の分析およびその投稿数の算出を漏れなく行うことができる。
【0026】
ステップS240では、Webサイトごとに関連情報の投稿率を計算し、その計算結果をサイト活性度分析結果データベース22bに格納する。関連情報投稿率は、各Webサイトから収集した文章情報の総数を分母に、その中の所定のキーワードについての関連情報の数を分子に配して除算計算を行っている。例えば、図3に示すWebサイト1には、文章情報a1,a2の2件あり、そのうち、キーワード「車」の関連情報は「ハイブリッドカー」という単語を含む文章情報a1の1件である。従って、Webサイト1におけるキーワード「車」についての関連情報投稿率は0.5と計算される。このようにしてキーワードごと、かつWebサイトごとに関連情報投稿率が計算され、その計算結果は図5のリストのように系統立ててサイト活性度分析結果データベース22bに格納される。
【0027】
ステップS250では、各Webサイトの更新頻度を計算し、その計算結果をサイト活性度分析結果データベース22bに格納する。図3の計算例では、分析を行う基準日とそのWebサイトの最終更新日との差に1を加算し、その逆数を更新頻度と定義している。この定義によれば、Webサイト1の場合は、分析を行う基準日と最終更新日がともに9月11日(同日)のため更新頻度は1.0となる。また、Webサイト2の場合は、同様の計算を行うと更新頻度は0.011となる。つまり、頻繁に更新されているWebサイト1は更新頻度が高い値となり、更新されずに放置されている期間が長いWebサイト2は更新頻度が低い値を示すことになる。
【0028】
ステップS260では、ステップS240で所定のキーワードについて割り付けられた関連情報投稿率を横軸に、ステップ250で割り付けられた更新頻度を縦軸にして、各Webサイトの相対的な位置づけをグラフに表し、サイト活性度分析情報としてPULL型(利用者26が必要に応じて情報を取り出す)で提供する。例えば図6に示すように、グラフの右上に位置するWebサイトは、「車」に関する情報が多く、かつ、頻繁に更新されているWebサイト群であるので、Webサイト1,2,5のように活発に情報発信しているWebサイトにアクセスすれば、「車」に関する有益な情報が得られそうだということが分かる。逆に、グラフの左下に位置するWebサイトは、「車」に関する情報が少なく、かつ、更新頻度も低いWebサイト群であるので、Webサイト8のように活動が低調なWebサイトにアクセスしても、「車」に関する有益な情報が得られそうにないということが分かる。
【0029】
以上説明した本発明の第一の実施形態に係るサイト活性度分析(ステップS210からステップS260)のインターネットサイト情報分析方法によれば、活発に情報発信しているWebサイトを容易に知ることができ、情報発信源として注目すべきそれらのWebサイトに絞って情報収集を行えば、有益なトレンド情報を効率よく得ることができる。
【0030】
次に、本発明の第二の実施形態に係る共起情報分析を行うインターネットサイト情報分析方法を、図7〜図10に基づいて説明する。まず、図7に示すフローにを用いて概要を説明する。ステップS310では、各Webサイトから所定の期間が経過するごとに文章情報を収集する。インターネットサイト情報分析装置10では、クローラ14と、記事データベース16と、共起情報分析アナライザ18cとがこの情報収集手段としての働きを行う。次に、ステップS320で、収集した文章情報を単語(品詞)に分解する。インターネットサイト情報分析装置10では、共起情報分析アナライザ18cがこの単語分割手段としての働きを行う。ステップS330では、分割された単語群の中に所定のキーワードと同一又は類似するものを含む文章情報、すなわち調査対象情報を抽出する。この時、インターネットサイト情報分析装置10では、共起情報分析アナライザ18cがこの調査対象情報抽出手段としての働きを行う。そして、ステップS340で、抽出された調査対象情報を構成する単語の中から、上記所定のキーワードと同一又は類似の単語を除く他の単語、すなわち共起キーワードを抽出する。インターネットサイト情報分析装置10では、共起情報分析アナライザ18cがこの共起キーワード抽出手段としての働きを行う。
【0031】
ステップS350では、抽出された共起キーワードが調査対象情報に出現する頻度を基に、共起キーワードごとの評点計算を行う。インターネットサイト情報分析装置10では、共起情報分析アナライザ18cがこの共起キーワード評点計算手段としての働きを行う。次に、ステップS360で、共起キーワード群を共起キーワード評点の順に並び替えた共起情報リストを作成し、それを格納する。インターネットサイト情報分析装置10では、共起情報分析アナライザ18cと、共起情報分析結果データベース22cとがこのソート手段としての働きを行う。そして、ステップS370は、利用者26の要求に応じ、所定の期間が経過するごとに作成した共起情報リストを時系列に表して出力する。インターネットサイト情報分析装置10では、共起情報分析結果データベース22cと、ポータルサーバ24が備える共起情報分析表示フレームワーク24cとがこの共起情報分析出力手段としての働きを行う。
【0032】
次に、上記共起情報分析の各ステップについて、詳細に説明する。図8に示すように各Webサイトには、複数の文章情報が存在する。ステップS310では、例えばWebサイト1であれば、文章情報a1,a2を収集する。さらにこれらの文章情報はステップS320において、名詞、形容詞、動詞等の単語(品詞)に分解される。
【0033】
ステップS330では、調査対象となる所定のキーワードが与えられると、そのキーワードと類似の単語群を類語辞典の一種であるシソーラスなどを用いて抽出し、そのキーワードと同一または類似の単語群のいずれかを含む文章情報、すなわち調査対象情報を抽出する。例えば図8の例によれば、「デジタルカメラ」というキーワードが与えられると、「デジカメ」「デジタルスチルカメラ」「デジタルビデオカメラ」といった俗称、略称あるいは正式名称その他の単語を類似語として抽出する。そして、「デジタルカメラ」およびその類似語を含む文章情報a1,a2,b2を調査対象情報として抽出する。このように、本来的に調査すべき調査対象情報を漏れなく抽出することを可能にしている。
【0034】
ステップS340では、抽出された調査対象情報を構成する単語の中から、上記所定のキーワードと同一又は類似の単語を除く他の単語、すなわち共起キーワードを抽出する。例えば、文章情報a1であれば「A社」「B社」「性能」が共起キーワードに該当する。ここで、「(株)A」「株式会社A」「A」「A社」といった共起キーワードが別個に抽出された場合、すべて「A社」と同義語であるとして問題なければ、一つの共起キーワードとして取りまとめて、次のステップに進めばよい。
【0035】
ステップS350について、さらに詳細な処理について図9のフローに基づいて説明する。ステップS351では、情報収集したすべての文章情報の数をカウントする。例えば、図8の例において、情報収集をWebサイト1,2のみを対象に行ったとすれば、文章情報の総数は5とカウントされる。ステップS352では、調査対象情報に該当する文章情報の数をカウントする。例えば図8の例では、文章情報の総数5のうち、キーワード「デジタルカメラ」に対する調査対象情報の数は3とカウントされる。ステップS353では、ステップ340で抽出した共起キーワードと同一の単語が含まれる文章情報の数を、共起キーワードごとにカウントする。例えば図8の例では、文章情報の数5のうち、共起キーワード「A社」が含まれる文章情報の数は3とカウントされる。ステップS354では、ステップS340で抽出した共起キーワードと同一の単語が含まれる調査対象情報の数を、各共起キーワードごとにカウントする。例えば図8の例では、「デジタルカメラ」に対する調査対象情報の数3のうち、共起キーワード「A社」が含まれる調査対象情報の数は2とカウントされる。
【0036】
ステップS355では、各共起キーワードごとにその共起キーワードの評点を計算する。ここで、共起キーワードの評点は、ステップS354のカウント数にS351のカウント数を積算したものを、S352のカウント数にS353のカウント数を積算したもので除算し、さらにそれを、2を底とする対数に換算したもの、と定義するのが好ましい。例えば図8の例では、共起キーワード「A社」の評点は、ステップS351のカウント数である5、ステップS352のカウント数である3、ステップ353のカウント数である3、ステップS354のカウント数である2を用いて計算され、評点0.152が得られる。そして判断ステップであるステップS356において、すべての共起キーワードについての計算がされたか否かを判断し、NOであれば次の共起キーワードについてステップS353からS355を繰り返し、YESになった時点でステップS350が終了する。
【0037】
なお、本実施形態のステップS350では、その相関関係の連鎖の要素をも評点計算に組み入れているという特徴を有している。本来、キーワード「デジタルカメラ」と共起キーワード「A社」との間に相関関係がある場合には、共起キーワード「A社」に対応して共起する「デジタルカメラ」以外のキーワード群との間にも相関関係が存在するものと考えるべきである。しかしながら、相関関係の連鎖にまで着目すると計算量が膨大になる問題もあり、一般的にはそこまでの処理は行われていなかった。本実施形態では、ステップS351のカウント数とステップS353のカウント数を計算式に盛り込むことによって、「デジタルカメラ」と「A社」の相関関係の強さだけでなく、例えば「液晶テレビ」と「A社」の相関関係の強さについても、その違いが相対的に各評点に反映させることができる。
【0038】
ステップS360では、共起キーワード群を共起キーワード評点の順に並び替えた共起情報リストを作成し、それを共起情報分析結果情報データベース22cに格納する。さらにステップS370では、利用者26の要求に応じ、所定の期間が経過するごとに作成した共起情報リストを時系列に表し、共起情報分析出力としてPULL型(利用者26が必要に応じて情報を取り出す)で提供する。図10は、Webサイト1,2を含むすべてのWebサイトについて評点計算を行った例である。例えばキーワード「デジタルカメラ」についてみると、共起キーワード「製品W」は2007年7月の時点では評点が低くランク外であったが、2007年8月には2位までランクアップしている。従って、「デジタルカメラ」の分野では、「製品W」が投稿者の話題の中心になってきていることが分かる。また、共起キーワード「B社」は2007年7月の時点では2位にランクされていたが、2007年8月には5位までランクダウンしている。従って、投稿者は「B社」に注目しなくなってきていることが分かる。
【0039】
以上説明した本発明の第二の実施形態に係る共起情報分析(ステップS310からステップS370)のインターネットサイト情報分析方法によれば、所定のキーワードに共起する別のキーワードの変化を時系列で分析することによって、所定のキーワードの周囲に広がっていく投稿者の興味の変化を実態的に把捉することができる。
【0040】
なお、本発明は上記実施形態に限定するものではなく、インターネットサイト情報分析装置10は、サイト活性度分析、共起情報分析のうちのいずれか一以上の分析に係る作業手段またはステップを有する分析装置または分析方法であればよい。
【0041】
また、ステップS260が出力する分析結果の表示フレームは、各データが有する複数の特性値の相対的な関係が視覚的に認識可能なものであればよく、本実施形態に例示したグラフ化イメージに限定するものではない。グラフの目盛を対数表示にしたり、凡例を付して複数の分析結果を重ねて表するなどして、より視覚に訴えるための工夫がなされるべきものである。
【0042】
また、ステップS240に定義する関連投稿率の計算式、ステップS250に定義する更新頻度の計算式、ステップS350に定義する共起キーワード評点の計算式は、調査分析の対象とする事物やその分野ごとの個別の事情など鑑みて定義したものであれば、上記実施形態の計算式に限定するものではない。例えば、ステップS350に定義した共起キーワード評点の計算式であれば、対数の底の値を変更したり、特定の情報の数について2乗した数値を代入するなど、細かく解析したい内容が特性値として顕著に表れるように別の計算式を定義してもよい。
【0043】
なお、上記第一又は第二の実施形態のような一連の処理動作をプログラムとして構築し、インターネットサイト情報分析装置10として利用されるサーバーコンピュータにインストールし、CPUなどの制御手段によって実行させる他、そのプログラムをネットワークを介して流通させるようにしてもよい。また、構築されたプログラムをインターネットサイト情報分析装置10として利用される各種のコンピュータに接続されるハードディスク装置、フレキシブルディスク、CD−ROMなどの可搬記憶媒体に格納し、コンピュータにインストールして実行させるようにしてもよい。
【符号の説明】
【0044】
10 インターネットサイト情報分析装置
12 Webサイト
14 クローラ
16 記事データベース
18 アナライザ
20 評価表現辞書群データベース
22 分析結果データベース
24 ポータルサーバ
26 利用者

【特許請求の範囲】
【請求項1】
インターネット上に存在するWebサイトにアクセスしてその文章情報を収集し、分析を行うインターネットサイト情報分析方法において、
前記文章情報と各Webサイトの更新日情報を収集する情報収集ステップと、
前記文章情報を単語に分割する単語分割ステップと、
前記単語群の中から所定のキーワードと同一または類似する単語を抽出し、その単語を含む文章情報の数を算出する関連情報投稿数計算ステップと、
各Webサイトから収集した文章情報数に占める前記関連情報投稿数の割合を、各Webサイト毎に算出する関連情報投稿率計算ステップと、
分析を行う基準日と前記更新日情報をもとに、各Webサイトの更新頻度を算出する更新頻度計算ステップと、
各Webサイト毎の前記関連情報投稿率と前記更新頻度とを相対比較して出力するサイト活性度分析出力ステップと、
を備えることを特徴とするインターネットサイト情報分析方法。
【請求項2】
インターネット上に存在するWebサイトにアクセスしてその文章情報を収集し、分析を行うインターネットサイト情報分析方法において、
前記Webサイトの文章情報の収集を所定の期間が経過するごとに行う情報収集ステップと、
前記文章情報を単語に分割する単語分割ステップと、
前記単語群の中から調査対象のキーワードと同一または類似する単語を含む文章情報を抽出する調査対象情報抽出ステップと、
前記調査対象情報を構成する単語に含まれ、前記キーワードと別のキーワードである共起キーワードを抽出する共起キーワード抽出ステップと、
調査対象情報に前記共起キーワードが出現する頻度をもとに、前記共起キーワード毎に評点計算する共起キーワード評点計算ステップと、
前記共起キーワードを前記共起キーワード評点の順に並び替えて共起情報リストを作成するソートステップと、
所定の期間ごとに得られた前記共起情報リストを、時系列に表して出力する共起情報分析出力ステップと、
を備えることを特徴とするインターネットサイト情報分析方法。
【請求項3】
コンピュータシステムにより構成され、インターネット上に存在するWebサイトにアクセスしてその文章情報を収集し、分析を行うインターネットサイト情報分析装置において、
前記Webサイトの文章情報の収集を行う情報収集手段と、
前記文章情報を単語に分割する単語分割手段と、
前記単語群の中から所定のキーワードと同一または類似する単語を抽出し、その単語を含む文章情報の数を算出する関連情報投稿数計算手段と、
各Webサイトから収集した文章情報数に占める前記関連情報投稿数の割合を、各Webサイト毎に算出する関連情報投稿率計算手段と、
各Webサイトの更新日付を収集する更新日情報収集手段と、
分析を行う基準日と前記更新日情報をもとに、各Webサイトの更新頻度を算出する更新頻度計算手段と、
各Webサイト毎の前記関連情報投稿率と前記更新頻度とを相対比較して出力するサイト活性度分析出力手段と、
を備えることを特徴とするインターネットサイト情報分析装置
【請求項4】
前記活性度分析出力手段は、前記関連情報投稿率と前記更新頻度とを2次元グラフに表して出力することを特徴とする請求項3記載のインターネットサイト情報分析装置。
【請求項5】
インターネット上に存在するWebサイトにアクセスしてその文章情報を収集し、分析を行うインターネットサイト情報分析装置において、
前記Webサイトの文章情報の収集を所定の期間が経過するごとに行う情報収集手段と、
前記文章情報を単語に分割する単語分割手段と、
前記単語群の中から調査対象のキーワードと同一または類似する単語を含む文章情報を抽出する調査対象情報抽出手段と、
前記調査対象情報を構成する単語に含まれ、前記調査対象のキーワードと同一または類似の単語を除く他の単語である共起キーワードを抽出する共起キーワード抽出手段と、
調査対象情報に前記共起キーワードが出現する頻度をもとに、前記共起キーワード毎に評点計算する共起キーワード評点計算手段と、
前記共起キーワードを前記共起キーワード評点の順に並び替えて共起情報リストを作成するソート手段と、
所定の期間ごとに得られた前記共起情報リストを、時系列に表して出力する共起情報分析出力手段と、
を備えることを特徴とするインターネットサイト情報分析装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2012−59295(P2012−59295A)
【公開日】平成24年3月22日(2012.3.22)
【国際特許分類】
【出願番号】特願2011−277095(P2011−277095)
【出願日】平成23年12月19日(2011.12.19)
【分割の表示】特願2007−286278(P2007−286278)の分割
【原出願日】平成19年11月2日(2007.11.2)
【出願人】(391021710)株式会社インテック (11)