説明

ニュース記事評価システム

【課題】個々のニュース記事の影響力を定量的に算出することを可能とする技術の提供。
【解決手段】分析案件毎にキーワードを設定しておくユーザ設定記憶部24と、インターネット26上に設置されたニュースサーバ30及びブログサーバ28からキーワードを含むニュース記事及びブログ記事を取得し、それぞれニュース記事記憶部14及びブログ記事記憶部16に格納する記事収集部12と、各ブログ記事と対応関係にあるニュース記事を特定する対応関係判定部18と、ニュース記事毎に対応関係にあるブログ記事の件数を集計し、このブログ記事の総数を各ニュース記事に関連付けて解析結果記憶部22に格納する影響力解析部20を備え、対応関係判定部18は、各ブログ記事中に設定されたリンク情報と各ニュース記事のURLを比較し、両者が一致している場合にブログ記事とニュース記事との対応関係を認定するニュース記事評価システム10。

【発明の詳細な説明】
【技術分野】
【0001】
この発明はニュース記事評価システムに係り、特に、インターネット上に開設された各ニュースサイトが提供するニュース記事の影響力を、具体的な数値に基づいて評価する技術に関する。
【背景技術】
【0002】
今日、インターネットの普及に伴い、新聞や雑誌といった従来型の紙媒体に代わり、インターネット上に自社の新製品情報や広告情報を公開し、その認知度の向上を目指す企業が増えてきている。
同じく、インターネットの普及に伴い、Webログ(以下「ブログ」)と称する簡易的な日記サイトを開設し、日々の雑感をインターネット上に公開する個人が増えてきており、多くの購読者を抱えた人気ブログの場合、商品の認知度や売上の向上に大きな影響力を有するようになってきている。
【0003】
ブログに掲載された情報は顧客のナマの声を反映しており、可視化されたクチコミ情報といえるため、非特許文献1に示すように、ブログ記事を収集・分析することにより、企業のマーケティング活動にフィードバックさせるサービスが既に登場している。
【非特許文献1】オンラインバズ分析(BuzzSeeQer) インターネットURL:http://www.nifty.com/buzz/seeqer/index.htm 検索日:平成21年10月16日
【発明の開示】
【発明が解決しようとする課題】
【0004】
この非特許文献1に記載の分析サービスの場合、キャンペーンやテレビCM放送の前後に亘るブログ記事数の推移やその内容(好意的/批判的)を自動解析し、企業ユーザにレポートする機能を備えている。また、このサービスは、特定企業の商品やサービスについて記述しているブログ開設者(以下「ブロガー」)の属性を分析し、レポートする機能をも備えている。
【0005】
このため、このサービスを利用することにより、企業ユーザは自社の広告活動や広報活動がうまく機能しているか否かを確認したり、つぎの展開を模索する上で有益な指針を得ることが可能となる。
【0006】
しかしながら、従来の分析サービスはあくまでも企業の広告活動や広報活動自体の適否を判定するものであり、数あるニュースサイトの中で、どこのサイトのニュース記事が最もブロガーに影響力を及ぼしているのか、どのニュースサイトに自社情報を掲載すれば意図したクチコミ情報が醸成されるのか、については回答不能であった。
企業の広報担当者あるいは広告担当者にとっては、限られた予算の範囲内で最大限の効果を上げることが義務づけられており、そのためには最適なニュースサイトの選定が極めて重要となるにもかかわらず、個々のニュース記事の影響力を定量的に計測する仕組みが存在しなかったため、単純にニュースサイトの規模や定期購読者数、ページビュー数、ブランドイメージ等に基づいて掲載サイトが選定されてきた。
【0007】
この発明は、従来のこのような問題を解決するために案出されたものであり、個々のニュース記事の影響力を定量的に算出することを可能とする技術の提供を目的としている。
【課題を解決するための手段】
【0008】
上記の目的を達成するため、請求項1に記載したニュース記事評価システムは、分析案件毎にキーワードを設定しておく記憶手段と、インターネット上に設置されたニュースサーバから、上記キーワードを含むニュース記事を取得し、ニュース記事記憶手段に格納する手段と、インターネット上に設置されたブログサーバから、上記キーワードを含むブログ記事を取得し、ブログ記事記憶手段に格納する手段と、各ブログ記事と対応関係にあるニュース記事を特定する対応関係判定手段と、ニュース記事毎に、対応関係にあるブログ記事の件数を集計し、このブログ記事の総数を各ニュース記事に関連付けて解析結果記憶手段に格納する影響力解析手段を備え、上記対応関係判定手段は、各ブログ記事中に設定されたリンク情報と各ニュース記事のURLとを比較し、両者が一致している場合にブログ記事とニュース記事との対応関係を認定することを特徴としている。
【0009】
請求項2に記載したニュース記事評価システムは、キーワードを設定しておく記憶手段と、インターネット上に設置されたニュースサーバから、上記キーワードを含むニュース記事を取得し、ニュース記事記憶手段に格納する手段と、インターネット上に設置されたブログサーバから、上記キーワードを含むブログ記事を取得し、ブログ記事記憶手段に格納する手段と、各ブログ記事と対応関係にあるニュース記事を特定する対応関係判定手段と、ニュース記事毎に、対応関係にあるブログ記事の件数を集計し、このブログ記事の総数を各ニュース記事に関連付けて解析結果記憶手段に格納する影響力解析手段を備え、上記対応関係判定手段は、各ブログ記事と各ニュース記事間の最長共通文字列数(=引用文字数)を算出し、この最長共通文字列数が最も多く、かつ所定の閾値を超えているブログ記事及びニュース記事の組合せに対して対応関係を認定することを特徴としている。
【0010】
請求項3に記載したニュース記事評価システムは、キーワードを設定しておく記憶手段と、インターネット上に設置されたニュースサーバから、上記キーワードを含むニュース記事を取得し、ニュース記事記憶手段に格納する手段と、インターネット上に設置されたブログサーバから、上記キーワードを含むブログ記事を取得し、ブログ記事記憶手段に格納する手段と、各ブログ記事と対応関係にあるニュース記事を特定する対応関係判定手段と、ニュース記事毎に、対応関係にあるブログ記事の件数を集計し、このブログ記事の総数を各ニュース記事に関連付けて解析結果記憶手段に格納する影響力解析手段を備え、上記対応関係判定手段は、各ブログ記事と各ニュース記事間の類似度を算出し、この類似度が最も高いブログ記事及びニュース記事の組合せに対して対応関係を認定することを特徴としている。
【0011】
請求項4に記載したニュース記事評価システムは、請求項3に記載のシステムであって、さらに上記対応関係判定手段が、各ニュース記事及びブログ記事を形態素単位に分解し、所定の品詞に係る形態素を各記事から抽出する処理と、抽出された各形態素のTF-IDF値を算出する処理と、この各形態素のTF-IDF値に基づいて各記事をベクトル化する処理と、各ニュース記事のベクトルと各ブログ記事のベクトル間の内積を求める処理と、この内積が所定の閾値に最も近いニュース記事とブログ記事との組合せに対して対応関係を認定する処理を実行することを特徴としている。
【0012】
請求項5に記載したニュース記事評価システムは、請求項1〜4に記載のシステムであって、さらに、分析案件毎に少なくとも一つのサブキーワードを設定しておく記憶手段を備え、上記影響力解析手段が、各ニュース記事に対応付けられたブログ記事の中で、上記サブキーワードを含むものの件数を集計し、このサブキーワード毎のブログ記事の総数を各ニュース記事に関連付けて解析結果記憶手段に格納する処理を実行することを特徴としている。
【0013】
請求項6に記載したニュース記事評価システムは、請求項1〜5に記載のシステムであって、さらに、ブログ記事の内容が肯定的か否定的かを判定するために用いる複数の評価語と、各評価語の有する肯定的意味合いの強弱あるいは否定的意味合いの強弱に応じて設定されたポイントとの組合せを格納しておく評価語辞書と、各ブログ記事を形態素単位に分解し、所定の品詞を備えた形態素を抽出する手段と、各形態素と上記評価語とを比較し、評価語と一致する形態素に対して該当のポイントを付与する手段と、ブログ記事単位でポイントを集計し、当該集計ポイントが設定値以上の場合に当該ブログ記事の内容を肯定的と認定し、設定値未満の場合には否定的と認定する手段とを備え、上記影響力解析手段は、上記ブログ記事の総数の中で、肯定的と認定されたブログ記事の数と、否定的と認定されたブログ記事の数を集計し、上記解析結果記憶手段に格納する処理を実行することを特徴としている。
【発明の効果】
【0014】
請求項1に記載したニュース記事評価システムによれば、所定のキーワードを含み、したがって同一事象について報道する各ニュース記事毎に、それぞれのニュース記事にリンクを張っているブログ記事の件数が算出されるため、このブログ記事の総数を相互に比較することにより、最も影響力の大きいニュース記事を特定することが可能となる。
【0015】
請求項2に記載したニュース記事評価システムによれば、所定のキーワードを含み、したがって同一事象について報道する各ニュース記事毎に、それぞれのニュース記事を引用しているブログ記事の件数が算出されるため、このブログ記事の総数を相互に比較することにより、最も影響力の大きいニュース記事を特定することが可能となる。
【0016】
請求項3及び4に記載したニュース記事評価システムによれば、所定のキーワードを含み、したがって同一事象について報道する各ニュース記事毎に、それぞれのニュース記事と内容において類似しているブログ記事の件数が算出されるため、このブログ記事の総数を相互に比較することにより、最も影響力の大きいニュース記事を特定することが可能となる。
【0017】
請求項5に記載したニュース記事評価システムにあっては、各ニュース記事に対応付けられたブログ記事の中で、所定のサブキーワードを含むブログ記事の件数を集計する機能を備えているため、このサブキーワードに関する各ニュース記事の記述内容の巧拙を評価することが可能となる。
【0018】
請求項6に記載したニュース記事評価システムによれば、各ニュース記事に対応付けられたブログ記事の中で、肯定的な内容のものと否定的な内容のものとの構成比率がわかるため、これに基づいて各ニュース記事の記述内容の巧拙を推し量ることが可能となる。
【発明を実施するための最良の形態】
【0019】
図1は、この発明に係るニュース記事評価システム10の全体構成を示すブロック図であり、記事収集部12と、ニュース記事記憶部14と、ブログ記事記憶部16と、対応関係判定部18と、影響力解析部20と、評価語辞書21と、解析結果記憶部22と、ユーザ設定記憶部24を備えている。
【0020】
上記の記事収集部12、対応関係判定部18及び影響力解析部20は、コンピュータのCPUが、OS及びアプリケーションプログラムに従って必要な処理を実行することによって実現される。
また、上記のニュース記事記憶部14、ブログ記事記憶部16、評価語辞書21、解析結果記憶部22及びユーザ設定記憶部24は、同コンピュータのハードディスク内に設けられている。
【0021】
上記記事収集部12は、インターネット26を介して、複数のブログサーバ28及び複数のニュースサーバ30と接続されている。
ブログサーバ28は、インターネットを介して接続されたクライアント端末32に対して、ブログ記事の投稿受付機能及びブログ記事の公開機能を提供するWebサーバである。
また、ニュースサーバ30は、インターネットを介して接続されたクライアント端末32に対して、ニュース記事の公開機能を提供するWebサーバである。
【0022】
上記解析結果記憶部22及びユーザ設定記憶部24には、通信ネットワークを介してWebサーバ34が接続されている。
このWebサーバ34は、インターネット等の通信ネットワークで接続された複数のクライアント端末36に対して、ニュース記事の評価サービスを提供する機能を備えている。
【0023】
このニュース記事評価システム10の場合、主として広告企画会社や広告代理店が、自社が関与した広告対象製品(サービスを含む)について、どのニュースサイトに掲載された記事がブロガーに対して大きな影響を及ぼしたのかを検証する目的に利用される。もちろん、メーカー自身が自社製品に関して同様の検証を行う目的にも有効に活用できる。
【0024】
まず、このニュース記事評価システム10の利用者である広告企画会社等(以下「ユーザ企業」)の担当者は、クライアント端末36からWebサーバ34内の専用サイトにアクセスし、自己のアカウント及びパスワードを入力してログインする。
図2は、クライアント端末36のWebブラウザ上に表示された分析案件一覧画面40を示しており、当該ユーザ企業が分析対象として登録している分析案件がリスト表示されている。
この分析案件リスト42には、案件名、実施タイプ、実施間隔、初回実施日、最終実施日、設定内容、結果の表示項目が設定されている。
【0025】
ここで担当者が「案件追加」のボタン44をクリックすると、図3に示すように、分析案件追加画面46が表示される。
これに対し担当者は、まず案件名設定欄48、キーワード指定欄49、サブキーワード指定欄50に対して、必要な入力を行う。図においては、案件名とキーワードに同じ「ePhone 3GS」が設定されているが、両者を異ならせることも当然に可能である。
【0026】
詳細は後述するが、ここで指定したキーワードに基づいて記事収集部12は各ニュースサイト及びブログサイトからニュース記事及びブログ記事を抽出し、ニュース記事記憶部14及びブログ記事記憶部16にそれぞれ格納することとなる。これに対しサブキーワードは、キーワードに基づいて抽出された各ブログ記事中に、当該サブキーワードが含まれているか否かを検証するために利用される。
デフォルトでは3つのサブキーワード指定欄50が設けられているが、担当者は「追加」ボタン51をクリックすることにより、さらに多くのサブキーワードを設定することができる。
【0027】
つぎに担当者は、基準日指定欄52において、分析対象となるニュース記事及びブログ記事をフィルタリングするための基準日(年月日)を設定する。
デフォルトでは現在の日付が設定されているため、変更の必要がある場合のみ、任意の日付を担当者は選択入力する。
【0028】
つぎに担当者は、ニュースサイト指定欄54において、記事の収集先となるニュースサイトの設定を行う。
まず既定のニュースサイトのチェックボックス55にチェックを入れると、システムの側で予め用意した複数のニュースサイトを包括的に指定可能となる。ここで担当者が「確認」ボタン56を押下すると、既定のニュースサイトの一覧画面が表示される(図示省略)。ここに列挙された各ニュースサイトのチェックを外すことにより、担当者は不要と考えるニュースサイトを収集先から除外することができる。
【0029】
また、既定のニュースサイトに漏れがある場合、担当者は「特定ニュースサイトの登録」ボタン57を押下する。この結果、特定ニュースサイトの指定画面が表示されるため(図示省略)、担当者は当該ニュースサイトの名称及びURLを入力し、登録ボタンを押下する。これにより、当該案件に関して特定ニュースサイトが記事の収集先として追加される。
【0030】
さらに担当者は、「特定記事の追加」ボタン58を押下して特定記事の指定画面を表示させ(図示省略)、当該ニュース記事のURLを入力することにより、当該案件に関して特定ニュース記事を収集対象に含めることができる。
【0031】
つぎに担当者は、実施タイプ指定欄60において、「一時実施」及び「定期実施」の何れかのラジオボタンにチェックを入れ、実施タイプを二者択一的に選択する。
ここで「定期実施」を選択した担当者は、その実施間隔についても設定を行う。例えば、基本間隔設定欄61において「週」を選択すると共に、詳細間隔設定欄62において「1週ごと」及び「月曜日」を選択することが該当する。
【0032】
図示は省略したが、基本間隔として「日」を選択した場合には、何日ごとに実施するのかを指定するための詳細間隔設定欄が再表示される。また、基本間隔として「月」を選択した場合には、何ヶ月ごとに実施するのか、及び毎月何日に実施するのかを指定するための詳細間隔設定欄が再表示される。
【0033】
分析案件追加画面46において必要事項の入力を済ませた担当者が「登録」ボタン63をクリックすると、入力データがクライアント端末36からWebサーバ34に送信される。Webサーバ34は、この入力データをユーザ設定記憶部24に格納する。
担当者は、図2の分析案件一覧画面40において、「設定内容」項目の「確認・変更」ボタン64をクリックすることにより、一旦設定した内容を自由に変更することができる。
【0034】
以後、担当者が設定した内容に従い、ニュース記事評価システム10によって自動的にニュース記事の収集処理、ブログ記事の収集処理、各ブログ記事とニュース記事との対応付け処理、各ニュース記事の影響力解析処理が実行され、解析結果記憶部22に解析結果が蓄積される。
これに対し担当者は、クライアント端末36からWebサーバ34にアクセスし、解析結果を随時参照可能となる。
具体的には、図2の分析案件一覧画面40において、「結果」項目の「表示」ボタン65をクリックすると、Webサーバ34から分析結果一覧画面がクライアント端末36に送信される。
【0035】
図4は、クライアント端末36のWebブラウザ上に表示された分析結果一覧画面68を例示するものであり、ニュース記事毎に当該ニュース記事の影響を受けたと推定されるブログの総数等が列記されている。
例えば、NO.1の「Responde」のニュースサイトに掲載された「ePhone 3GS」に関する記事の場合、掲載日が2009年1月25日であり、関連ブログの総数が120件に上り、その中で記事の内容がポジティブ(肯定的)なものが95件、ネガティブ(否定的)なものが25件で、ポジティブの占める率が79%であったことが示されている。
また、サブキーワードとして設定された「動画撮影」の文字列が記載された関連ブログの総数が115件に上り、その中で記事の内容がポジティブなものが92件、ネガティブなものが23件で、ポジティブの占める率が80%であったことが示されている。
さらに、サブキーワードとして設定された「7.2Mbps」の文字列が記載された関連ブログの総数が40件に上り、その中で記事の内容がポジティブなものが35件、ネガティブなものが5件で、ポジティブの占める率が88%であったことが示されている。
【0036】
同様に、NO.2の「BNET Japan」のニュースサイトに掲載された記事の場合、掲載日が2009年1月25日であり、関連ブログの総数が90件に上り、その中で記事の内容がポジティブなものが70件、ネガティブなものが20件で、ポジティブの占める率が78%であったことが示されている。
また、サブキーワードとして設定された「動画撮影」の文字列が記載された関連ブログの総数が88件に上り、その中で記事の内容がポジティブなものが67件、ネガティブなものが21件で、ポジティブの占める率が77%であったことが示されている。
さらに、サブキーワードとして設定された「7.2Mbps」の文字列が記載された関連ブログの総数が70件に上り、その中で記事の内容がポジティブなものが63件、ネガティブなものが7件で、ポジティブの占める率が90%であったことが示されている。
【0037】
この分析結果一覧画面68を検討することにより、担当者は多くの知見を得ることができる。
単純なところでは、上位にランキングされたRespondeやBNETJapanのニュースサイトに広告記事を出稿すれば、次回も世間の大きな注目を浴びる可能性が高いことを認識できる。
さらに細かい部分に目を転じれば、Respondeの記事では「動画撮影」のように一般受けするテーマについては反響が大きい(115/120件)が、「7.2Mbps」のように比較的マニアックなテーマに関しては反響が小さい(40/120件)ことが読み取れる。これに対しBNETJapanの記事の場合、「7.2Mbps」のサブキーワードに関して相対的に大きな反響を得ており(70/90件)、Respondeの読者層よりもマニアックな読者が多いのではないか、あるいはRespondeよりも技術寄りの記者が多いのではないか、という仮説が成り立つ。
【0038】
以下、図5のフローチャートに従い、このシステム10における処理手順を説明する。
まず一定間隔で(例えば1日1回)、記事収集部12はユーザ設定記憶部24に格納された各分析案件の実施間隔をチェックし(S10)、実施のタイミングが到来した分析対象案件が存在する場合には(S12)、当該案件に設定されたキーワードを読み込む(S14)。
【0039】
つぎに記事収集部12は、設定されたニュースサイトにアクセスし、サイト内に設置された検索窓にキーワード(例えば「ePhone 3GS」)を投入することにより、必要なニュース記事を検索する(S16)。
つぎに記事収集部12は、当該ニュースサイトから取得したニュース記事の中で、設定された基準日以降の日付を有するものを抽出し、ニュース記事記憶部14に格納する(S17)。
【0040】
つぎに記事収集部12は、所定のブログサイトにアクセスし、サイト内に設置された検索窓に同キーワードを投入することにより、必要なブログ記事を検索する(S18)。
つぎに記事収集部12は、当該ブログサイトから取得したブログ記事の中で、設定された基準日以降の日付を有するものを抽出し、ブログ記事記憶部16に格納する(S19)。
【0041】
なお、ニュース記事の収集処理(S16及びS17)と、ブログ記事の収集処理(S18及びS19)は順不同であり、ブログ記事の収集処理を先に実行してもよいし、両者を同時に実行してもよい。
また、上記のように複数のニュースサイトやブログサイトに個別にアクセスしてニュース記事やブログ記事を取得する代わりに、Google(登録商標)やYahoo!(登録商標)等の検索サイト内に設けられた検索窓にキーワードを投入し、取得した検索結果リストの中から必要なニュースサイトやブログサイトのURLを含む記事をまとめて抽出してもよい。
【0042】
つぎに、対応関係判定部18が起動し、収集したニュース記事毎に、当該ニュース記事に基づいて記述された対応ブログ記事を特定する(S20)。
以下、図6のフローチャートに従い、ニュース記事とブログ記事との対応付けに係る処理手順を説明する。
【0043】
まず対応関係判定部18は、ブログ記事記憶部16内に格納された各ブログ記事について、記事中にリンク情報が含まれているか否かをチェックし(S20-01)、リンク情報が含まれている場合には(S20-02)、ニュース記事記憶部14内に格納された各ニュース記事のURLとリンク情報とを比較する(S20-03)。そして、リンク情報と一致するURLを備えたニュース記事については、当該ブログ記事との間に「リンク関係あり」と認定する(S20-04)。
【0044】
図7はこの具体例を示すものであり、ブログ記事中の「詳しくはこちら」のボタンに設定されたリンク情報と、ニュース記事のURLが一致しているため、両者間に「リンク関係あり」の対応関係が認定されている。
この「リンク関係あり」の対応関係は排他的なものではなく、あるブログ記事中に複数のニュース記事のリンク情報が設定されていた場合には、複数のニュース記事との間で「リンク関係あり」と認定される。
【0045】
つぎに対応関係判定部18は、各ニュース記事と各ブログ記事とを、LCS(Longest Common Subsequence)の解法を用いて比較し(S20-05)、最長共通文字列数(=引用文字数)が所定の閾値以上(例えば20文字以上)のブログ記事とニュース記事との組合せを引用関係候補と認定する(S20-06)。
そして、一つのブログ記事に対して複数のニュース記事が引用関係候補と認定された場合には、最も引用文字数が多いニュース記事との間で「引用関係あり」と認定される(S20-07)。
図8はこの具体例を示すものであり、ニュース記事中の一部の文字列が、ほぼそのままの形でブログ記事中に埋め込まれているため、両者間に引用関係が認定されている。
【0046】
LCSの解法自体は公知技術であるが、図9に基づきその基本原理を説明する。
まず、対応関係判定部18は与えられた文章を形態素単位に分解し、特定の品詞(例えば名詞、動詞、形容詞)に係る形態素を抽出した後、形態素毎にユニークなIDを割り振る。
【0047】
例えば、同図(a)の「今日はいい天気だ。だから今日は野球をするよ。」という文章からは、「今日」、「いい」、「天気」、「今日」、「野球」、「する」の形態素が取り出され、「今日」→(1)、「いい」→(2)、「天気」→(3)、「野球」→(4)、「する」→(5)というように、(1)〜(5)のIDが付与される。
また、同図(b)の「今日はいい天気です。今日はサッカーをします。」という文章からは、「今日」、「いい」、「天気」、「今日」、「サッカー」、「する(『します』の原形)」の形態素が取り出され、「今日」→(1)、「いい」→(2)、「天気」→(3)、「サッカー」→(6)、「する」→(5)というように、(1)〜(3)、(5)、(6)のIDが付与される。
【0048】
つぎに対応関係判定部18は、(a)(b)両文章のIDの並びを比較し、両者間で連続的に一致する(1)(2)(3)(1)を最長共通文字列と認定する。この場合、最長共通文字列数は「4」となる。
このように、文字列同士を直接比較する代わりに、共通の形態素単位でユニークなIDを割り振ることにより、処理の高速化を図ることができる。
また、両文章中から特定の品詞を備えた文字列のみを抽出して比較することにより、多少の表現の違い(言い回しの変更)を吸収することが可能となる。
【0049】
つぎに対応関係判定部18は、TF-IDF及びベクトル空間法を用いて、各ニュース記事と各ブログ記事間の類似度を算出する(S20-08)。
以下、図10のフローチャート及び図11、図12の説明図に従い、この類似度算出に係る処理手順を説明する。
【0050】
まず対応関係判定部18は、各ニュース記事及びブログ記事に対して形態素解析を施し(S20-08-01)、各記事から特定品詞(例えば名詞)を抽出する(S20-08-02)。
図11の例では、文書A(ブログ記事)の「今日が締め切りだ。今日も徹夜かな。」から「今日/締め切り/今日/徹夜」の用語が、文書B(ブログ記事)の「今日も煮干しだ。飽き飽きだ。」から「今日/煮干し」の用語が、文書C(ニュース記事)の「今日は天気がよい。野球をしよう。」から「今日/天気/野球」の用語が、文書D(ニュース記事)の「天気がよい。サッカーをしよう。」から「天気/サッカー」の用語がそれぞれ取り出されている。
【0051】
つぎに対応関係判定部18は、各記事における各用語の頻度(TF/Term Frequency)を算出する(S20-08-03)。例えば、文書Aにおける「今日」の頻度は「2」となる。
【0052】
つぎに対応関係判定部18は、用語毎に当該用語を含む記事数(DF/Document Frequency)を算出し(S20-08-04)、DF辞書70に格納する(S20-08-05)。例えば、文書A〜Dにおける「今日」を含む記事の数は「3」となる。
【0053】
つぎに対応関係判定部18は、このDF辞書70に基づいて各文書をベクトル化する。
例えば、文書Aの場合はDF辞書70に収録された用語の中、「今日」「締め切り」「徹夜」の3種類の用語を含んでいるため、対応関係判定部18はこれらの用語のDFに基づいて、IDF(Inverse Document Frequency)及びTF-IDFを求める。
【0054】
まず対応関係判定部18は、以下のようにして各用語のIDFを算出する(S20-08-06)。
IDF(今日)=log(文書数/DF)
=log(4/3)
【0055】
つぎに対応関係判定部18は、以下のようにして各用語のTF-IDFを算出する(S20-08-07)。
TF-IDF(今日)=TF(今日)×IDF(今日)
=2×log(4/3)=0.25
同様の処理により、対応関係判定部18は「締め切り」のTF-IDF=0.5、「徹夜」のTF-IDF=0.5を算出する。
【0056】
ここで、文書Aに含まれる「今日」「締め切り」「徹夜」の3種類の用語はDF辞書70における掲載順が1〜3番であるため、図12に示すように、ベクトル要素として1〜3行までに0.33、0.62、0.43の数値が代入され、他の用語の掲載順に対応する行には0.0が代入されたベクトルが対応関係判定部18によって生成され、文書Aのベクトルとなされる(S20-08-08)。
【0057】
なお、「今日」のTF-IDFは0.25であり、文書Aにおける「今日」の頻度は「2」であるが、ベクトル長を1に揃えるための正規化を施された結果、トータルで0.33という数値が導かれている。同様に、「締め切り」のTF-IDF:0.5及び「徹夜」のTF-IDF:0.5も、ベクトル長を1に揃えるための正規化により、それぞれ0.62及び0.43に変換されている。文書B以下についても同様である。
【0058】
文書Bの場合にはDF辞書70に収録された用語の中、「今日」「煮干し」の2種類の用語を含んでおり、これらの用語のDF辞書70における掲載順が1番と4番であるため、ベクトル要素として1行目及び4行目に0.16及び0.43の数値が代入され、他の用語の掲載順に対応する行には0.0が代入されている。
【0059】
また、文書Cの場合はDF辞書70に収録された用語の中、「今日」「天気」「野球」の3種類の用語を含んでおり、これらの用語のDF辞書70における掲載順が1番と5番、6番であるため、ベクトル要素として1行目、5行目、6行目にそれぞれ0.16、0.43、0.43の数値が代入され、他の用語の掲載順に対応する行には0.0が代入されている。
【0060】
また、文書Dの場合はDF辞書辞書70に収録された用語の中、「天気」「サッカー」の2種類の用語を含んでおり、これらの用語のDF辞書70における掲載順が6番と7番であるため、ベクトル要素として6行目及び7行目にそれぞれ0.43、0.22の数値が代入され、他の用語の掲載順に対応する行には0.0が代入されている。
【0061】
つぎに対応関係判定部18は、各ニュース記事のベクトルと各ブログ記事のベクトルとの間の内積(距離)を求める(S20-08-09)。この内積が、両記事間の類似度を表している。
【0062】
つぎに対応関係判定部18は、この類似度が最も高くなるブログ記事とニュース記事との組合せに対して「類似関係あり」を認定する(図6のS20-09)。具体的には、ベクトル間の内積が1.0に最も近いものが、最高の類似度と評価される。この閾値は、別途実験にて得られた知見に従い定められた数値である。
図13はこの具体例を示すものであり、ブログ記事は作者自身の言葉で綴られているが、そこに登場する用語の組合せの共通性からニュース記事との間に類似関係が認定されている。
【0063】
つぎに対応関係判定部18は、リンク、引用、類似の何れかの関係が認定されたブログ記事とニュース記事との間に対応関係を認定する(図6のS20-10)。
図14の例では、(a)の「リンク関係」についてはニュース記事A及びニュース記事Bがブログαに対して対応関連ありとされ、(b)の「引用関係」についてはニュース記事Aがブログαに対して対応関連ありと認定され、(c)の「類似関係」についてはニュース記事Bがブログαに対して対応関連ありとされている場合に、最終的にニュース記事A及びBとブログ記事αとの間に対応関係が認定されている。
【0064】
上記においては、対応関係判定部18がリンク関係の有無、引用関係の有無、及び類似関係の有無に基づいてニュース記事とブログ記事間の対応関係を判定する例を説明したが、これらの中の少なくとも一つによってニュース記事とブログ記事間の対応関係を判定してもよい。
【0065】
以上のようにして対応関係判定部18によるブログ記事とニュース記事との対応付けが完了すると、影響力解析部20が起動し、分析案件毎に各ニュース記事の影響力が算出される(図5のS22)。
以下、図15のフローチャートに従い、この影響力算出に係る処理手順を説明する。
【0066】
まず影響力解析部20は、評価語辞書21を参照して各ブログ記事の内容を分析し、記述内容がポジティブ(肯定的)かネガティブ(否定的)であるかを判定する(S22-01)。
すなわち、図16に示すように、評価語辞書21内にはブログ記事の内容を判定するのに役立つ評価語が予め多数蓄積されており、各評価語の持つ肯定的意味合いの強さや否定的意味合いの強さに応じた正負のポイントが設定されている。
このため影響力解析部20は、ブログ記事を形態素に分解して特定の品詞(名詞や形容詞等)を取り出した後、評価語辞書に格納された各評価語と比較して行き、当該ブログ記事中に評価語を発見する都度、そのポイントを加算する。そして、最終的なポイントがプラスの場合には当該ブログ記事をポジティブと認定し、0またはマイナスの場合にはネガティブと認定する。
【0067】
つぎに影響力解析部20は、各ニュース記事に対応付けられたブログ記事の数を集計し(S22-02)、その総数を当該ニュース記事の影響力とする。この総数が多いということは、多くのブログ記事に影響を与えたことを意味するからである。
つぎに影響力解析部20は、当該ニュース記事に対応付けられたブログ記事の中で、予め設定されたサブキーワードを含むものの数を、サブキーワード毎に集計する(S22-03)。
最後に影響力解析部20は、当該ニュース記事に対応付けられたブログ記事の中で、内容がポジティブなものの数とネガティブなものの数、及びポジティブが占める比率を、対応付けられたブログ記事全体と、各サブキーワードを含むブログ記事別に算出する(S22-04)。
【0068】
この算出結果は、解析結果記憶部22に格納され(図5のS24)、上記の通り、Webサーバ34を介してクライアント端末36に送信される分析結果一覧画面68中に表示される(図4参照)。
【図面の簡単な説明】
【0069】
【図1】この発明に係るニュース記事評価システムの機能構成を示すブロック図である。
【図2】分析案件一覧画面を示す図である。
【図3】分析案件追加画面を示す図である。
【図4】分析結果一覧画面を示す図である。
【図5】このニュース記事評価システムの全体的な処理手順を示すフローチャートである。
【図6】ニュース記事とブログ記事との対応付けに係る処理手順を示すフローチャートである。
【図7】ニュース記事とブログ記事との間に「リンク関係あり」の関係が認定された例を示す説明図である。
【図8】ニュース記事とブログ記事との間に「引用関係あり」の関係が認定された例を示す説明図である。
【図9】LCS解法の基本原理を示す説明図である。
【図10】ニュース記事とブログ記事間の類似度算出に係る処理手順を示すフローチャートである。
【図11】ニュース記事とブログ記事間の類似度算出に係る処理内容を示す説明図である。
【図12】ニュース記事とブログ記事間の類似度算出に係る処理内容を示す説明図である。
【図13】ニュース記事とブログ記事との間に「類似関係あり」の関係が認定された例を示す説明図である。
【図14】ニュース記事とブログ記事との対応付けの方法を示す説明図である。
【図15】ニュース記事の影響力算出に係る処理手順を示すフローチャートである。
【図16】評価語辞書の登録レコードを例示する図である。
【符号の説明】
【0070】
10 ニュース記事評価システム
12 記事収集部
14 ニュース記事記憶部
16 ブログ記事記憶部
18 対応関係判定部
20 影響力解析部
21 評価語辞書
22 解析結果記憶部
24 ユーザ設定記憶部
26 インターネット
28 ブログサーバ
30 ニュースサーバ
32 クライアント端末
34 Webサーバ
36 クライアント端末
40 分析案件一覧画面
42 分析案件リスト
44 「案件追加」ボタン
46 分析案件追加画面
48 案件名設定欄
49 キーワード指定欄
50 サブキーワード指定欄
51 「追加」ボタン
52 基準日指定欄
54 ニュースサイト指定欄
55 チェックボックス
56 「確認」ボタン
57 「特定ニュースサイトの登録」ボタン
58 「特定記事の追加」ボタン
60 実施タイプ指定欄
61 基本間隔設定欄
62 詳細間隔設定欄
63 「登録」ボタン
64 「確認・変更」ボタン
65 「表示」ボタン
68 分析結果一覧画面
70 DF辞書

【特許請求の範囲】
【請求項1】
分析案件毎にキーワードを設定しておく記憶手段と、
インターネット上に設置されたニュースサーバから、上記キーワードを含むニュース記事を取得し、ニュース記事記憶手段に格納する手段と、
インターネット上に設置されたブログサーバから、上記キーワードを含むブログ記事を取得し、ブログ記事記憶手段に格納する手段と、
各ブログ記事と対応関係にあるニュース記事を特定する対応関係判定手段と、
ニュース記事毎に、対応関係にあるブログ記事の件数を集計し、このブログ記事の総数を各ニュース記事に関連付けて解析結果記憶手段に格納する影響力解析手段を備え、
上記対応関係判定手段は、各ブログ記事中に設定されたリンク情報と各ニュース記事のURLとを比較し、両者が一致している場合にブログ記事とニュース記事との対応関係を認定することを特徴とするニュース記事評価システム。
【請求項2】
キーワードを設定しておく記憶手段と、
インターネット上に設置されたニュースサーバから、上記キーワードを含むニュース記事を取得し、ニュース記事記憶手段に格納する手段と、
インターネット上に設置されたブログサーバから、上記キーワードを含むブログ記事を取得し、ブログ記事記憶手段に格納する手段と、
各ブログ記事と対応関係にあるニュース記事を特定する対応関係判定手段と、
ニュース記事毎に、対応関係にあるブログ記事の件数を集計し、このブログ記事の総数を各ニュース記事に関連付けて解析結果記憶手段に格納する影響力解析手段を備え、
上記対応関係判定手段は、各ブログ記事と各ニュース記事間の最長共通文字列数を算出し、この最長共通文字列数が最も多く、かつ所定の閾値を超えているブログ記事及びニュース記事の組合せに対して対応関係を認定することを特徴とするニュース記事評価システム。
【請求項3】
キーワードを設定しておく記憶手段と、
インターネット上に設置されたニュースサーバから、上記キーワードを含むニュース記事を取得し、ニュース記事記憶手段に格納する手段と、
インターネット上に設置されたブログサーバから、上記キーワードを含むブログ記事を取得し、ブログ記事記憶手段に格納する手段と、
各ブログ記事と対応関係にあるニュース記事を特定する対応関係判定手段と、
ニュース記事毎に、対応関係にあるブログ記事の件数を集計し、このブログ記事の総数を各ニュース記事に関連付けて解析結果記憶手段に格納する影響力解析手段を備え、
上記対応関係判定手段は、各ブログ記事と各ニュース記事間の類似度を算出し、この類似度が最も高いブログ記事及びニュース記事の組合せに対して対応関係を認定することを特徴とするニュース記事評価システム。
【請求項4】
上記対応関係判定手段は、
各ニュース記事及びブログ記事を形態素単位に分解し、所定の品詞に係る形態素を各記事から抽出する処理と、
抽出された各形態素のTF-IDF値を算出する処理と、
この各形態素のTF-IDF値に基づいて各記事をベクトル化する処理と、
各ニュース記事のベクトルと各ブログ記事のベクトル間の内積を求める処理と、
この内積が所定の閾値に最も近いニュース記事とブログ記事との組合せに対して対応関係を認定する処理を実行することを特徴とする請求項3に記載のニュース記事評価システム。
【請求項5】
分析案件毎に少なくとも一つのサブキーワードを設定しておく記憶手段を備え、
上記影響力解析手段は、各ニュース記事に対応付けられたブログ記事の中で、上記サブキーワードを含むものの件数を集計し、このサブキーワード毎のブログ記事の総数を各ニュース記事に関連付けて解析結果記憶手段に格納する処理を実行することを特徴とする請求項1〜4の何れかに記載のニュース記事評価システム。
【請求項6】
ブログ記事の内容が肯定的か否定的かを判定するために用いる複数の評価語と、各評価語の有する肯定的意味合いの強弱あるいは否定的意味合いの強弱に応じて設定されたポイントとの組合せを格納しておく評価語辞書と、
各ブログ記事を形態素単位に分解し、所定の品詞を備えた形態素を抽出する手段と、
各形態素と上記評価語とを比較し、評価語と一致する形態素に対して該当のポイントを付与する手段と、
ブログ記事単位でポイントを集計し、当該集計ポイントが設定値以上の場合に当該ブログ記事の内容を肯定的と認定し、設定値未満の場合には否定的と認定する手段とを備え、
上記影響力解析手段は、上記ブログ記事の総数の中で、肯定的と認定されたブログ記事の数と、否定的と認定されたブログ記事の数を集計し、上記解析結果記憶手段に格納する処理を実行することを特徴とする請求項1〜5の何れかに記載のニュース記事評価システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate