説明

信憑性解析装置及び信憑性解析方法

【課題】 ドキュメントの信憑性をより適切に判断する。
【解決手段】 信憑性解析装置1は、ドキュメントの信憑性を解析する装置であって、複数のドキュメントを格納するドキュメント格納部20と、複数のドキュメントにおける、参照元のドキュメントが参照先のドキュメントを参照して生成されたものであることを示す参照関係を特定すると共に、参照関係によって示される参照元のドキュメントに対して、参照先のドキュメントの信憑性に係る特定操作が行われていることを検出する分類部11と、特定操作が行われている参照元のドキュメントの数である第1の数を参照先のドキュメント毎に算出する第1の数算出部14と、第1の数から参照先のドキュメントの信憑性を判断する信憑性判断部15と、判断結果を示す情報を出力する出力部16とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ドキュメントの信憑性を解析する信憑性解析装置及び信憑性解析方法に関する。
【背景技術】
【0002】
近年、ミニブログまたはマイクロブログによるコミュニケーションが一般化してきている。マイクロブログとは数十から百数十文字程度で構成される短い文章を投稿するのが特徴であり、ユーザは何気ない一言を投稿し自分の状況を他ユーザとシェアする簡易型ブログとしての活用が目立つ。また自分が興味を持ったニュース記事などURL(Uniform Resource Locator)を付けてコメントを投稿することで他ユーザと情報を共有することも可能なため、ミニブログは友達の近況を得るツールに留まらず、情報収集ツールとしての活用も広く使われている。最近では多くのメディアがTwitterアカウントを活用し、情報を配信することも珍しくなく自分の好みのメディアをフォローする(自分の閲覧リストに登録する)ことで自分の興味のある情報の収集が可能となる。こういった情報は自動で情報を投稿する側から自分に情報がPUSH(送信)される。
【0003】
マイクロブログで有名なTwitterではリツイート、非公式リツイートや、ハッシュタグを付けたツイートの投稿などによってユーザを介することで情報を伝搬させ拡散しやすい性質がある。
【0004】
リツイートとは、自分のフォロワー(自分を閲覧リストに登録しているユーザ群)に対して情報を共有する時に頻繁に使われる方法である。一般的な傾向によると、より重要な情報を含むツイートは多数のユーザにリツイートされやすい傾向にある。リツイートされた情報は自分のフォロワーに渡り、自分のフォロワーが更にリツイートすることで、情報がユーザを介して伝搬していく。一般的にこのリツイートは公式リツイートと呼ばれることが多い。
【0005】
非公式リツイートとは単純にユーザのコメントをリツイートするのでなく、自分のコメントを添えてリツイートすることである。この場合、元の情報に対して自分の意見を添えてリツイートすることが可能なため、追加情報の付与、あるいは情報が誤っている場合の訂正等が可能である。公式リツイートと同様に非公式リツイートは情報を拡散する際によく用いられる手段である。
【0006】
ハッシュタグとはツイートにタグづける事で特定のトピックに対して情報を共有する機能である。ユーザがTwitter社や第三者が提供する検索を利用し、ハッシュタグを検索することで、そのトピックに関する投稿内容を容易に閲覧することが可能である。ユーザをフォローする以外に特定のハッシュタグをユーザが閲覧することで、特定のトピックについての情報収集が可能となる。
【0007】
東日本大震災では地震の影響で携帯電話や固定電話といった主要な通信手段が麻痺した。主要な通信インフラが麻痺する中、TwitterやFacebookといったSNS(ソーシャルネットワーキングサービス)が安否確認や情報共有の場としての活躍で一躍注目された。FacebookやTwitterでは自分の友達や家族を(TwitterやFacebookでいうFriends相当である)ユーザ自身のコンタクトリストに登録していることが多いため、SNS上でのコミュニケーションを通して身近な人の安否確認が容易に行えた。情報共有という観点では震災時に被災地の写真の投稿など、マイクロブログ上で被災地の状況を随時報告する人が目立ち、こうした情報を閲覧することで被災地の情報がテレビより、よりリアルタイムに入ることも稀ではなかった。震災時におけるTwitterを活用したコミュニケーションは東日本大震災に限らない。2011年8月に発生した大型ハリケーンであるアイリーンにおいても、Twitterによる、被災情報の共有が目立った。震災時においてTwitterやFacebookといったネットのSNSツールは、現在ではあたり前のコミュニケーションツールの一つとなってなりつつある。
【0008】
Twitterを活用した震災時のコミュニケーションという点で、良い面がある一方、情報が伝搬し易い特徴を利用し不確定または偽りの情報を流すことで混乱を招くといった悪い側面もある。例えば東日本大震災直後に、石油工場が爆発し放射能の雨が降る、震災による著名人の死亡説、政策・政党・政権に対する批判等といった根拠のない情報が多くTwitter上に流れ混乱を招いた。こういった信憑性の低い、根拠のない情報は、震災時には特に混乱を招く恐れがあるため、信憑性の低い情報を特定する技術が必要である。
【0009】
非特許文献1ではツイートにツイートを投稿したユーザの特徴(投稿したツイート数、Friend数、フォロワー数)、投稿したツイートの特徴(文字数、URLを含むか、ハッシュタグを含むか)等の情報から機械学習へのインプットである特徴量を生成し、機械学習を行うことでモデルを生成した。作成したモデルを利用し、ツイートの特徴量を抽出し、モデルへ入力することで、ツイート毎に信用度をスコアとして出すことを可能とした。
【0010】
また特許文献1ではWebページに含まれる一つまたは複数のコメントを単一コメントに分割し、それぞれのコメントが指定された(例えばある会社の製品名等の)キーワードに対して風評表現を行っているコメントを抽出する技術について記載している。コメントに含まれる文字を風評表現辞書とテキストマッチすることで風評表現の有無を特定している。風評表現を行っているコメント一覧を生成することでそのキーワードに対してどういった風評表現コメントがあるか閲覧することが可能である。特許文献2では特許文献1と同様の処理を行うが、時間単位で風評表現を行っているコメント数を集約することで、指定されたキーワードに対して、時間毎に風評表現がどの程度行われているか閲覧することが可能である。
【先行技術文献】
【特許文献】
【0011】
【特許文献1】特開2004−70405号公報
【特許文献2】特開2005−63242号公報
【非特許文献】
【0012】
【非特許文献1】C. Carlos, M. Marcelo,P.Barbara , "Information Credibility on Twitter", WWW 2011
【発明の概要】
【発明が解決しようとする課題】
【0013】
しかしながら、非特許文献1、特許文献1及び特許文献2に記載される技術には以下のような問題がある。
【0014】
これらの技術における処理は主に単一コメント毎に行われるため抽出精度が低い。特許文献1及び特許文献2では処理がコメント単位の風評表現辞書とのテキストマッチで行っているため風評表現しているコメントの情報抽出精度に問題がある。例えば風評表現辞書に登録されていないワードを利用し風評表現を行っているコメントを抽出する事は可能でない。テキストマッチからの風評表現抽出には限界がある。マイクロブログは数十文字から百数十文字といった短い単位の文章に対して特許文献1の技術を応用する場合、風評を行っているか判断するには文字数を考慮すると情報量が少なすぎる。非特許文献1では、過去のユーザの投稿したツイート数、Friend数、フォロワー数といった統計的なユーザの情報も用いているが他ユーザがツイートに対してどのようなコメントを述べているか解析は行っていない。そのため信憑性の解析は主に単一ツイート単位である。ユーザの反応を利用していないため単一コメントによる処理では精度よく風評表現を含むコメントを特定できない。
【0015】
本発明は、上記の問題点を鑑みてなされたものであり、文章サイズは限定しないが、特に上述したミニブログ等に投稿されるドキュメント(上述したコメントやツイートを含む)の信憑性をより適切に判断することができる信憑性解析装置及び信憑性解析方法を提供することを目的とする。
【課題を解決するための手段】
【0016】
上記の目的を達成するために、本発明に係る信憑性解析装置は、ドキュメントの信憑性を解析する信憑性解析装置であって、複数のドキュメントを格納するドキュメント格納部と、ドキュメント格納部によって格納された複数のドキュメントにおける、参照元のドキュメントが参照先のドキュメントを参照して生成されたものであることを示す参照関係を特定する参照関係特定手段と、参照関係特定手段によって特定された参照関係によって示される参照元のドキュメントに対して、参照先のドキュメントの信憑性に係る特定操作が行われていることを検出する特定操作検出手段と、特定操作検出手段によって検出された特定操作が行われている参照元のドキュメントの数である第1の数を参照先のドキュメント毎に算出する算出手段と、算出手段によって算出された第1の数から参照先のドキュメントの信憑性を判断する信憑性判断手段と、信憑性判断手段による判断結果を示す情報を出力する出力手段と、を備える。
【0017】
本発明に係る信憑性解析装置では、複数のドキュメント間の参照関係と、参照元のドキュメントに対する参照先のドキュメントの信憑性に係る特定操作の数とに基づいて信憑性が判断される。従って、参照元のドキュメントが、参照先のドキュメントに応じてどのように作成されたか、あるいは扱われたか等に基づいて参照先のドキュメントの信憑性が判断される。即ち、参照元のドキュメントを作成したユーザの、参照先のドキュメントに対する反応が反映されて、参照先のドキュメントの信憑性が判断される。従って、本発明に係る信憑性解析装置によれば、ドキュメントの信憑性をより適切に判断することができる。
【0018】
算出手段は、参照先のドキュメントに対する参照元のドキュメントの数である第2の数を参照先のドキュメント毎に算出し、信憑性判断手段は、第1の数及び第2の数から参照先のドキュメントの信憑性を判断する、こととすることができる。この構成によれば、参照先のドキュメント毎の参照元のドキュメントの数を考慮して信憑性を判断することができるので、ドキュメントの信憑性を更に適切に判断することができる。
【0019】
参照関係は、参照元のドキュメントが参照先のドキュメントの引用又は返信である関係の少なくとも何れかであることとすることができる。また、参照元のドキュメントは、参照先のドキュメントを加工することなく引用したもの、及び参照先のドキュメントを加工することなく引用した以外で参照先のドキュメントと参照関係を有するものの少なくとも何れかであることとすることができる。これらの構成によれば、適切かつ確実にドキュメント間の参照関係を把握することができ、本発明を適切かつ確実に実施することができる。
【0020】
参照先のドキュメントの信憑性に係る特定操作は、参照元のドキュメントを削除することを含むこととすることができる。これらの構成によれば、適切かつ確実に参照元のドキュメントに対する特定操作を把握することができ、本発明を適切かつ確実に実施することができる。
【0021】
参照先のドキュメントの信憑性に係る特定操作は、参照元のドキュメントが参照先のドキュメントの内容を訂正するものとして生成されていることを含むこととすることができる。より具体的には、特定操作検出手段は、訂正表現を示す情報を予め記憶しておき、参照元のドキュメントに当該訂正表現が含まれているか否かを判断することによって、当該参照元のドキュメントが参照先のドキュメントの内容を訂正するものとして生成されていることを検出することとすることができる。これら構成によれば、適切かつ確実に参照元のドキュメントに対する特定操作を把握することができ、本発明を適切かつ確実に実施することができる。
【0022】
特定操作検出手段は、参照先のドキュメントに訂正表現が含まれているか否かを判断して、当該訂正表現が含まれていると判断した場合には、参照元のドキュメントが当該参照先のドキュメントの内容を訂正するものとして生成されているものとして検出しないこととすることができる。この構成によれば、参照元のドキュメントが参照先のドキュメントの内容を訂正するものであるかを適切に判断することができ、本発明をより適切に実施することができる。
【0023】
信憑性判断手段は、信憑性が低いと判断したドキュメントに含まれる別のデータへのリンクを示すリンク情報を抽出して、当該リンク情報の少なくとも一部をドキュメントが含んでいるか否かを判断することによってもドキュメントの信憑性を判断することとすることができる。また、信憑性判断手段は、抽出したリンク情報のドメインをドキュメントが含んでいるか否かを判断することによってもドキュメントの信憑性を判断することとすることができる。これらの構成によれば、一旦信憑性が低いと判断されたドキュメントの情報を用いて、効率的にドキュメントの信憑性を判断することができる。
【0024】
参照関係特定手段は、ドキュメントのテキスト同士を比較して、当該テキスト同士の一致に基づいて参照関係を特定することとすることができる。この構成によれば、ドキュメント間の参照関係を適切かつ確実に把握することができ、本発明を適切かつ確実に実施することができる。
【0025】
参照関係特定手段は、参照元のドキュメントに参照先のドキュメントを示す参照関係情報が付加されているかを判断することによって参照関係を特定すると共に、当該参照関係情報によって参照関係があると特定された参照先のドキュメントに対してのみ、他のドキュメントとのテキスト同士の比較を行うこととすることができる。この構成によれば、信憑性を判断するドキュメントを絞り込むことができ、効率的な処理が可能となる。
【0026】
ドキュメントには、時刻が対応付けられており、参照関係特定手段は、参照関係の特定をドキュメントに対応付けられた時刻に応じて行う、こととすることができる。この構成によれば、時間帯毎のドキュメントの信憑性の判断を行うことができ、また、効率的な処理が可能となる。
【0027】
ところで、本発明は、上記のように信憑性解析装置の発明として記述できる他に、以下のように信憑性解析方法の発明としても記述することができる。これはカテゴリ等が異なるだけで、実質的に同一の発明であり、同様の作用及び効果を奏する。
【0028】
即ち、本発明に係る信憑性解析方法は、ドキュメントの信憑性を解析する、複数のドキュメントを格納するドキュメント格納部を備える信憑性解析装置による信憑性解析方法であって、ドキュメント格納部によって格納された複数のドキュメントにおける、参照元のドキュメントが参照先のドキュメントを参照して生成されたものであることを示す参照関係を特定する参照関係特定ステップと、参照関係特定ステップにおいて特定された参照関係によって示される参照元のドキュメントに対して、参照先のドキュメントの信憑性に係る特定操作が行われていることを検出する特定操作検出ステップと、特定操作検出ステップにおいて検出された特定操作が行われている参照元のドキュメントの数である第1の数を参照先のドキュメント毎に算出する算出ステップと、算出ステップにおいて算出された第1の数から参照先のドキュメントの信憑性を判断する信憑性判断ステップと、信憑性判断ステップにおける判断結果を示す情報を出力する出力ステップと、を含む。
【発明の効果】
【0029】
本発明によれば、参照元のドキュメントを作成したユーザの、参照先のドキュメントに対する信用が反映されて、参照先のドキュメントの信憑性が判断されるため、ドキュメントの信憑性をより適切に判断することができる。
【図面の簡単な説明】
【0030】
【図1】本発明の実施形態に係る信憑性解析装置の機能構成を示す図である。
【図2】分類データ格納部の削除データテーブルに格納されるデータを示す図である。
【図3】分類データ格納部の拡散データテーブルに格納されるデータを示す図である。
【図4】分類データ格納部のドキュメントデータテーブルに格納されるデータを示す図である。
【図5】訂正表現格納部に格納されるデータを示す図である。
【図6】ブラックリストURL格納部に格納されるデータを示す図である。
【図7】デマ格納部に格納されるデータを示す図である。
【図8】本発明の実施形態に係る信憑性解析装置のハードウェア構成を示す図である。
【図9】本発明の実施形態に係る信憑性解析装置で実行される処理(信憑性解析方法)を示すフローチャートである。
【図10】本発明の実施形態に係る信憑性解析装置で実行される処理(信憑性解析方法)のうちドキュメントの分類処理を示すフローチャートである。
【発明を実施するための形態】
【0031】
以下、図面と共に本発明に係る信憑性解析装置及び信憑性解析方法の実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。
【0032】
図1に本実施形態に係る信憑性解析装置1を示す。信憑性解析装置1は、ドキュメントの信憑性を解析する装置である。具体的には、解析対象となる1つ以上のドキュメントについて信憑性が低いか否か(ドキュメントの内容が信用に値しないものであるか否か)を判断する装置である。解析対象となるドキュメントは、例えば、ユーザによって投稿されてWeb上で公開されるミニブログやマイクロブログで公開されるドキュメントである。本実施形態では、説明を簡潔にするため、具体的な例として適宜マイクロブログの代表であるTwitterを用いる。なお、本実施形態では、解析対象をドキュメントと呼ぶが、ミニブログやマイクロブログのサービスによってはツイートあるいはコメント等とも呼ばれる。なお、解析対象のドキュメントは、必ずしもWeb上で公開されるドキュメントである必要は無い。
【0033】
Twitterのようなマイクロブログの場合、ドキュメントの引用や返信を行うリツイートや非公式リツイートによって、あるドキュメントが別のドキュメントを参照して生成される参照関係が形成される。本実施形態では、この参照関係を利用してドキュメントの信憑性を解析する。
【0034】
Twitterのようなマイクロブログにおいては、上記のリツイートや非公式リツイートによる情報の拡散が可能である。しかしながら、情報の拡散が容易であるため、デマのツイート等の信憑性の低いツイートが容易に拡散されえることがあり、東日本大震災直後には実際にそのようなツイートが拡散された。そのようなツイートに対してデマであると呼び掛ける非公式リツイートや、デマ情報を含むリツイートしてしまったユーザによる自身のリツイートが削除される傾向が見られた。本実施形態では、このようなドキュメントの内容を訂正するドキュメントやドキュメントの削除を、参照元のドキュメントに対して参照先のドキュメントの信憑性に係る特定操作がなされているものとしてドキュメントの信憑性の解析に用いる。なお、特定操作としては、上記の訂正及び削除の何れか一方のみが用いられてもよい。
【0035】
本実施形態においては、参照関係は、参照元のドキュメント(後に投稿されたドキュメント)が参照先のドキュメント(先に投稿されたドキュメント)の引用又は返信である関係の少なくとも何れかである。また、参照元のドキュメントは、参照先のドキュメントを加工することなく引用したもの(Twitterのける公式リツイート相当、あるいはFacebookにおけるLike相当のものである)、及びそれ以外で参照先のドキュメントと参照関係を有するものの少なくとも何れかである。
【0036】
加工することなく引用されたドキュメント、即ち、拡散されたドキュメントは、拡散される数が多いほどユーザが有益と考えているドキュメントであると考えられる。また、ユーザが自分の主張などのコメントを載せたドキュメント、即ち、共有されたドキュメントは、共有される数が多いほどユーザが有益と考えているドキュメントであると考えられる。
【0037】
図1に示すように、信憑性解析装置1は、ドキュメントの信憑性の解析処理を行う解析サーバ10と、それぞれ解析に用いるデータを保持するデータベースであるドキュメント格納部20と、分類データ格納部30と、訂正表現格納部40と、ブラックリストURL格納部50と、デマ格納部60とを備えて構成される。信憑性解析装置1は、解析対象となるドキュメントを取得(受信)できるように当該ドキュメントを出力する装置(例えば、マイクロブログのサービスを提供するサーバ)とインターネット等のネットワークを介して接続されている。以下では、まず、各データ格納部20〜60に格納されるデータを説明する。
【0038】
ドキュメント格納部20は、予め、信憑性の解析対象となる複数のドキュメントを格納する。ドキュメント格納部20に格納されるドキュメントの取得は、例えば、解析サーバ10が、インターネット経由でマイクロブログのサービスを提供すると共にドキュメントを保存するサーバに対してドキュメントの取得を要求して取得(受信)することとしてもよいし、当該サーバからストリーミングでドキュメントのデータを受信することとしてもよい。ドキュメントは、例えば、ユーザによって生成されたコメント単位のものである。Twitterにおける各ドキュメントは、各ツイートデータ相当のものである。
【0039】
ドキュメント格納部20に格納される各ドキュメントのデータは、ドキュメントの内容を示すテキストのデータを含む。このテキストは、例えば、ユーザによって作成された投稿の内容を示すものである。また、ドキュメントのデータには一意に特定するIDが付与されている。このIDは、ドキュメントの取得時に予め付与されていてもよいし、ドキュメントが取得された時点で解析サーバ10によって一意なIDを付与されてもよい。また、ドキュメントのデータには時刻を示すデータが付与されていてもよい。この時刻は、例えば、ドキュメントがユーザによって、ミニブログ等のサーバに投稿(あるいは生成)された時刻である。
【0040】
また、ドキュメントのデータには、参照先のドキュメントを示す参照関係情報、例えば、参照先のドキュメントのIDを示す情報が付与されていてもよい。上述したように、例えば、ドキュメントがリツイートに係るものである場合には、リツイート元(リツイートの参照先)となるツイートを特定する情報が付与されていてもよい。更に、参照先のドキュメントを示す情報には、この参照がどのように行われているかを示す情報、例えば、参照元のドキュメントが加工されずに引用されて生成された拡散データであることを示すフラグが付与されていてもよい。参照先のドキュメントのIDを示す情報、及び拡散データであることを示すフラグは、例えば、参照元のドキュメントが作成、あるいは投稿されたときに当該ドキュメントに付与される。
【0041】
また、削除されたドキュメントのデータには、削除されたことが把握できるように、当該ドキュメントが削除されたものであることを示す削除フラグが付与されていてもよい。この削除は、マイクロブログのサービス等においてユーザが一旦投稿したものを削除することである。また、削除フラグが付与されている場合には、更に削除された時刻を示す情報が付与されていてもよい。削除されたドキュメントのデータについても、マイクロブログのサービスを提供するサーバから、例えば、TwitterのAPIを通して取得可能である。削除フラグは、ドキュメントが削除されたときに付与される。なお、ドキュメントが削除されたことを示すデータ(削除フラグのデータ)は、削除されたドキュメントのテキストとは独立に取得されてもよい。
【0042】
分類データ格納部30は、ドキュメント格納部20に格納されたドキュメントを分類して格納する。この分類は、後述するように解析サーバ10によって行われ、各データは、解析サーバ10によって分類データ格納部30に格納される。分類データ格納部30は、削除データテーブル31と、拡散データテーブル32と、ドキュメントデータテーブル33とを備える。
【0043】
削除データテーブル31は、ドキュメント格納部20に格納されたドキュメントのデータのうち、削除されたドキュメントのデータが格納される。図2に示すように、削除データテーブル31には、削除されたドキュメントのIDと、削除された時刻である削除日時とが対応付けて格納される。
【0044】
拡散データテーブル32は、ドキュメント格納部20に格納されたドキュメントのデータのうち、別のドキュメントを拡散した(別のドキュメントを加工せずに引用した)ドキュメントのデータが格納される。このようなドキュメント(拡散データ)は、Twitterのける公式リツイート相当のものであり、FacebookにおけるLike相当のものである。図3に示すように、拡散データテーブル32には、拡散しているドキュメント(参照元のドキュメント)のIDと、投稿された時刻である拡散された日時と、参照先のドキュメントのIDとが対応付けられて格納される。
【0045】
ドキュメントデータテーブル33は、ドキュメント格納部20に格納されたドキュメントのデータのうち、拡散データ(参照元のドキュメント)以外のドキュメントのデータが格納される。また、ドキュメントデータテーブル33には、各ドキュメントに訂正表現が含まれるか否かを示す情報である訂正表現フラグが付与される。図4に示すように、ドキュメントデータテーブル33には、投稿されたドキュメントのIDと、投稿された時刻である投稿日時と、ドキュメントの内容である投稿テキストと、訂正表現フラグとが対応付けられて格納される。訂正表現フラグは、値が“1”である場合にドキュメントに訂正表現が含まれることを示し、値が“0”である場合にドキュメントに訂正表現が含まれないことを示している。但し、訂正表現フラグは必ずしも上記のフォーマットである必要はない。上述した各種のテーブル31〜33は、上述した以外の項目のデータも含んでいてもよい。また、テーブルというフォーマット以外のフォーマットでデータを格納してもよい。
【0046】
また、上記の情報は、時刻でデータを細分化しておくこととしてもよい。これにより時間帯毎にデータの処理を行う場合に必要なデータのみを参照することができ処理時間にかかるコストの短縮化が可能になる。
【0047】
訂正表現格納部40は、予め訂正表現を示す情報を格納(記憶)する。訂正表現とは、ドキュメントの内容が誤っていることを示す表現である。具体的には、図5に示すように「デマ」、「騙されるな」等のキーワード(テキスト)が格納されている。訂正表現格納部40に格納される訂正表現を示す情報は、予め信憑性解析装置1の管理者等によって入力されている。訂正表現を示す情報は、信憑性の判断に用いられる。
【0048】
ブラックリストURL格納部50は、信憑性が低いドキュメントとされたドキュメントに含まれる別のデータへのリンクを示すリンク情報であるURLを格納する。このURLは、後述するように解析サーバ10によってブラックリストURL格納部50に格納される。このURLは、信憑性の判断(の事前処理)に用いられる。
【0049】
ドキュメントに含まれるURLが短縮URLである場合、伸長URLに変換して格納することとしてもよい。具体的には、図6に示すようなURLが格納されている。なお、格納されるURLはパラメータ付きのURL、パラメータを省いたURL、ドメイン、又はURLの一部でもよい。マイクロブログ上では、短縮URLで投稿されることが多いため、格納されるURLは短縮URLでも伸長URLでもよい。
【0050】
デマ格納部60は、後述するように解析サーバ10によって信憑性が低いドキュメントとされたドキュメントを示す情報を格納する。信憑性が低いドキュメントの情報は、信憑性の判断(の事前処理)に用いられる。図7に示すように、デマ格納部60には、信憑性が低いとされたドキュメントのIDと、当該ドキュメントの内容である投稿テキストと、当該ドキュメントが作成(投稿)された時刻である作成日とが対応付けて格納される。上述したデマ格納部60は、上述した以外の項目のデータも含んでいてもよい。
【0051】
引き続いて、解析サーバ10の構成について説明する。解析サーバ10は、分類部11と、事前処理部12と、第2の数算出部13と、第1の数算出部14と、信憑性判断部15と、出力部16とを備えて構成される。なお、解析サーバ10は、上記の構成要素以外にも、ドキュメントのデータを取得してドキュメント格納部20に格納する手段等を備えていてもよい。
【0052】
分類部11は、ドキュメント格納部20に格納された解析対象となるドキュメントを読み出して、分類し分類データ格納部30の各テーブル31〜33に格納する手段である。分類部11は、読み出したドキュメント毎に分類処理を行う。まず、分類部11は、ドキュメントが削除されたものか否かを確認する。具体的には例えば、この確認はドキュメントのデータに削除フラグが付与されたものかどうかを判断することによって行われる。分類部11は、ドキュメントが削除されたものであると判断すると、そのドキュメントのIDと、削除された時刻である削除日時とをドキュメントのデータから取得して、それらを対応付けて分類データ格納部30の削除データテーブル31に格納する。
【0053】
また、分類部11は、ドキュメントが、参照先のドキュメントを拡散した拡散データであるか否かを確認する。具体的には例えば、この確認はドキュメントのデータに拡散データであることを示すフラグが付与されたものかどうかを判断することによって行われる。分類部11は、ドキュメントが拡散データであると判断すると、そのドキュメントのIDと、投稿された時刻である拡散された日時と、参照先のドキュメントのIDとをドキュメントのデータから取得して、それらを対応付けて分類データ格納部30の拡散データテーブル32に格納する。
【0054】
なお、ドキュメントが拡散データであるかの判断は、ドキュメントのテキスト同士を比較してそれらが完全一致するか否かによって判断することとしてもよい(投稿時刻が早いほうが参照先のドキュメントであり、投稿時刻が遅いほうが参照元のドキュメントである)。
【0055】
分類部11は、拡散データでないと判断したドキュメントについては、訂正表現格納部40に格納されている訂正表現を示す情報を取得して、当該ドキュメントにそれらの訂正表現が含まれているか否かを判断する。具体的には、ドキュメントのテキストと、訂正表現格納部40に格納されている情報に係る各訂正表現とのテキストマッチをかける。
【0056】
分類部11は、拡散データでないと判断したドキュメントのIDと、投稿された時刻である投稿日時と、ドキュメントの内容である投稿テキストとをドキュメントに含まれるデータから取得して、それらを対応付けて分類データ格納部30のドキュメントデータテーブル33に格納する。また、訂正表現を含むか否かの判断結果に応じた訂正表現フラグ(ドキュメントに訂正表現を含めば“1”、含まなければ“0”)も対応付けてドキュメントデータテーブル33に格納する。
【0057】
上記のように、分類部11は、ドキュメントが拡散データであることを特定しており、ドキュメント格納部20によって格納された複数のドキュメントにおける、参照元のドキュメントが参照先のドキュメントを参照して生成されたものであることを示す参照関係を特定する参照関係特定手段(の一機能)である。
【0058】
更に、分類部11は、ドキュメントが削除され、あるいは訂正表現を含む、即ち、別のドキュメント(参照先のドキュメント)の内容を訂正するものとして生成された可能性があることを検出する。即ち、分類部11は、ドキュメントに対して、参照先のドキュメントの信憑性に係る特定操作が行われている(可能性がある)ことを検出する特定操作検出手段(の一機能)である。
【0059】
分類部11によるドキュメントの分類は、例えば、ドキュメントの信憑性の解析が行われるタイミングで行われる。このタイミングは、例えば、信憑性解析装置1の管理者の操作をトリガとしたタイミングや、予め設定された(例えば、一定時間毎)タイミングである。
【0060】
分類部11は、ドキュメントの信憑性の解析のための分類(即ち、ドキュメント間の参照関係の特定)を、ドキュメントに対応付けられた時刻に応じて行うこととしてもよい。例えば、予め設定した時間帯毎のドキュメントのみを用いて分類を行うこととしてもよい。即ち、予め設定した時間帯毎のドキュメントのみを用いて、ドキュメントの信憑性の解析が行われてもよい。これによって、信憑性の解析に不要な古いデータに対して、後述するテキストマッチング等の処理が不要になる。
【0061】
事前処理部12は、信憑性の解析が不要なドキュメントのフィルタリングを行う手段である。ここでいう不要なドキュメントとは、信憑性判断部15による信憑性の判断を行う必要のないドキュメントである。事前処理部12は、過去に信憑性判断部15によって信憑性が低いと判断されたドキュメントのデータを用いて上記のフィルタリングを行う。上記のフィルタリングで、信憑性の解析が不要とされたドキュメントは、過去に信憑性判断部15によって信憑性が低いと判断されたドキュメントと同様に信憑性が低いものであると判断して、それ以降の解析対象外とする。即ち、事前処理部12は、過去の信憑性判断部15による信憑性の判断を用いて、ドキュメントの信憑性を判断する信憑性判断手段(の一機能)である。
【0062】
具体的には、事前処理部12は、解析対象となりえるドキュメントのデータとして分類データ格納部30のドキュメントデータテーブル33からドキュメントのデータを取得する。事前処理部12は、デマ格納部60に格納されているドキュメントのデータを取得して、解析対象となりえるドキュメントのデータと照合して、解析対象となりえるドキュメントがデマ格納部60に格納されているドキュメントのデータと一致するか否かの照合を行う。この照合は、ドキュメントID同士、又はテキスト同士で行われる。なお、テキスト同士の比較は、完全一致でなく一部の一致でもよい。あるいは、形態素解析を用いて形態素レベルでの照合が行われてもよい。上記の照合で、解析対象となりえるドキュメントがデマ格納部60に格納されているドキュメントのデータと一致すると判断されると、事前処理部12は、当該解析対象となりえるドキュメントは信憑性が低いものと判断して、信憑性判断部15による信憑性の判断は行われない。
【0063】
また、事前処理部12は、ブラックリストURL格納部50に格納されているURLのデータを取得して、解析対象となりえるドキュメントのデータと照合して、解析対象となりえるドキュメントが当該URLの少なくとも一部を含んでいるかの判断を行う。上記の判断で、解析対象となりえるドキュメントがブラックリストURL格納部50に格納されているURLを含むと判断されると、事前処理部12は、当該解析対象となりえるドキュメントは信憑性が低いものと判断して、信憑性判断部15による信憑性の判断は行われない。
【0064】
なお、解析対象となりえるドキュメントがURLの少なくとも一部でなく、URL全体を含む場合に、ドキュメントは信憑性が低いものと判断することとしてもよい。また、解析対象となりえるドキュメントがURLのドメインを含む場合に、ドキュメントは信憑性が低いものと判断することとしてもよい。また、比較対象とするURLは、上述したように短縮URL、及び伸長URLの何れか又は両方であってもよい。
【0065】
事前処理部12は、上述した処理によって、信憑性の判断は行われないとされたドキュメント以外の情報を第2の数算出部13と、第1の数算出部14とに通知する。通知されたドキュメントを対象として信憑性の判断が行われる。信憑性の判断は、後述するように、信憑性の判断から除外されなかった解析対象となるドキュメントのうち参照先のドキュメント(別のドキュメントから参照されているドキュメント)に対して行われ、当該参照先のドキュメントと参照関係にある参照元のドキュメントの情報が用いられて行われる。
【0066】
第2の数算出部13は、解析対象となる参照先のドキュメントに対する参照元のドキュメントの数である第2の数を参照先のドキュメント毎に算出する算出手段(の一機能)である。図1に示すように第2の数算出部13は、拡散件数算出部13aと、共有件数算出部13bとを備える。
【0067】
拡散件数算出部13aは、第2の数として、解析対象となる参照先のドキュメントを加工せずに引用した(参照先のドキュメントを拡散した)参照元のドキュメントの数(拡散件数)を算出する。この算出は、解析対象となる参照先のドキュメントのID単位で、分類データ格納部30の拡散データテーブル32を参照して参照元ドキュメントのIDの数を集計することで行うことができる。拡散件数算出部13aは、算出した拡散件数を解析対象となる参照先のドキュメントのIDに対応付けて信憑性判断部15に出力する。
【0068】
共有件数算出部13bは、第2の数として、解析対象となる参照先のドキュメントを加工せずに引用したもの以外で参照関係を有するドキュメント、具体的には例えば、解析対象となる参照先のドキュメントに対して参照元のユーザ自身のコメントを付与して引用(あるいは返信)したドキュメントの数(共有件数)を算出する。これは、参照先のドキュメントの内容を引用して、かつ自分のコメントを載せたドキュメントの数である。Twitterでいう非公式リツイート相当のものである。
【0069】
このような参照関係については、拡散したドキュメントのように分類データ格納部30に参照関係を示す情報が格納されていない。そこで、共有件数算出部13bは、図4に示す分類データ格納部30のドキュメントデータテーブル33のデータを用いて、ドキュメント間の参照関係(繋がり)を抽出する。共有件数算出部13bは、ドキュメントデータテーブル33に含まれる解析対象となる参照先のドキュメントのテキストと、当該参照先のドキュメントより後に投稿された他のドキュメントのテキストとを比較する(照合する)。
【0070】
例えば、参照先のドキュメントのテキストのうち、先頭の文字から予め定めた文字数(例えば、十文字)が、他のドキュメントのテキストに含まれるかテキストマッチで照合する。図4に示すデータの場合、ID“23450”のドキュメントのテキスト「今日は晴れ」を、ID“89012”のドキュメントのテキストが含むため、ID“89012”のドキュメントは、ID“23450”のドキュメントを引用先のドキュメントとしている(非公式リツイートしている)と判断される。なお、テキストの照合箇所は必ずしも先頭の文字からでなくてもよく、参照関係が判断しえる文字列の一致(テキスト同士の少なくとも一部同士の一致)が判断されればよい。
【0071】
また、加工せずに引用されて拡散されたドキュメント以外でも、拡散されたドキュメントと同様に、引用関係等の参照関係を有する参照元のドキュメントのデータに参照先のドキュメントを示す参照関係情報が付加されている場合には、参照関係情報を用いて参照関係を判断することとしてもよい。
【0072】
共有件数算出部13bは、上記のように解析対象となる参照先のドキュメント毎に上記の参照関係を判断して、参照関係があると判断された参照元ドキュメントの数を集計して共有件数とする。上記のように、共有件数の算出においては、共有件数算出部13bは、ドキュメント間の参照関係の特定も行っており、参照元のドキュメントと参照先のドキュメントとの間の参照関係を特定する参照関係特定手段(の一機能)でもある。共有件数算出部13bは、算出した共有件数を解析対象となる参照先のドキュメントのIDに対応付けて信憑性判断部15に出力する。
【0073】
上記のように全てのドキュメントについてテキスト同士の比較で参照関係を特定する場合、非常に処理時間がかかる。そこで、解析対象となる参照先のドキュメントの絞り込みを行って処理時間の短縮化を可能にすることができる。
【0074】
具体的には、共有件数算出部13bは、分類データ格納部30の拡散データテーブル32に参照先ドキュメントのIDとしてIDが格納されているドキュメントのみを解析対象となる参照先のドキュメントとする。即ち、別のドキュメントに参照先のドキュメントを示す参照関係情報としてIDが付加されているドキュメントである別のユーザによって拡散されたドキュメントについてのみ解析対象とする(処理を行う)。
【0075】
また、参照関係情報によって示される別のドキュメントから参照先のドキュメントの数が一定以上のドキュメントのみを解析対象とすることとしてもよい。このように、拡散されたドキュメントのみを解析対象とすれば、処理対象とするドキュメントの数を削減でき処理コストを削減することができると共にユーザからの注目度の高いドキュメントに絞り信憑性解析を行うことができる。これにより、リアルタイムな処理が可能となる。
【0076】
第1の数算出部14は、解析対象となる(参照先の)ドキュメント毎に、特定操作が行われている参照元のドキュメントの数である第1の数を算出する算出手段(の一機能)である。図1に示すように第1の数算出部14は、訂正件数算出部14aと、削除件数算出部14bとを備える。
【0077】
訂正件数算出部14aは、第1の数として、解析対象となる参照先のドキュメントに対して、その内容の訂正を行う参照元のドキュメントの数(訂正件数)を算出する。訂正件数算出部14aは、上記の第2の数算出部13と同様に参照先のドキュメントと参照元のドキュメントとの参照関係を特定する(この参照関係は、第2の数算出部13による処理結果によるものが用いられてもよい)。訂正件数算出部14aは、参照先のドキュメント毎に参照関係がある参照元のドキュメントから、分類データ格納部30のドキュメントデータテーブル33の訂正表現フラグを参照して訂正表現を含む参照元のドキュメントの数を訂正件数として集計する。訂正件数算出部14aは、算出した訂正件数を解析対象となる参照先のドキュメントのIDに対応付けて信憑性判断部15に出力する。
【0078】
また、訂正件数算出部14aは、以下のような処理を行うこととしてもよい。訂正件数算出部14aは、分類データ格納部30のドキュメントデータテーブル33の訂正表現フラグを参照して、解析対象となる参照先のドキュメントに訂正表現を含むか否かを判断する。もし、参照先のドキュメントに訂正表現を含む場合、訂正件数は共有件数と同等の値になってしまう。その場合、訂正件数を用いた信憑性解析は適切ではない。このため、訂正件数算出部14aは、解析対象となる参照先のドキュメントに訂正表現を含むと判断した場合には、参照元のドキュメントが参照先のドキュメントの内容を訂正するものとして生成されているものとして検出せず、訂正件数を算出しない。
【0079】
削除件数算出部14bは、第1の数として、解析対象となる参照先のドキュメントと参照関係がある参照元のドキュメントであって、その内容の訂正を行う参照元のドキュメントの数(削除件数)を算出する。削除件数算出部14bは、上記の第2の数算出部13と同様に参照先のドキュメントと参照元のドキュメントとの参照関係を特定する(この参照関係は、第2の数算出部13による処理結果によるものが用いられてもよい)。削除件数算出部14bは、参照先のドキュメント毎に参照関係がある参照元のドキュメントから、分類データ格納部30の削除データテーブル31を参照して削除された参照元のドキュメントの数を削除件数として集計する。この削除件数は、参照先ドキュメントを拡散した参照元ドキュメント(公式リツイート)に対する数(拡散件数に対する削除件数)、それ以外の参照元ドキュメント(非公式リツイート)に対する数(共有件数に対する削除件数)それぞれ、及びそれらの和を算出することとしてもよい。削除件数算出部14bは、算出した削除件数を解析対象となる参照先のドキュメントのIDに対応付けて信憑性判断部15に出力する。
【0080】
上記のように、訂正件数あるいは削除件数の算出においては、訂正件数算出部14a及び削除件数算出部14bは、ドキュメント間の参照関係の特定も行っており、参照元のドキュメントと参照先のドキュメントとの間の参照関係を特定する参照関係特定手段(の一機能)でもある。
【0081】
なお、共有件数算出部13b、訂正件数算出部14a及び削除件数算出部14bによって使用される参照関係については、共有件数、訂正件数及び削除件数が算出される前に予めドキュメントデータテーブル33が参照して特定して、(例えば、図示しない共有ドキュメント格納部等に)格納しておいてもよい。これにより以降の処理をスムーズに行うことができる。即ち、Twitterでいう、ツイート間のリツイート関係情報を予め抽出しておき、以降の処理に応用する。また、このデータは、分類データ格納部30に格納されるデータと同様に時間帯毎のデータとしてもよい。
【0082】
信憑性判断部15は、第1の数算出部14によって算出された第1の数と、第2の数算出部13によって算出された第2の数とから、解析対象となる参照先のドキュメントの信憑性を判断する信憑性判断手段である。具体的には、信憑性判断部15は、信憑性を判断するための式と閾値とを予め記憶しておき、それに基づいて判断を行う。
【0083】
具体的には、参照先のドキュメントに訂正表現が含まれない場合には、以下の4つの式の何れか又は全てを用いて判断する。信憑性判断部15は、以下の式の関係を満たすものを信憑性が低いドキュメントと判断する(以下についても同様である)。
訂正件数/拡散件数>α
削除件数/拡散件数>β
訂正件数/共有件数>θ
削除件数/共有件数>π
ここで、α、β、θ、πは予め設定された閾値である。また、削除件数は、式に応じて拡散件数に対する削除件数、共有件数に対する削除件数の何れかが用いられてもよい(以下についても同様である)。
【0084】
また、上述したように参照先のドキュメントに訂正表現が含まれる場合には、訂正件数は算出されないので、以下の2つの式の何れか又は全てを用いて判断する。
削除件数/拡散件数>γ
削除件数/共有件数>χ
ここで、γ、χは予め設定された閾値である。
【0085】
上記の判断基準は、拡散件数、共有件数を用いたものであったが、それらが用いられない判断基準としてもよい(両方を用いてもよい)。具体的には、参照先のドキュメントに訂正表現が含まれない場合には、以下の2つの式の何れか又は全てを用いて判断する。
訂正件数>α´
削除件数>β´
参照先のドキュメントに訂正表現が含まれる場合には、以下の式を用いて判断する。
削除件数>γ´
ここで、α´、β´、γ´は予め設定された閾値である。
【0086】
信憑性判断部15は、解析対象となる参照先のドキュメントの判断結果を出力部16に出力する。
【0087】
出力部16は、信憑性判断部15による判断結果を示す情報を出力する出力手段である。具体的には、出力部16は、信憑性が低いと判断されたドキュメントの情報をデマ格納部60に格納する。具体的には、図7に示すように信憑性が低いと判断されたドキュメントのIDと、当該ドキュメントのテキストと、当該ドキュメントの作成日(投稿された時刻)とを対応付けてデマ格納部60に格納する。
【0088】
また、出力部16は、信憑性が低いと判断されたドキュメントにURLが含まれるか否かを判断して、URLが含まれていた場合には、そのURLを図6に示すようにブラックリストURL格納部50に格納する。なお、URLは、一定の数以上、信憑性が低いと判断されたドキュメントに含まれていた場合、即ち、信憑性が低いと判断されたドキュメントに頻繁に出現した場合にブラックリストURL格納部50に格納することとしてもよい。また、上述したようにURLのドメイン、パラメータなしのURL、短縮URL及び伸長URL等が、ブラックリストURL格納部50に格納されえる。
【0089】
このようなURLを有するサイトとして、虚報新聞(http://kyoko-np.net/)等の嘘の情報をベースとしたニュースサイト等があり、Twitter上ではこのサイトの情報が頻繁にデマ情報として流れることがある。URLが付いたツイートで情報が共有されるため一見、真実のように思えるが実際のサイトの中身は嘘の情報が集まっているため、このようなサイトを特定することは重要である。
【0090】
あるいは、出力部16は、信憑性解析装置1が備えるディスプレイに表示することによって信憑性解析装置1の管理者が確認できるように表示出力する。以上が、信憑性解析装置1の機能構成である。
【0091】
図8に信憑性解析装置1のハードウェア構成を示す。図8に示すように信憑性解析装置1は、CPU(Central Processing Unit)101、主記憶装置であるRAM(RandomAccess Memory)102及びROM(Read Only Memory)103、通信を行うための通信モジュール104、並びにハードディスク等の補助記憶装置105等のハードウェアを備えるコンピュータを含むものとして構成される。これらの構成要素がプログラム等により動作することにより、上述した信憑性解析装置1の機能が発揮される。以上が、信憑性解析装置1の構成である。
【0092】
引き続いて、図9及び図10のフローチャートを用いて、本実施形態に係る信憑性解析装置1で実行される処理である信憑性解析方法を説明する。なお、本処理は、例えば、信憑性解析装置1の管理者による操作とトリガとして、あるいは一定時間毎の定期的な処理として行われる。
【0093】
まず、解析サーバ10によって、解析対象となる複数のドキュメントが取得されてドキュメント格納部20に格納される(S01)。続いて、分類部11によって、ドキュメント格納部20に格納されたドキュメントが分類されて、分類データ格納部30に格納される。ドキュメントの分類について、図10のフローチャートを用いて説明する。
【0094】
まず、ドキュメントのデータに削除フラグが付与されたものかが確認される(S201、特定操作検出ステップ)。ドキュメントが削除されたものであると判断されると、当該ドキュメントに係る情報が分類データ格納部30の削除データテーブル31に格納される(S202、特定操作検出ステップ)。この場合、ここでドキュメントの分類は終了する。なお、上記の処理は、削除フラグに係るドキュメントのデータが、削除されたドキュメントのテキストとは独立に取得される場合を前提としている。この場合、削除されたドキュメントのテキストに係る情報は、既に拡散データテーブル32又はドキュメントデータテーブル33に格納されている。削除されたドキュメントのテキストと削除フラグとが含まれる一つのデータとして取得される場合には、S202の処理の後、S203以降の処理を行うこととしてもよい。S201においてドキュメントが削除されたものであると判断されなかった場合、引き続いて、ドキュメントのデータに拡散データであることを示すフラグが付与されたものかが確認される(S203、参照関係特定ステップ)。ドキュメントが拡散データであると判断されると、当該ドキュメントに係る情報が分類データ格納部30の拡散データテーブル32に格納される(S204、参照関係特定ステップ)。この場合、以上で分類の処理は終了する。
【0095】
S203においてドキュメントが拡散データであると判断されなかった場合、当該ドキュメントに訂正表現を含むか否かの判断がなされる(S205、特定操作検出ステップ)。続いて、当該ドキュメントのデータが、訂正表現を含むか否かのフラグと共に、分類データ格納部30のドキュメントデータテーブル33に格納される(S206、参照関係特定ステップ)。以上で分類の処理は、終了する。信憑性の解析に用いるドキュメント全てについて上記の分類を行う。
【0096】
上記の分類が終了すると、続いて、事前処理部12によって解析対象のドキュメントの絞り込みが行われる(図9のS03、信憑性判断ステップ)。具体的には、分類データ格納部30のドキュメントデータテーブル33に格納されているドキュメントのデータが、デマ格納部60に格納されているドキュメントのデータ、及びブラックリストURL格納部50に格納されているURLのデータと照合されて、ドキュメントデータテーブル33に格納されているドキュメントが信憑性が低いものでないかが判断される。ドキュメントが信憑性が低いものであると判断されると、そのドキュメントについては以降の処理には用いられない。以降の処理では、上記の判断でドキュメントが信憑性が低いものであると判断されなかったドキュメントが解析の対象とされる。
【0097】
引き続いて、第2の数算出部13によって、参照先のドキュメントとなっているドキュメントについて、当該ドキュメント毎に第2の数として拡散件数と共有件数とが算出される(S04、第2の数算出ステップ、参照関係特定ステップ)。また、第1の数算出部14によって、参照先のドキュメントとなっているドキュメントについて、当該ドキュメント毎に第1の数として訂正件数と削除件数とが算出される(S05、第1の数算出ステップ、参照関係特定ステップ)。なお、上述したように、ここで参照先のドキュメントとされるのは、拡散されたドキュメントのみとしてテキストの比較による参照関係を特定する処理を減らすこととしてもよい。
【0098】
引き続いて、信憑性判断部15によって、上記のように算出された第1の数及び第2の数を用いて参照先のドキュメントについて、信憑性の判断が行われる(S06、信憑性判断ステップ)。信憑性の判断結果は、出力部16によって出力される(S07、出力ステップ)。具体的には、信憑性が低いとされたドキュメントのデータが用いられて、デマ格納部60に当該ドキュメントの情報が蓄積され、また、ブラックリストURL格納部50の情報が更新される。以上が、本実施形態に係る信憑性解析装置1で実行される処理である信憑性解析方法である。
【0099】
上述したように本実施形態によれば、複数のドキュメント間の参照関係と、参照元のドキュメントに対する参照先のドキュメントの信憑性に係る特定操作の数とに基づいて信憑性が判断される。従って、参照元のドキュメントが、参照先のドキュメントに応じてどのように作成されたか、あるいは扱われたか等に基づいて参照先のドキュメントの信憑性が判断される。
【0100】
具体的には、参照元のドキュメントを作成(投稿)するユーザは、参照先のドキュメントがデマである等の信憑性の低いものであると考えた場合、参照先のドキュメントによるデマで他のユーザが惑わされないように、参照元のドキュメントで当該参照先のドキュメントを訂正したり、参照元のドキュメントを削除したりする。このように、本実施形態によれば、参照元のドキュメントを作成したユーザの、参照先のドキュメントに対する反応が反映されて、参照先のドキュメントの信憑性が判断される。従って、本実施形態によれば、ドキュメントの信憑性をより適切に判断することができる。
【0101】
また、信憑性の判断は、第1の数である訂正件数や削除件数のみからおこなわれてもよいが、第2の数である拡散件数や共有件数を用いて行うこととしてもよい。この構成によれば、参照先のドキュメント毎の参照元のドキュメントの数を考慮して信憑性を判断することができるので、ドキュメントの信憑性を更に適切に判断することができる。より具体的には、訂正や削除されている割合によって、信憑性をより適切に判断することができる。
【0102】
また、本実施形態にように参照関係は、引用や返信、また、加工せずにした引用(拡散、Twitterにおける公式リツイート相当のもの)やそれ以外(Twitterにおける非公式リツイート相当のもの)等としてもよい。これらの構成によれば、適切かつ確実にドキュメント間の参照関係を把握することができ、本発明を適切かつ確実に実施することができる。但し、上記以外でも把握しえる参照関係があれば、任意のものがもちいられてもよい。
【0103】
また、参照先のドキュメントの信憑性に係る特定操作は、本実施形態のように訂正や削除を用いることができる。これらの構成によれば、適切かつ確実に参照元のドキュメントに対する特定操作を把握することができ、本発明を適切かつ確実に実施することができる。但し、上記以外でも把握しえる、ドキュメントに対する信憑性に係る特定操作があれば、任意のものがもちいられてもよい。
【0104】
また、訂正の場合は、本実施形態のように参照先のドキュメント自体に訂正表現を含む場合を考慮すれば、参照元のドキュメントが参照先のドキュメントの内容を訂正するものであるかを適切に判断することができ、より適切な信憑性の判断が可能になる。
【0105】
また、本実施形態における事前処理部12の処理のように、一旦信憑性が低いと判断されたドキュメントの情報を用いて解析対象のドキュメントを絞り込むこととすれば、効率的にドキュメントの信憑性を判断することができる。
【0106】
また、ドキュメントに対応付けられた時刻に応じてドキュメントの処理対象を決定することすれば、時間帯毎の時間帯毎のドキュメントの信憑性の判断を行うことができ、また、効率的な処理が可能となりリアルタイムな信憑性解析が可能となる。
【符号の説明】
【0107】
1…信憑性解析装置、10…解析サーバ、11…分類部、12…事前処理部、13…第2の数算出部、13a…拡散件数算出部、13b…共有件数算出部、14第1の数算出部、14a…訂正件数算出部、14b…削除件数算出部、15…信憑性判断部、16…出力部、20…ドキュメント格納部、30…分類データ格納部、31…削除データテーブル、32…拡散データテーブル、33…ドキュメントデータテーブル、40…訂正表現格納部、50…ブラックリストURL格納部、60…デマ格納部、101…CPU、102…RAM、103…ROM、104…通信モジュール、105…補助記憶装置。


【特許請求の範囲】
【請求項1】
ドキュメントの信憑性を解析する信憑性解析装置であって、
複数のドキュメントを格納するドキュメント格納部と、
前記ドキュメント格納部によって格納された前記複数のドキュメントにおける、参照元のドキュメントが参照先のドキュメントを参照して生成されたものであることを示す参照関係を特定する参照関係特定手段と、
前記参照関係特定手段によって特定された参照関係によって示される前記参照元のドキュメントに対して、前記参照先のドキュメントの信憑性に係る特定操作が行われていることを検出する特定操作検出手段と、
前記特定操作検出手段によって検出された特定操作が行われている前記参照元のドキュメントの数である第1の数を前記参照先のドキュメント毎に算出する算出手段と、
前記算出手段によって算出された前記第1の数から前記参照先のドキュメントの信憑性を判断する信憑性判断手段と、
前記信憑性判断手段による判断結果を示す情報を出力する出力手段と、
を備える信憑性解析装置。
【請求項2】
前記算出手段は、前記参照先のドキュメントに対する前記参照元のドキュメントの数である第2の数を前記参照先のドキュメント毎に算出し、
前記信憑性判断手段は、前記第1の数及び第2の数から前記参照先のドキュメントの信憑性を判断する、
請求項1に記載の信憑性解析装置。
【請求項3】
前記参照関係は、参照元のドキュメントが参照先のドキュメントの引用又は返信である関係の少なくとも何れかである請求項1又は2に記載の信憑性解析装置。
【請求項4】
前記参照元のドキュメントは、前記参照先のドキュメントを加工することなく引用したもの、及び参照先のドキュメントを加工することなく引用した以外で前記参照先のドキュメントと参照関係を有するものの少なくとも何れかである請求項3に記載の信憑性解析装置。
【請求項5】
前記参照先のドキュメントの信憑性に係る特定操作は、前記参照元のドキュメントを削除することを含む請求項1〜4のいずれか一項に記載の信憑性解析装置。
【請求項6】
前記参照先のドキュメントの信憑性に係る特定操作は、前記参照元のドキュメントが前記参照先のドキュメントの内容を訂正するものとして生成されていることを含む請求項1〜5のいずれか一項に記載の信憑性解析装置。
【請求項7】
前記特定操作検出手段は、訂正表現を示す情報を予め記憶しておき、前記参照元のドキュメントに当該訂正表現が含まれているか否かを判断することによって、当該参照元のドキュメントが前記参照先のドキュメントの内容を訂正するものとして生成されていることを検出する請求項6に記載の信憑性解析装置。
【請求項8】
前記特定操作検出手段は、前記参照先のドキュメントに前記訂正表現が含まれているか否かを判断して、当該訂正表現が含まれていると判断した場合には、前記参照元のドキュメントが当該参照先のドキュメントの内容を訂正するものとして生成されているものとして検出しない請求項7に記載の信憑性解析装置。
【請求項9】
前記信憑性判断手段は、信憑性が低いと判断したドキュメントに含まれる別のデータへのリンクを示すリンク情報を抽出して、当該リンク情報の少なくとも一部をドキュメントが含んでいるか否かを判断することによってもドキュメントの信憑性を判断する請求項1〜8のいずれか一項に記載の信憑性解析装置。
【請求項10】
前記信憑性判断手段は、抽出したリンク情報のドメインをドキュメントが含んでいるか否かを判断することによってもドキュメントの信憑性を判断する請求項9に記載の信憑性解析装置。
【請求項11】
前記参照関係特定手段は、前記ドキュメントのテキスト同士を比較して、当該テキスト同士の一致に基づいて前記参照関係を特定する請求項1〜10のいずれか一項に記載の信憑性解析装置。
【請求項12】
前記参照関係特定手段は、前記参照元のドキュメントに前記参照先のドキュメントを示す参照関係情報が付加されているかを判断することによって前記参照関係を特定すると共に、当該参照関係情報によって参照関係があると特定された参照先のドキュメントに対してのみ、他のドキュメントとのテキスト同士の比較を行う請求項11に記載の信憑性解析装置。
【請求項13】
前記ドキュメントには、時刻が対応付けられており、
前記参照関係特定手段は、参照関係の特定を前記ドキュメントに対応付けられた時刻に応じて行う、
請求項1〜12のいずれか一項に記載の信憑性解析装置。
【請求項14】
ドキュメントの信憑性を解析する、複数のドキュメントを格納するドキュメント格納部を備える信憑性解析装置による信憑性解析方法であって、
前記ドキュメント格納部によって格納された前記複数のドキュメントにおける、参照元のドキュメントが参照先のドキュメントを参照して生成されたものであることを示す参照関係を特定する参照関係特定ステップと、
前記参照関係特定ステップにおいて特定された参照関係によって示される前記参照元のドキュメントに対して、前記参照先のドキュメントの信憑性に係る特定操作が行われていることを検出する特定操作検出ステップと、
前記特定操作検出ステップにおいて検出された特定操作が行われている前記参照元のドキュメントの数である第1の数を前記参照先のドキュメント毎に算出する算出ステップと、
前記算出ステップにおいて算出された前記第1の数から前記参照先のドキュメントの信憑性を判断する信憑性判断ステップと、
前記信憑性判断ステップにおける判断結果を示す情報を出力する出力ステップと、
を含む備える信憑性解析方法。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2013−77044(P2013−77044A)
【公開日】平成25年4月25日(2013.4.25)
【国際特許分類】
【出願番号】特願2011−214941(P2011−214941)
【出願日】平成23年9月29日(2011.9.29)
【出願人】(392026693)株式会社エヌ・ティ・ティ・ドコモ (5,876)
【Fターム(参考)】