説明

SPAM特徴情報生成装置、SPAM情報フィルタリング装置および情報検索装置およびその方法

【課題】SPAMのフィルタリングに関連する技術を提供し、インデクス生成および検索、並びに、検索結果表示の迅速化、検索結果の精度向上に寄与する。
【解決手段】SPAM特徴情報生成部3は、取得したSPAM情報の特徴を示すSPAM特徴情報を生成する。SPAM情報フィルタリング部6は、取得した情報がSPAM特徴情報に合致するか否かにより、情報がSPAM情報であるか否かを判定し、SPAM情報であるなら排除する。インデクス情報生成部7は、残った非SPAM情報のインデクス情報を生成する。インデクス情報検索部9は、端末Tから送信されたキーワードを含むインデクス情報を検索する。検索結果情報生成送信部10は、検索されたインデクス情報に対応する非SPAM情報を示す検索結果情報を生成し、端末Tに送信する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、インターネットなどの通信ネットワークにあるSPAM情報の特徴を示すSPAM特徴情報を生成するSPAM特徴情報生成装置、SPAM特徴情報によりSPAM情報をフィルタリングするSPAM情報フィルタリング装置、ならびに、SPAM情報をフィルタリングして残った非SPAM情報を閲覧させるための情報検索装置およびその方法に関するものである。
【背景技術】
【0002】
近年では、ブログといわれるようなWebサービスの人気が高い。ブログでは、日記などの情報を書き込んだ記事が、書き込んだ人とは別の人の端末に表示される。
【0003】
ブログの中には、端末から送信されたキーワードを含む記事を示す検索結果を表示させるものもある。こうするためには、予め記事が収集され、記事に含まれたキーワードと当該記事のタイトルなどの両方を含むインデクスが生成される。そして、検索エンジンが、送信されたキーワードを含むインデクスを検索し、対応する記事を示す検索結果を生成して端末に表示させる。検索エンジンは、ときには、キーワードに対する適合度が高い記事の検索結果だけを生成し表示させる。
【0004】
この出願の発明に関連する先行技術文献情報としては次のものがある。
【非特許文献1】gooブログ,[online],2007年,[2007年9月21日検索],インターネット<URL:http://blog.goo.ne.jp/>
【発明の開示】
【発明が解決しようとする課題】
【0005】
ところで、最近では、商品の評判などを書き込んだ記事が多い。主目的が、例えばアフィリエイト収入であるなら、その記事は望まれないのだが、検索結果には反映されてしまう。こうした記事は俗にSPAMといわれる。広告目的の記事なども然りである。かかる記事は、例えば、自動生成された意味のありそうな内容、検索結果のままの内容、芸能人名を羅列しただけの内容を含むことがあり、やはりSPAMである。また、かかるSPAMで儲けているサービスもある。
【0006】
こうして、SPAMにより記事数は大変多くなっている。そのため、インデクス生成および検索、並びに、検索結果の表示に長時間を要し、また、検索結果にSPAMに関するものが含まれるという、いわゆる検索結果の精度低下を招くという問題が発生している。
【0007】
本発明は、上記の課題に鑑みてなされたものであり、SPAMのフィルタリングつまり排除に関連する技術を提供し、インデクス生成および検索、並びに、検索結果表示の迅速化、検索結果の精度向上に寄与することを目的とする。
【課題を解決するための手段】
【0008】
上記の課題を解決するために、第1の本発明によれば、SPAM情報を取得し、取得したSPAM情報に基づいて、SPAM特徴情報を生成することで、SPAM特徴情報に基づいて、SPAM情報をフィルタリングすることができる。
【0009】
第2の本発明によれば、SPAM情報をフィルタリングすることで、インデクス生成および検索が迅速化される。
【0010】
第3の本発明によれば、SPAM情報をフィルタリングして残った非SPAM情報についてのインデクス生成および検索、並びに、検索結果の送信を行うことで、検索結果の表示が迅速化され、検索結果の精度が向上する。
【発明の効果】
【0011】
第1の本発明によれば、SPAM情報を取得し、取得したSPAM情報に基づいて、SPAM特徴情報を生成することで、SPAM特徴情報に基づいて、SPAM情報をフィルタリングすることができる。
【0012】
第2の本発明によれば、SPAM情報をフィルタリングすることで、インデクス生成および検索が迅速化される。
【0013】
第3の本発明によれば、SPAM情報をフィルタリングして残った非SPAM情報についてのインデクス生成および検索、並びに、検索結果の送信を行うことで、検索結果の表示が迅速化され、検索結果の精度が向上する。
【発明を実施するための最良の形態】
【0014】
以下、本発明の実施の形態を図面を参照して説明する。
【0015】
図1は、本実施の形態に係る情報検索装置の構成と利用形態を示す図である。
【0016】
情報検索装置は、キーワードにより文書を検索する装置であり、ウェブサーバなどにより構成される。情報検索装置は、同図に示すように、例えば、インターネットなどの通信ネットワークNにあるSPAM情報の場所を示す場所情報が予め記憶される特定場所情報記憶部1と、SPAM情報の特徴を示すSPAM特徴情報が記憶されることになるSPAM特徴情報記憶部2と、特定場所情報記憶部1から場所情報を読み出し、読み出した場所情報の場所にあるSPAM情報を取得し、取得したSPAM情報に基づいて、取得したSPAM情報の特徴を示すSPAM特徴情報を生成し、SPAM特徴情報記憶部2に記憶させるSPAM特徴情報生成部3と、通信ネットワークNにおけるSPAM情報と非SPAM情報の各場所を示す場所情報が区別せずに予め記憶される場所情報記憶部4と、非SPAM情報が記憶されることになる非SPAM情報記憶部5と、場所情報記憶部4から場所情報を読み出し、通信ネットワークの読み出した場所情報の場所にある情報を取得し、SPAM特徴情報記憶部2からSPAM特徴情報を読み出し、読み出したSPAM特徴情報に基づいて、取得した情報の全体の中に混在するSPAM情報をフィルタリングし、残った非SPAM情報を非SPAM情報記憶部5に記憶させるSPAM情報フィルタリング部6と、非SPAM情報記憶部5に記憶された非SPAM情報に含まれたキーワードと当該非SPAM情報を示す情報とを含むインデクス情報を生成するインデクス情報生成部7と、生成されたインデクス情報が記憶されるインデクス情報記憶部8と、非SPAM情報を閲覧したいユーザに使用されるPC(パーソナルコンピュータ)などの端末Tから送信されたキーワードを受信し、受信したキーワードを含むインデクス情報をインデクス情報記憶部8から検索するインデクス情報検索部9と、検索されたインデクス情報に基づいて、検索されたインデクス情報に対応する非SPAM情報を示す検索結果情報を生成し、端末Tに送信する検索結果情報生成送信部10とを備える。
【0017】
特定場所情報記憶部1とSPAM特徴情報記憶部2とSPAM特徴情報生成部3とで構成される部分をSPAM特徴情報生成装置という。SPAM特徴情報生成装置と場所情報記憶部4と非SPAM情報記憶部5とSPAM情報フィルタリング部6とで構成される部分をSPAM情報フィルタリング装置という。
【0018】
情報検索装置は、1つのコンピュータまたは複数のコンピュータを通信回線で接続したコンピュータシステムに構成され、コンピュータが予め記憶装置に記憶されたコンピュータプログラムを読み込んで実行することで実現される。SPAM情報フィルタリング装置、SPAM特徴情報生成装置も同様である。
【0019】
SPAM情報は、背景技術の説明にならえば、SPAMといわれるブログの記事である。そうならば、非SPAM情報は、SPAM情報でないブログの記事であり、場所情報は、ブログの記事のURL(Uniform Resource Locator)やIPアドレス(Internet Protocol Address)である。インデクス情報は、いわゆるインデクスの集合体ではなく、個々のインデクスである。検索結果情報は、いわゆる検索結果である。
【0020】
次に、本実施の形態に係るSPAM特徴情報生成方法、SPAM情報フィルタリング方法、インデクス情報生成方法および情報検索方法を説明する。
【0021】
まず、SPAM特徴情報生成方法を説明する。
【0022】
図2は、SPAM特徴情報生成方法のフローチャートである。同図に示すように、まず、SPAM特徴情報生成部3が、特定場所情報記憶部1から場所情報を読み出し、読み出した場所情報の場所にある情報つまりSPAM情報を取得する(ステップS1)。次に、SPAM特徴情報生成部3は、取得したSPAM情報に基づいて、取得したSPAM情報の特徴を示すSPAM特徴情報を生成する(ステップS3)。例えば、SPAM特徴情報生成部3は、図3に示すように、記事の日本語形態素解析、キーワードの取得、HTML(HyperText Markup Language)のタグ、CSS(Cascading Style Sheets)のスタイル情報などの要素への分解などを行い、各要素の出現頻度、複数要素が共に出現する頻度、出現位置などから、SPAM情報に特徴的に含まれる要素を抽出し、この要素を含むSPAM情報を排除するルールを生成する。このルールは、SPAM情報の特徴を示すので、SPAM特徴情報という。次に、SPAM特徴情報生成部3は、生成したSPAM特徴情報をSPAM特徴情報記憶部2に記憶させる(ステップS5)。
【0023】
次に、SPAM情報フィルタリング方法を説明する。
【0024】
図4は、SPAM情報フィルタリング方法のフローチャートである。同図に示すように、まず、SPAM情報フィルタリング部6が、場所情報記憶部4から場所情報を読み出し、読み出した場所情報の場所にある情報を取得する(ステップS11)。SPAM情報フィルタリング部6は、SPAM情報と非SPAM情報のいずれか一方であるがそのように区別できない情報を取得することになる。次に、SPAM情報フィルタリング部6は、SPAM特徴情報記憶部2からSPAM特徴情報を読み出し、読み出したSPAM特徴情報に基づいて、取得した情報の全体の中に混在するSPAM情報をフィルタリングする(ステップS13)。SPAM情報フィルタリング部6は、SPAM情報と非SPAM情報の区別ができない情報のそれぞれにつき、情報がSPAM特徴情報であるルールに合致するか否かにより、情報がSPAM情報であるか否かを判定し、SPAM情報であるなら情報を排除する。次に、SPAM情報フィルタリング部6は、取得した情報の全体の中から排除されずに残った情報つまり非SPAM情報を非SPAM情報記憶部5に記憶させる(ステップS15)。
【0025】
次に、インデクス情報生成方法および情報検索方法を説明する。
【0026】
図5は、インデクス情報生成方法および情報検索方法のフローチャートである。同図に示すように、インデクス情報生成方法では、インデクス情報生成部7が、非SPAM情報記憶部5に記憶された非SPAM情報に含まれたキーワードと当該非SPAM情報を示す情報とを含むインデクス情報を生成し、インデクス情報記憶部8に記憶させる(ステップS21)。インデクス情報生成部7は、一般的なインデクスの生成方法にならえば、非SPAM情報の場所情報、非SPAM情報のタイトルや要約文をインデクス情報に含ませ、インデクス情報記憶部8に記憶させる。
【0027】
情報検索方法では、インデクス情報検索部9が、ユーザの操作により端末Tから送信されたキーワードを受信し(ステップS23)、受信したキーワードを含むインデクス情報をインデクス情報記憶部8から検索する(ステップS25)。次に、検索結果情報生成送信部10が、検索されたインデクス情報に基づいて、検索されたインデクス情報に対応する非SPAM情報を示す検索結果情報を生成し(ステップS27)、端末Tに送信する(ステップS29)。検索結果情報生成送信部10は、一般的な検索結果の生成方法にならえば、インデクス情報内の非SPAM情報の場所情報、非SPAM情報のタイトルや要約文を検索結果情報に含ませ、端末Tに送信する。
【0028】
一般的なブログの記事の閲覧方法にならえば、端末Tは、送信された検索結果情報に基づいて、検索結果情報に含まれた非SPAM情報のタイトルや要約文を表示する。そして、端末Tは、いわゆるマウスクリックなどにより、検索結果情報に含まれた場所情報の場所から非SPAM情報を取得して表示する。これにより、端末Tのユーザは、閲覧したかった非SPAM情報を閲覧することができる。
【0029】
したがって、本実施の形態によれば、SPAM情報を取得し、取得したSPAM情報に基づいて、SPAM特徴情報を生成することで、SPAM特徴情報に基づいて、SPAM情報をフィルタリングすることができる。
【0030】
また、SPAM情報をフィルタリングすることで、残った非SPAM情報についてだけインデクスを生成すればよく、インデクス生成が迅速化される。また、インデクス数が少なくなるので、インデクス検索が迅速化される。
【0031】
また、迅速なインデクス検索により生成した検索結果を送信することで、検索結果の表示が迅速化される。また、検索結果にSPAMに関するものが含まれず、つまり、検索結果の精度が向上する。
【0032】
なお、本実施の形態は一例であり、これに本発明は限定されない。例えば、ブログの記事でなく、通信ネットワークにある他の情報(いわゆるページ記述言語で記述されるような情報)を対象としてもよい。また、インターネットでなく、構内ネットワークや広域ネットワークを対象としてもよい。
【0033】
また、本実施の形態の各方法を装置に実行させるコンピュータプログラムは、半導体メモリ、磁気ディスク、光ディスク、光磁気ディスク、磁気テープなどのコンピュータ読み取り可能な記録媒体に格納し、陳列などして流通させたり、当該コンピュータプログラムをインターネットなどの通信網を介して伝送させてもよい。
【図面の簡単な説明】
【0034】
【図1】本実施の形態に係る情報検索装置の構成と利用形態を示す図である。
【図2】SPAM特徴情報生成方法のフローチャートである。
【図3】SPAM特徴情報の生成についての説明図である。
【図4】SPAM情報フィルタリング方法のフローチャートである。
【図5】インデクス情報生成方法および情報検索方法のフローチャートである。
【符号の説明】
【0035】
1…特定場所情報記憶部
2…SPAM特徴情報記憶部
3…SPAM特徴情報生成部
4…場所情報記憶部
5…非SPAM情報記憶部
6…SPAM情報フィルタリング部
7…インデクス情報生成部
8…インデクス情報記憶部
9…インデクス情報検索部
10…検索結果情報生成送信部
N…通信ネットワーク
T…端末

【特許請求の範囲】
【請求項1】
通信ネットワークにあるSPAM情報の場所を示す場所情報が予め記憶される特定場所情報記憶部と、
前記SPAM情報の特徴を示すSPAM特徴情報が記憶されることになるSPAM特徴情報記憶部と、
前記特定場所情報記憶部から場所情報を読み出し、読み出した場所情報の場所にあるSPAM情報を取得し、取得したSPAM情報に基づいて、取得したSPAM情報の特徴を示すSPAM特徴情報を生成し、前記SPAM特徴情報記憶部に記憶させるSPAM特徴情報生成部と
を備えることを特徴とするSPAM特徴情報生成装置。
【請求項2】
請求項1記載のSPAM特徴情報生成装置と、
通信ネットワークにおけるSPAM情報と非SPAM情報の各場所を示す場所情報が区別せずに予め記憶される場所情報記憶部と、
前記非SPAM情報が記憶されることになる非SPAM情報記憶部と、
前記場所情報記憶部から場所情報を読み出し、読み出した場所情報の場所にある情報を取得し、前記SPAM特徴情報記憶部からSPAM特徴情報を読み出し、読み出したSPAM特徴情報に基づいて、取得した情報の全体の中に混在するSPAM情報をフィルタリングし、残った非SPAM情報を前記非SPAM情報記憶部に記憶させるSPAM情報フィルタリング部と
を備えることを特徴とするSPAM情報フィルタリング装置。
【請求項3】
請求項2記載のSPAM情報フィルタリング装置と、
前記非SPAM情報記憶部に記憶された非SPAM情報に含まれたキーワードと当該非SPAM情報を示す情報とを含むインデクス情報を生成するインデクス情報生成部と、
前記生成されたインデクス情報が記憶されるインデクス情報記憶部と、
前記非SPAM情報を閲覧したいユーザに使用される端末から送信されたキーワードを受信し、受信したキーワードを含むインデクス情報を前記インデクス情報記憶部から検索するインデクス情報検索部と、
前記検索されたインデクス情報に基づいて、検索されたインデクス情報に対応する非SPAM情報を示す検索結果情報を生成し、前記端末に送信する検索結果情報生成送信部と
を備えることを特徴とする情報検索装置。
【請求項4】
請求項1記載のSPAM特徴情報生成装置におけるSPAM特徴情報生成方法であって、
前記SPAM特徴情報生成部が、前記特定場所情報記憶部から場所情報を読み出し、読み出した場所情報の場所にあるSPAM情報を取得し、取得したSPAM情報に基づいて、取得したSPAM情報の特徴を示すSPAM特徴情報を生成し、前記SPAM特徴情報記憶部に記憶させることを特徴とするSPAM特徴情報生成方法。
【請求項5】
請求項2記載のSPAM情報フィルタリング装置におけるSPAM情報フィルタリング方法であって、
前記SPAM情報フィルタリング部が、前記場所情報記憶部から場所情報を読み出し、読み出した場所情報の場所にある情報を取得し、前記SPAM特徴情報記憶部からSPAM特徴情報を読み出し、読み出したSPAM特徴情報に基づいて、取得した情報の全体の中に混在するSPAM情報をフィルタリングし、残った非SPAM情報を前記非SPAM情報記憶部に記憶させることを特徴とするSPAM情報フィルタリング方法。
【請求項6】
請求項3記載の情報検索装置における情報検索方法であって、
前記インデクス情報検索部が、前記非SPAM情報を閲覧したいユーザに使用される端末から送信されたキーワードを受信し、受信したキーワードを含むインデクス情報を前記インデクス情報記憶部から検索し、前記検索結果情報生成送信部が、前記検索されたインデクス情報に基づいて、検索されたインデクス情報に対応する非SPAM情報を示す検索結果情報を生成し、前記端末に送信することを特徴とする情報検索方法。
【請求項7】
請求項4ないし6のいずれかに記載の方法をコンピュータに実行させるコンピュータプログラム。
【請求項8】
請求項7記載のコンピュータプログラムが記録されたコンピュータ読み取り可能な記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2009−122931(P2009−122931A)
【公開日】平成21年6月4日(2009.6.4)
【国際特許分類】
【出願番号】特願2007−295787(P2007−295787)
【出願日】平成19年11月14日(2007.11.14)
【出願人】(504126835)エヌ・ティ・ティ レゾナント株式会社 (60)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】