説明

最新情報提供方法

【課題】特定の主題に対して各ウェブサイトが提供する最新情報を統合し、これを使用者に提供することができる最新情報提供方法及びそのシステムを提供する。
【解決手段】所定の主題に対するウェブサイトリストに含まれた少なくとも一つのウェブサイトから所定のウェブページを抽出する段階と;前記抽出されたウェブページから一つ以上の主題語を抽出する段階と;前記抽出された各主題語の出現回数をカウンティングする段階と;前記各段階を所定周期ごとに反復することで、前記各主題語のうち前記出現回数の変化量が第1基準値以上である第1タイプの主題語を選定する段階と;前記ウェブページのうち前記第1タイプの主題語が含まれた内容を前記第1タイプの主題語と一緒に使用者に提供する段階と;を含んで最新情報提供方法を構成する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、インターネット上で情報を提供する方法に関するもので、より詳細には、インターネット上で各分野別に最新情報を収集して提供することができる最新情報提供方法及びそのシステムに関するものである。
【背景技術】
【0002】
最近、科学技術の発展及び経済水準の向上と伴い、超高速インターネットなどの通信網の普及と超高速通信網利用者の急激な増加がなされており、超高速通信網利用者の急激な増加により、通信網を通した新規サービスの開発及びサービスアイテムの多様化が可能になった。通信網を用いた検索サービスは、このような通信網を用いたサービスのうち最も一般的なサービスといえる。
【0003】
検索サービスとは、使用者から入力されるクエリーに対して検索を行った後、入力されたクエリー(質疑語)に相応する検索結果文書(例えば、使用者から入力された検索クエリーを含むウェブサイト、記事、または、該当の検索クエリーを含むファイル名を有するイメージなど)を使用者に提供するサービスを意味する。
【0004】
利用者たちは、このような検索サービスを用いて最新の情報を受けることを望んでいるが、最近では、コンテンツの量及びその種類の増加のために、検索サービスを提供する検索サイトが最新の情報を抽出するときに多くの時間が掛かるため、使用者たちが望む最新情報を効果的に提供できないという問題点がある。
【0005】
また、使用者が特定の主題に対する最新情報を得ようとする場合、このような検索サービスを用いる方法の他に、特定の主題を取り扱っているウェブサイトを直接訪問することで最新の情報を獲得することもできる。しかしながら、このような方法による場合にも、同一の主題を取り扱うウェブサイトごとに互いに異なる最新情報を提供することが多いので、使用者たちは、特定の主題に対する最新の情報を獲得するために、特定の主題を取り扱っている全てのウェブサイトを訪問しなければならないという不便さがあった。
【発明の開示】
【発明が解決しようとする課題】
【0006】
本発明は、上述した問題点を解決するためのもので、その技術的課題(目的)は、特定の主題に対して各ウェブサイトが提供する最新情報を統合し、これを使用者に提供することができる最新情報提供方法及びそのシステムを提供することにある。
【0007】
本発明の他の技術的課題は、各分野別ウェブサイトから抽出された最新情報を出現回数の変化量の差によって一つ以上のタイプに分類し、これを使用者に提供することができる最新情報提供方法及びそのシステムを提供することにある。
【0008】
本発明の更に他の技術的課題は、各分野別ウェブサイトから最新情報を一定周期ごとに抽出することで、使用者に提供される最新情報のアップデート周期を短縮させることができる最新情報提供方法及びそのシステムを提供することにある。
【課題を解決するための手段】
【0009】
上述した目的を達成するための本発明の一側面による最新情報提供方法は、所定の主題に対するウェブサイトリストに含まれた少なくとも一つのウェブサイトから所定のウェブページを抽出する段階と;前記抽出されたウェブページから一つ以上の主題語を抽出する段階と;前記各主題語の出現回数をカウンティングする段階と;前記各段階を所定周期ごとに反復することで、前記各主題語のうち前記出現回数の変化量が第1基準値以上である第1タイプの主題語を選定する段階と;前記ウェブページのうち前記第1タイプの主題語が含まれた内容を前記第1タイプの主題語と一緒に使用者に提供する段階と;を含む。このとき、前記所定の主題に対するウェブサイトリストは、各ウェブサイトのディレクトリ情報から抽出される。
【0010】
一方、上述した最新情報提供方法は、前記主題語のうち前記出現回数の変化量が第2基準値以上、第3基準値未満である第2タイプの主題語を選定する段階と;前記ウェブページのうち前記第2タイプの主題語が含まれた内容を前記第2タイプの主題語と一緒に使用者に提供する段階と;をさらに含むことができる。
【0011】
一実施例において、前記所定のウェブページは、前記各ウェブサイトの最初のウェブページであり、前記各主題語は、前記各ウェブページに含まれたアンカーテキストから抽出される。このような実施例による場合、前記主題語抽出段階は、前記主題語が抽出された前記アンカーテキスト及び前記アンカーテキストとリンクされているURLアドレスを前記抽出された主題語と一緒に保存する段階を含み、前記第1タイプの主題語を提供する段階で、前記ウェブページのうち前記第1タイプの主題語が含まれた内容は、前記第1タイプの主題語が含まれているアンカーテキストである。
【0012】
一方、前記第1タイプの主題語を提供する段階は、各主題別ディレクトリを生成する段階と;前記ディレクトリのうち前記第1タイプの主題語が属する主題領域に前記第1タイプの主題語を羅列することで、前記第1タイプの主題語を提供する段階と;をさらに含む。
【0013】
上述した目的を達成するための本発明の他の側面による最新情報提供システムは、所定の主題に対するウェブサイトリストに含まれた少なくとも一つのウェブサイトから所定のウェブページを所定周期ごとに抽出するウェブページ抽出部と;前記ウェブページ抽出部によって抽出されたウェブページから一つ以上の主題語を抽出する主題語抽出部と;前記各主題語の出現回数をカウンティングするカウンターと;前記主題語のうち前記出現回数の変化量が第1基準値以上である主題語を選定し、これを第1タイプの主題語に分類する判断部と;前記ウェブページのうち前記第1タイプの主題語が含まれた内容を前記第1タイプの主題語と一緒に使用者に提供する情報提供部と;を含む。
【発明の効果】
【0014】
本発明によると、特定の主題に対して各ウェブサイトごとに別途に提供されていた最新情報を統合して提供することができ、使用者の便宜性を増大させることができる。
【0015】
また、本発明によると、各分野別ウェブサイトから抽出された最新情報をその出現回数の変化量の差によって一つ以上のタイプに分類して提供することができ、使用者たちの多様な要求に能動的に対処することができる。
【0016】
また、本発明によると、各分野別ウェブサイトから最新情報を一定周期ごとに抽出して使用者に提供することで、使用者に提供される最新情報のアップデート周期を短縮させることができる。
【図面の簡単な説明】
【0017】
【図1】本発明の一実施例に係る最新情報提供システムの概略的なブロック図である。
【図2A】ポータルサイトのウェブサイトディレクトリ情報を示す画面をキャプチャーした図である。
【図2B】ポータルサイトのウェブサイトディレクトリ情報を示す画面をキャプチャーした図である。
【図3】主題語保存部に保存されるデータテーブルの構造を示した図である。
【図4】本発明の一実施例に係る最新情報提供方法のフローチャートである。
【発明を実施するための最良の形態】
【0018】
以下、添付された図面を参照して本発明の実施例を詳細に説明する。
【0019】
図1は、本発明の一実施例に係る最新情報提供システムの概略的なブロック図である。
【0020】
図1に示すように、本発明の一実施例に係る最新情報提供システム10は、ウェブページ抽出部12、ウェブページ保存部14、主題語抽出部16、カウンター18、主題語保存部20、判断部22及び情報提供部24を含む。
【0021】
ウェブページ抽出部12は、各主題別ウェブサイトリストに含まれた各ウェブサイトから所定のウェブページを抽出する。このとき、各主題別ウェブサイトリストは、各種のポータルサイトが提供しているディレクトリ情報から抽出される。例えば、図2Aに示すようなディレクトリ情報から図2Bに示すようなウェブサイトリストを抽出する。ここで、図2Bは、「映画」という主題に対するウェブサイトリストを示している。
【0022】
一実施例において、ウェブページ抽出部12は、各主題別ウェブサイトリストに含まれた各ウェブサイトから最初のウェブページを抽出することができる。これは、各ウェブサイトの最初のウェブページに新規情報やコンテンツのアップデート情報が含まれている場合が多いためである。変形された実施例においては、各ウェブサイトの最初のウェブページのみならず、新規情報を提供するウェブページを抽出することもできる。
【0023】
ウェブページ抽出部12は、ウェブサイトから上述したウェブページを所定の周期単位で抽出するが、このとき、所定の周期は一日(毎日)に設定することができる。
【0024】
ウェブページ保存部14には、ウェブページ抽出部12によって抽出された各ウェブページが各分野別に保存される。ウェブページ保存部14に保存されている各ウェブページの場合、後述するカウンター18によってウェブページに含まれた主題語がカウンティングされた後には、ウェブページ保存部14の保存空間(記憶領域)を効率的に使用するために削除されるように構成してもよい。
【0025】
主題語抽出部16は、ウェブページ抽出部12によって抽出されたウェブページから一つ以上の主題語を抽出する。一実施例において、主題語抽出部16は、各ウェブページに含まれたアンカーテキスト(AnchorText)から主題語を抽出する。アンカーテキストとは、特定のウェブページ内でクリックが可能な部分を意味するもので、このようなアンカーテキストは、リンクされた文書の題目などのように、リンクされた文書を代表する単語からなる。主題語抽出部16は、各ウェブページに含まれた全てのアンカーテキストから各主題語を抽出するようになる。
【0026】
一実施例において、主題語抽出部16は、ウェブページのアンカーテキストから主題語を抽出するが、このとき、アンカーテキストに含まれた名詞または複合名詞を主題語として抽出することができる。また、アンカーテキストに含まれた名詞や複合名詞は、全てが主題語として抽出可能であるが、抽出された名詞や複合名詞からなるアンカーテキストが該当のウェブページまたは他のウェブページに存在しないときには、主題語から除外することもできる。
【0027】
例えば、映画と関連したウェブページのうち、「華麗な休暇をどのようにご覧になったでしょうか?」というアンカーテキストが存在する場合、このようなアンカーテキストから「華麗な休暇」という複合名詞を主題語として抽出することができる。他の例として、「華麗な休暇を見てから毛骨が悚然とするような…」というアンカーテキストが存在する場合、このようなアンカーテキストから「華麗な休暇」、「毛骨」、「悚然」などの名詞または複合名詞が抽出される。このとき、該当のウェブページまたは他のウェブページで「華麗な休暇」という単語からなる(又は含む)アンカーテキストは存在するが、「毛骨」と「悚然」という単語からなる(又は含む)アンカーテキストが存在しない場合、「華麗な休暇」のみを該当のアンカーテキストの主題語として抽出することができる。
【0028】
一方、イメージからなる文書に対するリンクのように、テキストが存在しないリンクの場合には、該当の文書の題目から主題語を抽出することができる。このとき、該当の文書の題目は、該当の文書自体をダウンロードすることで取得することができる。
【0029】
カウンター18は、主題語抽出部16によって抽出された各主題語の出現回数をカウンティング(集計)し、これを主題語保存部20に各主題語別に保存する。一実施例において、カウンター18は、特定の主題に対して抽出された各ウェブページから抽出された各主題語の出現回数を、ウェブページが抽出される周期に合わせてカウンティングし、その結果を主題語保存部18に保存することができる。
【0030】
例えば、ウェブサイトリストから一日単位でウェブページを抽出するように設定されており、ウェブサイトリストの主題が映画である場合、2007年8月1日に「映画」という主題に対して抽出されたウェブページの各主題語の出現回数をカウンティングし、これを各主題語別に保存し、2007年8月2日に抽出されたウェブページの各主題語の出現回数をカウンティングし、これを各主題語別に保存する。
【0031】
主題語保存部20は、主題語抽出部16によって抽出された主題語を、カウンター18によって算出された各主題語の出現回数及び該当の主題語が含まれているアンカーテキストと一緒に保存する。一実施例において、主題語保存部20は、抽出された主題語を保存する場合において、抽出された主題語が含まれたアンカーテキストにマッピングされているURL(UniformResource Locator)アドレスを該当の主題語と一緒に保存することができる。
【0032】
上述した各データが主題語保存部20に保存される形式を、図3を参照して説明する。図示したように、上述した各データは、テーブル形態で主題語保存部20に記録され。主題語フィールド26には、各ウェブページから抽出された各主題語が保存され、アンカーテキストフィールド28には、該当の主題語が含まれているアンカーテキストが保存され、URLフィールド30には、該当のアンカーテキストとリンクされているURLアドレス(URL住所)が保存される。また、カウンティング日付フィールド32には、該当の主題語がカウンティングされた日付が保存され、出現回数フィールド34には、抽出された主題語の出現回数が保存される。
【0033】
再び図1を参照すると、判断部22は、主題語抽出部16によって抽出された主題語の出現回数を所定周期ごとに比較することで各主題語の出現回数の変化量を判断し、出現回数の変化量を用いて該当の主題語を第1タイプの主題語または第2タイプの主題語に分類する。具体的に、判断部22は、主題語の出現回数の変化量が第1基準値以上である場合、該当の主題語を第1タイプの主題語に分類する。
【0034】
ここで、出現回数の変化量が第1基準値以上であることとは、以前の出現回数に比べて最近の出現回数が増加または減少したことを意味し、出現回数が増加したことは、最近、多くのウェブサイトが該当の主題語と関連した内容を含んでいることを意味するので、このような主題語は、最新情報を示すものと判断することができる。例えば、特定の映画が公開される場合、公開以前になされた該当の映画に対する評論や主演俳優などのインタビューによって、以前には出現されていない該当の映画と関連した主題語が多くのウェブサイトに含まれるようになる。
【0035】
また、出現回数が減少したことは、以前までは多くのウェブサイトで取り扱っていた主題語であるが、最近、その内容が著しく減少したことを意味し、これ以上人々から関心を得られない主題語であると判断することで、このような主題語が最新情報として登録されていた場合、該当の主題語を削除することができる。
【0036】
一方、出現回数は多いが、全てのウェブページに常に共通的に含まれているメニューなどの主題語の場合、以前に比べて出現回数の変化量がほぼないので、上述した過程を通して最新情報から除外される。例えば、映画と関連したウェブサイトで“前売り”という主題語は、常にウェブサイトに含まれている主題語であり、その出現回数が多いとしても、出現回数の変化量(増減量)が第1基準値未満であるので、最新情報から排除される。
【0037】
一方、判断部22は、主題語の出現回数の変化量が第2基準値以上、第3基準値未満である場合、該当の主題語を第2タイプの主題語に分類する。具体的に、最新情報ではあるが、その出現回数の変化量が多くない主題語を第2タイプの主題語に分類する。すなわち、第2基準値は、該当の主題語が新しい情報であるかを判断する基準になるもので、第3基準値は、該当の主題語がイシュー(関心)性を持つ主題であるかを判断する基準になるものである。このとき、第3基準値は、第1基準値と同一、又は第1基準値未満に設定されることができる。
【0038】
例えば、料理と関連したウェブサイトで食物情報がアップデートされた場合、アップデートされた食物情報は、以前には出現されていない最近に出現されたものであり、新しい情報ではあるが、人々にイシュー化されていないので、その出現回数の変化量が大きくなく、第2タイプの主題語に分類される。
【0039】
一実施例において、判断部22は、各主題語の出現回数の変化量を1日単位、7日単位又は10日単位で判断することができる。
【0040】
情報提供部22は、判断部20によって分類された第1タイプの主題語と第2タイプの主題語を、該当の主題語が含まれた内容と一緒に各タイプ別に使用者に提供する。このとき、第1タイプに分類された主題語は、第1タイプ同士のグルーピングによって使用者に提供され、第2タイプに分類された主題語は、第2タイプ同士のグルーピングによって使用者に提供される。一実施例において、情報提供部22は、該当の主題語が含まれた内容として、該当の主題語が含まれたアンカーテキストを提供できるが、使用者は、これを通して該当のアンカーテキストをクリックすることで、該当のアンカーテキストとリンクされたウェブページを閲覧できるようになる。
【0041】
一方、情報提供部22は、第1タイプまたは第2タイプの主題語を使用者に提供する場合において、各主題別にディレクトリを生成し、第1タイプまたは第2タイプの主題語が属する主題のディレクトリに該当の主題語を羅列する方法で最新情報を提供することができる。例えば、第1タイプまたは第2タイプの主題語が映画と関連したものである場合、まず、各主題別にディレクトリを生成した後、第1タイプまたは第2タイプの主題語を生成されたディレクトリのうち、映画領域に主題語形式で羅列する。変形された実施例においては、別途のディレクトリを生成せずに、各ポータルサイトで提供されるディレクトリのうち該当の主題語が属する領域に第1タイプまたは第2タイプの主題語を含ませて、これを使用者に提供することもできる。
【0042】
他の実施例においては、検索結果を通して第1タイプまたは第2タイプの主題語を提供することもできる。例えば、検索質疑語として第1タイプの主題語が入力される場合、第1タイプの主題語と一緒に保存されているアンカーテキストを検索結果として使用者に提供する。
【0043】
以下、図4を参照して、本発明の一実施例に係る最新情報提供方法に対して説明する。図4は、本発明の一実施例に係る最新情報提供方法を示したフローチャートである。
【0044】
図4に示すように、まず、特定の主題に対するウェブサイトリストに含まれた各ウェブサイトから所定のウェブページを抽出して保存する(第100段階)。このとき、各主題別ウェブサイトリストは、各種のポータルサイトが提供しているディレクトリ情報から抽出される。一実施例において、各主題別ウェブサイトリストに含まれた各ウェブサイトからウェブページを抽出する場合において、各ウェブサイトの最初のウェブページを抽出することができる。これは、各ウェブサイトの最初のウェブページに新規情報やコンテンツのアップデート情報が含まれている場合が多いためである。変形された実施例においては、ウェブサイトの最初のウェブページのみならず、新規情報を提供するウェブページを抽出することもできる。
【0045】
次に、抽出されたウェブページから一つ以上の主題語を抽出して保存する(第110段階)。一実施例において、ウェブページから主題語を抽出するにおいて、各ウェブページに含まれたアンカーテキストから主題語を抽出することができる。このために、まず、各ウェブページから全てのアンカーテキストを抽出し、抽出された全てのアンカーテキストから各主題語を抽出する。
【0046】
ウェブページのアンカーテキストから主題語を抽出するにおいて、アンカーテキストに含まれた名詞または複合名詞を主題語として抽出することができる。このとき、アンカーテキストに含まれた名詞や複合名詞は、全てが主題語として抽出可能であるが、抽出された名詞や複合名詞のうち該当の名詞や複合名詞からなるアンカーテキストが該当のウェブページまたは他のウェブページに存在しないときには、主題語から除外することができる。
【0047】
上記のような過程を通して抽出された主題語は、該当の主題語が含まれたアンカーテキスト、該当のアンカーテキストとリンクされたURLアドレスと一緒に保存される。
【0048】
その後、抽出された主題語の出現回数をカウンティング(集計)し、その結果を各主題語別に保存し(第130段階)、上述した第100段階乃至第130段階を所定周期ごとに反復する(第140段階)。例えば、所定周期が一日単位である場合、ウェブサイトリストから所定のウェブページを抽出し、抽出されたウェブページから主題語を抽出し、抽出された主題語の出現回数をカウンティングする過程を毎日反復的に行う。
【0049】
次に、抽出された主題語の出現回数を所定周期ごとに比較し、各主題語の出現回数の変化量を判断する(第150段階)。一実施例において、各主題語の出現回数の変化量は、1日、7日または10日を周期にして判断することができる。
【0050】
判断結果、出現回数の変化量が第1基準値以上である場合、該当の主題語を第1タイプの主題語に分類する(第160段階)。出現回数の変化量が第1基準値以上であることは、以前の出現回数に比べて最近の出現回数が増加または減少したことを意味し、出現回数が増加したことは、最近、多くのウェブサイトが該当の主題語と関連した内容を含んでいることを意味するので、このような主題語は、最新情報を示すものと判断することができる。
【0051】
また、出現回数が減少したことは、以前までは多くのウェブサイトで取り扱っていた主題語であるが、最近、その内容が著しく減少したことを意味し、これ以上人々から関心を得られないので、このような主題語はもはや最新情報でないと判断し、該当の主題語が最新情報として登録されている場合、それを削除することができる。
【0052】
一方、第150段階での判断結果、出現回数の変化量が第2基準値以上、第3基準値未満である場合、該当の主題語を第2タイプの主題語に分類する(第170段階)。このようなタイプに該当する主題語は、新しい情報ではあるものの、出現回数の変化量が多くなく、社会的に関心が寄せられている主題語でないと判断することができる。
【0053】
最後に、第1タイプの主題語または第2タイプの主題語を、該当の主題語が含まれた内容と一緒に各タイプ別に使用者のユーザ端末装置に提供する(第180段階)。具体的に、第1タイプに分類された主題語は、第1タイプ同士のグルーピングによって使用者に提供され、第2タイプに分類された主題語は、第2タイプ同士のグルーピングによって使用者に提供される。使用者のユーザ端末装置に提供される主題語等は、ブラウザ等の情報閲覧プログラムを通じてユーザ端末装置の表示装置に表示される。
【0054】
このとき、該当の主題語が含まれた内容としては、該当の主題語を含んでいるアンカーテキストを提供することができる。使用者は、これを通して該当のアンカーテキストをクリックすることで、該当のアンカーテキストとリンクされたウェブページを閲覧することができる。
【0055】
一実施例において、第1タイプまたは第2タイプの主題語を使用者に提供するにおいて、各主題別にディレクトリを生成し、第1タイプまたは第2タイプの主題語が属する主題のディレクトリに第1タイプまたは第2タイプの主題語を羅列して提供したり、検索結果を通して第1タイプまたは第2タイプの主題語を含むアンカーテキストを提供することができる。
【0056】
上述した最新情報提供方法は、多様なコンピュータ装置を用いて実行されるプログラムの形態で具現化することが可能であり、このとき、最新情報提供方法を行うためのプログラムは、ハードディスク、CD-ROM、DVD、ROM、RAMまたはフラッシュメモリなどのコンピュータ読取り可能な記録媒体に保存される。また、当該プログラムがインストールされたコンピュータ装置は、本発明の最新情報提供方法を遂行するコンピュータ装置として動作することが可能である。例えば、不図示の補助記憶装置に当該プログラムが格納され、CPU等の制御部が補助記憶装置に格納されたプログラムを主記憶装置に読み出し、主記憶装置に読み出された該プログラムを制御部が実行し、コンピュータに本発明の最新情報提供方法を動作させることができる。
【0057】
本発明の属する技術分野における通常の知識を有する者であれば、本発明がその技術的思想や必須的な特徴を変更せずに他の具体的な形態によって実施できることを理解することができる。
【0058】
したがって、以上説明した各実施例は、全ての面で例示的なものであり、限定的なものでないことを理解すべきである。本発明の技術的範囲は、上述した詳細な説明より特許請求の範囲によって示されており、特許請求の範囲の意味、範囲及びその均等の概念から導出される全ての変更または変形形態は、本発明の技術的範囲に含まれるものと解されるべきである。
【符号の説明】
【0059】
10 最新情報提供システム
12 ウェブページ抽出部
14 ウェブページ保存部
16 主題語抽出部
18 カウンター
20 主題語保存部
22 判断部
24 情報提供部

【特許請求の範囲】
【請求項1】
コンピュータ装置が、所定周期ごとに、所定の主題に対するウェブサイトリストに含まれるウェブサイトからウェブページを抽出し、前記抽出されたウェブページから主題語を抽出し、前記抽出された主題語の出現回数をカウンティングし、
前記コンピュータ装置が、前記主題語のうち前記カウンティングされた出現回数の変化量が基準値以上である主題語を選定し、
前記コンピュータ装置が、前記抽出されたウェブページのうち、前記選定された主題語が含まれたウェブページを前記選定された主題語とともに使用者に提供することを含む最新情報提供方法。

【図1】
image rotate

【図2A】
image rotate

【図2B】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2011−118946(P2011−118946A)
【公開日】平成23年6月16日(2011.6.16)
【国際特許分類】
【出願番号】特願2011−55193(P2011−55193)
【出願日】平成23年3月14日(2011.3.14)
【分割の表示】特願2008−218391(P2008−218391)の分割
【原出願日】平成20年8月27日(2008.8.27)
【出願人】(505205812)エヌエイチエヌ コーポレーション (408)
【Fターム(参考)】