急上昇ワード抽出装置及び方法

【課題】本発明は、検索クエリの入力件数とは別に、かつ直接的にＷｅｂコンテンツにおける急上昇ワードを抽出することができる急上昇ワード抽出装置及び方法を提供すること。
【解決手段】急上昇ワード抽出装置（１０）は、インターネット（３０）上のＷｅｂサイトを所定の周期で巡回し、新規のコンテンツを取得して当該新規のコンテンツのＵＲＬに関連付けてこれを記憶すると共に、これまでに取得していた同じＵＲＬの既存コンテンツと対比して、新規のコンテンツにおいて新たに追加された、既存コンテンツとの差分である差分コンテンツを抽出し、記憶する。さらに、急上昇ワード抽出装置（１０）は、差分コンテンツに含まれるワードの種類毎に当該ワードが含まれる差分コンテンツのＵＲＬの数を集計し、当該ＵＲＬの数が、所定の基準数を超えたワードを急上昇ワードとして抽出する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、インターネット上で出現頻度が急上昇しているワードを抽出する急上昇ワード抽出装置及び方法に関する。
【背景技術】
【０００２】
インターネット上の情報を検索する検索エンジンでは、クエリの入力を受け付けると、入力されたクエリと一致するキーワードを含むＷｅｂサイトを検索し、検索結果として表示する。また、検索エンジンを提供する検索システムは、入力されたクエリを時刻情報と共に蓄積しておき、所定期間に頻繁に使用されたクエリを、そのときに社会で注目されている事柄に関連するキーワードとして特定することができる。そして、所定期間に頻繁に入力されたクエリを使用してＷｅｂページを検索をすることで、ユーザは、現在注目されている事項に関する情報を容易に得ることが可能となる（例えば、特許文献１）。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特開２００５−９９９６４号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
特許文献１には、検索に使用された頻度の高いキーワードと、ユーザにより入力されたカテゴリの情報に基づいて、人気のあるカテゴリやカテゴリに含まれる情報に簡単にアクセスすることができる装置が開示されている。しかし、使用頻度の高い検索キーワードのみでは、実際にインターネット上でどの程度そのキーワードが出現しているかを知ることはできない。
【０００５】
ところで、注目度が上昇しているワードについては、インターネット上でそのワードを取り上げるコンテンツも多くなることが予想されるため、インターネット上で、当該ワードを含むコンテンツの出現頻度の上昇率が高いほど、より注目度が上昇しているワードであると予想される。したがって、入力頻度の高いクエリに着目した技術とは別に、インターネット上のコンテンツの出現頻度の上昇率に基づいて注目度が上昇しているワードを抽出する装置が求められている。
【０００６】
本発明は、インターネット上で注目度が上昇している急上昇ワードを抽出する急上昇ワード抽出装置及び方法を提供することを目的とする。
【課題を解決するための手段】
【０００７】
（１）インターネット上で注目度が上昇している急上昇ワードを抽出する急上昇ワード抽出装置であって、前記インターネット上のＷｅｂサイトを所定の周期で巡回して新規のコンテンツを取得するＷｅｂクロール手段と、前記Ｗｅｂクロール手段が取得した新規のコンテンツを当該新規のコンテンツのＵＲＬに関連付けて記憶する新規コンテンツ記憶手段と、前記Ｗｅｂクロール手段が前回の巡回までに取得した既存のコンテンツを当該既存のコンテンツのＵＲＬに関連付けて記憶している既存コンテンツ記憶手段と、前記新規コンテンツ記憶手段が記憶した新規のコンテンツを、前記既存コンテンツ記憶手段が記憶している既存のコンテンツであって、当該新規のコンテンツと同じＵＲＬの既存コンテンツと比較して、当該新規のコンテンツにおいて新たに追加された差分コンテンツを抽出する差分コンテンツ抽出手段と、前記差分コンテンツ抽出手段が抽出した差分コンテンツを、当該差分コンテンツのＵＲＬに関連付けて記憶する差分コンテンツ記憶手段と、前記差分コンテンツ記憶手段が記憶した差分コンテンツに含まれるワードの種類毎に、当該ワードが含まれる前記差分コンテンツのＵＲＬの数を集計し、前記ＵＲＬの数が所定の基準数を超えたワードを急上昇ワードとして抽出する急上昇ワード抽出手段と、を備える急上昇ワード抽出装置。
【０００８】
（１）の急上昇ワード抽出装置は、インターネット上のＷｅｂサイトを所定の周期で巡回し、新規のコンテンツを取得して当該新規のコンテンツのＵＲＬに関連付けてこれを記憶すると共に、これまでに取得していた同じＵＲＬの既存コンテンツと対比して、新規のコンテンツにおいて新たに追加された、既存コンテンツとの差分である差分コンテンツを抽出し、記憶する。さらに、急上昇ワード抽出装置は、差分コンテンツに含まれるワードの種類毎に当該ワードが含まれる差分コンテンツのＵＲＬの数を集計し、当該ＵＲＬの数が、所定の基準数を超えたワードを急上昇ワードとして抽出する。
インターネット上のＷｅｂサイトに含まれるコンテンツに使用されたワードの数を単純に数えるのではなく、当該ワードが登場したＵＲＬの数を数えることができるため、話題として取り上げた情報源の数を元にして注目度の高いキーワードが何かを判別し、抽出することができる。また、例えば、１つのＷｅｂページ内に同一のワードが脈絡無く多数登場するようなものであってもその影響を最小限にして注目度の高いキーワードを抽出することができる。
【０００９】
（２）前記Ｗｅｂクロール手段が新規のコンテンツを取得して前記新規コンテンツ記憶手段が新規のコンテンツを記憶する毎に、前記差分コンテンツ抽出手段及び前記差分コンテンツ記憶手段の処理を繰り返す繰り返し手段をさらに備え、前記急上昇ワード抽出手段は、所定期間において取得した複数の差分コンテンツに含まれるワードの種類の中から、前記ＵＲＬの数が前記所定の基準数を超えた回数が所定の基準回数を超えたものを特定して、前記急上昇ワードとして抽出する（１）に記載の急上昇ワード抽出装置。
【００１０】
（２）の急上昇ワード抽出装置は、（１）の急上昇ワード抽出装置に加えて、Ｗｅｂクロール手段が新規のコンテンツを取得して当該新規のコンテンツを記憶する毎に、差分コンテンツを抽出して記憶する処理を繰り返し、所定期間内において差分コンテンツに含まれるワードの種類の中からＵＲＬの数が所定の基準数を超えた回数が所定の基準回数を超えたものを急上昇ワードとして抽出する。これにより、所定期間において、複数回にわたって所定の基準数を超えたワードを急上昇ワードとして抽出することができる。このため、例えば所定の基準回数を１より大きいものとした場合、１回だけ所定の基準数を超えたようなワードを除外することができる。
【００１１】
（３）前記急上昇ワード抽出手段は、前記ＵＲＬの数を、前記ＵＲＬが示すドメイン又は所定のサブドメイン毎に集計し、前記ＵＲＬの数が所定の基準数を超えたワードを、当該ドメイン又は所定のサブドメイン毎の急上昇ワードとして抽出する（１）又は（２）に記載の急上昇ワード抽出装置。
【００１２】
（３）の急上昇ワード抽出装置は、（１）又は（２）の急上昇ワード抽出装置に加えて、差分コンテンツ記憶手段が記憶した差分コンテンツのＵＲＬの数を、当該ＵＲＬが示すドメイン又は所定のサブドメイン毎に集計し、ドメイン又は所定のサブドメイン毎に集計したＵＲＬの数が所定の基準数を超えたワードを、当該ドメイン又は所定のサブドメインの急上昇ワードとして抽出する。
これにより、ドメイン又は所定のサブドメイン内のコンテンツにおいて、中心として取り上げられているトピックを示すキーワードを抽出することができるので、急上昇ワード自体をそれぞれのドメイン又はサブドメインを分類するキーとしても使用することが可能となる。
【００１３】
（４）インターネット上で注目度が上昇している急上昇ワードを抽出する急上昇ワード抽出方法であって、コンピュータは、記憶手段を備え、コンピュータに、前記インターネット上のＷｅｂサイトを所定の周期で巡回して新規のコンテンツを取得するＷｅｂクロールステップと、前記Ｗｅｂクロール手段が取得した新規のコンテンツを当該新規のコンテンツのＵＲＬに関連付けて前記記憶手段に記憶させる新規コンテンツ記憶ステップと、前記Ｗｅｂクロール手段が前回の巡回までに取得した既存のコンテンツを当該既存のコンテンツのＵＲＬに関連付けて前記記憶手段に記憶させる既存コンテンツ記憶ステップと、前記新規コンテンツ記憶ステップで前記記憶手段に記憶させた新規のコンテンツを、前記記憶手段が記憶している既存のコンテンツであって、当該新規のコンテンツと同じＵＲＬのコンテンツとを比較して、当該新規のコンテンツにおいて新たに追加された差分コンテンツを抽出する差分コンテンツ抽出ステップと、前記差分コンテンツ抽出ステップにおいて抽出された差分コンテンツを、当該差分コンテンツのＵＲＬに関連付けて前記記憶手段に記憶させる差分コンテンツ記憶ステップと、前記差分コンテンツ記憶ステップで記憶手段に記憶させた差分コンテンツに含まれるワードの種類毎に、当該ワードが含まれる前記差分コンテンツのＵＲＬの数を集計し、前記ＵＲＬの数が所定の基準数を超えたワードを急上昇ワードとして抽出する急上昇ワード抽出ステップと、を実行させる急上昇ワード抽出方法。
【００１４】
（４）の急上昇ワード抽出方法は、（１）の急上昇ワード抽出装置と同様の効果を奏することができる。
【発明の効果】
【００１５】
本発明によれば、インターネット上で注目度が上昇している急上昇ワードを抽出する急上昇ワード抽出装置及び方法を提供することができる。
【図面の簡単な説明】
【００１６】
【図１】本発明の一実施形態に係る急上昇ワード抽出装置の機能ブロック示す図である。
【図２】本発明の一実施形態に係る急上昇ワード抽出装置の既存ＷｅｂコンテンツＤＢに格納されているテーブルの一例である。
【図３】本発明の一実施形態に係る急上昇ワード抽出装置の差分Ｗｅｂコンテンツ・アーカイブに格納されているテーブルの一例である。
【図４】本発明の一実施形態に係る急上昇ワード抽出装置の急上昇ワードＤＢに格納されているテーブルの一例である。
【図５】本発明の一実施形態に係る急上昇ワード抽出装置が行う急上昇ワードの抽出を説明するための概念図である。
【図６】本発明の一実施形態に係る急上昇ワード抽出装置が行う処理のフローチャートである。
【図７】本発明の一実施形態に係る急上昇ワード抽出装置が行う処理のフローチャートである。
【図８】本発明の第２実施形態に係る急上昇ワード抽出装置が行う処理のフローチャートである。
【図９】本発明の第３実施形態に係る急上昇ワード抽出装置が行う処理のフローチャートである。
【発明を実施するための形態】
【００１７】
以下、本発明の実施形態について図面を参照して説明する。なお、以下に説明する実施形態は、あくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
【００１８】
図１から図４を参照して、本発明の一実施形態に係る急上昇ワード抽出装置１０について説明する。
【００１９】
図１を参照して、本発明の一実施形態に係る急上昇ワード抽出装置１０について説明する。図１は、急上昇ワード抽出装置１０の機能ブロックを示す図である。
【００２０】
本実施形態は、コンピュータ（急上昇ワード抽出装置１０）及びその周辺装置に適用される。本実施形態における各部は、コンピュータ及びその周辺装置が備えるハードウェア並びにこのハードウェアを制御するソフトウェアによって構成される。また、急上昇ワード抽出装置１０は、通信ネットワークとしてのインターネット３０に接続している各種サーバ（図示せず）に接続し、互いに通信を行う。
【００２１】
上記ハードウェアには、制御部としてのＣＰＵの他、記憶部、通信部、表示部及び入力部が含まれる。記憶部としては、例えば、メモリ（ＲＡＭ、ＲＯＭ等）、ハードディスクドライブ（ＨＤＤ）及び光ディスク（ＣＤ、ＤＶＤ等）ドライブが挙げられる。通信部としては、例えば、各種有線及び無線インターフェース装置が挙げられる。表示部としては、例えば、液晶ディスプレイ、プラズマディスプレイ等の各種ディスプレイが挙げられる。入力部としては、例えば、キーボード及びポインティング・デバイス（マウス、トラッキングボール等）が挙げられる。
【００２２】
上記ソフトウェアには、上記ハードウェアを制御するコンピュータ・プログラムやデータが含まれる。コンピュータ・プログラムやデータは、記憶部により記憶され、制御部により適宜実行、参照される。また、コンピュータ・プログラムやデータは、通信ネットワークを介して配布することも可能であり、ＣＤ−ＲＯＭ等のコンピュータ可読媒体に記憶して配布することも可能である。
【００２３】
以下、急上昇ワード抽出装置１０の機能構成について説明する。
急上昇ワード抽出装置１０は、急上昇ワード抽出装置１０に係る各機能を統括的に制御する制御部１１と、本発明の機能を実行するプログラム（図示省略）等を記憶する記憶部１２と、を少なくとも有する。
【００２４】
制御部１１は、ＣＰＵ等により構成されており、急上昇ワード抽出装置１０の各処理動作の制御や情報の通信制御を行う。この制御部１１は、Ｗｅｂクロール手段１１１と、差分コンテンツ抽出手段１１２と、急上昇ワード抽出手段１１３と、を備える。詳細は後述する。
【００２５】
記憶部１２は、上述の各種プログラムの他に、新規コンテンツ記憶手段としての新規Ｗｅｂコンテンツ・アーカイブ１２１と、既存コンテンツ記憶手段としての既存Ｗｅｂコンテンツ・データベース（以下、データベースをＤＢと表記する。）１２２と、差分コンテンツ記憶手段としての差分Ｗｅｂコンテンツ・アーカイブ１２３と、急上昇ワードＤＢ１２４と、を備える。詳細は後述する。
【００２６】
制御部１１のＷｅｂクロール手段１１１は、インターネット３０上に公開されているＷｅｂページ３１を巡回し、接続したＷｅｂページ３１のＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｒｃｅＬｏｃａｔｅｒ）と、当該Ｗｅｂページ３１のデータ（コンテンツ）とを取得する。そして、Ｗｅｂクロール手段１１１は、インターネット３０から取得したＷｅｂページ３１のデータ（コンテンツ）を記憶部１２の新規Ｗｅｂコンテンツ・アーカイブ１２１に記憶させる。
ここで、Ｗｅｂクロール手段１１１が取得するＷｅｂページ３１は、所定の内容により構成されるＷｅｂページであり、いわゆるニュース等の何らかの情報を提供するサイトのページに限らず、掲示板、ブログやショートブログメッセージを表示するＷｅｂページも含む。
【００２７】
ここで、新規Ｗｅｂコンテンツ・アーカイブ１２１には、Ｗｅｂクロール手段１１１が取得したＷｅｂページのデータ（コンテンツ）が当該ＷｅｂページのＵＲＬと共に記憶されている。
【００２８】
差分コンテンツ抽出手段１１２は、新規Ｗｅｂコンテンツ・アーカイブ１２１と既存ＷｅｂコンテンツＤＢ１２２とを参照して、新規Ｗｅｂコンテンツ・アーカイブ１２１に格納されたＷｅｂページのデータ（以下、新規コンテンツという）と、当該Ｗｅｂページと同じＵＲＬの既存ＷｅｂコンテンツＤＢ１２２に格納されているＷｅｂページのデータ（以下、既存コンテンツという）とを対比し、その差分（以下、抽出された差分のデータを差分コンテンツという）を抽出する。そして、差分コンテンツ抽出手段１１２は、抽出した差分コンテンツを差分Ｗｅｂコンテンツ・アーカイブ１２３にＵＲＬと共に記憶させる。
【００２９】
ここで、既存ＷｅｂコンテンツＤＢ１２２について説明する。既存ＷｅｂコンテンツＤＢ１２２は、既存コンテンツがＵＲＬと共に格納されている。例えば、図２に示すテーブル１２２１のように、ＵＲＬと既存コンテンツとがそれぞれ互いに関連付けられて記憶される。
【００３０】
この既存コンテンツは、Ｗｅｂクロール手段１１１が取得したＷｅｂページのデータが順次格納される。既存ＷｅｂコンテンツＤＢ１２２には、Ｗｅｂクロール手段１１１とは別に異なるクロール手段により取得したデータが格納されていてもよい。
【００３１】
また、差分Ｗｅｂコンテンツ・アーカイブ１２３は、図３のテーブル１２３１に示すように、差分コンテンツ抽出手段１１２により抽出された差分コンテンツをＵＲＬ及び日時の情報と共に記憶する。このＵＲＬは、差分コンテンツが含まれるＷｅｂページのＵＲＬである。また、日時の情報は、例えば、Ｗｅｂクロール手段１１１が当該ＵＲＬのＷｅｂページのデータを取得した日時である。
【００３２】
急上昇ワード抽出手段１１３は、差分Ｗｅｂコンテンツ・アーカイブ１２３を参照し、個々の差分コンテンツに含まれる追加差分ワードを抽出し、その数を集計して、所定の基準数を超えたワードを急上昇ワードＤＢ１２４に記憶させる。追加差分ワードは、差分コンテンツに含まれるワードの種類単位で抽出したワードをいう。このワードは、本実施形態においては、コンテンツに含まれるひとまとまりの単語をいい、１つのコンテンツにおいて同じワードが重複しないものであり、ワードの種類毎に抽出される。例えば、１つのコンテンツ内で複数回同じワードが登場したとしても、複数回登場したワードの個数を数えるのではなく、一度、１つのコンテンツ内で登場したワードは、そのコンテンツにおいて何回登場しようともそのワードは１つとして数える。以下、この抽出したワードを追加差分ワードという。
【００３３】
なお、追加差分ワードの抽出については、例えば、形態素解析によりコンテンツに含まれる文章を形態素ごとに細分化し、これを品詞別に集計して形容詞や名詞等の所定の品詞に関して追加差分ワードとして抽出することができる。その他既存の技術を採用することが可能である。
【００３４】
そして急上昇ワード抽出手段１１３は、抽出した追加差分ワードが含まれる差分コンテンツのＵＲＬの数を集計し、集計値が所定の基準数を超えたか否かを判別する。急上昇ワード抽出手段１１３は、所定の基準数を超えた場合、これを急上昇ワードとして、急上昇ワードＤＢ１２４に記憶させる。若しくは、所定の品詞についてＴＦ−ｉｄｆ（ｔｅｒｍｆｒｅｑｕｅｎｃｙ−ｉｎｖｅｒｓｅｄｏｃｕｍｅｎｔｆｒｅｑｕｅｎｃｙ）法により算出した重要度の高い単語を急上昇ワードして抽出をしてもよい。
【００３５】
ここで、図４を参照して急上昇ワードＤＢ１２４について説明する。図４は、急上昇ワードＤＢ１２４が記憶するテーブル１２４１の例である。急上昇ワードＤＢ１２４は、急上昇ワードと日時の情報を少なくとも記憶する。急上昇ワードの欄には、急上昇ワード抽出手段１１３が抽出した急上昇ワード、すなわち、追加差分ワードのうち、当該追加差分ワードが含まれる差分コンテンツのＵＲＬの数が所定の基準数を超えたものが格納される。また、日時の欄には、Ｗｅｂクロール手段１１１が当該ＵＲＬのＷｅｂページのデータを取得した日時の情報が格納される。
【００３６】
図５を参照して、急上昇ワードの抽出について詳細に説明する。図５は、急上昇ワード抽出装置１０が行う急上昇ワードの抽出を説明するための概念図である。
【００３７】
まず、所定のＷｅｂページ３２において、コンテンツ３２１とコンテンツ３２２とが存在し、既存ＷｅｂコンテンツＤＢ１２２に記憶されているものとする（図５のＷｅｂページ（１）参照）。このコンテンツ３２１及びコンテンツ３２２が既存コンテンツとなる。
【００３８】
次に、Ｗｅｂクロール手段１１１がＷｅｂページ３２のＵＲＬに再度接続して、Ｗｅｂページ３２の新規のコンテンツを取得したとする（図５のＷｅｂページ（２）参照）。このＷｅｂクロール手段１１１が新たに取得した新規コンテンツは、当該Ｗｅｂページ３２のＵＲＬと共に新規Ｗｅｂコンテンツ・アーカイブ１２１に記憶される。
【００３９】
次に差分コンテンツ抽出手段１１２は、同じＵＲＬの新規Ｗｅｂコンテンツ・アーカイブ１２１に格納された新規コンテンツと、既存ＷｅｂコンテンツＤＢ１２２に格納された既存コンテンツとをそれぞれ読み出して対比し、その差分を抽出する。図５によると、既存コンテンツ３２１が削除され、もう一つの既存コンテンツ３２２がそのまま残されている。また、新たにコンテンツ３２３が追加されている。
差分コンテンツ抽出手段１１２は、この新たに追加されたコンテンツ３２３を差分コンテンツとして差分Ｗｅｂコンテンツ・アーカイブ１２３に記憶させる。
【００４０】
次に、急上昇ワード抽出手段１１３は、差分Ｗｅｂコンテンツ・アーカイブ１２３を参照して、追加差分ワードを抽出する。図５の例でいうと、既存のコンテンツ３２１，３２２と新規のコンテンツ３２３とを対比したとき、新たに登場したワードは、「まみむ」（図５のワード４１）、「めも」（図５のワード４２）及び「やゆよ」（図５のワード４３）である。したがって、差分コンテンツ抽出手段１１２はこの３つのワードを追加差分ワードとして抽出する。なお、新規のコンテンツ３２３をみると、「まみむ」が２回登場しているが、これを２つのワードとしてワード数を２として抽出するのではなく、１種類のワードとして抽出する。
【００４１】
そして、急上昇ワード抽出手段１１３は、差分Ｗｅｂコンテンツ・アーカイブを参照し、抽出した追加差分ワードのそれぞれについて、追加差分ワードが含まれる差分コンテンツの数、すなわち、追加差分ワードが含まれる差分コンテンツのＵＲＬの数を集計し、その集計値が所定の基準数を超えるか否かを判別する。急上昇ワード抽出手段１１３は、集計値が基準数を超える場合、集計値が基準数を超えた追加差分ワードを急上昇ワードとして急上昇ワードＤＢ１２４に記憶させる。
【００４２】
その後、さらにＷｅｂクロール手段１１１がＷｅｂページ３２のＵＲＬに再度接続して、Ｗｅｂページ３２のデータを新たに取得したとする（図５のＷｅｂページ（３）参照）。このＷｅｂクロール手段１１１が新たに取得したＷｅｂページ３２のデータも新規コンテンツとして当該Ｗｅｂページ３２のＵＲＬと共に新規Ｗｅｂコンテンツ・アーカイブ１２１に格納される。
【００４３】
次に差分コンテンツ抽出手段１１２が差分コンテンツを抽出するが、対比する対象は、前回新規コンテンツとして対比したときのＷｅｂページ３２のコンテンツと、今回新たに取得した新規コンテンツとなる。図５によると、コンテンツ３２２の一部が削除されており、コンテンツ３２３がそのまま残され、新たにコンテンツ３２４が追加されている。
差分コンテンツ抽出手段１１２は、この新たに追加されたコンテンツ３２４を差分コンテンツとして差分Ｗｅｂコンテンツ・アーカイブ１２３に記憶させる。
【００４４】
次に、急上昇ワード抽出手段１１３は、上記と同様に、差分Ｗｅｂコンテンツ・アーカイブ１２３を参照して、追加差分ワードを抽出する。図５の例でいうと、既存のコンテンツ３２２，３２３と新規のコンテンツ３２４とを対比したとき、新たに登場したワードは、「らりるれろ」（図５のワード５１）、「わを」（図５のワード５２）である。したがって、差分コンテンツ抽出手段１１２はこの２つのワードを追加差分ワードとして抽出する。
【００４５】
そして、急上昇ワード抽出手段１１３は、Ｗｅｂページ（２）のときと同様に、抽出した追加差分ワードのそれぞれについて、追加差分ワードが含まれる差分コンテンツのＵＲＬの数を集計し、その集計値が所定の基準数を超えるか否かを判別する。急上昇ワード抽出手段１１３は、集計値が基準数を超える場合、集計値が基準数を超えた追加差分ワードを急上昇ワードとして急上昇ワードＤＢ１２４に記憶させる。
【００４６】
図６及び図７を参照して急上昇ワード抽出装置１０が行う処理の流れについて説明する。図６及び図７は、急上昇ワード抽出装置１０が行う処理のフローチャートである。
【００４７】
図６のステップＳ１１では、急上昇ワード抽出装置１０のＷｅｂクロール手段１１１は、インターネット３０からＷｅｂページのデータ（コンテンツ）を取得する。
【００４８】
ステップＳ１２では、急上昇ワード抽出装置１０のＷｅｂクロール手段１１１は、ステップＳ１１で取得したコンテンツを新規コンテンツとして新規Ｗｅｂコンテンツ・アーカイブ１２１に記憶させる。
【００４９】
ステップＳ１３では、急上昇ワード抽出装置１０の差分コンテンツ抽出手段１１２は、同じＵＲＬの新規Ｗｅｂコンテンツ・アーカイブ１２１の新規コンテンツと既存ＷｅｂコンテンツＤＢ１２２の既存コンテンツとを対比して、差分コンテンツを抽出する。
【００５０】
ステップＳ１４では、急上昇ワード抽出装置１０の差分コンテンツ抽出手段１１２は、ステップＳ１３で抽出した差分コンテンツを差分Ｗｅｂコンテンツ・アーカイブ１２３に記憶させる。そして、急上昇ワード抽出装置１０のＷｅｂクロール手段１１１及び差分コンテンツ抽出手段１１２は、これらの処理を繰り返し行う。
【００５１】
図７のステップＳ２１では、急上昇ワード抽出装置１０の急上昇ワード抽出手段１１３は、差分Ｗｅｂコンテンツ・アーカイブ１２３から追加差分ワードを抽出する。
【００５２】
ステップＳ２２では、急上昇ワード抽出手段１１３は、同じ追加差分ワードの差分コンテンツのＵＲＬの数を集計する。
【００５３】
ステップＳ２３では、急上昇ワード抽出手段１１３は、集計したＵＲＬ数が基準数を超えたか否かを判別する。急上昇ワード抽出手段１１３は、当該判別がＹＥＳの場合、ステップＳ２４に処理を移し、当該判別がＮＯの場合は、本フローチャートの処理を終了する。
【００５４】
ステップＳ２４では、急上昇ワード抽出手段１１３は、所定の基準数を超えた追加差分ワードを急上昇ワードとして急上昇ワードＤＢ１２４に記憶させ、本フローチャートの処理を終了する。
【００５５】
図８を参照して第２実施形態について説明する。第２実施形態は、急上昇ワードの抽出方法が第１実施形態と異なる。図８は、第２実施形態における急上昇ワード抽出装置１０が行う処理のフローチャートである。なお、以下では、第１実施形態と異なる部分を中心に説明し、特に説明しない部分は第１実施形態と同様である。
【００５６】
急上昇ワード抽出装置１０の制御部１１は、Ｗｅｂクロール手段１１１が新規のコンテンツを取得して新規Ｗｅｂコンテンツ・アーカイブに当該新規のコンテンツを記憶させる毎に、差分コンテンツ抽出手段１１２が差分コンテンツを抽出し、差分Ｗｅｂコンテンツ・アーカイブ１２３に差分コンテンツを記憶させる処理を繰り返す繰り返し手段として機能する。
【００５７】
急上昇ワード抽出手段１１３は、差分Ｗｅｂコンテンツ・アーカイブ１２３に記憶された差分コンテンツから、追加差分ワードを抽出し、抽出した追加差分ワードのうち、追加差分ワードを含む差分コンテンツのＵＲＬの数が所定の基準数を超えたものを第１急上昇ワードとして抽出し、急上昇ワードＤＢ１２４に記憶させる。さらに、急上昇ワード抽出手段１１３は、急上昇ワードＤＢ１２４に記憶させた第１急上昇ワードのうち、所定期間において第１急上昇ワードとして抽出された回数が所定の基準回数を超えたものを第２急上昇ワードとして抽出する。
なお、基準回数は、少なくとも、１より大きい値であることが好ましい。これにより、新規コンテンツに登場した数が基準数より大きくなった回数が複数回以上のものを抽出することができる。このため、所定期間内において、継続して注目されている話題（トピック）を示すキーワードを抽出することが可能となる。
【００５８】
図８を参照して急上昇ワード抽出装置１０の急上昇ワード抽出手段１１３で行う処理について説明する。図８の処理は、第１実施形態の図７において、急上昇ワードを抽出し、急上昇ワードＤＢ１２４に記憶したことを前提に行われる処理である。図７の処理において抽出された急上昇ワードが本実施形態における第１急上昇ワードとなる。
【００５９】
ステップＳ３１では、急上昇ワード抽出装置１０の急上昇ワード抽出手段１１３は、急上昇ワードＤＢ１２４から、所定期間内に記憶された第１急上昇ワードを読み出す。
【００６０】
ステップＳ３２では、急上昇ワード抽出手段１１３は、第１急上昇ワードが、当該所定期間内に抽出された回数を第１急上昇ワード毎に集計する。
【００６１】
ステップＳ３３では、急上昇ワード抽出手段１１３は、第１急上昇ワードが集計された回数が基準回数を超えたか否かを判別する。急上昇ワード抽出手段１１３は、当該判別がＹＥＳの場合、ステップＳ３４に処理を移し、当該判別がＮＯの場合は、本フローチャートの処理を終了する。
【００６２】
ステップＳ３４では、急上昇ワード抽出手段１１３は、所定の基準回数を超えた第１急上昇ワードを第２急上昇ワードとして急上昇ワードＤＢ１２４に記憶させ、本フローチャートの処理を終了する。
【００６３】
図９を参照して第３実施形態について説明する。第３実施形態は、急上昇ワードの抽出方法が第１実施形態及び第２実施形態と異なる。図９は、第３実施形態における急上昇ワード抽出装置１０が行う処理のフローチャートである。なお、以下では、第１実施形態及び第２実施形態と異なる部分を中心に説明し、特に説明しない部分は第１実施形態及び第２実施形態と同様である。
【００６４】
急上昇ワード抽出装置１０の急上昇ワード抽出手段１１３は、差分Ｗｅｂコンテンツ・アーカイブ１２３が記憶した差分コンテンツのＵＲＬの数を、当該ＵＲＬが示すドメイン又は所定のサブドメイン毎に集計し、ドメイン又は所定のサブドメイン毎に集計したＵＲＬの数が所定の基準数を超えたワードを、当該ドメイン又は所定のサブドメインの急上昇ワードとして抽出する。
【００６５】
ステップＳ４１では、急上昇ワード抽出装置１０の急上昇ワード抽出手段１１３は、差分Ｗｅｂコンテンツ・アーカイブ１２３から追加差分ワードを抽出する。
【００６６】
ステップＳ４２では、急上昇ワード抽出手段１１３は、追加差分ワードを含む差分コンテンツのＵＲＬの数をドメイン又はサブドメイン毎に集計する。
【００６７】
ステップＳ４３では、急上昇ワード抽出手段１１３は、各ドメイン又は所定のサブドメイン毎に、ＵＲＬの数が基準値を超えたか否かを判断する。この判別でＹＥＳの場合はステップＳ４４に移り、ＮＯの場合は、本フローチャートの処理を終了する。
【００６８】
ステップＳ４４では、急上昇ワード抽出手段１１３は、ステップＳ４３でＵＲＬの数が基準値を超えた追加差分ワードを急上昇ワードとして急上昇ワードＤＢ１２４に記憶させ、本フローチャートの処理を終了する。
【００６９】
本実施形態は、上記の構成を備えることにより、ドメイン又は所定のサブドメイン内のコンテンツにおいて、中心として取り上げられているトピックを示すキーワードを抽出することができる。このため、急上昇ワード自体をそれぞれのドメイン又はサブドメインを分類するキーとしても使用することが可能となる。
【００７０】
なお、本実施形態において、同一の急上昇ワードと抽出したＷｅｂサイトのドメイン又はサブドメインが複数ある場合には、当該サイトの特定の信頼度スコアに基づいて、各ドメイン又はサブドメイン毎に抽出した急上昇ワードを、当該サイトの特定の信頼度スコアに基づいて、いわゆるレコメンドに利用することができる。
【００７１】
例えば、急上昇ワード抽出装置１０の制御部１１は、Ｗｅｂクロール手段１１１が取得したＵＲＬに関し、そのドメイン又はサブドメインの信頼度スコアを算出し、記憶部１２に記憶させておくことができる。そして、いわゆるＥＣ（ｅｌｅｃｔｒｏｎｉｃｃｏｍｍｅｒｃｅ）サイトにおいて、急上昇ワードを抽出したドメイン又はサブドメインの信頼度スコアが所定の値以上である場合に、優先的にレコメンドに表示することができる。ここで、信頼度スコアは、例えば、当該サイトの運営主体の信頼性、ニュース記事等のコンテンツの信頼性、ＷｅｂページやＷｅｂサイト等の安全度を示すスコアであり、任意のものを使用することができる。また、この信頼度スコアは、急上昇ワード抽出装置１０以外の装置が算出したデータをインターネット３０等のネットワークを通じて取得し使用してもよい。
【００７２】
なお、基準値に関しては、ドメイン又はサブドメイン毎に集計する際の基準値と、ドメイン又はサブドメインとは関係なく、全てのＵＲＬの数で集計する際の基準値とを別々に設定し、併用してもよい。
【００７３】
上記の実施形態によれば、急上昇ワード抽出装置１０は、インターネット３０で公開されたＷｅｂページ３１のデータ（コンテンツ）に登場したワードのＷｅｂページの数を数えることができるため、話題として取り上げた情報源の数を元にして注目度の高いキーワードが何かを判別し、抽出することができる。また、例えば、１つのＷｅｂページ内に脈絡無く同一のワードが繰り返し登場するようなものであってもその影響を最小限にして注目度の高いキーワードを抽出することができる。
【００７４】
上述の実施形態によれば、急上昇ワード抽出装置１０は、従来のように、検索クエリとして使用されたキーワードの使用回数に基づいて注目度の高いキーワードを抽出するのとは別に、注目度の高いキーワードとしての急上昇ワードを抽出することができる。このため、検索クエリの解析とは別に急上昇ワードを抽出することが可能となる。
【００７５】
上述の実施形態によれば、急上昇ワード抽出装置１０は、差分コンテンツから追加差分ワードを抽出して、急上昇ワードであるか否かを判別するので、従来のように、個々にＷｅｂページを既存のものと対比してキーワードを抽出するよりもハードウェアに与える負担を軽くすることができる。
【００７６】
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。
【符号の説明】
【００７７】
１０急上昇ワード抽出装置
１１制御部
１２記憶部
３０インターネット
１１１Ｗｅｂクロール手段
１１２差分コンテンツ抽出手段
１１３急上昇ワード抽出手段
１２１新規Ｗｅｂコンテンツ・アーカイブ
１２２既存ＷｅｂコンテンツＤＢ
１２３差分Ｗｅｂコンテンツ・アーカイブ
１２４急上昇ワードＤＢ

【特許請求の範囲】
【請求項１】
インターネット上で注目度が上昇している急上昇ワードを抽出する急上昇ワード抽出装置であって、
前記インターネット上のＷｅｂサイトを所定の周期で巡回して新規のコンテンツを取得するＷｅｂクロール手段と、
前記Ｗｅｂクロール手段が取得した新規のコンテンツを当該新規のコンテンツのＵＲＬに関連付けて記憶する新規コンテンツ記憶手段と、
前記Ｗｅｂクロール手段が前回の巡回までに取得した既存のコンテンツを当該既存のコンテンツのＵＲＬに関連付けて記憶している既存コンテンツ記憶手段と、
前記新規コンテンツ記憶手段が記憶した新規のコンテンツを、前記既存コンテンツ記憶手段が記憶している既存のコンテンツであって、当該新規のコンテンツと同じＵＲＬの既存コンテンツと比較して、当該新規のコンテンツにおいて新たに追加された差分コンテンツを抽出する差分コンテンツ抽出手段と、
前記差分コンテンツ抽出手段が抽出した差分コンテンツを、当該差分コンテンツのＵＲＬに関連付けて記憶する差分コンテンツ記憶手段と、
前記差分コンテンツ記憶手段が記憶した差分コンテンツに含まれるワードの種類毎に、当該ワードが含まれる前記差分コンテンツのＵＲＬの数を集計し、前記ＵＲＬの数が所定の基準数を超えたワードを急上昇ワードとして抽出する急上昇ワード抽出手段と、を備える急上昇ワード抽出装置。
【請求項２】
前記Ｗｅｂクロール手段が新規のコンテンツを取得して前記新規コンテンツ記憶手段が新規のコンテンツを記憶する毎に、前記差分コンテンツ抽出手段及び前記差分コンテンツ記憶手段の処理を繰り返す繰り返し手段をさらに備え、
前記急上昇ワード抽出手段は、所定期間において取得した複数の差分コンテンツに含まれるワードの種類の中から、前記ＵＲＬの数が前記所定の基準数を超えた回数が所定の基準回数を超えたものを特定して、前記急上昇ワードとして抽出する請求項１に記載の急上昇ワード抽出装置。
【請求項３】
前記急上昇ワード抽出手段は、前記ＵＲＬの数を、前記ＵＲＬが示すドメイン又は所定のサブドメイン毎に集計し、前記ＵＲＬの数が所定の基準数を超えたワードを、当該ドメイン又は所定のサブドメイン毎の急上昇ワードとして抽出する請求項１又は２に記載の急上昇ワード抽出装置。
【請求項４】
インターネット上で注目度が上昇している急上昇ワードを抽出する急上昇ワード抽出方法であって、
コンピュータは、記憶手段を備え、
コンピュータに、
前記インターネット上のＷｅｂサイトを所定の周期で巡回して新規のコンテンツを取得するＷｅｂクロールステップと、
前記Ｗｅｂクロール手段が取得した新規のコンテンツを当該新規のコンテンツのＵＲＬに関連付けて前記記憶手段に記憶させる新規コンテンツ記憶ステップと、
前記Ｗｅｂクロール手段が前回の巡回までに取得した既存のコンテンツを当該既存のコンテンツのＵＲＬに関連付けて前記記憶手段に記憶させる既存コンテンツ記憶ステップと、
前記新規コンテンツ記憶ステップで前記記憶手段に記憶させた新規のコンテンツを、前記記憶手段が記憶している既存のコンテンツであって、当該新規のコンテンツと同じＵＲＬのコンテンツとを比較して、当該新規のコンテンツにおいて新たに追加された差分コンテンツを抽出する差分コンテンツ抽出ステップと、
前記差分コンテンツ抽出ステップにおいて抽出された差分コンテンツを、当該差分コンテンツのＵＲＬに関連付けて前記記憶手段に記憶させる差分コンテンツ記憶ステップと、
前記差分コンテンツ記憶ステップで記憶手段に記憶させた差分コンテンツに含まれるワードの種類毎に、当該ワードが含まれる前記差分コンテンツのＵＲＬの数を集計し、前記ＵＲＬの数が所定の基準数を超えたワードを急上昇ワードとして抽出する急上昇ワード抽出ステップと、を実行させる急上昇ワード抽出方法。

【図１】