説明

リアルタイム人気キーワードに対する代表フレーズを提供する方法およびシステム

【課題】リアルタイム人気キーワードに対する代表フレーズを提供する方法およびシステムが開示される。
【解決手段】本発明の代表フレーズ提供方法は、人気キーワードに対する代表フレーズを生成し、人気キーワードと生成された代表フレーズとを結合して提供すること、を含み、人気キーワードを含む文書を収集し、収集された文書に対してクラスタを行うこと、をさらに含み、クラスタに属する文書の形態素を分析して決定された代表基準単語を拡張し、拡張された代表基準単語を用いて生成された代表フレーズを人気キーワードと結合して提供する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、リアルタイム人気キーワードに対する代表フレーズを提供する方法およびシステムに関し、より具体的には、ウェブページにリアルタイム検索語として露出しようとするキーワードに関する。
【背景技術】
【0002】
一般に、キーワード検索を提供する大部分のウェブページには、リアルタイムで急上昇する検索語の人気キーワードが露出される。ここでは、ウェブページ上に選択された人気キーワードおよび人気キーワードのランキングが露出される。特に、人気キーワードは、ウェブページ上において、単純に芸能人の名前や国際または国内団体名で露出される。
【0003】
人気キーワードがどのような内容を含んでいるかを確認したい場合、ユーザはマウスクリックなどを用いて特定の人気キーワードを選択してもよい。これによって、ウェブページには、選択された人気キーワードに関連する記事および文書などを露出されてもよい。
【0004】
このように、人気キーワードに対する具体的な内容を確認したい場合のみならず、人気キーワードになった原因などのように概略的な内容を確認したい場合にも、ユーザは人気キーワードを選択し、選択された人気キーワードに対する多数の記事を全て読まなければならないという煩わしさが存在する。
【0005】
したがって、ユーザが人気キーワードおよび人気キーワードに関連する記事を段階的に選択しなくても、リアルタイムで人気キーワードになった原因を提供することのできる方法が求められている。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明の目的は、リアルタイムで人気キーワードが露出された原因を知らせる代表フレーズを生成する方法およびシステムを提供することにある。
【0007】
また、本発明の他の目的は、代表フレーズおよび人気キーワードを結合してウェブページに露出する方法およびシステムを提供することにある。
【課題を解決するための手段】
【0008】
本発明の一実施形態に係る代表フレーズ提供方法は、人気キーワードに対する代表フレーズを生成し、人気キーワードと生成された代表フレーズとを結合して提供すること、を含んでもよい。
【0009】
また、代表フレーズを生成することは、人気キーワードを含む文書の基準単語を決定し、決定された基準単語から代表基準単語を決定し、決定された代表基準単語の前または後に連続する単語と代表基準単語とを組み合わせて代表基準単語を拡張し、拡張された代表基準単語を用いて代表フレーズを生成すること、を含んでもよい。
【0010】
代表基準単語を拡張することは、人気キーワードを含む文書において代表基準単語の前または後に連続する単語が含まれる条件付き確率を算出し、算出された条件付き確率に基づいて代表基準単語を拡張すること、を含んでもよい。
【0011】
また、代表基準単語を拡張することは、文書の数に基づいて基準確率を算出し、算出された条件付き確率が基準確率以上であれば、拡張された基準単語を継続して拡張し、算出された条件付き確率が基準確率未満であれば、拡張された基準単語の拡張を終了すること、をさらに含んでもよい。
【0012】
また、代表基準単語を決定することは、人気キーワードを含む文書の形態素を分析して基準単語の頻度数をカウントし、カウントされた頻度数の高い順に代表基準単語を決定すること、を含んでもよい。
【0013】
また、本発明の代表フレーズ提供方法は、人気キーワードを含む文書を収集し、収集された文書に対してクラスタを行うこと、をさらに含んでもよい。ここで、代表フレーズを生成することは、クラスタに属する文書に基づいて代表基準単語を拡張して代表フレーズを生成することを含んでもよい。
【0014】
また、本発明の代表フレーズ提供方法は、収集された文書のうち最近収集された文書順に加重値を付加することをさらに含んでもよい。ここで、文書は、人気キーワードを含むテキストおよび前記人気キーワードの静止画像のうち少なくとも1つを含んでもよい。
【0015】
また、本発明の代表フレーズ提供方法は、付加された加重値に基づいてクラスタの露出優先順位を決定することをさらに含んでもよい。これによって、生成された代表フレーズと人気キーワードとを結合して提供することは、決定された露出優先順位に基づいて選択されたクラスタの代表フレーズと人気キーワードとを結合して提供することを含んでもよい。
【0016】
また、本発明の一実施形態に係る代表フレーズ提供システムは、人気キーワードに対する代表フレーズを生成する代表フレーズ生成部と、人気キーワードと生成された代表フレーズとを結合して提供する代表フレーズ提供部と、を備えてもよい。
【0017】
また、代表フレーズ生成部は、人気キーワードを含む文書の形態素を分析して基準単語を決定し、決定された基準単語の頻度数に基づいて代表基準単語を決定する基準単語決定部と、決定された代表基準単語の前または後に連続する単語と代表基準単語とを組み合わせて代表基準単語を拡張し、拡張された代表基準単語を用いて代表フレーズを生成する基準単語拡張部と、を備えてもよい。
【0018】
また、本発明の代表フレーズ提供システムは、人気キーワードを含む文書を収集する文書収集部と、収集された文書に対してクラスタを行うクラスタ実行部と、をさらに備えてもよい。これによって、代表フレーズ生成部は、クラスタに属する文書に基づいて代表基準単語を拡張して代表フレーズを生成してもよい。
【0019】
また、代表フレーズ生成部は、収集された文書のうち最近収集された文書順に加重値を付加してもよい。
【発明の効果】
【0020】
本発明の一実施形態によると、リアルタイムで人気キーワードが露出された原因を知らせる代表フレーズを生成することができる。
【0021】
本発明の一実施形態によると、代表フレーズおよび人気キーワードを結合してウェブページに露出することができる。
【図面の簡単な説明】
【0022】
【図1】本発明の一実施形態に係る代表フレーズを生成する過程を説明する図である。
【図2】本発明の一実施形態に係る代表フレーズ提供システムの構成を示すブロック図である。
【図3】本発明の一実施形態に係る代表フレーズ生成部の細部構成を示す図である。
【図4】本発明の一実施形態によって生成された代表フレーズおよび人気キーワードがウェブページに露出された画面を示す図である。
【図5】本発明の一実施形態に係るリアルタイム人気キーワードに対する代表フレーズを提供する方法を説明するフローチャートである。
【発明を実施するための形態】
【0023】
以下、本発明の実施形態を添付する図面を参照しながら説明する。
【0024】
図1は、本発明の一実施形態に係る代表フレーズを生成する過程を説明する図である。
【0025】
図1に示すように、代表フレーズ提供システム20は、リアルタイム人気キーワード30に関連する文書10を収集してもよい。ここで、収集された文書は、人気キーワードを含むテキスト文書(text document)、人気キーワードに関連する記事(article)、および人気キーワードの静止画像のうち少なくとも1つを含んでもよい。
【0026】
また、代表フレーズ提供システム20は、収集された文書の形態素を分析して人気キーワードの代表フレーズを生成してもよい。ここで、人気キーワードの代表フレーズは、ウェブページに露出しようとする人気キーワードがリアルタイム人気キーワードになった原因を示すフレーズに言及する。
【0027】
以下、図2を参照して人気キーワードの代表フレーズを生成する過程について説明する。
【0028】
図2は、本発明の一実施形態に係る代表フレーズ提供システム200の構成を示すブロック図である。
【0029】
図2を参照すると、代表フレーズ提供システム200は、文書収集部210、クラスタ実行部220、代表フレーズ生成部230、および代表フレーズ提供部240を備えてもよい。
【0030】
文書収集部210は、ウェブページ上にリアルタイムで急上昇する検索語として露出しようとする人気キーワードに関連する文書を各種のポータル等を介して収集してもよい。
【0031】
一例として、文書収集部210は、人気キーワードAAAに対する文書を下記の表1のように収集してもよい。
【0032】
【表1】

【0033】
クラスタ実行部220は、N−グラム形態素分析を用いて収集された文書に対してクラスタを行ってもよい。ここで、N−グラムは、単語をN個までつなげて用いること示し、例えば、1−グラムは単語1つを意味し、2−グラムは2つの単語が連続して結合された形態を意味する。このように、N−グラム形態素分析によってクラスタを行うことで、クラスタの品質が向上する。
【0034】
ここで、1−グラム形態素分析の場合、誤ったクラスタが生成されることがあるが、5−グラムまで用いて形態素分析をする場合、キーワードAAAに関連性の高い文書が集められる確率が高い。一例として、クラスタ実行部220は、表1の文書NNN_news#0に対して5−グラム形態素分析を用いてクラスタインプットデータ(Cluster Input Data)を生成してもよい。ここで、生成されたクラスタインプットデータは下記の表2の通りである。
【0035】
【表2】

【0036】
表2では、文書NNN_news#0に対して生成されたクラスタインプットデータを説明しているが、クラスタ実行部220は、収集された全ての文書に対してN−グラム形態素分析を用いてクラスタインプットデータを生成してもよい。
【0037】
これによって、クラスタ実行部220は、生成されたクラスタインプットデータとカテゴリカル(categorical)クラスタリング方式を用いて収集された全ての文書に対してクラスタを行ってもよい。ここで、クラスタ実行部220は、ジャッカード(jaccard)係数に基づく階層的クラスタリング方式を用いてクラスタを行ってもよい。一例として、クラスタ実行部220は、表1で収集された文書に対して階層的クラスタリング方式を用いてクラスタを行うことにより、下記の表3および表4のような2つのクラスタを生成してもよい。
【0038】
【表3】

【0039】
【表4】

【0040】
表3によると、クラスタAは、人気キーワードAAAとBBBとのデートに関連する文書を含むクラスタである。また、表4によると、クラスタBは、人気キーワードAAAとBBBとのコンサートに関連する文書を含むクラスタである。
【0041】
代表フレーズ生成部230は、生成された複数のクラスタから各クラスタを代表する1つの文章を組み合わせて人気キーワードに対する代表フレーズを生成してもよい。
【0042】
以下、図3を参照して代表フレーズを生成する過程について説明する。図3に示すように、代表フレーズ生成部230は、基準単語決定部231および基準単語拡張部232を備えてもよい。
【0043】
基準単語決定部231は、1つのクラスタに含まれた全ての文書の形態素を分析して1つ以上の基準単語を決定してもよい。一例として、クラスタAに含まれた文書の形態素を分析する場合、基準単語決定部231は、文書MMM_news#1、NNN_news#0、およびNNN_news#1の形態素を分析して、「香港」、「デート」、「BBB」、「女優」、「秘密」、「こっそり」を基準単語として決定してもよい。
【0044】
ここで、基準単語決定部231は、決定された基準単語が文書MMM_news#1、NNN_news#0、およびNNN_news#1に含まれる頻度数をカウントしてもよい。一例として、クラスタAに対して決定された基準単語およびカウントされた基準単語の頻度数は下記の表5の通りである。
【0045】
【表5】

【0046】
基準単語決定部231は、カウントされた基準単語の頻度数が最も高い順に2つの基準単語を代表基準単語として決定してもよい。一例として、表5によると、基準単語決定部231は、頻度数が高い上位2つの「香港」及び「デート」を代表基準単語として決定してもよい。
【0047】
基準単語拡張部232は、決定された代表基準単語に連続する単語がクラスタに属する文書に含まれる条件付き確率を算出してもよい。ここで、基準単語拡張部232は、バイグラム(bi−gram)条件付き確率を用いて代表基準単語の前または後に連続する単語がクラスタに属する文書に含まれる条件付き確率を算出してもよい。
【0048】
一例として、基準単語拡張部232は、クラスタAに属する文書において代表基準単語「香港」に連続する単語「女優」および「トップ」が含まれる条件付き確率を算出してもよい。ここで、基準単語拡張部232は、下記の数式1を用いて「香港」の後に連続する単語「女優」がクラスタAに属する文書に含まれる条件付き確率を2/3と算出してもよい。より詳しくは、クラスタAに属する文書MMM_news#1、NNN_news#0、およびNNN_news#1のうち、「香港女優」が含まれた文書はMMM_news#1およびNNN_news#1である。これによって、基準単語拡張部232は「香港女優」の条件付き確率を2/3と算出してもよい。
【0049】
同じ方法に基づいて、基準単語拡張部232は、クラスタAに属する文書に「香港」の後に連続する単語「トップ」が含まれる条件付き確率を1/3と算出してもよい。より詳しくは、クラスタAに属する文書のうち、「香港トップ」を含む文書はNNN_news#0の1つであるため、基準単語拡張部232は下記の数式1を用いて「香港トップ」の条件付き確率を1/3と算出してもよい。
【0050】
【数1】

(数式1)
【0051】
また、基準単語拡張部232は、算出された条件付き確率のうち確率値の大きい確率が予め設定された基準確率以上であれば、確率値が大きい確率に該当する単語に代表基準単語を拡張してもよい。
【0052】
一例として、基準確率が1/2に予め設定された場合、基準単語拡張部232は、算出された条件付き確率と比較して1/2よりも大きな確率値を有する条件付き確率を選択してもよい。これによって、基準単語拡張部232は、条件付き確率2/3と1/3とを比較して、2/3を選択してもよい。また、基準単語拡張部232は、選択した条件付き確率2/3が基準確率1/2以上であるかを判断してもよい。ここで、条件付き確率2/3が基準確率1/2以上であるため、基準単語拡張部232は、条件付き確率2/3に該当する単語「香港女優」に代表基準単語を拡張してもよい。すなわち、代表基準単語が「香港」から「香港女優」に拡張されてもよい。
【0053】
ここで、基準単語拡張部232は、拡張しようとする単語の条件付き確率が基準確率未満になるまで代表基準単語を継続して拡張してもよい。
【0054】
一例として、基準単語拡張部232は、クラスタAに属する文書に拡張された単語「女優」の後に連続する単語が含まれる条件付き確率を算出してもよい。ここで、基準単語拡張部232は、上記の数式1と同じ方法によりP(BBBと|女優)の条件付き確率を1と算出してもよい。より詳しくは、クラスタAに属する全ての文書が「女優」の後に連続して単語「BBBと」を含むため、基準単語拡張部232は、P(BBBと|女優)の条件付き確率を3/3=1と算出してもよい。また、基準単語拡張部232は、算出されたP(BBBと|女優)の条件付き確率1が予め設定された基準確率1/2以上であるため、代表基準単語を「香港女優」から「香港女優BBBと」に拡張してもよい。
【0055】
ここで、基準単語拡張部232は、拡張された単語の条件付き確率が基準確率未満であれば、代表基準単語の拡張を終了してもよい。一例として、バイグラム条件付き確率を用いる場合、基準単語拡張部232は、クラスタAに属する文書で拡張された単語「BBBと」の後に連続する単語を含む条件付き確率gが1/3、1/3、1/3であり基準確率1/2未満であるため、代表基準単語の拡張を終了してもよい。
【0056】
より詳しくは、文書MMM_news#1は「BBBと」に連続する単語として「秘密」を含み、NNN_news#0は「BBBと」に連続する単語として「中国で」を含み、NNN_news#1は「BBBと」に連続する単語として「こっそり」を含む。これによって、基準単語拡張部232は、クラスタAに属する文書として「BBBと」の後に連続する単語を含む条件付き確率を1/3、1/3、1/3と算出してもよい。ここで、算出された条件付き確率が全て同一であるため、基準拡張部232はこの中の1つである1/3を選択し、選択された条件付き確率1/3と基準確率1/2とを比較してもよい。また、基準拡張部232は、選択された条件付き確率1/3が基準確率1/2未満であるため代表基準単語の拡張を終了してもよい。これによって、基準単語拡張部232は、バイグラム条件付き確率を用いて代表基準単語「香港」を「香港女優BBBと」まで拡張してもよい。
【0057】
次に、基準単語拡張部232は、最も頻度数の高い代表基準単語「香港」の拡張を終了すると、2番目に頻度数の高い代表基準単語「デート」を拡張してもよい。ここで、基準単語拡張部232は、「香港」と同じようにバイグラム条件付き確率を用いて「デート」を拡張してもよい。
【0058】
一例として、基準単語拡張部232は、クラスタAに属する文書において「デート」の前の単語「秘密デート」および「こっそりデート」の条件付き確率を2/3、1/3とそれぞれ算出してもよい。また、基準単語拡張部232は、算出された条件付き確率のうち確率値が大きい2/3を選択してもよい。次に、基準単語拡張部232は、選択された条件付き確率2/3が基準確率1/2以上であるため、条件付き確率が2/3に該当する単語「秘密デート」に代表基準単語を拡張してもよい。
【0059】
ここで、基準単語拡張部232は、「香港」のように、拡張された単語のバイグラム条件付き確率が基準確率未満になるまで代表基準単語を続けて拡張してもよい。これによって、基準単語拡張部232は、代表基準単語「デート」を最終的に「秘密デート」まで拡張してもよい。
【0060】
また、基準単語拡張部232は、拡張された代表基準単語を組み合わせて代表フレーズを生成してもよい。一例として、基準単語拡張部232は、「香港女優BBBと」と「秘密デート」とを組み合わせて「香港女優BBBと秘密デート」を代表フレーズとして生成してもよい。
【0061】
これによって、代表フレーズ提供部240は、生成された代表フレーズと人気キーワードとを結合して提供してもよい。一例として、代表フレーズ提供部240は、生成された代表フレーズ「香港女優BBBと秘密デート」と人気キーワード「AAA」とを結合してウェブページに露出してもよい。
【0062】
同じ方法に基づいて、代表フレーズ生成部230は、クラスタBに含まれた全ての文書の形態素を分析して1つ以上の基準単語を決定してもよい。一例として、基準単語決定部231は、文書LLL#0およびMMM_news#3の形態素を分析して、「BBB」、「コンサート」、「映像」、「人気」、「爆発」、「恋人」を基準単語に決定してもよい。ここで、基準単語決定部231は、決定された基準単語が文書LLL#0、およびMMM_news#3に含まれる頻度数をカウントし、カウントされた基準単語の頻度数が最も高い順に2つ以上の基準単語を代表基準単語として決定してもよい。これによって、基準単語拡張部232は、決定された代表基準単語に連続する単語がクラスタBに属する文書に含まれる条件付き確率を算出してもよい。
【0063】
また、基準単語拡張部232は、算出された条件付き確率のうち確率値の大きい確率が予め設定された基準確率以上であれば、確率値が大きい確率に該当する単語に代表基準単語を拡張してもよい。ここで、基準単語拡張部232は、拡張しようとする単語の条件付き確率が基準確率未満になるまで代表基準単語を継続して拡張してもよい。最後に、基準単語拡張部232は、拡張された代表基準単語を組み合わせてクラスタBに含まれた文書に対する代表フレーズを生成してもよい。
【0064】
これによって、代表フレーズ提供部240は、生成された代表フレーズと人気キーワードとを結合して提供してもよい。
【0065】
一例として、代表フレーズ提供部240は、生成されたクラスタAおよびクラスタBに対する代表フレーズを人気キーワード「AAA」とそれぞれ結合してウェブページに露出してもよい。ここで、代表フレーズ提供部240は、クラスタAおよびクラスタBに露出優先順位を付与し、露出優先順位が高いクラスタの代表フレーズと人気キーワードを結合してウェブページに露出してもよい。
【0066】
より詳しくは、クラスタAの露出優先順位が80であり、クラスタBの露出優先順位が60である場合、人気キーワード「AAA」の検索がリクエストされると、代表フレーズ提供部240は、クラスタAの代表フレーズと人気キーワード「AAA」とを結合してウェブページに露出してもよい。ここで、代表フレーズ提供部240は、複数のクラスタに含まれた文書の加重値に基づいて露出優先順位を決定してもよい。一例として、代表フレーズ提供部240は、クラスタに含まれた文書の加重値の和が高い順に露出優先順位を高く付与してもよい。これによって、代表フレーズ提供部240は、複数のクラスタのうち露出優先順位が最も高いクラスタを選択し、選択したクラスタの代表フレーズと人気キーワードとを結合してウェブページに露出してもよい。
【0067】
他の例として、代表フレーズ提供部240は、クラスタの大きさを用いて複数のクラスタのうちいずれか1つのクラスタの代表フレーズと人気キーワードとを結合してウェブページに露出してもよい。ここで、クラスタの大きさは、クラスタに属する文書の数に対応する。すなわち、代表フレーズ提供部240は、クラスタAおよびクラスタBのうち文書を多く含んでいるクラスタの代表フレーズと人気キーワードとを結合してウェブページに露出してもよい。
【0068】
ここで、代表フレーズ提供部240は、クラスタに属する文書の作成時間に応じて加重値を付加して文書の大きさを算出してもよい。これによって、代表フレーズ提供部240は、最近作成された文書であるほど高い加重値を付加する。即ち、クラスタAに含まれた文書の数がクラスタBに含まれた文書の数よりも小さくても、最近作成された文書の数がクラスタBよりも多い場合、クラスタAの大きさがクラスタBの大きさよりも大きい場合もある。この場合、代表フレーズ提供部240は、クラスタAの代表フレーズと人気キーワードとを結合して露出してもよい。
【0069】
同様に、クラスタBに含まれた文書の数がクラスタAに含まれた文書の数よりも小さくても、クラスタAよりもクラスタBに最近作成された文書が多い場合、クラスタBの大きさがクラスタAの大きさよりも大きい場合もある。これによって、代表フレーズ提供部240は、クラスタBの代表フレーズと人気キーワードとを結合して露出してもよい。
【0070】
ここで、代表フレーズ提供部240は、人気キーワードに対応する代表フレーズを全てウェブページ上に露出することができるだけではなく、ウェブページに露出された人気キーワードのうち、マウス、タッチ、ポインタなどによって活性化した人気キーワードの代表フレーズをウェブページに露出してもよい。
【0071】
一例として、図4に示すように、リアルタイム人気キーワードを含むリスト400において、マウスがキーワードAAA410を指す場合、代表フレーズ提供部240は、人気キーワードAAA410と人気キーワードAAAに対する代表フレーズ421とを共にウェブページに露出してもよい。
【0072】
ここで、代表フレーズ提供部240は、人気キーワードに対する代表フレーズ421と共に人気キーワードに対する静止画像などの写真420を共に露出してもよい。このため、代表フレーズ提供部240は、収集された文書の作成時間に応じて文書に加重値を付加してもよい。一例として、代表フレーズ提供部240は、作成時間が最近である文書ほど加重値を高く付与してもよい。これによって、代表フレーズ提供部240は、クラスタに含まれた文書のうち人気キーワードに対する写真を含んでいる文書を抽出してもよい。また、代表フレーズ提供部240は、抽出された文書のうち加重値が最も高い文書に含まれた写真を人気キーワードに対する代表フレーズおよび人気キーワードと結合して提供してもよい。
【0073】
以上では、予め設定された基準確率を用いて代表基準単語を拡張することによって代表フレーズを生成する過程を説明したが、基準単語拡張部232は、下記の数式2を用いて基準確率を算出してもよい。これによって、基準単語拡張部232は、算出された基準確率と条件付き確率とを比較して代表基準単語を拡張してもよい。
【0074】
【数2】

(数式2)
【0075】
数式2において、N(K_Cluster)は、Kクラスタに含まれた文書の数であり、αは任意の変数である。一例として、αは0.3、0.4、0.5、0.7などの実数を用いてもよい。
【0076】
数式2によると、基準単語拡張部232は、クラスタに属する文書の数に基づいて基準確率を算出してもよい。一例として、α=0.5であり、クラスタAに属する文書の数が3つである場合、基準単語拡張部232は、クラスタAに対する基準確率を

【数3】

と算出してもよい。
【0077】
図5は、本発明の一実施形態に係るリアルタイム人気キーワードに対する代表フレーズを提供する方法を説明するフローチャートである。
【0078】
まず、文書収集部210は、ウェブページに露出しようとするリアルタイム人気キーワードに関連する文書をポータルなどを介して収集してもよい(S510)。
【0079】
次に、クラスタ実行部220は、収集された文書の形態素を分析してクラスタを行ってもよい(S520)。
【0080】
また、基準単語決定部231は、クラスタに含まれた文書の形態素を分析し、文書別に基準単語を決定してもよい(S530)。ここで、基準単語決定部231は、形態素分析によって決定された基準単語が文書に含まれる頻度数をカウントしてもよい。一例として、クラスタAに含まれた文書を対象に決定された基準単語および基準単語の頻度数は上記の表5の通りである。
【0081】
次に、基準単語決定部231は、基準単語の頻度数に基づいて代表基準単語を決定してもよい(S540)。一例として、基準単語決定部231は、表5に基づいて決定された基準単語のうち頻度数の高い2つの基準単語「香港」および「デート」を代表基準単語として決定してもよい。
【0082】
基準単語拡張部232は、バイグラム条件付き確率を用いて決定された代表基準単語の条件付き確率を算出してもよい(S550)。ここで、条件付き確率は、クラスタに含まれる文書において代表基準単語の前または後に連続する単語が含まれる確率を意味する。
【0083】
一例として、基準単語拡張部232は、クラスタAに含まれた文書において代表基準単語「香港」の後に単語「女優」が連続する条件付き確率を2/3および1/3と算出してもよい。ここで、基準単語拡張部232は、算出された条件付き確率のうち大きい条件付き確率2/3を選択してもよい。
【0084】
次に、基準単語拡張部232は、選択された条件付き確率が予め設定された基準確率以上であるか否かを判断してもよい(S560)。一例として、基準確率が1/2に予め設定された場合、基準単語拡張部232は、算出された「香港女優」の条件付き確率2/3が基準確率1/2以上であるかを判断してもよい。
【0085】
ここで、算出された条件付き確率が基準確率以上であれば(S560:はい)、基準単語拡張部232は、代表基準単語を選択された条件付き確率に該当する単語に拡張してもよい。また、基準単語拡張部232は、拡張された代表基準単語をS550〜S560と同じ方法を用いて続けて拡張してもよい(S565)。一例として、基準単語拡張部232は、「女優」の後に「BBBと」が連続する条件付き確率を算出し、算出された条件付き確率と基準確率とを比較することによって代表基準単語を「BBBと」に拡張してもよい。
【0086】
ここで、基準単語拡張部232は、算出された条件付き確率が基準確率未満であれば(S560:いいえ)、代表基準単語の拡張を終了してもよい(S570)。
【0087】
一例として、基準単語拡張部232は、クラスタAに含まれた文書において代表基準単語「BBBと」の後に連続する単語が含まれる条件付き確率を算出してもよい。ここで、算出された全ての条件付き確率が1/3となり、基準確率1/2未満となると、基準単語拡張部232は、代表基準単語の拡張を終了してもよい。これによって、拡張された代表基準単語は「香港女優BBBと」になってもよい。
【0088】
同様に、基準単語拡張部232は、「香港」の拡張と同じ方法により、ステップS540において決定された代表基準単語「デート」に対して拡張を行ってもよい。これによって、基準単語拡張部232は、代表基準単語を「秘密デート」に拡張してもよい。
【0089】
次に、基準単語拡張部232は、拡張された代表基準単語を組み合わせて代表フレーズを生成してもよい(S580)。一例として、基準単語拡張部232は、代表基準単語「香港」に基づいて拡張された「香港女優BBBと」と、代表基準単語「デート」に基づいて拡張された「秘密デート」とを組み合わせて「香港女優BBBと秘密デート」を代表フレーズとして生成してもよい。
【0090】
代表フレーズ提供部240は、生成された代表フレーズと人気キーワードとを結合して提供してもよい(S590)。一例として、代表フレーズ提供部240は、図4に示すように、人気キーワード「AAA」と代表フレーズ「香港女優BBBと秘密デート」とを結合してウェブページに露出してもよい。
【0091】
ここで、代表フレーズ提供部240は、リアルタイム人気キーワードを含むリスト400に含まれた全ての人気キーワードに対する代表フレーズをウェブページに露出してもよい。その他に、代表フレーズ提供部240は、人気キーワードリスト400に含まれた人気キーワードのうち、マウスなどによって活性化された人気キーワードに対する代表フレーズのみをウェブページに露出してもよい。
【0092】
また、代表フレーズ提供部240は、図4に示すように、人気キーワードに対する代表フレーズ421と共に人気キーワードに対する静止画像などの写真420を共に露出してもよい。一例として、代表フレーズ提供部240は、収集された文書の作成時間に応じて文書に加重値を付加し、付加された加重値が最も高い文書に含まれた写真を人気キーワードに対する代表フレーズと共にウェブページに露出してもよい。ここで、代表フレーズ提供部240は、加重値が最も高い文書に写真が含まれていない場合、加重値が次に高い文書に含まれた写真を用いてもよい。ここで、代表フレーズ提供部240は、文書の作成時間が最近であるほど加重値を高く付与してもよい。
【0093】
図5では、1つのクラスタAに対する代表フレーズを生成し、生成したクラスタAの代表フレーズと人気キーワードとを結合して提供することについて説明したが、本発明のフレーズ提供方法は、複数のクラスタに対する代表フレーズを生成し、生成した複数の代表フレーズのうちの少なくとも1つと人気キーワードとを結合してウェブページに露出してもよい。
【0094】
一例として、代表フレーズ提供部240は、生成されたクラスタAおよびクラスタBに対する代表フレーズを人気キーワード「AAA」とそれぞれ結合してウェブページに露出してもよい。ここで、代表フレーズ提供部240は、クラスタAおよびクラスタBに露出優先順位を付与し、露出優先順位が高いクラスタの代表フレーズと人気キーワードとを結合してウェブページに露出してもよい。
【0095】
より詳しくは、クラスタAの露出優先順位が80であり、クラスタBの露出優先順位が60である場合、人気キーワード「AAA」の検索がリクエストされると、代表フレーズ提供部240は、クラスタAの代表フレーズと人気キーワード「AAA」とを結合してウェブページに露出してもよい。ここで、代表フレーズ提供部240は、複数のクラスタに含まれた文書の加重値に基づいて露出優先順位を決定してもよい。一例として、代表フレーズ提供部240は、クラスタに含まれた文書の加重値の和が高い順に露出優先順位を高く付与してもよい。これによって、代表フレーズ提供部240は、複数のクラスタのうち露出優先順位の最も高いクラスタを選択し、選択したクラスタの代表フレーズと人気キーワードとを結合してウェブページに露出してもよい。
【0096】
他の例として、代表フレーズ提供部240は、クラスタの大きさを用いて複数のクラスタのうちのいずれか1つのクラスタの代表フレーズと人気キーワードとを結合してウェブページに露出してもよい。ここで、クラスタの大きさは、クラスタに属する文書の数に対応する。すなわち、代表フレーズ提供部240は、クラスタAおよびクラスタBのうち文書を多く含んでいるクラスタの代表フレーズと人気キーワードとを結合してウェブページに露出してもよい。
【0097】
ここで、代表フレーズ提供部240は、クラスタに属する文書の作成時間に応じて、加重値を付加して文書の大きさを算出してもよい。これによって、代表フレーズ提供部240は、最近作成された文書であるほど高い加重値を付加する。即ち、クラスタAに含まれた文書の数がクラスタBに含まれた文書の数よりも小さくても、最近作成された文書の数がクラスタBよりも多い場合、クラスタAの大きさがクラスタBの大きさよりも大きい場合もある。この場合、代表フレーズ提供部240は、クラスタAの代表フレーズと人気キーワードとを結合して露出してもよい。
【0098】
同様に、クラスタBに含まれた文書の数がクラスタAに含まれた文書の数よりも小さくても、クラスタAよりもクラスタBに最近作成された文書が多い場合、クラスタBの大きさがクラスタAの大きさよりも大きい場合もある。これによって、代表フレーズ提供部240は、クラスタBの代表フレーズと人気キーワードとを結合して露出してもよい。
【0099】
以上では複数の基準単語のうち頻度数の高い順に2つの代表基準単語を決定し、条件付き確率に基づいて代表基準単語を拡張して代表フレーズを生成することについて説明したが、これは一実施形態であり、基準単語決定部231は、複数の基準単語のうち頻度数が最も高い1つの代表基準単語を決定し、基準単語拡張部232は、決定された代表基準単語を拡張して代表フレーズを生成してもよい。
【0100】
本発明の実施形態に係る方法は、多様なコンピュータ手段を介して様々な処理を実行することができるプログラム命令の形態で実現され、コンピュータ読取可能な記録媒体に記録されてもよい。コンピュータ読取可能な媒体は、プログラム命令、データファイル、データ構造などのうちの1つまたはその組み合わせを含んでもよい。媒体に記録されるプログラム命令は、本発明の目的のために特別に設計されて構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読取可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、光ディスクのような光磁気媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するよう特別に構成されたハードウェア装置が含まれてもよい。プログラム命令の例としては、コンパイラによって生成されるような機械語コード(machine code)だけでなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コード(higher level code)を含む。上述したハードウェア装置は、本発明の動作を行うために1つ以上のソフトウェアのレイヤで動作するように構成されてもよい。
【0101】
上述したように本発明を限定された実施形態と図面によって説明したが、本発明は、上記の実施形態に限定されることなく、本発明が属する分野における通常の知識を有する者であれば、このような実施形態から多様な修正及び変形が可能である。
【0102】
したがって、本発明の範囲は、開示された実施形態に限定されて定められるものではなく、特許請求の範囲だけではなく特許請求の範囲と均等なものなどによって定められるものである。
【符号の説明】
【0103】
200 代表フレーズ提供システム
210 文書収集部
220 クラスタ実行部
230 代表フレーズ生成部
240 代表フレーズ提供部
231 基準単語決定部
232 基準単語拡張部

【特許請求の範囲】
【請求項1】
人気キーワードに対する代表フレーズを生成し、
前記人気キーワードと前記生成された代表フレーズとを結合して提供すること、
を含むことを特徴とする代表フレーズ提供方法。
【請求項2】
前記代表フレーズを生成することは、
前記人気キーワードを含む文書の基準単語を決定し、
前記決定された基準単語から代表基準単語を決定し、
前記決定された代表基準単語の前または後に連続する単語と前記代表基準単語とを組み合わせて前記代表基準単語を拡張し、
前記拡張された代表基準単語を用いて前記代表フレーズを生成すること、
を含むことを特徴とする請求項1に記載の代表フレーズ提供方法。
【請求項3】
前記代表基準単語を拡張することは、
前記人気キーワードを含む文書において前記代表基準単語の前または後に連続する単語が含まれる条件付き確率を算出し、
前記算出された条件付き確率に基づいて前記代表基準単語を拡張すること、
を含むことを特徴とする請求項2に記載の代表フレーズ提供方法。
【請求項4】
前記代表基準単語を拡張することは、
前記文書の数に基づいて前記基準確率を算出し、
前記算出された条件付き確率が前記基準確率以上であれば、前記拡張された基準単語を継続して拡張し、
前記算出された条件付き確率が前記基準確率未満であれば、前記拡張された基準単語の拡張を終了すること、
をさらに含むことを特徴とする請求項3に記載の代表フレーズ提供方法。
【請求項5】
前記代表基準単語を決定することは、
前記人気キーワードを含む文書の形態素を分析して前記基準単語の頻度数をカウントし、
前記カウントされた頻度数の高い順に前記代表基準単語を決定すること、
を含むことを特徴とする請求項2に記載の代表フレーズ提供方法。
【請求項6】
前記人気キーワードを含む文書を収集し、
前記収集された文書に対してクラスタを行うこと、
をさらに含むことを特徴とする請求項1に記載の代表フレーズ提供方法。
【請求項7】
前記代表フレーズを生成することは、前記クラスタに属する文書に基づいて代表基準単語を拡張して前記代表フレーズを生成することを含むこと特徴とする請求項6に記載の代表フレーズ提供方法。
【請求項8】
前記収集された文書のうち最近収集された文書順に加重値を付加することをさらに含むことを特徴とする請求項6に記載の代表フレーズ提供方法。
【請求項9】
前記付加された加重値に基づいて前記クラスタの露出優先順位を決定することをさらに含み、
前記生成された代表フレーズを結合して提供することは、前記決定された露出優先順位に基づいて選択されたクラスタの代表フレーズと前記人気キーワードとを結合して提供することを含むこと特徴とする請求項8に記載の代表フレーズ提供方法。
【請求項10】
前記文書は、前記人気キーワードを含むテキストおよび前記人気キーワードの静止画像のうち少なくとも1つを含む文書であることを特徴とする請求項6に記載の代表フレーズ提供方法。
【請求項11】
請求項1乃至請求項10のいずれか1項の方法を実行するためのプログラムが記録されたコンピュータで読み出し可能な記録媒体。
【請求項12】
人気キーワードに対する代表フレーズを生成する代表フレーズ生成部と、
前記人気キーワードと前記生成された代表フレーズとを結合して提供する代表フレーズ提供部と、
を備えることを特徴とする代表フレーズ提供システム。
【請求項13】
前記代表フレーズ生成部は、
前記人気キーワードを含む文書の形態素を分析して基準単語を決定し、前記決定された基準単語の頻度数に基づいて代表基準単語を決定する基準単語決定部と、
前記決定された代表基準単語の前または後に連続する単語と前記代表基準単語とを組み合わせて前記代表基準単語を拡張し、前記拡張された代表基準単語を用いて前記代表フレーズを生成する基準単語拡張部と、
を備えることを特徴とする請求項12に記載の代表フレーズ提供システム。
【請求項14】
前記基準単語拡張部は、前記人気キーワードを含む文書において前記代表基準単語の前または後に連続する単語が含まれる条件付き確率を算出し、前記算出された条件付き確率に基づいて前記代表基準単語を拡張することを特徴とする請求項13に記載の代表フレーズ提供システム。
【請求項15】
前記基準単語拡張部は、前記文書の数に基づいて前記基準確率を算出し、前記算出された条件付き確率が前記基準確率以上であれば、前記拡張された基準単語を継続して拡張することを特徴とする請求項14に記載の代表フレーズ提供システム。
【請求項16】
前記基準単語拡張部は、前記算出された条件付き確率が前記基準確率未満であれば、前記拡張された基準単語の拡張を終了することを特徴とする請求項14に記載の代表フレーズ提供システム。
【請求項17】
前記基準単語決定部は、前記人気キーワードを含む文書の形態素を分析して前記基準単語の頻度数をカウントし、前記カウントされた頻度数の高い順に前記代表基準単語を決定することを特徴とする請求項13に記載の代表フレーズ提供システム。
【請求項18】
前記人気キーワードを含む文書を収集する文書収集部と、
前記収集された文書に対してクラスタを行うクラスタ実行部と、
をさらに備えることを特徴とする請求項12に記載の代表フレーズ提供システム。
【請求項19】
前記代表フレーズ生成部は、前記クラスタに属する文書に基づいて代表基準単語を拡張して前記代表フレーズを生成することを特徴とする請求項18に記載の代表フレーズ提供システム。
【請求項20】
前記代表フレーズ生成部は、前記収集された文書のうち最近収集された文書順に加重値を付加することを特徴とする請求項18に記載の代表フレーズ提供システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2012−14696(P2012−14696A)
【公開日】平成24年1月19日(2012.1.19)
【国際特許分類】
【出願番号】特願2011−143991(P2011−143991)
【出願日】平成23年6月29日(2011.6.29)
【出願人】(505205812)エヌエイチエヌ コーポレーション (408)