説明

ユーザグループごとにキーワードの順位を決定するシステムおよび方法

【課題】ユーザグループごとにキーワードの順位を決定するシステムおよび方法が開示される。
【解決手段】キーワード順位決定システムは、ウェブログのデータを予め選定された主題ごとに分類するデータ分類部と、主題ごとに分類されたデータに該当する文書の主題の集中程度を表す文書集中度を算出し、文書集中度に応じる加重値をデータに付与する加重値付与部と、加重値が付与されたデータを検索意図ごとに分類して少なくとも1つのデータ集合を生成するデータ集合生成部と、データ集合間の順位を主題ごとに決定する順位決定部と、データ集合を代表する代表キーワードを決定する代表キーワード決定部とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ユーザグループごとにキーワードの順位を決定するシステムおよび方法に関する。
【背景技術】
【0002】
従来技術による人気検索語の提供方法として、リアルタイムの人気検索語、日毎の急上昇人気検索語、週間の急上昇人気検索語のように、全体的な分野で急上昇した人気の検索語(キーワード)を提供する。しかし、このような従来技術による人気検索語の提供方法は全てのユーザに対して提供されるため、主題、性別、年齢などのように細分化されたグループそれぞれの人気検索語を提供することができない問題がある。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】韓国特許第10−0785754号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
本願では、ユーザグループごとのキーワード順位を効果的に提供することができるシステムおよび方法が提供される。
【0005】
本発明の目的は、ユーザクラスタリング情報を用いてユーザグループごとに人気検索語を順位ごとに提供して新しい情報を提供し、新しいクエリカウント(query count)を誘発することができるキーワード順位決定システムおよび方法を提供する。
【0006】
本発明の目的は、同一の検索意図を有するキーワードを1つのデータ集合に集めて表示し、各データ集合の検索占有率を算出して順位を決定し、検索占有率およびデータ集合の代表キーワードを提供することによって新しい情報を提供することで、ユーザの興味を誘発することができるキーワード順位決定システムおよび方法を提供する。
【課題を解決するための手段】
【0007】
ウェブログのデータを予め選定された主題ごとに分類するデータ分類部と、主題ごとに分類されたデータに該当する文書の主題の集中程度を表す文書集中度を算出し、文書集中度に応じる加重値をデータに付与する加重値付与部と、加重値が付与されたデータを検索意図ごとに分類して少なくとも1つのデータ集合を生成し、データ集合間の順位を主題ごとに決定する順位決定部と、データ集合を代表する代表キーワードをデータ集合ごとに決定する代表キーワード決定部とを備えるキーワード順位決定システムが提供される。
【0008】
一実施形態によると、ウェブログのデータは、文書、文書の選択に用いられたキーワード、およびキーワードに応じて文書が選択された選択回数のうち2つ以上に関する情報を含んでもよく、加重値付与部は、文書が分類された主題に該当する文書である確率および文書が全体の主題それぞれに該当する文書である確率を用いて文書ごとに文書集中度を算出し、文書集中度を加重値として付与して文書に対する選択回数を調整してもよい。
【0009】
他の一実施形態によると、順位決定部は、文書ごとに調整された選択回数を用いて主題に含まれたデータ集合ごとに占有率を算出し、算出された占有率に応じて主題におけるデータ集合間の順位を決定してもよい。
【0010】
他の一実施形態によると、占有率は、データ集合における選択回数の和および全体データ集合に対する全体選択回数の和を用いて算出されてもよい。
【0011】
他の一実施形態によると、順位決定部は、同一の文書に関する情報を含むデータを互いに同一の検索意図に分類し、同一のキーワードまたはキーワード間の類似度が予め選定された値以上であるキーワードを含むデータを互いに同一の検索意図に分類してデータ集合を生成してもよい。
【0012】
他の一実施形態によると、順位決定部は、文書ごとに該当文書の選択に用いられたキーワードに対してキーワード間の類似度を用いて文書をクラスタリングし、同一の文書を含むデータを同一のデータ集合として生成してもよい。
【0013】
他の一実施形態によると、代表キーワード決定部は、データ集合に含まれたキーワードを形態素分析して算出された形態素ごとの重複回数に基づいた加重値、該当キーワードに応じて発生した文書の選択回数に応じた加重値、およびキーワードの長さに応じた加重値のうち少なくとも1つの加重値を用いてキーワードの中から代表キーワードを決定してもよい。
【0014】
他の一実施形態によると、形態素ごとの重複回数に基づいた加重値は、最も多い重複回数を有する形態素を含むか否かに応じて決定されてもよい。
【0015】
他の一実施形態によると、予め選定された主題は、B−クッキーによってユーザを分類し、決定されたユーザグループに応じて分類されてもよい。
【0016】
ウェブログのデータを予め選定された主題ごとに分類し、主題ごとに分類されたデータに該当する文書の主題の集中程度を表す文書集中度を算出して文書集中度に応じる加重値をデータに付与し、加重値が付与されたデータを検索意図ごとに分類して少なくとも1つのデータ集合を生成してデータ集合間の順位を主題ごとに決定し、データ集合を代表する代表キーワードをデータ集合ごとに決定することを含むキーワード順位決定方法が提供される。
【発明の効果】
【0017】
本発明によると、ユーザクラスタリング情報を用いてユーザグループごとの人気検索語を順位ごとに提供して新しい情報を提供し、新しいクエリカウントを誘発することができる。
【0018】
本発明によると、同一の検索意図を有するキーワードを1つのデータ集合に集めて表示し、各データ集合の検索占有率を算出して順位を決定し、検索占有率とデータ集合の代表キーワードを提供することによって新しい情報を提供することでユーザの興味を誘発することができる。
【図面の簡単な説明】
【0019】
【図1】本発明の一実施形態に係るユーザグループごとの人気検索語を提供するための全体的な構造の一例を示す図である。
【図2】本発明の一実施形態に係るキーワード順位決定方法を示すフローチャートである。
【図3】本発明の一実施形態に係るキーワード順位決定システムの内部構成を説明するためのブロック図である。
【図4】本発明の一実施形態に係るキーワード順位を決定する一例を示す図である。
【発明を実施するための形態】
【0020】
以下、本発明の実施形態を添付する図面を参照しながら詳細に説明する。
【0021】
図1は、本発明の一実施形態に係るユーザグループごとの人気検索語150を提供するための全体的な構造の一例を示す図である。
【0022】
ここで、ウェブログ110は、サイトを介してユーザに露出された文書がユーザによって選択される場合、ユーザがどのようなキーワードに応じてアクセスしたかに関する情報、どのようなユーザがアクセスしたかに関する情報、及びどのような文書が選択されたかに関する情報のうち少なくとも1つの情報を含んでもよい。例えば、特定サイトに対する訪問者数、訪問者類型、各ウェブページごとの訪問回数、訪問時間などを表す情報がウェブログ110に記録されてもよい。
【0023】
ここで、「サイト」は、有無線ネットワークを介してユーザに提供可能な全ての種類のウェブサイトを含んでもよく、ウェブサイトを構成する1つのウェブページを含んでもよい。また、「ユーザ」は、ユーザの識別子、ユーザの端末に対する識別子、および端末のウェブブラウザに対するクッキーに対応する識別子のうち少なくとも1つによって識別されてもよい。
【0024】
また、文書の「露出」は、サイトを介して該当文書に関連するテキスト、イメージ、動画、ハイパーリンクなどのコンテンツが該当サイトの訪問者に提供されることを含むように解釈されてもよい。また、露出された文書に対する「選択」は、ユーザ(サイト訪問者)が提供されたテキスト、イメージなどのコンテンツに対してマウスクリックなどの反応を見せることを意味する。
【0025】
分析システム120は、このようなウェブログ110を用いて予め選定された間隔(例えば、1分)ごとにリアルタイムのログをパーシングすることによって、予め選定された間隔ごとに少なくとも1つのデータを生成してもよい。ここで、分析システム120は、本発明の実施形態に係るキーワード順位決定システムに含まれるか、または、キーワード順位決定システムに関連して動作してもよい。
【0026】
第1点線ボックス130は、分析システム120によって生成された複数のデータを示している。このとき、第2点線ボックス131は、スライディングウィンドウ(sliding window)を意味し、予め選定された最近の期間内に生成されたデータのみを選択するために用いられてもよい。例えば、スライディングウィンドウの大きさを40分に設定することは、最近40分内に生成されたデータのみを選択して用いることを意味する。ここで、ウェブログ110によって生成された「データ」は、特定キーワードに応じて特定文書が選択された少なくとも一回の選択に対してキーワードと文書それぞれの情報とを含んでもよい。
【0027】
このように、選択されたデータは各主題ごとに分類され、加重値が付与されてもよい。第3点線ボックス140は、前述した主題に対する一例であって、選択されたデータがユーザグループに応じて分類される形状を示している。図3ではユーザグループごとに8個のグループを示しているが、選択されたデータが分類される主題が必ずしも8個のユーザグループに限定されるわけではない。必要に応じて、「大学生」の代わりに「男子大学生」および「女子大学生」のようにグループを代替/追加したり、「男子大学生>スポーツマニア」、「シングル女性>文化生活族」のように階層化してもよい。また、ユーザグループではない異なる基準に応じて主題が分類されてもよい。本明細書では説明の便宜のために、図1に示す一例に提供された8個のユーザグループに応じてキーワード順位決定システムおよびキーワード順位決定方法について説明する。
【0028】
このとき、ユーザグループごとに分類されたデータは、検索意図ごとに再び分類されてデータ集合を構成してもよく、各データ集合は占有率に応じて順位が決定されてもよい。例えば、ユーザグループの「未婚男性」に対してキーワード「コランド」、「コランド価格」、および「双龍自動車」を含んでいるデータ集合が16.34%の占有率として1位、キーワード「キム・グリム」、「スーパースターk2」、および「スーパースター悪口」を含むデータ集合が11.22%として2位のように表してもよい。
【0029】
ここで、データのユーザグループごとの分類やデータ集合ごとの占有率の算出、占有率に応じたキーワード順位決定などは前述したキーワード順位決定システムによって行われてもよい。
【0030】
図2は、本発明の一実施形態に係るキーワード順位決定方法を示すフローチャートである。本実施形態に係るキーワード順位決定方法は、図1を参照して説明したキーワード順位決定システムによって行われてもよい。
【0031】
ステップS210において、キーワード順位決定システムは、ウェブログのデータを予め選定された主題ごとに分類する。ここで、ウェブログは、図1を参照して説明したウェブログ110に対応してもよい。このようなウェブログのデータは、文書、文書の選択に用いられたキーワード、およびキーワードに応じて文書が選択された選択回数のうち2つ以上に関する情報を含んでもよい。また、予め選定された主題は、一例として、ユーザグループに応じて分類されてもよく、ユーザグループはB−クッキーによってユーザが分類されて決定してもよい。既に説明したように、このような主題はユーザグループに限定されることなく、運用者によって分類された基準に応じて分類されてもよい。
【0032】
ステップS220において、キーワード順位決定システムは、主題ごとに分類されたデータに該当する文書の主題の集中程度を表す文書集中度を算出し、文書集中度に応じて加重値をデータに付与する。すなわち、グループごとに分類されたデータのキーワードおよび文書は、該当グループだけの特性を表すとは見なし難い。例えば、キーワード「自動車」がユーザグループの「未婚男性」に分類されたデータにも含まれ、ユーザグループの「既婚男性」に分類されたデータにも含まれているため、単にキーワード「自動車」そして該当キーワードに応じて発生した選択回数(例えば、クリック数)のみによってはキーワード「自動車」が特定のユーザグループだけの特性を表すものと決定することは難しい。また、特定文書及び特定文書に発生した選択回数のみによっても特定文書Aが特定のユーザグループだけの特性を表すものと決定することは難しい。したがって、キーワード順位決定方法として、ステップS220のように、文書の主題の集中程度を表す文書集中度を算出し、このような文書集中度に応じて加重値をデータに付与することによって、主題の集中程度の高い文書を含むデータがその後に占有率の算出によって大きな影響を及ぼしてもよい。あるいは、主題の集中程度の低い文書が占有率の算出によって低い影響を及ぼしてもよい。
【0033】
このために、キーワード順位決定システムは、文書の分類された主題に該当する文書である確率、および文書が全体の主題それぞれに該当する文書である確率を用いて文書ごとに文書集中度を算出し、文書集中度を加重値として付与して文書の選択回数を調整してもよい。
【0034】
例えば、文書を「d」、全体の主題の集合を「T」、主題の集合に含まれた主題を「t」(∈T)、そして、文書「d」が主題「t」に該当する文書である確率を「P(t)」にすると、文書「d」の主題「t」における文書集速度「Q(t)」は下記の数式(1)のように算出してもよい。
【0035】
【数1】

【0036】
このとき、主題「t」において、文書「d」に対して発生した選択回数(クリック数)を「Cd、t−naive」にすると、最終的に調整された選択回数「Cd、t−weighted」は下記の数式(2)のように算出してもよい。
【0037】
【数2】

【0038】
ここで、「θ」によってペナルティとして適用される加重値の適用程度が調整されてもよい。
【0039】
ステップS230において、キーワード順位決定システムは、加重値が付与されたデータを検索意図ごとに分類して少なくとも1つのデータ集合を生成し、データ集合間の順位を主題ごとに決定する。
【0040】
基本的に、同一の「検索意図」を有するデータを1つの集合にするために、下記の(1)、(2)のような基本原則を定義してもよい。
【0041】
(1)同一の文書がクリックされれば、用いられたキーワードが異なっても同一の検索意図である。
【0042】
(2)異なる文書がクリックされても、検索語が同一であるか類似していれば、同一の検索意図である。
【0043】
このような基本原則を用いて、キーワード順位決定システムは、同一の文書に関する情報を含むデータを互いに同一の検索意図に分類し、同一のキーワードまたはキーワード間の類似度が予め選定された値以上であるキーワードを含むデータを互いに同一の検索意図として分類してデータ集合を生成してもよい。他の実施形態として、キーワード順位決定システムは、文書ごとに該当文書の選択に用いられたキーワードに対してキーワード間の類似度を用いて文書をクラスタリングし、同一の文書を含むデータを同一のデータ集合として生成してもよい。
【0044】
このように、同一の検索意図を有するデータを集めてデータ集合を生成した後、データ集合に含まれたデータに対して調整された選択回数の和を用いてデータ集合の大きさを求めてもよく、データ集合の大きさ比率を占有率として算出してもよい。すなわち、キーワード順位決定システムは、文書ごとに調整された選択回数を用いて主題に含まれたデータ集合ごとに占有率を算出し、算出された占有率に応じて主題におけるデータ集合間の順位を決定してもよい。このような占有率から、いずれのユーザグループがどのような検索意図をもってどの程度の占有率でクリックが発生しているかを示してもよい。このとき、全体データ集合「C」に対して特定データ集合「c」(∈C)における選択回数の和をN(c)とすれば、データ集合「C」の占有率「P(c)」は下記の数式(3)のように算出してもよい。
【0045】
【数3】

【0046】
ステップS240において、キーワード順位決定システムは、データ集合を代表する代表キーワードをデータ集合ごとに決定する。すなわち、データ集合内には複数のデータが含まれ、したがって、データ集合内には同一の検索意図を有する様々なキーワードを含んでいる。このとき、キーワード順位決定システムは、1つのデータ集合を表すための最も適切なキーワードを検索して代表キーワードとして決定してもよい。
【0047】
例えば、キーワード順位決定システムは次の(a)、(b)および(c)の条件を用いて代表キーワードを決定してもよい。
【0048】
(a)形態素分析によって取得された形態素中に含まれた回数が最も多いキーワードを必ず含むキーワード
(b)予め選定された回数以上のクリックの発生に用いられたキーワード
(c)キーワードの長さが長いキーワード
【0049】
このような条件は、信頼性を有しながらも最も多い情報を含んでいるキーワードを代表キーワードとして決定するためのものである。
【0050】
次の表1は1つのデータ集合に含まれた文書に関する情報と該当文書が選択されるために用いられたキーワードに関する情報を含んでいる。
【表1】

【0051】
次の表2は、表1のキーワードを形態素分析して抽出したそれぞれの形態素が含まれた回数を表している。
【表2】

【0052】
この場合、最も多い回数が含まれた形態素「プーチン」を含んでいるキーワードが代表キーワードの候補になり得る。
【0053】
次の表3は、形態素「プーチン」を含むキーワードの長さと選択に用いられた回数とを示している。
【表3】

【0054】
対象になったキーワードについて、まず、選択回数の制限を2以上にすると、キーワード「プーチン娘」と「プーチン娘結婚」が該当データ集合の代表キーワードに対する候補になり得る。このとき、キーワード「プーチン娘」が選択回数4回として、選択回数が3回であるキーワード「プーチン娘結婚」よりも高いが、キーワード「プーチン娘結婚」の長さがキーワード「プーチン娘」よりも長いため、「プーチン娘結婚」が該当データ集合の代表キーワードに選択される。すなわち、「プーチン娘結婚」が代表性を失なわないつつ最も多い説明力を有するものと判断されてもよい。
【0055】
このような条件は必要に応じて変更されてもよい。基本的に、本実施形態に係るキーワード順位決定システムは、データ集合に含まれたキーワードを形態素分析して算出された形態素ごとの重複回数に基づいた加重値、該当キーワードに応じて発生した文書の選択回数による加重値、およびキーワードの長さに応じる加重値のうち少なくとも1つの加重値を用いてキーワードの中から代表キーワードを決定してもよい。ここで、形態素ごとの重複回数に基づいた加重値は、最も多い重複回数を有する形態素を含むか否かによって決定されてもよい。
【0056】
次の表4、表5、および表6はそれぞれのユーザグループ「未婚男性」、「既婚男性」、および「財務テクノロジー族」に対するキーワード順位を示している。表4、5、6では12位まで示しているが、必要に応じて表示される順位は調整されてもよい。
【表4】

【表5】

【表6】

【0057】
図3は、本発明の一実施形態に係るキーワード順位決定システムの内部構成を説明するためのブロック図である。本実施形態に係るキーワード順位決定システム300は、図3に示すように、データ分類部310、加重値付与部320、順位決定部330、および代表キーワード決定部340を備える。
【0058】
データ分類部310は、ウェブログのデータを予め選定された主題ごとに分類する。ここで、ウェブログは、図1を参照して説明したウェブログ110に対応してもよい。このようなウェブログのデータは、文書、文書の選択に用いられたキーワード、およびキーワードに応じて文書が選択された選択回数のうち2つ以上の情報を含んでもよい。また、予め選定された主題は、一例として、ユーザグループに応じて分類してもよく、ユーザグループはB−クッキーによってユーザを分類して決定されてもよい。既に説明したように、このような主題はユーザグループに限定されることなく、運用者によって分類された基準に応じて分類される。
【0059】
加重値付与部320は、主題ごとに分類されたデータに該当する文書の主題の集中程度を表す文書集中度を算出し、文書集中度に応じて加重値をデータに付与する。すなわち、グループごとに分類されたデータのキーワードおよび文書は該当グループだけの特性を表すものと見なしがたい。例えば、キーワード「自動車」がユーザグループ「未婚男性」に分類されたデータにも含まれ、ユーザグループ「既婚男性」に分類されたデータにも含まれるため、単にキーワード「自動車」そして該当キーワードに応じて発生した選択回数(例えば、クリック数)のみによってはキーワード「自動車」が特定のユーザグループだけの特性を表すものと決定することは難しい。また、特定文書と特定文書に発生した選択回数とにのみによっても特定文書Aが特定のユーザグループだけの特性を表すものと決定することは難しい。したがって、キーワード順位決定システム300は、加重値付与部320によって文書の主題の集中程度を表す文書集中度を算出し、このような文書集中度に応じる加重値をデータに付与することによって、主題の集中程度の高い文書を含むデータが以後に占有率の算出によって大きな影響を及ぼすようにしてもよい。あるいは、主題の集中程度の低い文書が占有率の算出によって低い影響を及ぼすようにしてもよい。
【0060】
このために、加重値付与部320は、文書の分類された主題に該当する文書である確率、及び文書が全体の主題それぞれに該当する文書である確率を用いて文書ごとに文書集中度を算出し、文書集中度を加重値として付与して文書の選択回数を調整してもよい。
【0061】
例えば、文書を「d」、全体の主題の集合を「T」、主題の集合に含まれた主題を「t」(∈T)、そして文書「d」が主題「t」に該当する文書である確率を「P(t)」とすれば、文書「d」の主題「t」における文書集速度「Q(t)」は前述した数式(1)のように算出されてもよい。
【0062】
このとき、主題「t」で文書「d」に対して発生した選択回数(クリック数)を「Cd、t−naive」とすれば、最終的に調整された選択回数「Cd、t−weighted」は前述した数式(2)のように算出されてもよい。
【0063】
順位決定部330は、加重値が付与されたデータを検索意図ごとに分類して少なくとも1つのデータ集合を生成し、データ集合間の順位を主題ごとに決定する。
【0064】
基本的に、同一の「検索意図」を有するデータを1つの集合にするため、下記の(1)、(2)のような基本原則を定義してもよい。
【0065】
(1)同一の文書がクリックされれば、用いられたキーワードが異なっても同一の検索意図である。
(2)異なる文書がクリックされても、検索語が同一であるか類似していれば、同一の検索意図である。
【0066】
このような基本原則を用いて、順位決定部330は、同一の文書に関する情報が含まれたデータを互いに同一の検索意図に分類し、同一のキーワードまたはキーワード間の類似度が予め選定された値以上であるキーワードを含むデータを互いに同一の検索意図として分類してデータ集合を生成してもよい。他の実施形態として、順位決定部330は、文書ごとに該当文書の選択に用いられたキーワードに対してキーワード間の類似度を用いて文書をクラスタリングし、同一の文書が含まれたデータを同一のデータ集合として生成してもよい。
【0067】
このように、同一の検索意図を有するデータを集めてデータ集合を生成した後、データ集合に含まれたデータに対して調整された選択回数の和を用いてデータ集合の大きさを求めてもよく、データ集合の大きさ比率を占有率として算出してもよい。すなわち、順位決定部330は、文書ごとに調整された選択回数を用いて主題に含まれたデータ集合ごとに占有率を算出し、算出された占有率に応じて主題におけるデータ集合間の順位を決定してもよい。このような占有率から、いずれのユーザグループがどのような検索意図をもってどの程度の占有率でクリックを発生させているかを示してもよい。このとき、全体データ集合「C」に対して特定データ集合「c」(∈C)における選択回数の和をN(c)とすれば、データ集合「C」の占有率「P(c)」は前述した数式(3)のように算出してもよい。
【0068】
代表キーワード決定部340は、データ集合を代表する代表キーワードをデータ集合ごとに決定する。すなわち、データ集合内には複数のデータが含まれ、したがって、データ集合内には同一の検索意図を有する様々なキーワードを含んでいる。このとき、代表キーワード決定部340は、1つのデータ集合を表すための最も適切なキーワードを検索して代表キーワードとして決定してもよい。
【0069】
例えば、代表キーワード決定部340は、前述した(a)、(b)および(c)の条件を用いて代表キーワードを決定してもよい。このような条件は、信頼性を有しながらも最も多い情報を含んでいるキーワードを代表キーワードとして決定するためのものである。
【0070】
このような条件は必要に応じて変更されてもよい。基本的に、本実施形態に係るキーワード順位決定システム300の代表キーワード決定部340は、データ集合に含まれたキーワードを形態素分析して算出された形態素ごとの重複回数に基づいた加重値、該当キーワードに応じて発生した文書の選択回数に応じた加重値、およびキーワードの長さに応じた加重値のうち少なくとも1つの加重値を用いてキーワードの中から代表キーワードを決定してもよい。ここで、形態素ごとの重複回数に基づいた加重値は、最も多い重複回数を有する形態素を含むか否かに応じて決定されてもよい。
【0071】
図4は、本発明の一実施形態に係る文書に対する選択回数を調整する一例を示す図である。第1点線ボックス410は、第1文書に対して発生した選択回数(クリック数)「40」が第1キーワードで35回、第2キーワードで5回発生したことを示している。このとき、第2点線ボックス420は、前述した数式(1)、(2)によって第1文書に対して発生した選択回数が調整される可能性があることを示している。このとき、第1文書に対して発生した選択回数は「40」から「15」に調整され、この場合、文書に対する選択回数「15」を超過する第1キーワードでの選択回数「35」が「15」に変更されたことを示している。すなわち、文書の選択回数が変更される場合、変更された選択回数よりも大きい選択回数を有するキーワードの選択回数は、変更された選択回数に共に調整されてもよい。占有率の算出には文書の選択回数が用いられてもよく、代表キーワードを選択する場合にはキーワードごとの選択回数が用いられてもよい。
【0072】
このように、本発明の実施形態に係るシステムおよび方法を用いると、ユーザクラスタリング情報を用いてユーザグループごとに人気検索語を順位ごとに提供して新しい情報を提供することで新しいクエリカウントを誘発することができ、同一の検索意図を有するキーワードを1つのデータ集合に集めて表示し、各データ集合の検索占有率を算出して順位を決定して検索占有率およびデータ集合の代表キーワードを提供することによって新しい情報を提供し、ユーザの興味を誘発することができる。
【0073】
本発明の実施形態に係る方法は、多様なコンピュータ手段を介して様々な処理を実行することができるプログラム命令の形態で実現され、コンピュータ読取可能な記録媒体に記録されてもよい。コンピュータ読取可能な媒体は、プログラム命令、データファイル、データ構造などのうちの1つまたはその組合せを含んでもよい。媒体に記録されるプログラム命令は、本発明の目的のために特別に設計されて構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり、使用可能なものであってもよい。コンピュータ読取可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、光ディスクのような光磁気媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置が含まれてもよい。プログラム命令の例としては、コンパイラによって生成されるような機械語コード(machine code)だけでなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コード(higher level code)を含む。上述したハードウェア装置は、本発明の動作を行うために1つ以上のソフトウェアのレイヤで動作するように構成されてもよい。
【0074】
上述したように、本発明を限定された実施形態と図面によって説明したが、本発明は、上記の実施形態に限定されることなく、本発明が属する分野における通常の知識を有する者であれば、このような実施形態から多様な修正及び変形が可能である。
【0075】
したがって、本発明の範囲は、開示された実施形態に限定されるものではなく、特許請求の範囲だけではなく特許請求の範囲と均等なものなどによって定められるものである。
【符号の説明】
【0076】
300 キーワード順位決定システム
310 データ分類部
320 加重値付与部
330 順位決定部
340 代表キーワード決定部

【特許請求の範囲】
【請求項1】
ウェブログのデータを予め選定された主題ごとに分類するデータ分類部と、
前記主題ごとに分類されたデータに該当する文書の前記主題の集中程度を表す文書集中度を算出し、前記文書集中度に応じる加重値を前記データに付与する加重値付与部と、
前記加重値が付与されたデータを検索意図ごとに分類して少なくとも1つのデータ集合を生成し、前記データ集合間の順位を前記主題ごとに決定する順位決定部と、
前記データ集合を代表する代表キーワードを前記データ集合ごとに決定する代表キーワード決定部と、
を備えることを特徴とするキーワード順位決定システム。
【請求項2】
前記ウェブログのデータは、文書、前記文書の選択に用いられたキーワード、および前記キーワードに応じて前記文書が選択された選択回数のうち2つ以上に関する情報を含み、
前記加重値付与部は、前記文書が分類された主題に該当する文書である確率および前記文書が全体の主題それぞれに該当する文書である確率を用いて文書ごとに前記文書集中度を算出し、前記文書集中度を前記加重値として付与して前記文書に対する選択回数を調整することを特徴とする請求項1に記載のキーワード順位決定システム。
【請求項3】
前記順位決定部は、前記文書ごとに調整された選択回数を用いて前記主題に含まれた前記データ集合ごとに占有率を算出し、前記算出された占有率に応じて前記主題におけるデータ集合間の順位を決定することを特徴とする請求項2に記載のキーワード順位決定システム。
【請求項4】
前記占有率は、前記データ集合における前記選択回数の和および全体データ集合に対する全体選択回数の和を用いて算出されることを特徴とする請求項3に記載のキーワード順位決定システム。
【請求項5】
前記ウェブログのデータは、文書、前記文書の選択に用いられたキーワード、および前記キーワードに応じて前記文書が選択された選択回数のうち2つ以上に関する情報を含み、
前記順位決定部は、同一の文書に関する情報を含むデータを互いに同一の検索意図に分類し、同一のキーワードまたはキーワード間の類似度が予め選定された値以上であるキーワードを含むデータを互いに同一の検索意図に分類して前記データ集合を生成することを特徴とする請求項1から4のいずれか1項に記載のキーワード順位決定システム。
【請求項6】
前記ウェブログのデータは、文書、前記文書の選択に用いられたキーワード、および前記キーワードに応じて前記文書が選択された選択回数のうち2つ以上に関する情報を含み、
前記順位決定部は、文書ごとに該当文書の選択に用いられたキーワードに対してキーワード間の類似度を用いて文書をクラスタリングし、同一の文書を含むデータを同一のデータ集合として生成することを特徴とする請求項1から5のいずれか1項に記載のキーワード順位決定システム。
【請求項7】
前記代表キーワード決定部は、前記データ集合に含まれたキーワードを形態素分析して算出された形態素ごとの重複回数に基づいた加重値、該当キーワードに応じて発生した文書の選択回数に応じた加重値、およびキーワードの長さに応じた加重値のうち少なくとも1つの加重値を用いて前記キーワードの中から前記代表キーワードを決定することを特徴とする請求項1から6のいずれか1項に記載のキーワード順位決定システム。
【請求項8】
前記形態素ごとの重複回数に基づいた加重値は、最も多い重複回数を有する形態素を含むか否かに応じて決定されることを特徴とする請求項7に記載のキーワード順位決定システム。
【請求項9】
前記予め選定された主題は、B−クッキーによってユーザを分類し、決定されたユーザグループに応じて分類されることを特徴とする請求項1から8のいずれか1項に記載のキーワード順位決定システム。
【請求項10】
ウェブログのデータを予め選定された主題ごとに分類し、
前記主題ごとに分類されたデータに該当する文書の前記主題の集中程度を表す文書集中度を算出して前記文書集中度に応じる加重値を前記データに付与し、
前記加重値が付与されたデータを検索意図ごとに分類して少なくとも1つのデータ集合を生成して前記データ集合間の順位を前記主題ごとに決定し、
前記データ集合を代表する代表キーワードを前記データ集合ごとに決定すること、
を含むことを特徴とするキーワード順位決定方法。
【請求項11】
前記ウェブログのデータは、文書、前記文書の選択に用いられたキーワード、および前記キーワードに応じて前記文書が選択された選択回数のうち2つ以上に関する情報を含み、
前記加重値を付与することは、前記文書が分類された主題に該当する文書である確率および前記文書が全体の主題それぞれに該当する文書である確率を用いて文書ごとに文書集中度を算出し、前記文書集中度を前記加重値として付与して前記文書に対する選択回数を調整することを特徴とする請求項10に記載のキーワード順位決定方法。
【請求項12】
前記データ集合間の順位を前記主題ごとに決定することは、前記文書ごとに調整された選択回数を用いて前記主題に含まれた前記データ集合ごとに占有率を算出し、前記算出された占有率に応じて前記主題におけるデータ集合間の順位を決定することを特徴とする請求項11に記載のキーワード順位決定方法。
【請求項13】
前記占有率は、前記データ集合における前記選択回数の和および全体データ集合に対する全体選択回数の和を用いて算出されることを特徴とする請求項12に記載のキーワード順位決定方法。
【請求項14】
前記ウェブログのデータは、文書、前記文書の選択に用いられたキーワード、および前記キーワードに応じて前記文書が選択された選択回数のうち2つ以上に関する情報を含み、
前記データ集合間の順位を前記主題ごとに決定することは、同一の文書に関する情報を含むデータを互いに同一の検索意図に分類し、同一のキーワードまたはキーワード間の類似度が予め選定された値以上であるキーワードを含むデータを互いに同一の検索意図に分類して前記データ集合を生成することを特徴とする請求項10から13のいずれか1項に記載のキーワード順位決定方法。
【請求項15】
前記ウェブログのデータは、文書、前記文書の選択に用いられたキーワード、および前記キーワードに応じて前記文書が選択された選択回数のうち2つ以上に関する情報を含み、
前記データ集合間の順位を前記主題ごとに決定することは、文書ごとに該当文書の選択に用いられたキーワードに対してキーワード間の類似度を用いて文書をクラスタリングし、同一の文書を含むデータを同一のデータ集合として生成することを特徴とする請求項10から14のいずれか1項に記載のキーワード順位決定方法。
【請求項16】
前記データ集合を代表する代表キーワードを前記データ集合ごとに決定することは、前記データ集合に含まれたキーワードを形態素分析して算出された形態素ごとの重複回数に基づいた加重値、該当キーワードに応じて発生した文書の選択回数に応じた加重値、およびキーワードの長さに応じた加重値のうち少なくとも1つの加重値を用いて前記キーワードの中から前記代表キーワードを決定することを特徴とする請求項10から15のいずれか1項に記載のキーワード順位決定方法。
【請求項17】
前記形態素ごとの重複回数に基づいた加重値は、最も多い重複回数を有する形態素を含むか否かに応じて決定されることを特徴とする請求項16に記載のキーワード順位決定方法。
【請求項18】
前記予め選定された主題は、B−クッキーによってユーザを分類し、決定されたユーザグループに応じて分類されることを特徴とする請求項10から17のいずれか1項に記載のキーワード順位決定方法。
【請求項19】
請求項10から18のいずれか1項の方法を行うプログラムを記録したコンピュータで読み出し可能な記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2012−141985(P2012−141985A)
【公開日】平成24年7月26日(2012.7.26)
【国際特許分類】
【出願番号】特願2011−289464(P2011−289464)
【出願日】平成23年12月28日(2011.12.28)
【出願人】(505205812)エヌエイチエヌ コーポレーション (408)