説明

ユーザ嗜好情報収集装置

【課題】簡易な構成により精度として十分な嗜好情報を収集する。
【解決手段】ユーザが閲覧するコンテンツデータからブラウザに表示されない情報でコンテンツ内容に関連するものを抽出する手段と、前記抽出した情報の内容から特徴語を抽出する手段と、前記抽出した特徴語をユーザに対応付けてデータベースに登録する手段とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、インターネット等のネットワーク上でサービスを利用するユーザの情報を収集する技術に関する。
【背景技術】
【0002】
インターネット上のサイトのページを閲覧するユーザに対してユーザの嗜好にマッチした広告を提供したり、サービスを利用するユーザの傾向を分析したりする等の種々の目的のために、ユーザの嗜好情報が用いられる(例えば、特許文献1参照。)。
【0003】
ユーザの嗜好情報の収集の手法として、大まかには、ユーザ登録時にプロフィールとして自己申告された情報を用いる場合と、ユーザのページ閲覧履歴等を分析して嗜好情報を収集する場合とがある。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2004−157827号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ユーザ登録時にプロフィールとして自己申告された情報を嗜好情報として用いる場合にあっては、ユーザ本人の自己申告であるが故に客観的に正確であるか否かが疑わしいという問題がある。
【0006】
また、ユーザのページ閲覧履歴等を分析して嗜好情報を収集する場合にあっては、大量のページデータをスキャンしなければならず、処理するサーバ等に高性能のものが要求され、コストがかかるという問題がある。
【0007】
本発明は上記の従来の問題点に鑑み提案されたものであり、その目的とするところは、簡易な構成により精度として十分な嗜好情報を収集することのできるユーザ嗜好情報収集装置を提供することにある。
【課題を解決するための手段】
【0008】
上記の課題を解決するため、本発明にあっては、請求項1に記載されるように、ユーザが閲覧するコンテンツデータからブラウザに表示されない情報でコンテンツ内容に関連するものを抽出する手段と、前記抽出した情報の内容から特徴語を抽出する手段と、前記抽出した特徴語をユーザに対応付けてデータベースに登録する手段とを備えるユーザ嗜好情報収集装置を要旨としている。
【0009】
また、請求項2に記載されるように、請求項1に記載のユーザ嗜好情報収集装置において、前記抽出した情報はメタタグが示すメタデータであるものとすることができる。
【0010】
また、請求項3に記載されるように、ユーザが閲覧するコンテンツデータからブラウザに表示されない情報でコンテンツ内容に関連するものを抽出する工程と、前記抽出した情報の内容から特徴語を抽出する工程と、前記抽出した特徴語をユーザに対応付けてデータベースに登録する工程とを備えるユーザ嗜好情報収集方法として構成することができる。
【発明の効果】
【0011】
本発明のユーザ嗜好情報収集装置にあっては、簡易な構成により精度として十分な嗜好情報を収集することができる。
【図面の簡単な説明】
【0012】
【図1】本発明の一実施形態にかかるシステムの構成例を示す図である。
【図2】ユーザデータベースのデータ構造例を示す図である。
【図3】コンテンツデータベースのデータ構造例を示す図である。
【図4】広告データベースのデータ構造例を示す図である。
【図5】Webサーバのハードウェア構成例を示す図である。
【図6】実施形態の処理例を示すシーケンス図(その1)である。
【図7】実施形態の処理例を示すシーケンス図(その2)である。
【図8】ログインページの画面例を示す図である。
【図9】閲覧ページの画面例を示す図である。
【発明を実施するための形態】
【0013】
以下、本発明の好適な実施形態につき説明する。
【0014】
<構成>
図1は本発明の一実施形態にかかるシステムの構成例を示す図である。
【0015】
図1において、インターネット等のネットワーク1には、ユーザが操作するPC(Personal Computer)、携帯電話、PDA(Personal Digital Assistants)等のユーザ端末2が複数接続されている。ユーザ端末2は、一般的なブラウザ(Webブラウザ)21を備えている。ブラウザ21は、インターネットの標準プロトコルであるHTTP(Hyper Text Transfer Protocol)等に従い、HTML(Hyper Text Markup Language)等の言語で記述されたページデータの要求・取得・表示およびフォームデータの送信等を行う機能を有している。
【0016】
一方、ネットワーク1には、ユーザの操作するユーザ端末2のブラウザ21からのアクセスに対してページの閲覧等を行わせるWebサーバ3が接続されている。
【0017】
Webサーバ3は、機能部として、ログイン処理部31と閲覧処理部32とユーザ特定部33と広告マッチング部34とメタタグ抽出部35と特徴語抽出部36とユーザ嗜好情報登録部37とを備えている。これらの機能部は、Webサーバ3を構成するコンピュータのCPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等のハードウェア資源上で実行されるコンピュータプログラムによって実現されるものである。これらの機能部は、単一のコンピュータ上に配置される必要はなく、必要に応じて分散される形態であってもよい。
【0018】
また、Webサーバ3が参照するデータベースとして、ユーザデータベース301とコンテンツデータベース302と広告データベース303とが設けられている。これらのデータベースは、データベースを保持するコンピュータ内のHDD(Hard Disk Drive)等の記憶媒体上に所定のデータを体系的に保持するものである。
【0019】
図2はユーザデータベース301のデータ構造例を示す図であり、「ユーザID」「パスワード」「ユーザ嗜好情報」等の項目を有している。「ユーザID」は、ユーザを識別する情報である。「パスワード」は、ログイン時に認証を行うための秘密情報である。「ユーザ嗜好情報」は、当該ユーザの嗜好を表す語句(複数可)である。
【0020】
図3はコンテンツデータベース302のデータ構造例を示す図であり、「コンテンツID」「コンテンツデータ」等の項目を有している。「コンテンツID」は、コンテンツを識別する情報である。「コンテンツデータ」は、コンテンツデータの実体であり、テキスト、画像、音声等を含む。「コンテンツデータ」として実データを保持することなく、実データの保存場所のリファレンスを保持していてもよい。
【0021】
図4は広告データベース303のデータ構造例を示す図であり、「広告ID」「キーワード」「広告コンテンツ」等の項目を有している。「広告ID」は、広告を識別する情報である。「キーワード」は、コンテンツマッチングにより当該広告と対応付ける語句である。「広告コンテンツ」は、広告内容のデータであり、テキスト、画像、音声等を含む。「広告コンテンツ」として実データを保持することなく、実データの保存場所のリファレンスを保持していてもよい。
【0022】
図1に戻り、ログイン処理部31は、ユーザ端末2のブラウザ21からの要求に応じ、ユーザデータベース301との照合により登録ユーザのログイン処理を行う機能を有している。
【0023】
閲覧処理部32は、ユーザ端末2のブラウザ21からの要求に応じ、コンテンツデータベース302に格納されたコンテンツの閲覧を行わせる機能を有している。
【0024】
ユーザ特定部33は、ユーザ端末2のブラウザ21からの閲覧の要求に際し、要求を行ったユーザをセッション情報から特定する機能を有している。
【0025】
広告マッチング部34は、特定されたユーザのユーザ嗜好情報をユーザデータベース301から取得し、広告データベース303により広告マッチングを行う機能を有している。
【0026】
メタタグ抽出部35は、閲覧対象となっているコンテンツからメタタグを抽出する機能を有している。メタタグとは、HTML等により記述されたページデータにおいて、「<meta 」等で開始されるタグであり、name属性として「description」「keyword」「author」等を指定し、content属性に内容を設定することで、コンテンツの書誌情報等を示すものである。これらのメタタグの内容(メタデータ)は閲覧ページ上には直接に表示されないが、ポータルサイトの検索エンジン等はこれらのメタタグも情報収集対象としているため、検索順位を上げるためのSEO(Search Engine Optimization)対策として積極的に内容の設定が行われている。従って、コンテンツの内容を特徴付ける語句が高い確率で含まれていると考えられる。また、メタタグに限らず、ブラウザに表示されない情報でコンテンツ内容に関連するものであれば、メタタグに代えて、あるいはメタタグとともに抽出の対象とすることができる。
【0027】
特徴語抽出部36は、メタタグ抽出部35により抽出されたメタタグ等から、TF(Term Frequency)/IDF(Inverted Document Frequency)等の手法により特徴語を抽出する機能を有している。
【0028】
ユーザ嗜好情報登録部37は、特徴語抽出部36により抽出された特徴語を、ユーザIDに対応付けて、ユーザ嗜好情報としてユーザデータベース301に登録する機能を有している。
【0029】
図5はWebサーバ3のハードウェア構成例を示す図である。
【0030】
図5において、Webサーバ3は、システムバス3001に接続されたCPU3002、ROM3003、RAM3004、NVRAM(Non-Volatile Random Access Memory)3005、I/F(Interface)3006と、I/F3006に接続された、キーボード、マウス、モニタ、CD/DVD(Compact Disk/Digital Versatile Disk)ドライブ等のI/O(Input/Output Device)3007、HDD3008、NIC(Network Interface Card)3009等を備えている。Mはプログラムもしくはデータが格納されたCD/DVD等のメディア(記録媒体)である。
【0031】
<動作>
図6は上記の実施形態の処理例を示すシーケンス図である。
【0032】
図6において、ユーザ端末2のユーザがログインを行おうとする場合、ユーザ端末2のブラウザ21からWebサーバ3のログイン処理部31にアクセスしてログインページ要求を行なう(ステップS101)。ページ要求は、インターネットの標準プロトコルであるHTTPに従ったGETメソッドとリクエストURI(Uniform Resource Indicator)等を含むメッセージがユーザ端末2のブラウザ21からWebサーバ3のログイン処理部31に送信されることで行なわれる。
【0033】
これを受け、Webサーバ3のログイン処理部31は、内部的に保持あるいは動的に生成したログインページをユーザ端末2のブラウザ21に送信する(ステップS102)。ページデータはHTTPのレスポンス等に従ってWebサーバ3のログイン処理部31からユーザ端末2のブラウザ21に送信される。
【0034】
ユーザ端末2のブラウザ21は、受信したログインページの表示を行う(ステップS103)。図8はログインページの画面例を示す図であり、ユーザIDとパスワードの入力欄と「OK」ボタンが設けられている。ユーザは、ユーザIDとパスワードを入力して「OK」ボタンを押下することで入力が完了する。
【0035】
図6に戻り、ユーザ端末2のユーザがログインページにユーザIDとパスワードを入力すると(ステップS104)、入力内容がユーザ端末2のブラウザ21からWebサーバ3のログイン処理部31に送信される(ステップS105)。入力内容はHTTPのPOSTメソッドあるいはPUTメソッド等に付加されたHTML等のデータあるいはGETメソッド等に付加されたパラメータとしてユーザ端末2のブラウザ21からWebサーバ3のログイン処理部31に送信される。
【0036】
これを受け、Webサーバ3のログイン処理部31は、取得したユーザIDとパスワードの組がユーザデータベース301に登録されているか否か照合し(ステップS106)、登録されていれば、ユーザIDを特定可能なセッション情報を生成してユーザ端末2のブラウザ21に送信する(ステップS107)。データはHTTPのレスポンス等に従ってWebサーバ3のログイン処理部31からユーザ端末2のブラウザ21に送信される。セッション情報は、ユーザ端末2のブラウザ21においてクッキー等に書き込まれ、その後のWebサーバ3へのアクセス時に読み出されたり、アクセス時のURLパラメータとして付加されたりすることで、セッション情報が有効であればログイン済であることが確認される。
【0037】
その後、ユーザ端末2のユーザがページの閲覧を行おうとする場合、ユーザ端末2のブラウザ21からWebサーバ3の閲覧処理部32にアクセスして閲覧ページ要求を行なう(ステップS111)。閲覧ページ要求には閲覧対象のコンテンツを特定するコンテンツIDが含まれている。ページ要求は、インターネットの標準プロトコルであるHTTPに従ったGETメソッドとリクエストURI等を含むメッセージがユーザ端末2のブラウザ21からWebサーバ3の閲覧処理部32に送信されることで行なわれる。
【0038】
これを受け、Webサーバ3の閲覧処理部32は、ユーザ端末2のブラウザ21から要求された閲覧ページデータを、コンテンツID等に基づいてコンテンツデータベース302から取得する(ステップS112)。
【0039】
また、Webサーバ3の閲覧処理部32は、ユーザ端末2のブラウザ21からのアクセスのセッション情報をユーザ特定部33に引き渡す(ステップS113)。閲覧処理部32からユーザ特定部33への通信はWebサーバ3内の通信であるため、任意の形式とすることができる。
【0040】
Webサーバ3のユーザ特定部33は、ログイン処理部31に対してセッション情報によるユーザIDの照会を行う(ステップS114、S115)。ユーザ特定部33とログイン処理部31の間の通信はWebサーバ3内の通信であるため、任意の形式とすることができる。ユーザ特定部33は取得したユーザIDを閲覧処理部32に引き渡す(ステップS116)。なお、セッション情報から直接にユーザIDを取得できる場合には、ユーザ特定部33およびその処理を省略することができる。
【0041】
次いで、Webサーバ3の閲覧処理部32は、閲覧ページデータを自ら使用するほか、ユーザIDとともにメタタグ抽出部35に引き渡す(ステップS117)。閲覧処理部32からメタタグ抽出部35への通信はWebサーバ3内の通信であるため、任意の形式とすることができる。
【0042】
Webサーバ3のメタタグ抽出部35は、渡された閲覧ページデータからメタタグを抽出し(ステップS118)、メタタグの内容とユーザIDを特徴語抽出部36に引き渡す(ステップS119)。メタタグ抽出部35から特徴語抽出部36への通信はWebサーバ3内の通信であるため、任意の形式とすることができる。
【0043】
Webサーバ3の特徴語抽出部36は、渡されたメタタグの内容からTF/IDF等の手法により特徴語を抽出し(ステップS120)、抽出した特徴語とユーザIDをユーザ嗜好情報登録部37に引き渡す(ステップS121)。特徴語抽出部36からユーザ嗜好情報登録部37への通信はWebサーバ3内の通信であるため、任意の形式とすることができる。
【0044】
Webサーバ3のユーザ嗜好情報登録部37は、渡された特徴語をユーザIDに対応付け、ユーザ嗜好情報としてユーザデータベース301に登録する(ステップS122)。なお、個々の語句(特徴語)に累積の抽出数を付記して登録し、抽出数が所定数を超えたものを有効なユーザ嗜好情報として使用するようにすることで、誤って抽出された語句を除外し、嗜好情報の精度を高めることができる。
【0045】
一方、図7において、Webサーバ3の閲覧処理部32は、広告マッチング部34にユーザIDを引き渡す(ステップS123)。閲覧処理部32から広告マッチング部34への通信はWebサーバ3内の通信であるため、任意の形式とすることができる。
【0046】
Webサーバ3の広告マッチング部34は、ユーザIDに基づいてユーザデータベース301を検索してユーザ嗜好情報を取得し(ステップS124)、そのユーザ嗜好情報を用いて広告データベース303により広告マッチングを行う(ステップS125)。すなわち、広告データベース303のキーワード欄に対してユーザ嗜好情報に含まれる単語をキーに検索を行い、ヒットする広告を見つける。広告は一つに限らず、閲覧ページに埋込可能な所定数とすることができる。所定数を超える広告がヒットした場合は、ヒット率の高さ等に基づいて上位から所定数の広告を決定する。広告が全くヒットしなかった場合や所定数に満たない場合は、デフォルトの広告を充当する。
【0047】
次いで、広告マッチング部34は、広告データベース303からヒットした広告のデータを取得し(ステップS126)、閲覧処理部32に引き渡す(ステップS127)。広告マッチング部34から閲覧処理部32への通信はWebサーバ3内の通信であるため、任意の形式とすることができる。
【0048】
これを受け、Webサーバ3の閲覧処理部32は、閲覧対象のコンテンツに、広告を合成した閲覧ページを生成し(ステップS128)、ユーザ端末2のブラウザ21に送信する(ステップS129)。ページデータはHTTPのレスポンス等に従ってWebサーバ3の閲覧処理部32からユーザ端末2のブラウザ21に送信される。
【0049】
ユーザ端末2のブラウザ21は、受信した閲覧ページを表示する(ステップS130)。図9は閲覧ページの画面例を示す図であり、コンテンツ内容の他に、広告#1〜3が表示されている。これらの広告はユーザ嗜好情報に基づいて決定されたものであるため、広告画像をクリックすることで詳細ページへのリンクや商品の購入等につながる可能性が高い。
【0050】
<総括>
以上説明したように、本実施形態によれば、ユーザが閲覧したページデータに含まれるメタタグのみを収集の対象としており、コンテンツの全文を解析する必要がないため、非常に軽い処理によりユーザ嗜好情報の収集を行うことができる。また、メタタグにはSEO対策等によりコンテンツの内容を特徴付ける語句が高い確率で含まれているため、ユーザ嗜好情報として価値の高い語句を収集することができる。
【0051】
以上、本発明の好適な実施の形態により本発明を説明した。ここでは特定の具体例を示して本発明を説明したが、特許請求の範囲に定義された本発明の広範な趣旨および範囲から逸脱することなく、これら具体例に様々な修正および変更を加えることができることは明らかである。すなわち、具体例の詳細および添付の図面により本発明が限定されるものと解釈してはならない。
【符号の説明】
【0052】
1 ネットワーク
2 ユーザ端末
21 ブラウザ
3 Webサーバ
31 ログイン処理部
32 閲覧処理部
33 ユーザ特定部
34 広告マッチング部
35 メタタグ抽出部
36 特徴語抽出部
37 ユーザ嗜好情報登録部
301 ユーザデータベース
302 コンテンツデータベース
303 広告データベース

【特許請求の範囲】
【請求項1】
ユーザが閲覧するコンテンツデータからブラウザに表示されない情報でコンテンツ内容に関連するものを抽出する手段と、
前記抽出した情報の内容から特徴語を抽出する手段と、
前記抽出した特徴語をユーザに対応付けてデータベースに登録する手段と
を備えたことを特徴とするユーザ嗜好情報収集装置。
【請求項2】
請求項1に記載のユーザ嗜好情報収集装置において、
前記抽出した情報はメタタグが示すメタデータである
ことを特徴とするユーザ嗜好情報収集装置。
【請求項3】
ユーザが閲覧するコンテンツデータからブラウザに表示されない情報でコンテンツ内容に関連するものを抽出する工程と、
前記抽出した情報の内容から特徴語を抽出する工程と、
前記抽出した特徴語をユーザに対応付けてデータベースに登録する工程と
を備えたことを特徴とするユーザ嗜好情報収集方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2010−271996(P2010−271996A)
【公開日】平成22年12月2日(2010.12.2)
【国際特許分類】
【出願番号】特願2009−124184(P2009−124184)
【出願日】平成21年5月22日(2009.5.22)
【出願人】(500257300)ヤフー株式会社 (1,128)
【Fターム(参考)】