説明

商品情報補完方法,商品情報補完装置,および商品情報補完プログラム

【課題】購入手続きページから抽出された購入商品情報に欠落がある場合に、購入商品情報を補完して欠落のない「購入商品情報」を生成する。
【解決手段】「購入手続き」ページから抽出された「購入商品情報」6dにおいて、「閲覧商品情報」6cと比較して一部「商品属性」の記載が無く抽出できなかった場合には、同一商品の「閲覧商品情報」6cを推測し、その「閲覧商品情報」6cの「商品属性」を用いて「購入商品情報」6dの欠落を補完する。また、「購入手続き完了ページ」等において、「購入手続き対象商品」の記載がないため、「購入商品情報」6dが抽出できなかった場合には、同じ商品を対象とする一連の「購入手続き」ページを推測し、その「購入手続き」ページから抽出された「購入商品情報」6dを用いて、「購入商品情報」6dの欠落を補完する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、EC(e−commerce)サイトにおけるユーザの行動を分析するためのWeb閲覧履歴のデータ抽出に係り、特に抽出した商品情報の欠落を補完する方法に関する。
【背景技術】
【0002】
実店舗でのマーケティング調査において、買い物の前後に顧客と面接を行って聴取する方法,顧客自身に買い物中に見たことや考えたことを記録してもらう方法,あるいは観察者が顧客の店舗内での行動を記録する方法などにより、POS(Point of sale)などで得られる購入に至った商品だけではなく買い物中に注目した商品,購入に至った商品と比較した商品についての情報も取得し、顧客の購買行動を分析する手法がある(非特許文献1参照)。
【0003】
これら実店舗における調査は負担が大きいが、ECサイトにおいての顧客,ユーザの行動の調査は、ユーザのWeb閲覧履歴を自動的に収集し、収集した閲覧履歴に含まれるユーザの購入商品や閲覧商品などを抽出することにより取得することが可能である。
【0004】
ユーザのWeb閲覧履歴を自動的に収集する方法としては、PC操作履歴収集システム(非特許文献2参照)などを利用することが可能である。
【0005】
また、収集されたWeb閲覧履歴に含まれるHTMLソースより商品情報を抽出する方法(非特許文献3参照)などを利用することも可能である。
【0006】
これらの技術を組み合わせてユーザのWeb閲覧履歴を収集し、ECサイトで閲覧された商品や購入された商品を抽出することにより、購買行動を分析する方法として、以下のような方法がある。
【0007】
この方法では、図5に示すように、パネルユーザ端末10において、ユーザがWebページを閲覧する度に、その『閲覧時刻』,閲覧したWebページのアドレスである『URL』,そのWebページのひとつ前に表示していたWebページのURLである『リファラ』,および閲覧したWebページの『HTMLソース』を取得する。この取得したデータにどのユーザによる閲覧かを区別する『ユーザ識別子』を付与したものを「Web閲覧履歴」の1レコードとしてインターネット30を介して購買行動分析サーバ20に送信する。一方、購買行動分析サーバ20のWeb閲覧履歴受信部21では、各「Web閲覧履歴」のデータを一意に識別できる『レコード識別子』を付与し、Web閲覧履歴DB25に格納する。
【0008】
ページ情報抽出部22は、Web閲覧履歴DB25に蓄積された「Web閲覧履歴」の1レコードが、ECサイトの商品における詳細説明のWebページ(以下,「商品詳細」ページと称する)や、商品の購入手続きに関するWebページ(以下,「購入手続き」ページと称する)などである場合に、そのWeb閲覧履歴DB25から「ページ情報」を抽出し、ページ情報DB26に格納する。
【0009】
前記「ページ情報」は、Web閲覧履歴DB25におけるWeb閲覧履歴の1レコードから、『レコード識別子』,『ユーザ識別子』,『閲覧時刻』,「Web閲覧履歴」のURLに基づいて当該WebページがどのECサイトのものであるかを示すラベルが付された『サイト名』を抽出し、ページ情報を一意に識別するための『ページ情報識別子』を付与し、生成したものである。
【0010】
また、ページ情報抽出部22は、「Web閲覧履歴」の『URL』や『HTMLソース』が所定の条件を満たすか否かにより、当該Webページの閲覧がどの『ページ種別』(「商品詳細ページ」や「購入手続きページ」等)の閲覧であったかを示す識別子『ページ種別』を判定し付与する。「Web閲覧履歴」の1ページは複数の『HTMLソース』から構成されることがあり、この場合には『HTMLソース』分、複数の『ページ情報』が生成される。
【0011】
商品情報抽出部23は、「ページ情報」の『ページ種別』が「商品詳細」ページである場合には「閲覧商品情報」として、「購入手続き」ページである場合には「購入商品情報」として、「ページ情報」および「Web閲覧履歴」から『ユーザ識別子』,『閲覧時刻』,『サイト識別子(サイト名)』を抽出する。また、「閲覧商品情報」,「購入商品情報」には、「商品情報」を一意に識別する『閲覧商品情報識別子』または『購入商品情報識別子』が付与される。
【0012】
また、商品情報抽出部23は、「Web閲覧履歴」の『HTMLソース』からそのWebページに記載された商品に関する属性(以下、商品属性と称する)である『商品名』,『価格』,『商品説明文』,『ブランド』,その商品がスカートであるかズボンであるか等の種別を示す『カテゴリ』,ECサイトがサイト内において商品を管理するために付与する『サイト内商品コード』,商品の詳細情報が記載されたWebページのURLを示す『商品詳細URL』等をそれぞれの抽出条件に基づき抽出する。
【0013】
前記『購入商品情報識別子』,『閲覧商品情報識別子』と『ユーザID』『閲覧時刻』『サイト名』および商品属性により、「購入商品情報」と「閲覧商品情報」が生成され、購入商品情報DB27,閲覧商品情報DB28にそれぞれ格納される。
【0014】
なお、『HTMLソース』に複数の商品に関する情報が含まれる場合には、商品毎に個数分の「閲覧商品情報」または「購入商品情報」を生成する。また、Webページに記載される内容はサイトやページの種類によって異なるために必ずしもすべての商品属性が抽出されるわけではない。
【0015】
統計解析部24は、生成された「閲覧商品情報」,「購入商品情報」に対して所定の統計解析処理を実行することにより、ユーザの購買行動分析を行う。
【先行技術文献】
【非特許文献】
【0016】
【非特許文献1】青木幸弘,店舗内購買行動研究の現状と課題(1),関西学院大学商学部,商學論究,1985年2月,32(4),pp117−146
【非特許文献2】田中明通,内山匡,PC操作履歴収集システム「メモリ・リトリーバ」,NTT技術ジャーナル,1月号,2011,Vol 9,No 1
【非特許文献3】富田一郎,手塚祐一,山本修一郎,長岡満夫,HTML文書からの商品情報抽出方式の提案,情報処理学会,全国大会講演論文集,1998年3月17日,第56回平成10年前期(3),pp79−80
【発明の概要】
【発明が解決しようとする課題】
【0017】
しかしながら、上述の購買行動分析方法において「購入商品情報」は、「Web閲覧履歴」の1レコード、つまり1Webページごとに生成しているため、生成される「購入商品情報」には次のような2種類の欠落があり、その「購入商品情報」を利用した解析では購買行動の分析精度が低くなる問題があった。
【0018】
以下、一般的なECサイト上での購入手続きの流れ及びページの変遷について説明する。
【0019】
ユーザは購入したい商品の「商品詳細」ページで“買い物かごに入れる”ボタンを押すこと等により該当商品を「購入手続き対象商品」として選択する。一度の購入手続きで複数の商品を購入できるECサイトでは、さらに別の「商品詳細」ページで、同様に“買い物かごに入れる”ボタンを押すこと等により「購入手続き対象商品」を追加する。
【0020】
ユーザは「購入手続き対象商品」を選択し終えたら、ECサイトのメニュー等に存在する“買い物かごの中身を表示”等のボタンを押し,「購入手続き対象商品」として選択している商品を表示するページ(以下、「購入手続き対象商品」ページと称する)を表示する。ユーザは、「購入手続き対象商品」を確認し、必要に応じて購入対象とする商品、およびその個数等を修正し、“購入手続きを開始する”等のボタンを押すことによって、購入手続きを開始する。
【0021】
次に、送付先,支払方法などを指定するページが順次表示されるので、ユーザは画面の指示に従い入力を進める。購入手続きに必要な情報の入力が終わると、システムにより購入手続きの最終確認として商品名,個数,価格などを含む購入手続き対象商品などが記載されたページ(以下,「最終確認」ページ)が表示される。ユーザは表示された情報を確認し、必要があれば前の手順に戻って修正を行い、「注文を確定する」ボタン等を押すことによって購入手続きを確定する。
【0022】
正常に購入手続きが完了した場合には、システムにより購入手続きが完了したことの通知および購入に対する謝意などが記載されたページ(以下、「購入手続き完了」ページと称する)が表示される。
【0023】
以下、上記のような購入手続きの途中で表示されるページを「購入手続き」ページと呼ぶ。
【0024】
このとき、「購入手続き」ページでは一部の「商品属性」が記載されないため「購入手続き」ページから抽出される「購入商品情報」には欠落が生じる。これが1つ目の欠落である。
【0025】
すなわち、「商品詳細」ページは商品の説明を目的とするため商品に関する情報が詳細に記載してあり、『商品名』,『価格』,『商品説明文』,『ブランド』,『カテゴリ』等の商品属性が抽出できるが、「購入手続き」ページではその購入手続きの対象商品を確認するために最低限必要となる情報である『商品名』や『価格』のみしか記載されず、『商品説明文』,『ブランド』,『カテゴリ』などは抽出できない場合が多い。
【0026】
このため、「購入商品情報」についても「閲覧商品情報」と同等の情報を用いて解析を行うためには、「購入商品情報」について抽出できない「商品属性」を補完する必要がある。
【0027】
また、一部の「購入手続き」ページでは購入手続きの対象となる商品が記載されないため、「購入商品情報」に欠落が生じる。これが2つ目の欠落である。
【0028】
すなわち、「購入手続き対象商品リスト」ページや「最終確認」ページなどでは確認のために「購入手続き対象商品」が記載されるが、「購入手続き完了」ページでは、購入に対する謝辞や注文番号のみが記載され、「購入手続き対象商品」に関する記載は省略されることが多く、「購入手続き対象商品」を抽出できない場合が多い。
【0029】
ECサイトにおいては「購入手続き対象商品」を選択して購入手続きを開始した後でも、「購入手続き対象商品」を変更したり、購入自体を取りやめたりするケースが多いため、「購入手続き」ページの「購入手続き対象商品」について解析を行うことは重要である。
【0030】
そのため、「購入手続き完了」ページ等に「購入手続き対象商品」の記載がない場合にも記載されなかった「購入商品情報」を補完する必要がある。
【0031】
以上示したように、本発明は「購入手続き」ページから抽出された「購入商品情報」に欠落がある場合に、「購入商品情報」を補完して欠落のない「購入商品情報」を生成することが課題となる。
【課題を解決するための手段】
【0032】
本発明は、前記従来の問題に鑑み、案出されたもので、その一態様は、Web閲覧履歴から抽出される商品情報の補完方法であって、入力手段が、Web閲覧履歴,ページ情報,閲覧商品情報,購入商品情報を記憶部に格納する入力ステップと、商品属性補完手段が、前記購入商品情報における商品属性の欠落の有無を確認し、商品属性に欠落が有る場合は、その購入商品情報の閲覧時刻よりも過去の閲覧時刻の閲覧商品情報のうち、当該購入商品情報の商品と同一商品と推測される閲覧商品情報を探索し、探索された閲覧商品情報の商品属性を用いて、購入商品情報における商品属性の欠落を補完する商品属性補完ステップと、商品情報補完手段が、前記ページ情報のページ種別が購入手続きのものであり、前記ページ情報から抽出された購入商品情報に商品情報が1つも存在しない場合には、当該ページ情報と同一商品を対象とした購入手続きのページ情報の中で当該ページ情報より過去のページ情報から抽出された購入商品情報を用いて、補完対象の購入商品情報の欠落を補完する商品情報補完ステップと、を有することを特徴とする。
【0033】
また、Web閲覧履歴から抽出される商品情報の補完装置であって、Web閲覧履歴,ページ情報,閲覧商品情報,購入商品情報を記憶部に格納する入力手段と、前記購入商品情報における商品属性の欠落の有無を確認し、購入商品属性に欠落が有る場合は、その商品情報の閲覧時刻よりも過去の閲覧時刻の閲覧商品情報のうち、当該購入商品情報の商品と同一商品と推測される閲覧商品情報を探索し、探索された閲覧商品情報の商品属性を用いて、購入商品情報における商品属性の欠落を補完する商品属性補完手段と、前記ページ情報のページ種別が購入手続きのものであり、当該ページ情報から抽出された購入商品情報に商品情報が1つも存在しない場合には、当該ページ情報と同一商品を対象とした購入手続きのページ情報の中で当該ページ情報より過去のページ情報から抽出された購入商品情報を用いて、補完対象の購入商品情報の欠落を補完する商品情報補完手段と、を備えたことを特徴とする。
【0034】
なお、本発明は、前記商品情報補完装置としてコンピュータを機能させるプログラムの態様でもよく、また、該プログラムを記録した記録媒体の態様で提供しても良い。
【発明の効果】
【0035】
本発明によれば、「購入手続き」ページから抽出された「購入商品情報」において、「閲覧商品情報」と比較して一部「商品属性」の記載が無く抽出できなかった場合には、同一商品と推測された「閲覧商品情報」の「商品属性」を用いて「購入商品情報」の欠落を補完することが可能となる。
【0036】
また、「購入手続き完了ページ」等において、「購入手続き対象商品」の記載がないため、「購入商品情報」が抽出できなかった場合には、同じ商品を対象とする一連の「購入手続き」ページを推測し、その「購入手続き」ページから抽出された「購入商品情報」を用いて、「購入商品情報」の欠落を補完することが可能となる。
【0037】
その結果、欠落のない「購入商品情報」を生成し、より精度の高い購買行動の分析を行うことが可能となる。
【図面の簡単な説明】
【0038】
【図1】実施形態における商品情報補完方法の処理ステップを示すフローチャートである。
【図2】実施形態における商品情報補完装置を示す構成図である。
【図3】実施形態における商品属性補完部の詳細な処理を示すフローチャートである。
【図4】実施形態における商品情報補完部の詳細な処理を示すフローチャートである。
【図5】従来の購買行動分析装置を示す構成図である。
【発明を実施するための形態】
【0039】
以下、本発明における商品情報補完方法,商品情報補完装置および商品情報補完プログラムの実施形態を図面に基づいて詳細に説明する。
【0040】
なお、本願発明は、実施形態により開示する発明が限定されるものではない。
【0041】
[実施形態]
図1は、本実施形態における商品情報補完方法の基本的な処理の流れを示すフローチャートであり、図2は本実施形態における商品情報補完装置を示す構成図である。
【0042】
図1に示すように、本実施形態における商品情報補完方法は、入力ステップS1と、商品属性補完ステップS2と、商品情報補完ステップS3と、を有する。
【0043】
図2に示すように、商品情報補完装置1は、「Web閲覧履歴」6aを記憶するWeb閲覧履歴記憶部2a,「ページ情報」6bを記憶するページ情報記憶部2b,「閲覧商品情報」6cを記憶する閲覧商品情報記憶部2c,「購入商品情報」6dを記憶する購入商品情報記憶部2d,「購入商品情報」6dの購入商品情報識別子と、その購入商品情報と同一商品とみなされた「閲覧商品情報」6cの閲覧商品情報識別子とを対応付けて記憶する購入商品‐同一閲覧商品記憶部2e,商品属性を補完した属性補完済み購入商品情報を記憶する属性補完済み購入商品情報記憶部2f,ページ種別が購入手続きであるページ情報識別子と、当該ページ情報と同一商品と推定された同一商品購入手続きページのページ情報識別子とを対応つけて記憶する同一商品購入手続き記憶部2g,商品情報を補完した補完済み購入商品情報を記憶する補完済み購入商品情報記憶部2h,「Web閲覧履歴」6a,「ページ情報」6b,「閲覧商品情報」6c,「購入商品情報」6dを入力し、Web閲覧履歴記憶部2a,ページ情報記憶部2b,閲覧商品情報記憶部2c,購入商品情報記憶部2dへ、それぞれ格納する入力部3,購入商品情報6dの商品属性を補完する商品属性補完部4,購入商品情報6dの商品情報を補完する商品情報補完部5と、を備えている。
【0044】
前記商品情報補完装置1は、コンピュータのハードウェア資源(CPU,メモリ,ハードディスクドライブ装置,通信インターフェイスなど)とソフトウェアとの協働の結果、各記憶部2a〜2h,入力部3,商品属性補完部4,商品情報補完部5として機能している。
【0045】
前記入力部3は、例えば、図5に示す従来の購買行動分析サーバ20が受信した「Web閲覧履歴」6a,購買行動分析サーバ20が抽出した「ページ情報」6b,「閲覧商品情報」6c,「購入商品情報」6dを入力する。すなわち、購買行動分析サーバ20のWeb閲覧履歴受信部21が、パネルユーザ端末10から「Web閲覧履歴」6aを受信し、ページ情報抽出部22,商品情報抽出部23で、「ページ情報」6b,「閲覧商品情報」6c,「購入商品情報」6dを抽出し、これら「Web閲覧履歴」6a,「ページ情報」6b,「閲覧商品情報」6c,「購入商品情報」6dを入力部3が入力する。入力された「Web閲覧履歴」6a,「ページ情報」6b,「閲覧商品情報」6c,「購入商品情報」6dは、Web閲覧履歴記憶部2a,ページ情報記憶部2b,閲覧商品情報記憶部2c,購入商品情報記憶部2dへ、それぞれ格納する。
【0046】
次に、商品属性補完部4で購入商品情報の欠落した「商品属性」を補完する。さらに商品情報補完部5で欠落した「商品情報」を補完する。
【0047】
ここで、パネルユーザ端末についても簡単に説明する。パネルユーザ端末は、パネルユーザがWebページを閲覧するのに用いる端末である。パネルユーザ端末は、例えば、概知のパーソナルコンピュータ、インターネットにアクセスする機能を有するテレビ、携帯電話、スマートフォン、PHS(Personl Handy−phone System)、PDA(Personal Digital Assistant)などが該当する。
【0048】
表1は「Web閲覧履歴」6a,表2は「ページ情報」6b,表3は「閲覧商品情報」6cおよび表4は「購入商品情報」6dの入力例である。
【0049】
【表1】

【0050】
【表2】

【0051】
【表3】

【0052】
【表4】

【0053】
表1〜表4に示す、レコード識別子i1はWeb閲覧履歴記憶部2aのレコードを一意に識別する情報を示し、ユーザ識別子i2はパネルユーザを識別するIDを示し、閲覧時刻i3はパネルユーザにより閲覧された日時を示し、URLi4はパネルユーザにより閲覧されたWebページのURLを示し、リファラi5は前記Webページの1つ前に表示していたWebページのURLを示し、HTMLソースi6はパネルユーザにより閲覧されたWebページのHTMLソースを示す。
【0054】
また、ページ情報識別子i7はページ情報記憶部2bのレコードを一意に識別する情報を示し、サイト名i8はユーザにより閲覧されたWebページのサイト名を示し、ページ種別i9はユーザにより閲覧されたWebページが商品閲覧ページなのか購入手続きページなのかを示す。さらに、閲覧商品情報識別子i10は閲覧商品情報記憶部2cのレコードを一意に識別する情報を示し、購入商品情報識別子i18は購入商品情報記憶部2dのレコードを一意に識別する情報を示す。また、商品名i11,サイト内商品コードi12、商品詳細URLi13,価格i14,カテゴリi15,ブランドi16,商品説明文i17は、商品属性を示す情報である。
【0055】
表3に示す「閲覧商品情報」6cより、「ユーザA」はサイト「マーケットI」で、「2011/7/1 19:13」に閲覧商品情報識別子i10:「1007_0101」,商品名i11:「プリーツスカートA」,サイト内商品コードi12:「ST0XP0000A1」,価格i14:「9800」円,カテゴリi15:「スカート」,ブランドi16:「ブランドX」,商品説明文i17:「きれいなプリーツのスカート〜(略)」である商品を閲覧したことがわかる。
【0056】
他にも「ユーザA」はサイト「マーケットI」において、閲覧商品情報識別子i10:「1008_0101」および「1010_0101」の商品名i11:「シフォンブラウスB」,閲覧商品情報識別子i10:「1012_0101」の商品名i11:「バルーンスカートC」を閲覧したことなどが抽出されており、これらの商品についても商品名i11のほかにサイト内商品コードi12,商品詳細URLi13,価格i14,カテゴリi15,ブランドi16,商品説明文i17等の商品属性が抽出されている。
【0057】
また、表2に示す「ページ情報」6bから「ユーザA」はサイト名「マーケットI」で、「2011/7/1 19:15」に「購入手続き対象商品リスト」ページを表示していることがわかり、この時、表4に示すように、「購入商品情報」6dとして、購入商品情報識別子i18:「1009_0101」,商品名i11:「シフォンブラウスB Mサイズ」,サイト内商品コードi12:「TB0YS0000B3」,商品詳細URLi13:「http://imart.co.jp/items/bbb.html」,価格i14:「8900円」が抽出されている。すなわち、この時点で「購入手続き対象商品」として選択していることがわかる。ただし、カテゴリi15,ブランドi16,商品説明文i17については抽出されていない。
【0058】
他にも、表2の「ページ情報」6bと表4の「購入商品情報」6dに示すように、ページ情報識別子i7:「1015_01」,閲覧時刻i3:「2011/7/1 19:23」の「購入手続き対象商品リスト」ページから2つの「購入手続き対象商品」が、抽出されていることがわかる。また、ページ情報識別子i7:「1017_01」,閲覧時刻i3:「2011/7/1 19:26」の「購入手続き対象商品リスト」ページから3つの「購入手続き対象商品」が抽出されていることがわかる。これらの商品についても、商品名i11,サイト内商品コードi12,商品詳細URLi13,価格i14は抽出されているが、カテゴリi15,ブランドi16,商品説明文i17については抽出されていない。
【0059】
その他、表2の「ページ情報」6bと表4の「購入商品情報」6dに示すように、ページ情報識別子i7:「1018_01」,閲覧時刻i3:「2011/7/1 19:27」,ページ種別i9:「購入手続き‐手続きの開始」のページから、商品名i11:「シフォンブラウスB Mサイズ」,「カシュクールブラウスE」,「タイトスカートF 9号」が「購入手続き対象商品」として抽出されており、ページ情報識別子i7:「1021_01」,閲覧時刻i3:「2011/7/1 19:32」,ページ種別i9:「購入手続き−最終確認」のページから、商品名i11:「シフォンブラウスB」,「タイトスカートF 9号」が「購入手続き対象商品」として抽出されており、それぞれの商品の価格i14は抽出されているが、商品詳細URLi13,カテゴリi15,ブランドi16,商品説明文i17等の商品属性については抽出されていない。
【0060】
また、表2に示す「ページ情報」6bから、ページ情報識別子i7:「1022_01」,閲覧時刻i3:「2011/7/1 19:33」,ページ種別i9:「購入手続き−手続き完了」が抽出されているが、表4に示す「購入商品情報」6dには、当該ページから抽出された「購入手続き対象商品」は存在しない。このため、表2に示す「購入商品情報」6dからは、「購入手続き‐手続き完了」の「購入手続き対象商品」は不明であり、解析に利用することができない。
【0061】
次に、商品属性補完部4の詳細について説明する。図3は商品属性補完部4の処理を示すフローチャートである。
【0062】
商品属性補完部4の処理は、大きく分けると2つの処理から成る。第一処理(S11〜S12)は、各「購入商品情報」6dと、当該購入商品情報の商品と同一商品の「閲覧商品情報」6cを探索して、その購入商品情報識別子i18と閲覧商品情報識別子i10の組を購入商品‐同一閲覧商品記憶部2eに格納するものである。
【0063】
第二処理(S13〜S17)は、購入商品‐同一閲覧商品記憶部2eおよび「閲覧商品情報」6cを利用して「購入商品情報」6dの「商品属性」における欠落を補完するものである。
【0064】
前記第一処理(S11〜S12)について詳細に説明する。
【0065】
S11:購入商品情報記憶部2dから「購入商品情報」6dを1つ取り出し、当該「購入商品情報」6dとユーザ識別子i2およびサイト名i8が同一であり、かつ当該購入商品情報の閲覧開始時刻i3より古い閲覧開始時刻i3を持つ「閲覧商品情報」6cを同一閲覧商品情報候補群として取り出す。次に、同一閲覧商品情報候補群の中から、当該「購入商品情報」6dと同一商品に関するものと推測される「閲覧商品情報」6cを探索する。
【0066】
S12:「購入商品情報」6dの購入商品情報識別子i18と、S11で当該「購入商品情報」6dと同一商品と推測された「閲覧商品情報」6cの閲覧商品情報識別子i10の組を購入商品‐同一閲覧商品記憶部2eに格納する。
【0067】
なお、S11,S12の処理は、購入商品情報記憶部2dに格納されたデータ分繰り返し行われる。
【0068】
S11における「購入商品情報」6dと「閲覧商品情報」6cの商品が同一であるか否かの判定は、「購入商品情報」6dおよび「閲覧商品情報」6cの識別性が高い「商品属性」(商品名i11,サイト内商品コードi12,商品詳細URLi13,価格i14,カテゴリi15,ブランドi16,商品説明文i17)のすべて、またはこれらの一部が一致するか否かを基準に行うことができる。
【0069】
例えば、サイト内商品コードi12は各ECサイトが商品の管理のために付与している値であり、サイト内では商品を一意に識別できるため識別性は高い。一方、商品詳細URLi13は、商品詳細のWebページを指し示すアドレスであることから同じく識別性が高いが、単一のページに複数の商品の詳細が記載されている場合などもあり、サイト内商品コードi12と比較するとやや識別性が低くなる。また、サイト内商品コードi12および商品詳細URLi13ともに取得できるサイト,ページ種別i9が限られる。
【0070】
商品名i11は、「スカート」,「パンツ」のように多くの商品で同じ名称が使われるためほとんど識別性を持たないものから、ほぼ一意に商品を識別できるものまで存在する。また同じ商品であっても「商品詳細」ページと「購入手続き」ページでは記載が異なる場合がある。これは、商品が複数のサイズやカラーを持つ商品である場合「商品詳細」ページで購入対象商品として選択する際に、そのサイズやカラーを選択することができ、「購入手続き」ページでは、「商品詳細」ページに記載された商品名i11に選択したサイズやカラーをつなげたものが商品名i11として表示されることなどが原因である。そのため、「購入商品情報」6dと「閲覧商品情報」6cの商品名i11は一致するか、類似するときに同一商品の可能性が高いと言えるが、サイト内商品コードi12や商品詳細URLi13ほどの識別性は持たないと言える。
【0071】
そこで、例えば「購入商品情報」6dと「閲覧商品情報」6cの同一性を次のように定義することができる。
1.サイト内商品コードi12が一致するか、あるいは商品名i11と商品詳細URLi13の2つがともに一致する場合、「閲覧商品情報」6cを「購入商品情報」6dと同一商品とみなす。
2.1の基準では同一商品が見つからなかった場合、同一閲覧商品情報候補群の中で、対象とする「購入商品情報」6dの商品名i11と類似性が最も高いものを同一商品とみなす。類似性を算出するには文字列の類似度の尺度として用いられる編集距離を利用する方法などがある。(Daniel Jurafsky and James H.Martin Speech and Laguage Processing,pp74,Prentice Hall,2009参照)
3.同一商品のものとして判定される「閲覧商品情報」6cが複数存在する場合には閲覧時刻i3がより新しいものを選択する。
【0072】
ただし、当該「購入商品情報」6dの「商品属性」がひとつも取得されていない場合は、「閲覧商品情報」6cにおける同一商品の探索は行わないものとする。
【0073】
上記定義を利用すると、表4に示す「購入商品情報」6dのうち購入商品情報識別子i18:「1021_0102」の商品名i11:「タイトスカートF 9号」,サイト内商品コードi12:「(抽出されず)」,商品詳細URLi13「(抽出されず)」ついて考えると、ユーザ識別子i2:「UserA」によってサイト名i8:「マーケットI」で「2011/7/1 19:32」に閲覧されたWebページから抽出されているので、表3の「閲覧商品情報」6cより、以下が同一閲覧商品情報候補群として取り出される。
【0074】
「1016_0101」,「2011/7/1 19:24」,「タイトスカートF」,「ST2BT0000F1」,「http://imart.co.jp/items/fff.html」
「1014_0101」,「2011/7/1 19:22」,「カシュクールブラウスE」,「TB0YK0000E2」,「http://imart.co.jp/items/eee.html」
「1013_0101」,「2011/7/1 19:21」,「ドットスカーフD」,「IT9WD0000D4」,「http://imart.co.jp/items/ddd.html」
「1012_0101」,「2011/7/1 19:20」,「バルーンスカートC」,「ST1XB0000C5」,「http://imart.co.jp/items/ccc.html」
「1010_0101」,「2011/7/1 19:16」,「シフォンブラウスB」,「TB0YS0000B3」,「http://imart.co.jp/items/bbb.html」
「1008_0101」,「2011/7/1 19:14」,「シフォンブラウスB」,「TB0YS0000B3」,「http://imart.co.jp/items/bbb.html」
「1007_0101」,「2011/7/1 19:13」,「プリーツスカートA」,「ST0XP0000A1」,「http://imart.co.jp/items/aaa.html」
購入商品情報識別子i18:「1021_0102」のレコードは、サイト内商品コードi12も商品詳細URLi13も抽出されなかったため、前記定義1の基準では判定できない。そこで、定義2の基準で判定を行う。すなわち、同一閲覧商品情報候補群の各レコードと商品名i11の類似度を計算する。
【0075】
類似度の計算に編集距離を使うとすると購入商品情報識別子i18:「1021_0102」,商品名i11:「タイトスカートF9号」の「購入商品情報」6dと、閲覧商品情報識別子i10:「1016_0101」,商品名i11:「タイトスカートF」の「閲覧商品情報」6cとの編集距離が3であり最も値が小さいため、「購入商品情報」6dの購入商品情報識別子i18:「1021_0102」と同一商品の「閲覧商品情報」は閲覧商品情報識別子i10:「1016_0101」と推定され、この購入商品情報識別子i18と閲覧商品情報識別子i10を購入商品‐同一閲覧商品記憶部2eに格納する。
【0076】
S11,S12の処理後、購入商品‐同一閲覧商品記憶部2eには、表5に示すように、「購入商品情報」6dの購入商品情報識別子i18と、当該「購入商品情報」6dと同一商品と推定された「閲覧商品情報」6cの閲覧商品情報識別子i10が格納された状態となる。
【0077】
【表5】

【0078】
次に、商品属性補完部4の第二処理(S13〜S17)である購入商品‐同一閲覧商品記憶部2eおよび「閲覧商品情報」6cを利用した「購入商品情報」6dの商品属性の欠落に対する商品属性補完について説明する。
【0079】
S13:購入商品情報記憶部2dから「購入商品情報」6dを1つ取り出し、当該「購入商品情報」6dの商品属性に未抽出となっている項目が有るか否かを確認する。未抽出となっている項目が有る場合はS14へ移行し、未出力となっている項目が無い場合はS17へ移行する。
【0080】
S14:未抽出項目がある場合には、購入商品‐同一閲覧商品記憶部2eから、当該「購入商品情報」6dの購入商品情報識別子i18を探索し、その組として格納されている閲覧商品情報識別子i10を取り出す。
【0081】
S15:この閲覧商品情報識別子i10に基づいて、閲覧商品情報記憶部2cから、閲覧商品情報識別子i10が一致する「閲覧商品情報」6cのレコードを取り出す。
【0082】
S16:取り出された「閲覧商品情報」6cのレコードにおける各商品属性により、当該「購入商品情報」6dの欠落を補完し、補完された「購入商品情報」6dを属性補完済み購入商品情報記憶部2fに格納する。
【0083】
S17:一方、未抽出項目が無い場合は、処理対象の「購入商品情報」6dを属性補完済み購入商品情報記憶部2fに格納する。
【0084】
ただし、当該「購入商品情報」6dにおいて「商品属性」がひとつも抽出されていない場合は補完を行わず、そのままの「購入商品情報」6dを属性補完済み購入商品情報記憶部2fに格納するものとする。なお、S13〜S17の処理は、購入商品情報記憶部2dに格納されているデータ分繰り返し行われる。
【0085】
表6は、属性補完済み購入商品情報記憶部2fに格納された購入商品情報6dの例を示す表である。
【0086】
【表6】

【0087】
表4に示すように、購入商品情報識別子i18:「1021_0102」は、「購入商品情報」6dにおいて、商品属性におけるサイト内商品コードi12,商品詳細URLi13,カテゴリi15,ブランドi16,商品説明文i17が未抽出であるため、購入商品‐同一閲覧商品記憶部2eより同一商品と推定された「閲覧商品情報」6cの閲覧商品情報識別子i10:「1016_0101」を取り出し、閲覧商品情報記憶部6cよりこの閲覧商品情報識別子i10:「1016_01010」に対応するレコードを取出し、その値をもって次の未抽出の「商品属性」を補完する。
【0088】
サイト内商品コードi12:「ST2BT0000F1」,商品詳細URLi13:「http://imart.co.jp/items/fff.html」,カテゴリi15:「スカート」,ブランドi16:「ブランドV」,商品説明文i17:「スタンダードなシルエット,1着~」。
【0089】
上記商品属性が補完された購入商品情報識別子i18の購入商品情報は、表6に示すようになり、属性補完済み購入商品情報記憶部2fに格納される。
【0090】
次に、商品情報補完部5の詳細について説明する。図4は商品情報補完部5の処理ステップを示すフローチャートである。
【0091】
商品情報補完部5の処理は大きく分けると2つの処理から成る。
【0092】
第一処理(S21〜S23)は、ページ情報記憶部2bに格納された「ページ情報」6bのうち、ページ種別i9が「購入手続き」であるレコードに対して、当該「ページ情報」6bと同一商品、かつ、当該「ページ情報」6bより過去の「ページ情報」6bを「同一商品対象購入手続きページ」として推定する。そして、当該「ページ情報」6bの「ページ情報識別子」i7と「同一商品対象購入手続きページ」の「ページ情報識別子」i19の組を同一商品対象購入手続き記憶部2gに格納する。
【0093】
次に、第二処理(S24〜S32)は、ページ情報記憶部2bに格納された「ページ情報」6bのうち、ページ種別i9が「購入手続き」であるレコードに対して、そのページから抽出された「購入商品情報」6dが属性補完済み購入商品情報記憶部2fに存在しない場合に、前記同一商品購入手続き記憶部2gに格納された同一商品購入手続きページのページ情報識別子i19と一致する属性補完済み購入商品情報により欠落部分を補完するものである。
【0094】
まず、商品情報補完部5の第一処理(S21〜S23)である「同一商品対象購入手続きページ」の推定について詳細に説明する。
【0095】
S21:商品情報補完部5は、ページ情報記憶部2bから「ページ情報」6bを取り出し、取り出した「ページ情報」6bのページ種別i9が「購入手続き」であるか否かを判定する。ページ種別i9が「購入手続き」の場合はS22へ移行し、「購入手続き」でない場合は、そのレコードの第一処理を終了する。
【0096】
S22:ページ種別i9が「購入手続き」である場合、当該「ページ情報」6bと同一の商品を対象とした直近の過去の「ページ情報」6bを探索し、探索されたレコードを「同一商品購入手続きページ」とする。
【0097】
S23:当該「ページ情報」6bのページ情報識別子i7と、「同一商品購入手続き」ページのページ情報識別子i7(i19)の組を同一商品購入手続きページ記憶部2gに格納する。ただし、ページ種別i9が「購入手続き」でも「購入手続き対象商品リスト」ページは、購入手続き対象商品が抽出できないことがないため「同一商品購入手続き」ページの推定は行わないものとする。
【0098】
「同一商品購入手続き」ページの探索(S22)は、例えば以下のような処理(S221〜S223)により行う。
【0099】
「ページ情報」Aのユーザ識別子i2を「対象『ユーザ識別子』」とし、レコード識別子i1を「参照『レコード識別子』」,閲覧時刻i3を「対象『閲覧時刻』」として処理を開始する。
【0100】
S221:表1に示すWeb閲覧履歴記憶部2aより、「参照『レコード識別子』」i1をもつレコードのリファラi5を取り出し,「探索対象『URL』」とする。
【0101】
S222:Web閲覧履歴記憶部2aより、ユーザ識別子i2が「対象『ユーザ識別子』」と同一であり、URLi4が「探索対象『URL』」と同一であるレコードを探索する。複数のレコードが該当する場合には閲覧時刻i3が「対象『閲覧時刻』」から最も近い過去であるレコードを取り出し、そのレコード識別子i1を「参照『レコード識別子』」とする。
【0102】
S223:ページ情報記憶部2bより、「参照『レコード識別子』」i1を持ち、『ページ種別』i9が「購入手続き」に関するものであるレコードを探索する。見つかればその「ページ情報」6bが同一の商品を対象とした直近の過去の「ページ情報」6b(すなわち、「同一商品購入手続き」ページ)である。
【0103】
なお、S223で「ページ情報」6bが見つからない場合にはS221に戻り、見つかるまで繰り返す。
【0104】
また、何らかの事由により、「Web閲覧履歴」6aに欠落がおきリファラi5をうまく辿れない可能性もある。その場合には、ページ情報記憶部2bより、「ページ情報」Aと同じユーザ識別子i2,サイト名i8を持ち、ページ種別i9が「購入手続き」のレコードであって、「ページ情報」Aの閲覧時刻i3から最も近い過去の「ページ情報」6bを「同一商品購入手続きページ」として選択する方法なども考えられる。
【0105】
この場合には、推定の精度が落ちるため、「ページ情報」Aと「同一商品購入手続きページ」として推定された「ページ情報」6bの「閲覧時刻」i3の差や間に閲覧されたWebページ数が一定値よりも大きい場合には「同一商品購入手続き」ページとして採用しない等の条件を与えても良い。
【0106】
ここで、具体例を説明する。表2に示す「ページ情報」6bのページ情報識別子i7:「1022_01」,レコード識別子i1:「1022」,ユーザ識別子i2:「UserA」,閲覧時刻i3:「2011/7/1 19:33」,ページ種別i9:「購入手続き‐手続き完了」について上記処理(S221〜S223)により「同一商品購入手続き」ページを推測する。
【0107】
「Web閲覧履歴」6aのレコード識別子i1:「1022」のレコードを参照するとリファラi5は「http://imart.co.jp/order/confirm」である。これを「探索対象『URL』」として「Web閲覧履歴」2a内のユーザ識別子i2:「UserA」のレコードを探索すると、レコード識別子i1:「1021」が該当する。「ページ情報」6bにレコード識別子i1:「1021」が存在するかを探索すると、ページ情報識別子i7:「1021_01」が該当し、これはページ種別i9が「購入手続き‐最終確認」であるため、ページ識別子i7:「1022_01」の「同一商品購入手続き」ページは、ページ情報識別子i7:「1021_01」となる。
【0108】
表7は、同一商品購入手続き記憶部2gの入力例である。
【0109】
【表7】

【0110】
次に、商品情報補完部5の第二処理(S24〜S32)について説明する。
【0111】
S24:商品情報補完部5は、ページ情報記憶部2bから「ページ情報」6bを取り出し、取り出した「ページ情報」6bが購入手続きに関するか否かを判定する。購入手続きに関するレコードであればS25へ移行し、購入手続きに関するレコードでなければそのレコードにおける第二処理を終了する。
【0112】
S25:処理対象の「ページ情報」6bの「ページ情報識別子」i7を対象「ページ情報識別子」とする。
【0113】
S26:対象「ページ情報識別子」のレコードが属性補完済み購入商品情報記憶部2fに存在するか否かを判定する。存在すると判定された場合はS32へ移行し、存在しないと判定された場合はS27へ移行する。
【0114】
S32:存在する場合は、属性補完済み購入商品情報記憶部2fから、対象「ページ情報識別子」が一致するレコードを取り出す。
【0115】
S27:存在しない場合には、同一商品購入手続き記憶部2gから、対象『ページ情報識別子』i7を持つレコードを取り出す。
【0116】
S28:S27で取り出したレコードの「同一商品購入手続き」ページのページ情報識別子i19を、対象「ページ情報識別子」とする。
【0117】
S29:属性補完済み購入商品情報記憶部2fから、対象「ページ情報識別子」と一致するレコードを取り出す。
【0118】
S30:S29で取り出したレコードに「購入商品情報」のレコード識別子i1,ページ情報識別子i7,購入商品情報識別子i18,閲覧時刻i3を処理対象の「ページ情報」に合わせて変更する。
【0119】
S31:S30で変更されたレコードを当該ページから抽出された「購入商品情報」として、補完済み購入商品情報記憶部2hに格納する。また、S32で属性補完済み購入商品情報記憶部2hから取り出したレコードを格納する。
【0120】
表2に示すページ情報6bのページ情報識別子i7:「1021_01」および「1022_01」を具体例として、S24〜S32を説明する。
【0121】
表2に示すように、ページ情報識別子i7:「1021_01」のページ種別i9は「購入手続き‐最終確認」である(S24)。属性補完済み購入商品情報記憶部2fにページ情報識別子i7:「1021_01」を持つレコードが存在するかを確認すると(S25,S26)、購入商品情報識別子i18:「1021_0101」,商品名i11:「シフォンブラウスB」および購入商品情報識別子i18:「1021_0102」,商品名i11:「タイトスカートF」が存在するため、この2つを補完済み購入商品情報記憶部2fに格納する(S31,S32)。
【0122】
同様にページ情報識別子i7:「1022_01」ついてみると、ページ種別i9は「購入手続き‐手続き完了」であり(S24)、当該ページ情報識別子i7:「1022_01」をもつレコードは属性補完済み購入商品情報記憶部2fには存在しない(S25,S26)。そこで、同一商品対象購入手続きページ記憶部2gから、ページ情報識別子i7:「1022_01」を探索すると「同一商品購入手続き」ページはページ情報識別子i19が「1021_01」であることがわかり(S27)、このページ情報識別子i7:「0121_01」で属性補完済み購入商品情報記憶部2fを探索し、取り出された購入商品情報識別子i18:「1021_0101」,商品名i11:「シフォンブラウスB」および購入商品情報識別子i18:「1021_0102」,商品名i11:「タイトスカートF」の二つを、ページ情報識別子i7:「1022_01」から取り出されたレコードとして(S28,S29)、ページ情報識別子i7:「1022_01」,購入商品情報識別子i18:「1022_0101」,「1022_0102」,閲覧時刻i3:「2011/7/1 19:33:15」と変更し(S30)、補完済み購入商品情報記憶部2hに格納する(S31)。
【0123】
表8は、補完済み購入商品情報記憶部2hの入力例である。この補完済み購入商品情報記憶部2hに記憶された「購入商品情報」が、購買行動の分析(例えば、図5の統計解析部24における解析)に用いられる。
【0124】
【表8】

【0125】
以上示したように、本実施形態における商品情報補完方法によれば、「購入商品情報」6dに「商品属性」の欠落が存在する場合には、閲覧商品情報記憶部2cから当該商品と同一の「閲覧商品情報」6cを探索し、探索された同一商品についての「閲覧商品情報」を用いて、当該購入商品情報6dの欠落した「商品属性」を補完することが可能となる。
【0126】
また、当該「ページ情報」6bのページ種別i9が「購入手続き」ページであって、「購入商品情報」が抽出されなかった場合には、「同一購入商品手続き」ページを推測し、「同一商品購入手続き」ページから抽出された「購入商品情報」を用いることによって当該「ページ情報」が対象としている「商品情報」を補完することが可能となる。
【0127】
その結果、欠落が少ない「購入商品情報」6dを生成することができ、購買行動分析サーバ20において、より精度の高い購買行動分析が可能となる。
なお,本発明は,上記の実施の形態に限定されることなく,特許請求の範囲内において種々変更・応用が可能である。
【0128】
また、本発明は、前記商品情報補完装置1の各手段2a〜2h,3〜5の一部もしくは全部として、コンピュータを機能させるプログラムとしても構成することができる。この場合、S1〜S3,S11〜S17,S21〜S31,S221〜S223の全てのステップあるいは一部のステップをコンピュータに実行させる。
【0129】
このプログラムは、Webサイトや電子メールなどネットワークを通じて提供することができる。また、前記プログラムは、CD−ROM,DVD−ROM,CD−R,CD−RW,DVD−R,DVD−RW,MO,HDD,Blu−lay Disk(登録商標)などの記録媒体に記録して、保存・配布することも可能である。この記録媒体は、記録媒体駆動装置を利用して読み出され、そのプログラムコード自体が前記実施形態を処理するので、該記録媒体も本発明を構成する。
【産業上の利用可能性】
【0130】
本発明は、Web閲覧履歴データから抽出された「購入商品情報」を補完する技術に適用可能である。
【符号の説明】
【0131】
1…商品情報補完装置
2a…Web閲覧履歴記憶部
2b…ページ情報記憶部
2c…閲覧商品情報記憶部
2d…購入商品情報記憶部
2e…購入商品‐同一閲覧記憶部
2f…属性補完済み購入商品情報記憶部
2g…同一商品購入手続き記憶部
2h…補完済み購入商品情報記憶部
3…入力部(入力手段)
4…商品属性補完部(商品属性補完手段)
5…商品情報補完部(商品情報補完手段)

【特許請求の範囲】
【請求項1】
Web閲覧履歴から抽出される商品情報の補完方法であって、
入力手段が、Web閲覧履歴,ページ情報,閲覧商品情報,購入商品情報を記憶部に格納する入力ステップと、
商品属性補完手段が、前記購入商品情報における商品属性の欠落の有無を確認し、商品属性に欠落が有る場合は、その購入商品情報の閲覧時刻よりも過去の閲覧時刻の閲覧商品情報のうち、当該購入商品情報の商品と同一商品と推測される閲覧商品情報を探索し、探索された閲覧商品情報の商品属性を用いて、購入商品情報における商品属性の欠落を補完する商品属性補完ステップと、
商品情報補完手段が、前記ページ情報のページ種別が購入手続きのものであり、前記ページ情報から抽出された購入商品情報に商品情報が1つも存在しない場合には、当該ページ情報と同一商品を対象とした購入手続きのページ情報の中で当該ページ情報より過去のページ情報から抽出された購入商品情報を用いて、補完対象の購入商品情報の欠落を補完する商品情報補完ステップと、
を有することを特徴とする商品情報補完方法。
【請求項2】
Web閲覧履歴から抽出される商品情報の補完装置であって、
Web閲覧履歴,ページ情報,閲覧商品情報,購入商品情報を記憶部に格納する入力手段と、
前記購入商品情報における商品属性の欠落の有無を確認し、購入商品属性に欠落が有る場合は、その商品情報の閲覧時刻よりも過去の閲覧時刻の閲覧商品情報のうち、当該購入商品情報の商品と同一商品と推測される閲覧商品情報を探索し、探索された閲覧商品情報の商品属性を用いて、購入商品情報における商品属性の欠落を補完する商品属性補完手段と、
前記ページ情報のページ種別が購入手続きのものであり、当該ページ情報から抽出された購入商品情報に商品情報が1つも存在しない場合には、当該ページ情報と同一商品を対象とした購入手続きのページ情報の中で当該ページ情報より過去のページ情報から抽出された購入商品情報を用いて、補完対象の購入商品情報の欠落を補完する商品情報補完手段と、
を備えたことを特徴とする商品情報補完装置。
【請求項3】
請求項2に記載の商品情報補完装置を構成する各手段としてコンピュータを機能させるための商品情報補完プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2013−114286(P2013−114286A)
【公開日】平成25年6月10日(2013.6.10)
【国際特許分類】
【出願番号】特願2011−257042(P2011−257042)
【出願日】平成23年11月25日(2011.11.25)
【出願人】(000004226)日本電信電話株式会社 (13,992)