検索条件抽出装置、検索条件抽出方法および検索条件抽出プログラム
【課題】閲覧した商品の、閲覧した条件以外を表す語をフィルタ対象として効率的に抽出することができる検索条件抽出装置を提供する。
【解決手段】商品情報入力バッファ121内の複数の商品に関する情報から複数の商品に含まれる同一文をテンプレートとして抽出し、その文における出現商品数を求めてテンプレート入力バッファ131に書き込むテンプレート抽出部120と、前記テンプレート入力バッファ131に書き込まれたテンプレートの文を形態素解析し、解析した語と、その語における出現商品数をテンプレート語群入力バッファ141に書き込む形態素解析部130と、前記テンプレート語群入力バッファ141に書き込まれた語と出現商品数に基づいて、テンプレートに語が出現する頻度を求め、該出現頻度がしきい値以上の語を、除去するべきフィルタ対象として出力するリスト生成部140と、を備える。
【解決手段】商品情報入力バッファ121内の複数の商品に関する情報から複数の商品に含まれる同一文をテンプレートとして抽出し、その文における出現商品数を求めてテンプレート入力バッファ131に書き込むテンプレート抽出部120と、前記テンプレート入力バッファ131に書き込まれたテンプレートの文を形態素解析し、解析した語と、その語における出現商品数をテンプレート語群入力バッファ141に書き込む形態素解析部130と、前記テンプレート語群入力バッファ141に書き込まれた語と出現商品数に基づいて、テンプレートに語が出現する頻度を求め、該出現頻度がしきい値以上の語を、除去するべきフィルタ対象として出力するリスト生成部140と、を備える。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、検索意図を推定する技術に係わり、提示された商品リストからユーザが閲覧した商品の閲覧した条件を抽出する為の検索条件抽出装置、方法及びプログラムに関する。
【背景技術】
【0002】
近年ECサイトの普及によりインターネットで商品を購入する事が一般的になっている。ECサイト閲覧者が購入する目的の商品を探す方法として、キーワード検索やカテゴリ検索などによって絞り込んだ商品のリストを獲得しそのリストの中から目的に合う商品を閲覧する方法がある。ここで目的に合う商品の条件を閲覧条件とする。またマーケタは顧客ニーズの把握のために、ECサイト閲覧者の閲覧条件の推定を行っており、ECサイト閲覧者が絞り込みに用いたキーワードやカテゴリなどの入力語や閲覧した商品群を用いている。
【0003】
しかし入力語を用いた閲覧条件の推定では、閲覧者は全ての閲覧条件を入力語として入力するわけではないため、閲覧者が持つ閲覧条件の一部しか推定できない。また閲覧した商品群を用いた閲覧条件の推定では、閲覧した商品に共通する条件の一部のみが閲覧条件でも、それを区別することができず全てを閲覧条件としてしまう。そのため、他の情報を用いて閲覧条件を推定する事が求められる。
【0004】
他の情報を用いて閲覧条件を推定する方法の一つに、ユーザの閲覧行動履歴である検索ログを用いて入力語を関連する語に拡張しそれを基に閲覧条件を推定する方法がある(例えば非特許文献1)。検索ログは、閲覧者が検索クエリとして入力した入力語と、その結果提示されたページのリストと、そのリストからどのページを閲覧したかという情報で構成される。リストから閲覧したページの閲覧条件だが入力語ではない条件を隠れ条件とし隠れ条件の推定を行う。
【0005】
隠れ条件推定法の例として、ページを記述している文から語を抽出し隠れ条件の推定に用いる方法がある。その場合、閲覧しなかったページ群よりも閲覧したページ群に多く出現する語に高い隠れ条件度が与えられるように隠れ条件度を算出し、隠れ条件度が高いものを隠れ条件と推定する。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】徳永健伸、「情報検索と言語処理」、東京大学出版会、1999年、pp.154〜159
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、従来の技術では、マーケティングにおいて重要な語に高い隠れ条件度を算出することができない事が課題である。マーケティングにおいて重要な語とは閲覧条件を表す語であり、それは閲覧した商品を説明することができる。例えば、“黒い商品”が閲覧条件の場合は説明できるが、“色の商品”では説明できない。
【0008】
これは、閲覧条件が具体的な属性値となる語であることが重要で、閲覧条件が属性となる語の場合は重要でないと考えられる。属性とは、色や価格といった抽象的なものであり、属性値は属性に対して具体的な値を与えるものである。そのため、マーケティングにおいて閲覧条件の推定を行うためには、属性値を閲覧条件として推定する事が求められる。
【0009】
従来の技術では属性値に高い隠れ条件度を算出できない原因として、閲覧しなかった商品群よりも閲覧した商品群に、多く出現する語が属性値であるとは限らないからである。
【0010】
例えば、ファッションサイトを考えてみると、“色”、“ファッション”、“ネット”などのファッションサイトで使われる用語だが隠れ条件として重要ではない語が、閲覧された商品群に共通して出現するため、属性に高い隠れ条件度を算出してしまうことがある。そのため属性を除去するためのフィルタ対象を生成することで、隠れ条件として重要でない語のみに絞り込むことが有効である。そのため、そのフィルタ対象を効率的に生成することが課題となる。
【0011】
本発明は上記課題を解決するものであり、その目的は、閲覧した商品の、閲覧した条件以外を表す語をフィルタ対象として効率的に抽出することができる検索条件抽出装置、方法、プログラムを提供することにある。
【課題を解決するための手段】
【0012】
本発明では、大量の商品に関する商品情報を入力とし、複数の商品で同一の文を抽出するテンプレート抽出手段と、抽出されたテンプレートの文を形態素解析し語を抽出する形態素解析手段と、テンプレートの文に語が出現する頻度によってフィルタ対象となる語を抽出するリスト生成手段を備え、閲覧した商品の、閲覧した条件以外を表す語を除去するフィルタ対象群を出力する。
【0013】
本発明の請求項1に記載の検索条件抽出装置は、ECサイト閲覧者が閲覧した商品の、閲覧した条件以外を表す語を除去するべきフィルタ対象として抽出する検索条件抽出装置であって、複数の商品に関する情報から複数の商品に含まれる同一文をテンプレートとして抽出し、その文における出現商品数を求めるテンプレート抽出手段と、前記テンプレート抽出手段によって抽出されたテンプレートの文を形態素解析し、解析した語と、その語における出現商品数を出力する形態素解析手段と、前記形態素解析手段によって出力された語と出現商品数に基づいて、テンプレートに語が出現する頻度を求め、該出現頻度がしきい値以上の語を、除去するべきフィルタ対象として出力するリスト生成手段と、を備えたことを特徴としている。
【発明の効果】
【0014】
本発明によれば、閲覧した商品の、閲覧した条件以外を表す語をフィルタ対象として効率的に抽出することができる。このため、ECサイトで使われる用語であるが重要ではない語に高い隠れ条件度が算出された場合でも、出現頻度のしきい値を決めるだけで、除去するべきフィルタ対象を効率的に抽出することができ、前記重要ではない語を除去することが可能となる。
【図面の簡単な説明】
【0015】
【図1】本発明の一実施形態例を示す装置構成図。
【図2】図1におけるフィルタ対象抽出装置の各部が行う処理のフローチャート。
【図3】図1における各バッファの記録内容の例を示す説明図。
【図4】図1のテンプレート抽出部が行なう処理のフローチャート。
【図5】図1の形態素解析部が行なう処理のフローチャート。
【図6】図1のリスト生成部が行なう処理のフローチャート。
【図7】ファッションサイトにおいて、商品リストとその商品リストからユーザが閲覧した商品の閲覧条件を示すための説明図。
【図8】図7のサイトにおける商品に関する商品情報の例を示す説明図。
【図9】従来技術を用いて閲覧した条件を抽出した例を示す説明図。
【図10】本発明におけるテンプレートの定義の例を示す説明図。
【図11】本発明における「素材」に関連するテンプレートの例を示す説明図。
【図12】本発明のテンプレート有りの場合と無しの場合の非属性語の抽出例を示す説明図。
【図13】本発明の手法と他の手法により抽出された非属性語の例を示す説明図。
【発明を実施するための形態】
【0016】
以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。図1は本発明の実施の形態におけるECサイト閲覧者が閲覧した商品の、閲覧している条件でない語を除去するフィルタ対象を抽出する検索条件抽出装置の構成図である。図1におけるフィルタ対象抽出装置100は、テンプレート抽出部120、商品情報入力バッファ121、文保存バッファ122、形態素解析部130、テンプレート入力バッファ131、リスト生成部140、テンプレート語群入力バッファ141、語保存バッファ142を備え、商品情報入力装置110およびフィルタ対象出力装置150が接続されている。
【0017】
商品情報入力装置110は処理対象となる商品情報を商品情報入力バッファ121に書き込む。フィルタ対象出力装置150はフィルタ対象抽出装置100が抽出した閲覧した条件でない除去するべき語を出力する。
【0018】
商品情報入力装置110が商品情報入力バッファ121に書き込む商品情報群は、各バッファの内容の例を示す図3の(a)のように、大量の商品について、それぞれの商品に固有に付与された商品IDと商品に関する文などをもとにした商品情報の群で構成される。
【0019】
テンプレート抽出部120は、本発明のテンプレート抽出手段の実施形態例であり、商品情報入力バッファ121に書き込まれた商品情報を基に、複数の商品に含まれる同一文であるテンプレートを抽出する。
【0020】
文保存バッファ122は、テンプレート抽出部120によって商品情報から取り出された文、文IDおよびその文における出現商品数が例えば図3(b)のように書き込まれるバッファである。
【0021】
テンプレート入力バッファ131は、前記文保存バッファ122の内容がテンプレート抽出部120によって例えば図3(c)のように書き込まれるバッファである。
【0022】
形態素解析部130は、本発明の形態素解析手段の実施形態例であり、テンプレート抽出部120により抽出されたテンプレートの文を解析して語群に分割し、解析された語群と各語の出現商品数を得る。
【0023】
テンプレート語群入力バッファ141は、テンプレートID、前記解析し得られた語、出現商品数等が、形態素解析部130によって例えば図3(d)のように書き込まれるバッファである。
【0024】
リスト生成部140は、本発明のリスト生成手段の実施形態例であり、形態素解析部130により解析し得られた語と出現商品数に基づいて、テンプレートに語が出現する頻度を求め、その出現頻度によって、閲覧した条件でない、除去するべき語をフィルタ対象として出力する。
【0025】
語保存バッファ142は、リスト生成部140の処理のために、テンプレート語群入力バッファ141内の語がリスト生成部140によって書き込まれるバッファである。
【0026】
図1の装置は、例えばコンピュータにより構成され、通常のコンピュータのハードウェアリソース、例えばROM,RAM,CPU、入力装置、出力装置、通信インターフェース、ハードディスク、記録媒体およびその駆動装置を備えている。
【0027】
このハードウェアリソースとソフトウェアリソース(OS、アプリケーションなど)との協働の結果、本発明の検索条件抽出装置は、図1に示すように、商品情報入力装置110、テンプレート抽出部120、商品情報入力バッファ121、文保存バッファ122、形態素解析部130、テンプレート入力バッファ131、リスト生成部140、テンプレート語群入力バッファ141、語保存バッファ142、フィルタ対象出力装置150を実装する。
【0028】
前記商品情報入力バッファ121、文保存バッファ122、テンプレート入力バッファ131、テンプレート語群入力バッファ141、語保存バッファ142は、ハードディスクあるいはRAMなどの保存手段・記憶手段に構築されているものとする。
【0029】
次に、上記のように構成された装置の動作を説明する。図2は図1の装置全体のフローチャートを示している。図2において、ステップS110では商品情報入力装置110が商品情報を入力し、ステップS120ではテンプレート抽出部120が複数の商品に含まれる同一文であるテンプレートを抽出し、ステップS130では形態素解析部130がテンプレートを形態素解析し含まれる語を抽出し、ステップS140ではリスト生成部140が、テンプレートに語が出現する頻度がしきい値以上のものをフィルタ対象として抽出し、ステップS150ではフィルタ対象出力装置150がフィルタ対象を出力する。
【0030】
前記テンプレート抽出部120は図4のフローチャートに沿って処理を行い、前記形態素解析部130は図5のフローチャートに沿って処理を行い、前記リスト生成部140は図6のフローチャートに沿って処理を行う。
【0031】
以下では、図7、図8に示すファッションサイトにおいて、ユーザが閲覧した商品の、閲覧条件以外を表す語を除去する例について説明する。
【0032】
図7は、提示された商品リストと、その商品リストからユーザが閲覧した商品の閲覧した条件を示している。図中の四角形太枠は商品リストから閲覧した商品を示し、ユーザがネイビー色のシャツの商品を商品リストから閲覧していることを表している。この例では、閲覧した条件を“ネイビー”としている。
【0033】
図8は商品に関する商品情報の例を示し、この例では、商品情報入力装置110が商品情報入力バッファ121に書き込む商品情報は、各四角形太枠内の商品の商品詳細ページに記述されているテキスト情報から抽出した語や文の集合としている。
【0034】
図9は従来技術を用いて、閲覧した条件を抽出した例を示す。この例では、抽出された条件(閲覧していない商品に含まれず閲覧した商品に含まれた条件)としては、“ネイビー”と“素材”となっている。本発明ではこの“素材”を除去するためのフィルタ対象を出力する。
【0035】
本発明のテンプレートは、複数商品で全く同一である文(サイトで定型文となっている文)として定義され、文中には属性語を含まない。
【0036】
図8の商品情報についてのテンプレートの定義の例を図10に示す。図11は本発明により実際に抽出された“素材”を含むテンプレートの例を示しており、多くの商品のテンプレートに出現する語を除去(テンプレートを用いた非属性語を除去)する、すなわちフィルタ対象とする。尚、図11中の左側の数字は出現回数(頁数)を示している。
【0037】
図1において、テンプレート抽出部120は、商品情報入力装置110から商品情報入力バッファ121に商品情報が書き込まれると動作を開始する。
【0038】
まず、テンプレート抽出部120は商品情報入力バッファ121から一つの商品情報を取り出す(図4のステップS410)。
【0039】
次に取り出した商品情報の先頭から終端記号までの一文を取り出す(ステップS420)。ここで終端記号とは“。”や“.”など事前に登録してあるものとする。
【0040】
次に取り出した一文の語数を形態素解析を行って調べ、その語数がしきい値thwn(語数しきい値)以上の場合には文保存バッファ122に取り出した一文書き込む(ステップS430)。このとき書き込んだ一文の出現商品数をインクリメントする。初めて書き込まれた一文の場合は出現商品数を1とする。
【0041】
次に取り込んだ商品情報に未処理の文字が存在するか否かを判定し、存在するならばステップS420に戻って処理を継続し、未処理の文字が存在しない場合には、ステップS450に進む(ステップS440)。
【0042】
ステップS450では、商品情報入力バッファ121に未処理の商品情報が存在するか否かを判定し、存在するならばステップS410に戻って処理を継続し、未処理の商品情報が存在しない場合には、ステップS460に進む。
【0043】
次にステップS460では、文保存バッファ122に存在するすべての文において、出現商品数がしきい値thfn(出現商品数しきい値)以下の文を文保存バッファ122から削除する。
【0044】
次にステップS470において、文保存バッファ122の内容をテンプレート入力バッファ131に書き込み処理を終了する。
【0045】
次に形態素解析部130は、テンプレート抽出部120からテンプレート入力バッファ131にテンプレート群の情報が書き込まれると動作を開始する。
【0046】
まず、形態素解析部130はテンプレート入力バッファ131から一つのテンプレートの文を取り出す(図5のステップS510)。
【0047】
次に取り出したテンプレートを形態素解析して語群に分割する(ステップS520)。
【0048】
次に形態素解析した語群をテンプレート語群入力バッファ141に入力する(ステップS530)。テンプレート語群入力バッファ141に入力する情報は、図3(d)に示すように、テンプレート文に固有のテンプレートID、形態素解析した語、テンプレートの出現商品数となる。
【0049】
次にステップS540において、テンプレート入力バッファ131に未処理のテンプレートの文が存在するか否かを判定し、存在するならばステップS510に戻って処理を継続し、未処理のテンプレートの文が存在しない場合には、処理を終了する。
【0050】
次にリスト生成部140は、テンプレート語群入力バッファ141にテンプレート語群の情報が書き込まれると動作を開始する。
【0051】
まず、テンプレート語群入力バッファ141から語を取り出す(図6のステップS610)。
【0052】
次に、取り出した語を語保存バッファ142に書き込む(ステップS620)。この時書き込んだ語の出現頻度に出現商品数をインクリメントする。ただし初めて書き込まれた語の場合は出現頻度を出現商品数とする。
【0053】
次にステップS630において、テンプレート語群入力バッファ141に未処理の語が存在するか否かを判定し、存在するならばステップS610に戻って処理を継続し、未処理の語が存在しない場合には、ステップS640に進む。
【0054】
次にステップS640では、語保存バッファ142でしきい値thfw(出現頻度しきい値)以下の出現頻度の語を除去した後、語保存バッファ142の内容をフィルタ対象出力装置150に出力し処理を終了する。
【0055】
本実施形態例によれば、“色”、“ファッション”、“ネット”などのファッションサイトで使われる用語だが重要ではない語に高い隠れ条件度が算出された場合でも,フィルタ対象を効率的に抽出することで、ファッションサイトで使われる用語だが重要ではない語を除去することができる効果がある。
【0056】
図12に本発明のテンプレート抽出部120を用いた場合(図12(a))と用いなかった場合(図12(b))の、抽出された非属性語と出現頻度の例を示す。この図12から、テンプレート抽出部120を用いることで、重要な語である“ブラック”、“ポリエステル”などは低い商品出現頻度をもち、“カラー”、“素材”などは重要な語よりも高い出現頻度をもつことが分かる。このため出現頻度のしきい値を決めるだけで効率的にフィルタ対象を生成できることが分かる。
【0057】
また図13に、本発明の手法(図13(a))と他の手法(IDF;Inverse Document Frequency(逆文書頻度))であるGlobal IDF(図13(b))、サイトIDF(図13(c))により抽出された非属性語と、出現頻度の例を示す。
【0058】
図13によれば、本発明の手法の方が、他の手法よりも良好に非属性語が抽出できていることが分かる。
【0059】
また、本実施形態の検索条件抽出装置における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態の検索条件抽出方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばFD(Floppy(登録商標) Disk)や、MO(Magneto−Optical disk)、ROM(Read Only Memory)、メモリカード、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)−ROM、CD−R、CD−RW、HDD、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。
【符号の説明】
【0060】
100…フィルタ対象抽出装置
110…商品情報入力装置
120…テンプレート抽出部
121…商品情報入力バッファ
122…文保存バッファ
130…形態素解析部
131…テンプレート入力バッファ
140…リスト生成部
141…テンプレート語群入力バッファ
142…語保存バッファ
150…フィルタ対象出力装置
【技術分野】
【0001】
本発明は、検索意図を推定する技術に係わり、提示された商品リストからユーザが閲覧した商品の閲覧した条件を抽出する為の検索条件抽出装置、方法及びプログラムに関する。
【背景技術】
【0002】
近年ECサイトの普及によりインターネットで商品を購入する事が一般的になっている。ECサイト閲覧者が購入する目的の商品を探す方法として、キーワード検索やカテゴリ検索などによって絞り込んだ商品のリストを獲得しそのリストの中から目的に合う商品を閲覧する方法がある。ここで目的に合う商品の条件を閲覧条件とする。またマーケタは顧客ニーズの把握のために、ECサイト閲覧者の閲覧条件の推定を行っており、ECサイト閲覧者が絞り込みに用いたキーワードやカテゴリなどの入力語や閲覧した商品群を用いている。
【0003】
しかし入力語を用いた閲覧条件の推定では、閲覧者は全ての閲覧条件を入力語として入力するわけではないため、閲覧者が持つ閲覧条件の一部しか推定できない。また閲覧した商品群を用いた閲覧条件の推定では、閲覧した商品に共通する条件の一部のみが閲覧条件でも、それを区別することができず全てを閲覧条件としてしまう。そのため、他の情報を用いて閲覧条件を推定する事が求められる。
【0004】
他の情報を用いて閲覧条件を推定する方法の一つに、ユーザの閲覧行動履歴である検索ログを用いて入力語を関連する語に拡張しそれを基に閲覧条件を推定する方法がある(例えば非特許文献1)。検索ログは、閲覧者が検索クエリとして入力した入力語と、その結果提示されたページのリストと、そのリストからどのページを閲覧したかという情報で構成される。リストから閲覧したページの閲覧条件だが入力語ではない条件を隠れ条件とし隠れ条件の推定を行う。
【0005】
隠れ条件推定法の例として、ページを記述している文から語を抽出し隠れ条件の推定に用いる方法がある。その場合、閲覧しなかったページ群よりも閲覧したページ群に多く出現する語に高い隠れ条件度が与えられるように隠れ条件度を算出し、隠れ条件度が高いものを隠れ条件と推定する。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】徳永健伸、「情報検索と言語処理」、東京大学出版会、1999年、pp.154〜159
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、従来の技術では、マーケティングにおいて重要な語に高い隠れ条件度を算出することができない事が課題である。マーケティングにおいて重要な語とは閲覧条件を表す語であり、それは閲覧した商品を説明することができる。例えば、“黒い商品”が閲覧条件の場合は説明できるが、“色の商品”では説明できない。
【0008】
これは、閲覧条件が具体的な属性値となる語であることが重要で、閲覧条件が属性となる語の場合は重要でないと考えられる。属性とは、色や価格といった抽象的なものであり、属性値は属性に対して具体的な値を与えるものである。そのため、マーケティングにおいて閲覧条件の推定を行うためには、属性値を閲覧条件として推定する事が求められる。
【0009】
従来の技術では属性値に高い隠れ条件度を算出できない原因として、閲覧しなかった商品群よりも閲覧した商品群に、多く出現する語が属性値であるとは限らないからである。
【0010】
例えば、ファッションサイトを考えてみると、“色”、“ファッション”、“ネット”などのファッションサイトで使われる用語だが隠れ条件として重要ではない語が、閲覧された商品群に共通して出現するため、属性に高い隠れ条件度を算出してしまうことがある。そのため属性を除去するためのフィルタ対象を生成することで、隠れ条件として重要でない語のみに絞り込むことが有効である。そのため、そのフィルタ対象を効率的に生成することが課題となる。
【0011】
本発明は上記課題を解決するものであり、その目的は、閲覧した商品の、閲覧した条件以外を表す語をフィルタ対象として効率的に抽出することができる検索条件抽出装置、方法、プログラムを提供することにある。
【課題を解決するための手段】
【0012】
本発明では、大量の商品に関する商品情報を入力とし、複数の商品で同一の文を抽出するテンプレート抽出手段と、抽出されたテンプレートの文を形態素解析し語を抽出する形態素解析手段と、テンプレートの文に語が出現する頻度によってフィルタ対象となる語を抽出するリスト生成手段を備え、閲覧した商品の、閲覧した条件以外を表す語を除去するフィルタ対象群を出力する。
【0013】
本発明の請求項1に記載の検索条件抽出装置は、ECサイト閲覧者が閲覧した商品の、閲覧した条件以外を表す語を除去するべきフィルタ対象として抽出する検索条件抽出装置であって、複数の商品に関する情報から複数の商品に含まれる同一文をテンプレートとして抽出し、その文における出現商品数を求めるテンプレート抽出手段と、前記テンプレート抽出手段によって抽出されたテンプレートの文を形態素解析し、解析した語と、その語における出現商品数を出力する形態素解析手段と、前記形態素解析手段によって出力された語と出現商品数に基づいて、テンプレートに語が出現する頻度を求め、該出現頻度がしきい値以上の語を、除去するべきフィルタ対象として出力するリスト生成手段と、を備えたことを特徴としている。
【発明の効果】
【0014】
本発明によれば、閲覧した商品の、閲覧した条件以外を表す語をフィルタ対象として効率的に抽出することができる。このため、ECサイトで使われる用語であるが重要ではない語に高い隠れ条件度が算出された場合でも、出現頻度のしきい値を決めるだけで、除去するべきフィルタ対象を効率的に抽出することができ、前記重要ではない語を除去することが可能となる。
【図面の簡単な説明】
【0015】
【図1】本発明の一実施形態例を示す装置構成図。
【図2】図1におけるフィルタ対象抽出装置の各部が行う処理のフローチャート。
【図3】図1における各バッファの記録内容の例を示す説明図。
【図4】図1のテンプレート抽出部が行なう処理のフローチャート。
【図5】図1の形態素解析部が行なう処理のフローチャート。
【図6】図1のリスト生成部が行なう処理のフローチャート。
【図7】ファッションサイトにおいて、商品リストとその商品リストからユーザが閲覧した商品の閲覧条件を示すための説明図。
【図8】図7のサイトにおける商品に関する商品情報の例を示す説明図。
【図9】従来技術を用いて閲覧した条件を抽出した例を示す説明図。
【図10】本発明におけるテンプレートの定義の例を示す説明図。
【図11】本発明における「素材」に関連するテンプレートの例を示す説明図。
【図12】本発明のテンプレート有りの場合と無しの場合の非属性語の抽出例を示す説明図。
【図13】本発明の手法と他の手法により抽出された非属性語の例を示す説明図。
【発明を実施するための形態】
【0016】
以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。図1は本発明の実施の形態におけるECサイト閲覧者が閲覧した商品の、閲覧している条件でない語を除去するフィルタ対象を抽出する検索条件抽出装置の構成図である。図1におけるフィルタ対象抽出装置100は、テンプレート抽出部120、商品情報入力バッファ121、文保存バッファ122、形態素解析部130、テンプレート入力バッファ131、リスト生成部140、テンプレート語群入力バッファ141、語保存バッファ142を備え、商品情報入力装置110およびフィルタ対象出力装置150が接続されている。
【0017】
商品情報入力装置110は処理対象となる商品情報を商品情報入力バッファ121に書き込む。フィルタ対象出力装置150はフィルタ対象抽出装置100が抽出した閲覧した条件でない除去するべき語を出力する。
【0018】
商品情報入力装置110が商品情報入力バッファ121に書き込む商品情報群は、各バッファの内容の例を示す図3の(a)のように、大量の商品について、それぞれの商品に固有に付与された商品IDと商品に関する文などをもとにした商品情報の群で構成される。
【0019】
テンプレート抽出部120は、本発明のテンプレート抽出手段の実施形態例であり、商品情報入力バッファ121に書き込まれた商品情報を基に、複数の商品に含まれる同一文であるテンプレートを抽出する。
【0020】
文保存バッファ122は、テンプレート抽出部120によって商品情報から取り出された文、文IDおよびその文における出現商品数が例えば図3(b)のように書き込まれるバッファである。
【0021】
テンプレート入力バッファ131は、前記文保存バッファ122の内容がテンプレート抽出部120によって例えば図3(c)のように書き込まれるバッファである。
【0022】
形態素解析部130は、本発明の形態素解析手段の実施形態例であり、テンプレート抽出部120により抽出されたテンプレートの文を解析して語群に分割し、解析された語群と各語の出現商品数を得る。
【0023】
テンプレート語群入力バッファ141は、テンプレートID、前記解析し得られた語、出現商品数等が、形態素解析部130によって例えば図3(d)のように書き込まれるバッファである。
【0024】
リスト生成部140は、本発明のリスト生成手段の実施形態例であり、形態素解析部130により解析し得られた語と出現商品数に基づいて、テンプレートに語が出現する頻度を求め、その出現頻度によって、閲覧した条件でない、除去するべき語をフィルタ対象として出力する。
【0025】
語保存バッファ142は、リスト生成部140の処理のために、テンプレート語群入力バッファ141内の語がリスト生成部140によって書き込まれるバッファである。
【0026】
図1の装置は、例えばコンピュータにより構成され、通常のコンピュータのハードウェアリソース、例えばROM,RAM,CPU、入力装置、出力装置、通信インターフェース、ハードディスク、記録媒体およびその駆動装置を備えている。
【0027】
このハードウェアリソースとソフトウェアリソース(OS、アプリケーションなど)との協働の結果、本発明の検索条件抽出装置は、図1に示すように、商品情報入力装置110、テンプレート抽出部120、商品情報入力バッファ121、文保存バッファ122、形態素解析部130、テンプレート入力バッファ131、リスト生成部140、テンプレート語群入力バッファ141、語保存バッファ142、フィルタ対象出力装置150を実装する。
【0028】
前記商品情報入力バッファ121、文保存バッファ122、テンプレート入力バッファ131、テンプレート語群入力バッファ141、語保存バッファ142は、ハードディスクあるいはRAMなどの保存手段・記憶手段に構築されているものとする。
【0029】
次に、上記のように構成された装置の動作を説明する。図2は図1の装置全体のフローチャートを示している。図2において、ステップS110では商品情報入力装置110が商品情報を入力し、ステップS120ではテンプレート抽出部120が複数の商品に含まれる同一文であるテンプレートを抽出し、ステップS130では形態素解析部130がテンプレートを形態素解析し含まれる語を抽出し、ステップS140ではリスト生成部140が、テンプレートに語が出現する頻度がしきい値以上のものをフィルタ対象として抽出し、ステップS150ではフィルタ対象出力装置150がフィルタ対象を出力する。
【0030】
前記テンプレート抽出部120は図4のフローチャートに沿って処理を行い、前記形態素解析部130は図5のフローチャートに沿って処理を行い、前記リスト生成部140は図6のフローチャートに沿って処理を行う。
【0031】
以下では、図7、図8に示すファッションサイトにおいて、ユーザが閲覧した商品の、閲覧条件以外を表す語を除去する例について説明する。
【0032】
図7は、提示された商品リストと、その商品リストからユーザが閲覧した商品の閲覧した条件を示している。図中の四角形太枠は商品リストから閲覧した商品を示し、ユーザがネイビー色のシャツの商品を商品リストから閲覧していることを表している。この例では、閲覧した条件を“ネイビー”としている。
【0033】
図8は商品に関する商品情報の例を示し、この例では、商品情報入力装置110が商品情報入力バッファ121に書き込む商品情報は、各四角形太枠内の商品の商品詳細ページに記述されているテキスト情報から抽出した語や文の集合としている。
【0034】
図9は従来技術を用いて、閲覧した条件を抽出した例を示す。この例では、抽出された条件(閲覧していない商品に含まれず閲覧した商品に含まれた条件)としては、“ネイビー”と“素材”となっている。本発明ではこの“素材”を除去するためのフィルタ対象を出力する。
【0035】
本発明のテンプレートは、複数商品で全く同一である文(サイトで定型文となっている文)として定義され、文中には属性語を含まない。
【0036】
図8の商品情報についてのテンプレートの定義の例を図10に示す。図11は本発明により実際に抽出された“素材”を含むテンプレートの例を示しており、多くの商品のテンプレートに出現する語を除去(テンプレートを用いた非属性語を除去)する、すなわちフィルタ対象とする。尚、図11中の左側の数字は出現回数(頁数)を示している。
【0037】
図1において、テンプレート抽出部120は、商品情報入力装置110から商品情報入力バッファ121に商品情報が書き込まれると動作を開始する。
【0038】
まず、テンプレート抽出部120は商品情報入力バッファ121から一つの商品情報を取り出す(図4のステップS410)。
【0039】
次に取り出した商品情報の先頭から終端記号までの一文を取り出す(ステップS420)。ここで終端記号とは“。”や“.”など事前に登録してあるものとする。
【0040】
次に取り出した一文の語数を形態素解析を行って調べ、その語数がしきい値thwn(語数しきい値)以上の場合には文保存バッファ122に取り出した一文書き込む(ステップS430)。このとき書き込んだ一文の出現商品数をインクリメントする。初めて書き込まれた一文の場合は出現商品数を1とする。
【0041】
次に取り込んだ商品情報に未処理の文字が存在するか否かを判定し、存在するならばステップS420に戻って処理を継続し、未処理の文字が存在しない場合には、ステップS450に進む(ステップS440)。
【0042】
ステップS450では、商品情報入力バッファ121に未処理の商品情報が存在するか否かを判定し、存在するならばステップS410に戻って処理を継続し、未処理の商品情報が存在しない場合には、ステップS460に進む。
【0043】
次にステップS460では、文保存バッファ122に存在するすべての文において、出現商品数がしきい値thfn(出現商品数しきい値)以下の文を文保存バッファ122から削除する。
【0044】
次にステップS470において、文保存バッファ122の内容をテンプレート入力バッファ131に書き込み処理を終了する。
【0045】
次に形態素解析部130は、テンプレート抽出部120からテンプレート入力バッファ131にテンプレート群の情報が書き込まれると動作を開始する。
【0046】
まず、形態素解析部130はテンプレート入力バッファ131から一つのテンプレートの文を取り出す(図5のステップS510)。
【0047】
次に取り出したテンプレートを形態素解析して語群に分割する(ステップS520)。
【0048】
次に形態素解析した語群をテンプレート語群入力バッファ141に入力する(ステップS530)。テンプレート語群入力バッファ141に入力する情報は、図3(d)に示すように、テンプレート文に固有のテンプレートID、形態素解析した語、テンプレートの出現商品数となる。
【0049】
次にステップS540において、テンプレート入力バッファ131に未処理のテンプレートの文が存在するか否かを判定し、存在するならばステップS510に戻って処理を継続し、未処理のテンプレートの文が存在しない場合には、処理を終了する。
【0050】
次にリスト生成部140は、テンプレート語群入力バッファ141にテンプレート語群の情報が書き込まれると動作を開始する。
【0051】
まず、テンプレート語群入力バッファ141から語を取り出す(図6のステップS610)。
【0052】
次に、取り出した語を語保存バッファ142に書き込む(ステップS620)。この時書き込んだ語の出現頻度に出現商品数をインクリメントする。ただし初めて書き込まれた語の場合は出現頻度を出現商品数とする。
【0053】
次にステップS630において、テンプレート語群入力バッファ141に未処理の語が存在するか否かを判定し、存在するならばステップS610に戻って処理を継続し、未処理の語が存在しない場合には、ステップS640に進む。
【0054】
次にステップS640では、語保存バッファ142でしきい値thfw(出現頻度しきい値)以下の出現頻度の語を除去した後、語保存バッファ142の内容をフィルタ対象出力装置150に出力し処理を終了する。
【0055】
本実施形態例によれば、“色”、“ファッション”、“ネット”などのファッションサイトで使われる用語だが重要ではない語に高い隠れ条件度が算出された場合でも,フィルタ対象を効率的に抽出することで、ファッションサイトで使われる用語だが重要ではない語を除去することができる効果がある。
【0056】
図12に本発明のテンプレート抽出部120を用いた場合(図12(a))と用いなかった場合(図12(b))の、抽出された非属性語と出現頻度の例を示す。この図12から、テンプレート抽出部120を用いることで、重要な語である“ブラック”、“ポリエステル”などは低い商品出現頻度をもち、“カラー”、“素材”などは重要な語よりも高い出現頻度をもつことが分かる。このため出現頻度のしきい値を決めるだけで効率的にフィルタ対象を生成できることが分かる。
【0057】
また図13に、本発明の手法(図13(a))と他の手法(IDF;Inverse Document Frequency(逆文書頻度))であるGlobal IDF(図13(b))、サイトIDF(図13(c))により抽出された非属性語と、出現頻度の例を示す。
【0058】
図13によれば、本発明の手法の方が、他の手法よりも良好に非属性語が抽出できていることが分かる。
【0059】
また、本実施形態の検索条件抽出装置における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態の検索条件抽出方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばFD(Floppy(登録商標) Disk)や、MO(Magneto−Optical disk)、ROM(Read Only Memory)、メモリカード、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)−ROM、CD−R、CD−RW、HDD、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。
【符号の説明】
【0060】
100…フィルタ対象抽出装置
110…商品情報入力装置
120…テンプレート抽出部
121…商品情報入力バッファ
122…文保存バッファ
130…形態素解析部
131…テンプレート入力バッファ
140…リスト生成部
141…テンプレート語群入力バッファ
142…語保存バッファ
150…フィルタ対象出力装置
【特許請求の範囲】
【請求項1】
ECサイト閲覧者が閲覧した商品の、閲覧した条件以外を表す語を除去するべきフィルタ対象として抽出する検索条件抽出装置であって、
複数の商品に関する情報から複数の商品に含まれる同一文をテンプレートとして抽出し、その文における出現商品数を求めるテンプレート抽出手段と、
前記テンプレート抽出手段によって抽出されたテンプレートの文を形態素解析し、解析した語と、その語における出現商品数を出力する形態素解析手段と、
前記形態素解析手段によって出力された語と出現商品数に基づいて、テンプレートに語が出現する頻度を求め、該出現頻度がしきい値以上の語を、除去するべきフィルタ対象として出力するリスト生成手段と、
を備えたことを特徴とする検索条件抽出装置。
【請求項2】
ECサイト閲覧者が閲覧した商品の、閲覧した条件以外を表す語を除去するべきフィルタ対象として抽出する検索条件抽出方法であって、
テンプレート抽出手段が、複数の商品に関する情報から複数の商品に含まれる同一文をテンプレートとして抽出し、その文における出現商品数を求めるテンプレート抽出ステップと、
形態素解析手段が、前記テンプレート抽出手段によって抽出されたテンプレートの文を形態素解析し、解析した語と、その語における出現商品数を出力する形態素解析ステップと、
リスト生成手段が、前記形態素解析手段によって出力された語と出現商品数に基づいて、テンプレートに語が出現する頻度を求め、該出現頻度がしきい値以上の語を、除去するべきフィルタ対象として出力するリスト生成ステップと、
を備えたことを特徴とする検索条件抽出方法。
【請求項3】
コンピュータを請求項1に記載の各手段として機能させる検索条件抽出プログラム。
【請求項1】
ECサイト閲覧者が閲覧した商品の、閲覧した条件以外を表す語を除去するべきフィルタ対象として抽出する検索条件抽出装置であって、
複数の商品に関する情報から複数の商品に含まれる同一文をテンプレートとして抽出し、その文における出現商品数を求めるテンプレート抽出手段と、
前記テンプレート抽出手段によって抽出されたテンプレートの文を形態素解析し、解析した語と、その語における出現商品数を出力する形態素解析手段と、
前記形態素解析手段によって出力された語と出現商品数に基づいて、テンプレートに語が出現する頻度を求め、該出現頻度がしきい値以上の語を、除去するべきフィルタ対象として出力するリスト生成手段と、
を備えたことを特徴とする検索条件抽出装置。
【請求項2】
ECサイト閲覧者が閲覧した商品の、閲覧した条件以外を表す語を除去するべきフィルタ対象として抽出する検索条件抽出方法であって、
テンプレート抽出手段が、複数の商品に関する情報から複数の商品に含まれる同一文をテンプレートとして抽出し、その文における出現商品数を求めるテンプレート抽出ステップと、
形態素解析手段が、前記テンプレート抽出手段によって抽出されたテンプレートの文を形態素解析し、解析した語と、その語における出現商品数を出力する形態素解析ステップと、
リスト生成手段が、前記形態素解析手段によって出力された語と出現商品数に基づいて、テンプレートに語が出現する頻度を求め、該出現頻度がしきい値以上の語を、除去するべきフィルタ対象として出力するリスト生成ステップと、
を備えたことを特徴とする検索条件抽出方法。
【請求項3】
コンピュータを請求項1に記載の各手段として機能させる検索条件抽出プログラム。
【図1】
【図2】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図3】
【図2】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図3】
【公開番号】特開2013−109563(P2013−109563A)
【公開日】平成25年6月6日(2013.6.6)
【国際特許分類】
【出願番号】特願2011−253739(P2011−253739)
【出願日】平成23年11月21日(2011.11.21)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【公開日】平成25年6月6日(2013.6.6)
【国際特許分類】
【出願日】平成23年11月21日(2011.11.21)
【出願人】(000004226)日本電信電話株式会社 (13,992)
[ Back to top ]