説明

検索装置、検索方法、および、検索装置用のプログラム

【課題】ユーザが見やすい検索結果を提示してユーザの利便性の向上を図る。
【解決手段】ユーザ端末45からユーザ検索クエリを受信し(S1)、ユーザ検索クエリに基づく複数の商品ウェブページを同一のカテゴリに属している商品ウェブページの中から取得し(S3)、各商品ウェブページ内に記述されているテキストデータを抽出し(S4)、テキストデータを言語解析して各商品ウェブページの特徴語候補を抽出し(S5)、特徴語候補を検索キーワードとする検索クエリを作成して検索クエリに基づく検索結果を取得し(S6)、検索結果のスニペット中にカテゴリ関連語が存在するか否かを判定し、スニペット中にカテゴリ関連語が存在する場合の特徴語候補を特徴語に決定し(S8)、複数の商品ウェブページを特徴語毎にグルーピングし(S9)、特徴語毎にグルーピングした商品ウェブページに関する情報を検索結果としてユーザ端末に送信する(S10)。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、端末から検索キーワードを含む検索クエリを受信して検索結果を送信する検索装置、検索方法、および、検索装置用のプログラムの技術分野に関する。
【背景技術】
【0002】
インターネット上のショッピングサイトには商品を扱った商品ウェブページが多数あり、ユーザはその商品ウェブページを閲覧して商品の購入を行っている。閲覧して購入する際、ユーザは通常、商品検索を行っている。この検索の技術において、多くの商品ウェブページの中からユーザが欲しい商品を的確に探すために検索精度の向上を図ることが行われている。例えば、特許文献1には、商品に登録された商品説明情報のシードかノイズかの識別を高精度に行うことで、商品検索の精度向上を図るため、複数のストアが種々の商品カテゴリ毎に提供する商品毎に登録される情報である商品説明情報が属する商品カテゴリの数をカテゴリ頻度として商品説明情報毎に算出するカテゴリ頻度算出部と、商品説明情報が属するストアの数をストア頻度として商品説明情報毎に算出するストア頻度算出部と、算出されたカテゴリ頻度とストア頻度との比率から分類規則情報を生成する機械学習部と、生成された分類規則情報に基づいて商品説明情報がノイズ情報又は商品特定情報かを識別し分類する判定部と、を備える商品情報分類装置が開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2009−129087号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、サイバーモールのような様々な店舗が参加するタイプのショッピングサイトにおいて、ショッピングサイトに出店している各業者(店舗主)が独自に各商品ウェブページを作成している場合、同一商品でも商品の説明文が異なったり、表記の方法の統一がなされていなかったりすることがある。また、他の店舗よりもユーザにアピールするために店舗独自の情報が商品ウェブページに付与されたり、商品ウェブページの見出し部分が様々な情報で埋め尽くされたりしている。
【0005】
このため、単純に検索するだけでは、所望する商品ウェブページを発見することが難しく、ユーザは同一商品と思われる様々な商品ウェブページを閲覧して、購入するサイトを決定する必要があった。特許文献1のように単に検索の精度を上げただけでは、上記問題を解決することが難しかった。また、検索結果がスコア順等で表示される場合、どの商品ウェブページが同じ商品であるのを一見して見分けることが難しかった。
【0006】
本発明は、このような問題に鑑みてなされたものであり、その課題の一例は、ユーザが見やすい検索結果を提示してユーザの利便性の向上を図ることができる検索装置、検索方法、および、検索装置用のプログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
上記課題を解決するために、請求項1に記載の発明は、商品を分類するカテゴリに関連するカテゴリ関連語を記憶するカテゴリ関連語記憶手段と、ユーザ端末からユーザ検索クエリを受信する検索クエリ受信手段と、前記ユーザ検索クエリに基づく複数の商品ウェブページを、同一のカテゴリに属している商品ウェブページの中から取得する商品ウェブページ取得手段と、前記各商品ウェブページ内に記述されているテキストデータを抽出するテキストデータ抽出手段と、抽出した前記テキストデータを言語解析して、前記各商品ウェブページの特徴語候補を抽出する特徴語候補抽出手段と、前記特徴語候補を検索キーワードとする検索クエリを作成し、前記検索クエリに基づく検索結果を取得する検索結果取得手段と、前記カテゴリ関連語記憶手段を参照して、前記検索結果のスニペット中に前記カテゴリ関連語が存在するか否かを判定する検索結果判定手段と、前記スニペット中に前記カテゴリ関連語が存在する場合の前記特徴語候補を前記各商品ウェブページの特徴語に決定する特徴語決定手段と、前記複数の商品ウェブページを前記特徴語毎にグルーピングする商品ウェブページ・グルーピング手段と、前記特徴語毎にグルーピングした前記商品ウェブページに関する情報を検索結果として前記ユーザ端末に送信する送信手段と、を備えたことを特徴とする。
【0008】
請求項2に記載の発明は、請求項1に記載の検索装置において、前記特徴語に基づき、前記複数の商品ウェブページのうち任意の2つの商品ウェブページ間の類似度を算出する類似度算出手段を更に備え、前記商品ウェブページ・グルーピング手段が、前記類似度に基づき、前記複数の商品ウェブページをグルーピングすることを特徴とする。
【0009】
請求項3に記載の発明は、請求項2に記載の検索装置において、前記商品ウェブページ・グルーピング手段が、前記類似度が所定の値以上である場合の商品ウェブページをグルーピングすることを特徴とする。
【0010】
請求項4に記載の発明は、請求項2または請求項3に記載の検索装置において、前記類似度算出手段が、前記複数の商品ウェブページのうち任意の2つの商品ウェブページにおいて共通の前記特徴語に基づき、前記類似度を算出することを特徴とする。
【0011】
請求項5に記載の発明は、請求項1から請求項3のいずれか1項に記載の検索装置において、前記類似度算出手段が、前記複数の商品ウェブページのうち任意の2つの商品ウェブページにおいて共通の前記特徴語の逆出現頻度に基づき前記類似度を算出することを特徴とする。
【0012】
請求項6に記載の発明は、請求項1から請求項5のいずれか1項に記載の検索装置において、ショッピングサイトのドメイン名を記憶するドメイン名記憶手段を更に備え、前記検索結果判定手段が、前記カテゴリ関連語記憶手段および前記ドメイン名記憶手段を参照して、前記検索結果において、ショッピングサイトのスニペット中に前記カテゴリ関連語が存在するか否かを判定することを特徴とする。
【0013】
請求項7に記載の発明は、請求項1から請求項6のいずれか1項に記載の検索装置において、前記特徴語候補抽出手段が、前記テキストデータを形態素解析によって前記言語解析して得られた形態素から、ノイズの形態素を除去するノイズ除去手段を有することを特徴とする。
【0014】
請求項8に記載の発明は、商品を分類するカテゴリに関連するカテゴリ関連語を記憶するカテゴリ関連語記憶ステップと、ユーザ端末からユーザ検索クエリを受信する検索クエリ受信ステップと、前記ユーザ検索クエリに基づく複数の商品ウェブページを、同一のカテゴリに属している商品ウェブページの中から取得する商品ウェブページ取得ステップと、前記各商品ウェブページ内に記述されているテキストデータを抽出するテキストデータ抽出ステップと、抽出した前記テキストデータを言語解析して、前記各商品ウェブページの特徴語候補を抽出する特徴語候補抽出ステップと、前記特徴語候補を検索キーワードとする検索クエリを作成し、前記検索クエリに基づく検索結果を取得する検索結果取得ステップと、前記検索結果のスニペット中に前記カテゴリ関連語が存在するか否かを判定する検索結果判定ステップと、前記スニペット中に前記カテゴリ関連語が存在する場合の前記特徴語候補を前記各商品ウェブページの特徴語に決定する特徴語決定ステップと、前記複数の商品ウェブページを前記特徴語毎にグルーピングする商品ウェブページ・グルーピングステップと、前記特徴語毎にグルーピングした前記商品ウェブページに関する情報を検索結果として前記ユーザ端末に送信する送信ステップと、を有することを特徴とする。
【0015】
請求項9に記載の発明は、コンピュータを、商品を分類するカテゴリに関連するカテゴリ関連語を記憶するカテゴリ関連語記憶手段、ユーザ端末からユーザ検索クエリを受信する検索クエリ受信手段、前記ユーザ検索クエリに基づく複数の商品ウェブページを、同一のカテゴリに属している商品ウェブページの中から取得する商品ウェブページ取得手段、前記各商品ウェブページ内に記述されているテキストデータを抽出するテキストデータ抽出手段、抽出した前記テキストデータを言語解析して、前記各商品ウェブページの特徴語候補を抽出する特徴語候補抽出手段、前記特徴語候補を検索キーワードとする検索クエリを作成し、前記検索クエリに基づく検索結果を取得する検索結果取得手段、前記カテゴリ関連語記憶手段を参照して、前記検索結果のスニペット中に前記カテゴリ関連語が存在するか否かを判定する検索結果判定手段、前記スニペット中に前記カテゴリ関連語が存在する場合の前記特徴語候補を前記各商品ウェブページの特徴語に決定する特徴語決定手段、前記複数の商品ウェブページを前記特徴語毎にグルーピングする商品ウェブページ・グルーピング手段、および、前記特徴語毎にグルーピングした前記商品ウェブページに関する情報を検索結果として前記ユーザ端末に送信する送信手段として機能させることを特徴とする。
【発明の効果】
【0016】
本発明によれば、商品を分類するカテゴリに関連するカテゴリ関連語を記憶し、ユーザ端末からユーザ検索クエリを受信し、ユーザ検索クエリに基づく複数の商品ウェブページを、同一のカテゴリに属している商品ウェブページの中から取得し、各商品ウェブページ内に記述されているテキストデータを抽出し、抽出したテキストデータを言語解析して各商品ウェブページの特徴語候補を抽出し、特徴語候補を検索キーワードとする検索クエリを作成して検索クエリに基づく検索結果を取得し、検索結果のスニペット中にカテゴリ関連語が存在するか否かを判定し、スニペット中にカテゴリ関連語が存在する場合の特徴語候補を各商品ウェブページの特徴語に決定し、複数の商品ウェブページを特徴語毎にグルーピングし、特徴語毎にグルーピングした商品ウェブページに関する情報を検索結果としてユーザ端末に送信することにより、ユーザが見やすい検索結果を提示してユーザの利便性の向上を図ることができる。
【図面の簡単な説明】
【0017】
【図1】本発明の一実施形態に係る検索システムの概要構成例を示す模式図である。
【図2】図1の商品ウェブページ分析サーバの概要構成の一例を示すブロック図である。
【図3】図1のショッピングサーバの概要構成の一例を示すブロック図である。
【図4】図1のウェブ検索サーバの概要構成の一例を示すブロック図である。
【図5】図1の商品ウェブページ分析サーバにおいて商品ウェブページをグルーピングする動作例を示すフローチャートである。
【図6】図1のショッピングサーバの商品ウェブページの一例を示す説明図である。
【図7】図6の商品ウェブページのソースコードの一例を示す説明図である。
【図8】図6の商品ウェブページのテキストデータの分析過程の一例を示す模式図である。
【図9】図1のウェブ検索サーバの検索結果の一例を示す模式図である。
【図10】図2のドメイン名データベースに記憶されたショッピングサイトのドメイン名の一例を示す模式図である。
【図11】図2のカテゴリ関連語データベースに記憶されたカテゴリ関連語の一例を示す模式図である。
【図12】図1のユーザ端末に送信されるグルーピングされた検索結果の一例を示す模式図である。
【図13】図1の商品ウェブページ分析サーバにおけるグルーピングのサブルーチンの一例を示すフローチャートである。
【発明を実施するための形態】
【0018】
以下、図面を参照して本発明の実施形態について説明する。なお、以下に説明する実施の形態は、検索システムに対して本発明を適用した場合の実施形態である。
【0019】
[1.検索システムの構成および機能概要]
まず、本発明の一実施形態に係る検索システムの構成および概要機能について、図1を用いて説明する。
【0020】
図1は、本実施形態に係る検索システム1の概要構成例を示す模式図である。
【0021】
図1に示すように、検索システム1は、商品ウェブページを分析する商品ウェブページ分析サーバ(検索装置の一例)10と、ショッピングサイトを運営するために設置されたショッピングサーバ20と、インターネット上のウェブページのウェブ検索の機能を提供するウェブ検索サーバ30と、ショッピングサイトに出店している店舗主の店舗主端末40と、ショッピングサイトで商品の購入をするユーザのユーザ端末45と、を備えている。
【0022】
商品ウェブページ分析サーバ10と、ショッピングサーバ20と、ウェブ検索サーバ30とは、ローカルエリアネットワーク等により接続され、相互にデータの送受信が可能になっていて、サーバシステム5を構成している。そして、サーバシステム5と、店舗主端末40と、ユーザ端末45とは、ネットワーク3により接続され、例えば、通信プロトコルにTCP/IP等を用いて相互にデータの送受信が可能になっている。なお、ネットワーク3は、例えば、インターネット、専用通信回線(例えば、CATV(Community Antenna Television)回線)、移動体通信網(基地局等を含む)、およびゲートウェイ等により構築されている。
【0023】
商品ウェブページ分析サーバ10は、ユーザ端末45から検索クエリを受信したり、ショッピングサーバ20に登録された商品ウェブページを分析したり、分析結果に基づき、同じような商品に関する商品ウェブページをグルーピングしたり、ユーザ端末45に検索結果を送信したりする。
【0024】
ショッピングサーバ20は、ショッピングサイトで商品を販売するためのウェブサーバや、データベースサーバ等として機能し、商品ウェブページの登録の受け付けや、ユーザ登録や、商品等の購入手続き等の各種処理を行う。また、ショッピングサーバ20は、商品のカテゴリ毎に分類された商品ウェブページを有している。
【0025】
ウェブ検索サーバ30は、インターネット等上の検索エンジンとして機能し、検索API(Application Programming Interface)の機能を、商品ウェブページ分析サーバ10に提供したり、端末から検索キーワードを含む受信した検索クエリに基づき、ウェブページ等の検索対象を検索して、検索結果を返したりする。また、ウェブ検索サーバ30は、検索用のデータベースを構築するために、ショッピングサーバ20や、図示しないインターネット上のウェブサイトからウェブページの情報を収集し、ウェブページの情報を予め解析し、検索のためのインデックス情報や検索結果のスニペットを作成する。ここで、スニペットとは、各検索結果の説明文等のテキストであって、検索でヒットしたウェブページの要約や、そのウェブページ内に記述された検索キーワードを含んだ文章等である。
【0026】
店舗主が使用する店舗主端末40は、パーソナルコンピュータや携帯型無線電話機やPDA(Personal Digital Assistant)等の携帯端末である。店舗主は店舗主端末40を使用して、商品ウェブページをショッピングサーバ20に登録したり、更新したりする。
【0027】
ユーザが使用するユーザ端末45は、パーソナルコンピュータや携帯型無線電話機やPDA等の携帯端末である。ユーザはユーザ端末45を使用して、商品の検索や購入等を行う。
【0028】
[2.各サーバの構成および機能]
(2.1 商品ウェブページ分析サーバ10の構成および機能)
次に、商品ウェブページ分析サーバ10の構成および機能について、図2を用いて説明する。
【0029】
図2は、商品ウェブページ分析サーバ10の概要構成の一例を示すブロック図である。
【0030】
図2に示すように、コンピュータとして機能する商品ウェブページ分析サーバ10は、通信部11と、記憶部12と、入出力インターフェース部13と、システム制御部14と、を備えている。そして、システム制御部14と入出力インターフェース部13とは、システムバス15を介して接続されている。
【0031】
通信部11は、ネットワーク3に接続してユーザ端末45等との通信状態を制御したり、ローカルエリアネットワークに接続して、ショッピングサーバ20やウェブ検索サーバ30等の他のサーバとデータの送受信を行ったりする。
【0032】
記憶部12は、例えば、ハードディスクドライブ等により構成されており、オペレーティングシステムおよびサーバプログラム等の各種プログラムや、データ等を記憶する。なお、各種プログラムは、例えば、他のサーバ装置等からネットワーク3を介して取得されるようにしてもよいし、記録媒体に記録されてドライブ装置を介して読み込まれるようにしてもよい。
【0033】
また、記憶部12には、カテゴリ関連語記憶手段の一例としてのカテゴリ関連語データベース12a(以下「カテゴリ関連語DB」とする。)や、ドメイン名記憶手段の一例としてのドメイン名データベース(以下「ドメイン名DB」とする。)12bや、特徴語データベース(以下「特徴語DB」とする。)12c等が構築されている。
【0034】
カテゴリ関連語DB12aには、ショッピングサイトにおける商品のカテゴリ毎に用語が記憶されている。例えば、”ワイン”のカテゴリには、”ワイン”、”お酒”等のカテゴリ関連語が、”ゴルフドライバー”のカテゴリには、”ゴルフ”、”ドライバー”、”クラブ”等のカテゴリ関連語が予め記録されている。また、カテゴリは階層構造になっていて、例えば、”ワイン”のカテゴリは、”洋酒”のカテゴリに属する。これらカテゴリ関連語は、各カテゴリに対応する識別子に関連付けられて記憶されている。このように、カテゴリ関連語DB12aは、商品を分類するカテゴリに関連するカテゴリ関連語を記憶するカテゴリ関連語記憶手段の一例として機能する。
【0035】
ドメイン名DB12bには、インターネット上の様々なショッピングサイトのドメイン名が予め記憶されている。このように、ドメイン名DB12bは、ショッピングサイトのドメイン名を記憶するドメイン名記憶手段の一例として機能する。
【0036】
特徴語DB12cには、商品ウェブページ分析サーバ10による分析結果の一例として、商品ウェブページから、抽出した商品ウェブページの特徴語が記憶されている。特徴語は、商品ウェブページのURL(Uniform Resource Locator)等に関連付けられて記憶されている。
【0037】
次に、入出力インターフェース部13は、通信部11および記憶部12とシステム制御部14との間のインターフェース処理を行うようになっている。
【0038】
システム制御部14は、CPU(Central Processing Unit)14a、ROM(Read Only Memory)14b、RAM(Random Access Memory)14c等により構成されている。そして、システム制御部14は、CPU14aが、ROM14bや記憶部12に記憶された各種プログラムを読み出し実行することにより、商品ウェブページのテキストデータから各商品ウェブページの特徴語候補を抽出したり、特徴語候補から特徴語を決定したり、特徴語に基づき、商品ウェブページ間の類似度を算出したり、複数の商品ウェブページを特徴語毎にグルーピングしたりする。
【0039】
(2.2 ショッピングサーバ20の構成および機能)
次に、ショッピングサーバ20の構成および機能について、図に基づき説明する。
図3は、ショッピングサーバ20の概要構成の一例を示すブロック図である。
【0040】
図3に示すように、ショッピングサーバ20は、通信部21と、記憶部22と、入出力インターフェース部23と、システム制御部24と、を備え、システム制御部24と入出力インターフェース部23とは、システムバス25を介して接続されている。なお、ショッピングサーバ20の構成および機能は、商品ウェブページ分析サーバ10の構成および機能とほぼ同じであるので、商品ウェブページ分析サーバ10の各構成や各機能において、異なるところを中心に説明する。
【0041】
通信部21は、ネットワーク3やローカルエリアネットワーク等を通して、店舗主端末40やユーザ端末45や商品ウェブページ分析サーバ10等と通信状態を制御等するようになっている。
【0042】
記憶部22には、商品データベース(以下「商品DB」とする。)22aや、会員データベース(以下「会員DB」とする。)22b等が構築されている。
【0043】
商品DB22aには、商品を識別するための識別子である商品IDに関連付けられ、商品名、種類、商品の画像、スペック、および、商品紹介の要約文等の商品情報や、広告情報等が記憶されている。また、商品DB22aには、HTML(HyperText Markup Language)、XML(Extensible Markup Language)等のマークアップ言語等により記述された商品ウェブページのファイル等が記憶されている。
【0044】
会員DB22bには、会員登録されたユーザ(インターネットショップの利用者)のユーザID、名称、住所、電話番号、メールアドレス等のユーザ情報が登録されている。このようなユーザ情報は、ユーザIDによってユーザ毎に判別可能になっている。また、会員DB22bには、ユーザがユーザ端末45からインターネットショップのサイトにログインする際に必要な、ユーザID、ログインID、および、パスワードが登録されている。ここで、ログインIDおよびパスワードは、ログイン処理(ユーザの認証処理)に使用されるログイン情報である。
【0045】
システム制御部24は、CPU24a、ROM24b、RAM24c等により構成されている。そして、システム制御部24は、CPU24aが、ROM24bや記憶部22に記憶された各種プログラムを読み出し実行することにより、店舗主による商品ウェブページの登録や更新や、ユーザによる商品購入処理や、商品の購買履歴をユーザID毎に記録させたりする。
【0046】
(2.3 ウェブ検索サーバ30の構成および機能)
次に、ウェブ検索サーバ30の構成および機能について、図に基づき説明する。
図4は、ウェブ検索サーバ30の概要構成の一例を示すブロック図である。
【0047】
図4に示すように、ウェブ検索サーバ30は、通信部31と、記憶部32と、入出力インターフェース部33と、システム制御部34と、を備え、システム制御部34と入出力インターフェース部33とは、システムバス35を介して接続されている。なお、ウェブ検索サーバ30の構成および機能は、商品ウェブページ分析サーバ10の構成および機能とほぼ同じであるので、商品ウェブページ分析サーバ10の各構成や各機能において、異なるところを中心に説明する。
【0048】
通信部31は、ネットワーク3やローカルエリアネットワーク等を通して、ユーザ端末45や商品ウェブページ分析サーバ10等と通信状態を制御等するようになっている。
【0049】
記憶部32には、検索データベース(以下「検索DB」とする。)32a等が構築されている。
【0050】
検索DB32aには、インデクサーにより生成されたインデックス情報や、スニペット等が記憶されている。
【0051】
システム制御部34は、CPU34a、ROM34b、RAM34c等により構成されている。そして、システム制御部34は、CPU34aが、ROM34bや記憶部32に記憶された各種プログラムを読み出し実行することにより、インターネット上のウェブページの情報を収集し、ウェブページの情報を予め解析し、インデックス情報や検索結果のスニペットを作成したり、商品ウェブページ分析サーバ10からの検索クエリに基づき、検索をしたり、検索結果を送信したりする。
【0052】
[3.検索システムの動作]
次に、本発明の一実施形態に係る検索システム1の動作について図5〜図13に基づき説明する。
【0053】
図5は、商品ウェブページ分析サーバ10において商品ウェブページを分析する動作例を示すフローチャートである。図6は、ショッピングサーバ20の商品ウェブページの一例を示す説明図である。図7は、商品ウェブページのソースコードの一例を示す説明図である。図8は、商品ウェブページのテキストデータの分析過程の一例を示す模式図である。図9は、ウェブ検索サーバ30の検索結果の一例を示す模式図である。図10は、ドメイン名DB12bに記憶されたショッピングサイトのドメイン名の一例を示す模式図である。図11は、カテゴリ関連語DB12aに記憶されたカテゴリ関連語の一例を示す模式図である。図12は、ユーザ端末45に送信されるグルーピングされた検索結果の一例を示す模式図である。図13は、商品ウェブページ分析サーバ10におけるグルーピングのサブルーチンの一例を示すフローチャートである。
【0054】
(3.1.商品ウェブページのグルーピングの流れ)
商品ウェブページのグルーピングの流れについて、図5を用いて説明する。
【0055】
まず、ユーザはユーザ端末45に、探している商品のキーワードを入力する。例えば、”白ワイン”と入力し検索を行うと、検索キーワード”白ワイン”を含む検索クエリが商品ウェブページ分析サーバ10に送信される。
【0056】
次に、図5に示すように、商品ウェブページ分析サーバ10は、ユーザ端末45から検索クエリを受信する(ステップS1)。具体的には、商品ウェブページ分析サーバ10のシステム制御部14は、通信部11を通して、ユーザ端末45から検索キーワードを含む検索クエリを受信する。このように、商品ウェブページ分析サーバ10のシステム制御部14および通信部11は、ユーザ端末からユーザ検索クエリを受信する検索クエリ受信手段の一例として機能する。
【0057】
次に、商品ウェブページ分析サーバ10は、検索クエリに基づき検索をする(ステップS2)。具体的には、商品ウェブページ分析サーバ10のシステム制御部14は、商品DB22aに対して、検索キーワードに対応する商品の商品ウェブページの検索を行う。
【0058】
次に、商品ウェブページ分析サーバ10は、検索結果に基づく複数の商品ウェブページを取得する(ステップS3)。具体的には、商品ウェブページ分析サーバ10のシステム制御部14は、商品DB22aにおいて、検索キーワードに対応する同一のカテゴリに属している商品の商品ウェブページの中から、検索結果に基づく複数の商品ウェブページの情報を取得する。これら商品ウェブページは、店舗主端末40を通して、店舗主等により登録された商品ウェブページである。このように、商品ウェブページ分析サーバ10のシステム制御部14および通信部11は、ユーザ検索クエリに基づく複数の商品ウェブページを取得する商品ウェブページ取得手段の一例として機能する。
【0059】
次に、商品ウェブページ分析サーバ10は、各商品ウェブページからテキストデータを抽出する(ステップS4)。具体的には、商品ウェブページ分析サーバ10のシステム制御部14は、各商品ウェブページ内に記述されているテキストデータを抽出する。さらに具体的には、図6に示すように、商品ウェブページ50において、テキスト部51、52、53、54のテキストデータが抽出される。また、図7に示すように、HTML等のマークアップ言語等で記述されたソースコードの中のデータも利用する。例えば、HTMLタグのtitle要素の部分のテキストデータも抽出される。
【0060】
このように、商品ウェブページ分析サーバ10のシステム制御部14は、各商品ウェブページ内に記述されているテキストデータを抽出するテキストデータ抽出手段の一例として機能する。
【0061】
次に、商品ウェブページ分析サーバ10は、抽出したテキストデータから言語解析の一例である形態素解析によって特徴語候補を抽出する(ステップS5)。具体的には、商品ウェブページ分析サーバ10のシステム制御部14は、形態素解析のプログラムを用い、抽出したテキストデータを文節に分解し、各文節の品詞等を求める。図8に示すように、例えば、語句群53aが得られる。そして、商品ウェブページ分析サーバ10のシステム制御部14は、語句群53aから、ノイズを除去して、特徴語候補群53bを抽出する。例えば、”[ ]”のように括弧や記号で括られた部分や、動詞句や、動詞句に係る語句等が、語句群53aから取り除かれ、特徴語候補群53bが得られる。ここで、括弧や記号で括られた部分はノイズである場合が多く、また、動詞句や、動詞句に係る語句は商品に関連する語句でないことが多い。なお、形態素解析として、一般的な形態素解析のプログラムを用いればよく、形態素解析する際、複合語を形成する過程があってもよい。また、他方の商品ウェブページについても、特徴語候補が抽出される。
【0062】
このように商品ウェブページ分析サーバ10のシステム制御部14は、抽出したテキストデータを言語解析して、各商品ウェブページの特徴語候補を抽出する特徴語候補抽出手段の一例として機能する。また、商品ウェブページ分析サーバ10のシステム制御部14は、テキストデータを形態素解析によって言語解析して得られた形態素から、ノイズの形態素を除去するノイズ除去手段の一例として機能する。
【0063】
次に、商品ウェブページ分析サーバ10は、各特徴語候補によりウェブ検索を行う(ステップS6)。具体的には、まず、商品ウェブページ分析サーバ10のシステム制御部14は、ウェブ検索サーバ30が提供する検索APIの機能利用するために、各特徴語候補を検索キーワードとする各検索クエリを作成する。そして、商品ウェブページ分析サーバ10のシステム制御部14は、通信部11を通して、ウェブ検索サーバ30に送信し、ウェブ検索サーバ30から特徴語候補毎の検索結果を受信する。図9に示すように、検索結果ページ60の検索結果毎に、検索結果のタイトル部61、スニペット部62が含まれる。なお、使用する検索エンジンよって、タイトル部とスニペット部とに明確に分けられていない場合は、検索結果のテキストデータの一部をスニペットとする。このように、商品ウェブページ分析サーバ10のシステム制御部14は、特徴語候補を検索キーワードとする検索クエリを作成し、検索クエリに基づく検索結果を取得する検索結果取得手段の一例として機能する。
【0064】
次に、商品ウェブページ分析サーバ10は、ショッピングサイトの検索結果に絞る(ステップS7)。具体的には、商品ウェブページ分析サーバ10のシステム制御部14は、検索結果のリンク先のURL(Uniform Resource Locator)において、ショッピングサイトのドメイン名を含む検索結果に絞る。さらに具体的には、商品ウェブページ分析サーバ10のシステム制御部14は、図10のように、ドメイン名DB12bを参照して、上位(例えば30位)の検索結果のうち、HTMLのタグ”<a href=・・・>”の情報やスニペット部62のURL62aの中にショッピングサイトのドメイン名を含む検索結果に絞る。
【0065】
次に、商品ウェブページ分析サーバ10は、カテゴリ関連語がスニペットに含まれる場合の特徴語候補を特徴語として決定する(ステップS8)。具体的には、商品ウェブページ分析サーバ10のシステム制御部14は、ステップS5で絞られた検索結果のスニペットの中に、カテゴリ関連語が含まれる場合の特徴語候補を選択し、この特徴語候補を特徴語として決定する。さらに具体的には、図11に示すように、商品ウェブページ分析サーバ10のシステム制御部14は、カテゴリが”ワイン”の場合、検索結果のスニペットに、カテゴリ関連語”ワイン”または”酒”が含まれる特徴語候補を選択し、特徴語候補を特徴語として決定する。そして、図8に示すように、例えば、語句群53cが得られ、特徴語DB12cに記憶される。
【0066】
このように商品ウェブページ分析サーバ10のシステム制御部14は、カテゴリ関連語記憶手段の一例のカテゴリ関連語DB12aを参照して、検索結果のスニペット中にカテゴリ関連語が存在するか否かを判定する検索結果判定手段の一例として機能する。また、商品ウェブページ分析サーバ10のシステム制御部14は、スニペット中にカテゴリ関連語が存在する場合の特徴語候補を各商品ウェブページの特徴語に決定する特徴語決定手段の一例として機能する。また、商品ウェブページ分析サーバ10のシステム制御部14は、カテゴリ関連語記憶手段およびドメイン名記憶手段を参照して、検索結果において、ショッピングサイトのスニペット中にカテゴリ関連語が存在するか否かを判定する検索結果判定手段の一例として機能する。
【0067】
次に、商品ウェブページ分析サーバ10は、特徴語に基づき複数の商品ウェブページをグルーピングする(ステップS9)。具体的には、商品ウェブページ分析サーバ10のシステム制御部14は、グルーピングのサブルーチンにより、各特徴語のIDF値を算出し、IDF値から類似度を求め、類似度に基づき類似の商品ウェブページ同士をグルーピングする。図12に示すように、検索結果ページ70において、商品毎にグループ名部71が設けられる。グループ名部71には、具体的な商品名が利用される。また、各グループ名部71以下に、同じグルーピングに属する商品ウェブページのタイトル部72と、スニペット部73とが、集められる。例えば、タイトル部72およびスニペット部73がリスティングされる。このように、商品ウェブページ分析サーバ10のシステム制御部14は、複数の商品ウェブページを特徴語毎にグルーピングする商品ウェブページ・グルーピング手段の一例として機能する。
【0068】
次に、商品ウェブページ分析サーバ10は、ユーザ端末に検索結果を送信する(ステップS8)。具体的には、商品ウェブページ分析サーバ10のシステム制御部14は、通信部11を通して、図12に示すような検索結果を表示させるHTML等のマークアップ言語等の情報を、検索クエリを送信してきたユーザ端末45に送信する。このように、商品ウェブページ分析サーバ10のシステム制御部14および通信部11は、特徴語毎にグルーピングした商品ウェブページに関する情報を検索結果としてユーザ端末45に送信する送信手段の一例として機能する。
【0069】
(3.2.特徴語に基づくグルーピング)
次に、特徴語に基づくグルーピングのサブルーチンについて、図13を用いて説明する。
【0070】
図13に示すように、商品ウェブページ分析サーバ10は、各特徴語のIDF値を算出する(ステップS20)。具体的には、商品ウェブページ分析サーバ10のシステム制御部14は、各特徴語に対して、下記の式(1)に示すようなIDF(Inverse Document Frequency(逆出現頻度))の値を、算出する。
IDF=log(N/N) ・・・(1)
【0071】
ここで、IDFは特徴語wのIDF値であり、Nは、あるショッピングサイトの全ウェブページ数であり、Nは、前記ショッピングサイトにおいて特徴語wが出現するウェブページ数である。特徴語wのウェブページ数Nの値が小さいほどIDFの値が大きくなり、特徴語wは商品を扱う商品ウェブページに特有な語句である可能性が高くなる。なお、IDF値を算出するためのウェブページの範囲は、検索エンジンがクローリングしたページ数でもよいし、ある国のウェブページや、ある国の複数のショッピングサイトのウェブページや、対象としているカテゴリにおける上位のカテゴリのウェブページ等でもよい。
【0072】
次に、商品ウェブページ分析サーバ10は、IDF値に基づく類似度を算出する(ステップS21)。具体的には、商品ウェブページ分析サーバ10のシステム制御部14は、下記の式(2)に示すように、ステップS10で算出したIDF値に基づき、複数の商品ウェブページのうち任意の2つの商品ウェブページである第1の商品ウェブページと第2の商品ウェブページとの類似度S12を算出する。
12=[Σc∈C12(IDFc)]/[Σu∈U12(IDFu)] ・・・(2)
【0073】
ここで、集合U12は、第1の商品ウェブページの特徴語と第2の商品ウェブページの特徴語とを合わせた集合である。すなわち、第1の商品ウェブページの特徴語の集合と、第2の商品ウェブページの特徴語の集合との和集合である。集合C12は、第1の商品ウェブページと第2のウェブページとの共通の特徴語の集合である。すなわち、第1の商品ウェブページの特徴語の集合と、第2の商品ウェブページの特徴語の集合との積集合である。また、式(2)の分母は、集合U12の要素uである特徴語のIDF値の和を、式(2)の分子は、集合C12の要素cである共通の特徴語のIDF値の和である。式(2)に示すように、第1の商品ウェブページと第2の商品ウェブページとにおいて、共通の特徴語があればあるほど、類似度S12が高くなり、また、その特徴語のIDF値が高いほど、類似度S12が高くなる。
【0074】
このように商品ウェブページ分析サーバ10のシステム制御部14は、特徴語に基づき、複数の商品ウェブページのうち任意の2つの商品ウェブページ間の類似度を算出する類似度算出手段の一例として機能する。また、商品ウェブページ分析サーバ10のシステム制御部14は、複数の商品ウェブページのうち任意の2つの商品ウェブページにおいて共通の特徴語に基づき、類似度を算出する類似度算出手段の一例として機能する。また、商品ウェブページ分析サーバ10のシステム制御部14は、複数の商品ウェブページのうち任意の2つの商品ウェブページにおいて共通の特徴語の逆出現頻度に基づき類似度を算出する類似度算出手段の一例として機能する。
【0075】
次に、商品ウェブページ分析サーバ10は、類似度に基づき類似の商品ウェブページ同士をグルーピングする(ステップS22)。具体的には、商品ウェブページ分析サーバ10のシステム制御部14は、算出した類似度が所定の値以上である場合、対象の商品ウェブページ同士は類似商品を扱う商品ウェブページであると判定し、類似の商品を扱う商品ウェブページとして同じグループにする。なお、類似商品を扱う商品ウェブページであると判定された商品ウェブページのうち、さらに類似度が高いの場合、同一の商品を扱う商品ウェブページであると判定してもよい。このように商品ウェブページ分析サーバ10のシステム制御部14は、類似度に基づき、複数の商品ウェブページをグルーピングする商品ウェブページ・グルーピング手段の一例として機能する。また、商品ウェブページ分析サーバ10のシステム制御部14は、類似度が所定の値以上である場合の商品ウェブページをグルーピングする商品ウェブページ・グルーピング手段の一例として機能する。
【0076】
なお、検索キーワードに対応するカテゴリが複数にまたがる場合、カテゴリ毎に以上の処理を行い、検索結果は、カテゴリ毎に分けて、商品ウェブページのグループが表示されるようにする。
【0077】
以上、本実施形態によれば、商品を分類するカテゴリに関連するカテゴリ関連語を記憶し、ユーザ端末からユーザ検索クエリを受信し、ユーザ検索クエリに基づく複数の商品ウェブページを、同一のカテゴリに属している商品ウェブページの中から取得し、各商品ウェブページ50内に記述されているテキスト部51、52、53等のテキストデータを言語解析して各商品ウェブページの特徴語候補を抽出し、特徴語候補を検索キーワードとする検索クエリを作成して検索クエリに基づく検索結果ページ60を取得し、検索結果ページのスニペット部62のスニペット中にカテゴリ関連語が存在するか否かを判定し、スニペット中にカテゴリ関連語が存在する場合の特徴語候補を各商品ウェブページの特徴語に決定し、複数の商品ウェブページを特徴語毎にグルーピングし、特徴語毎にグルーピングした商品ウェブページに関する情報を検索結果(検索結果ページ70)としてユーザ端末に送信することにより、ユーザが見やすい検索結果を提示してユーザの利便性の向上を図ることができる。
【0078】
また、本実施形態によれば、特徴語候補を絞る際、ウェブ検索により求まるスニペットを使用することにより、インターネット上における語句の使用状況を反映でき、高精度の特徴語を抽出することができる。さらに、スニペットに限ることにより、高速に特徴語を求めることができる。さらにまた、ウェブ検索のスニペットを使用することにより、商品等のトレンドが変化してもトレンドに追随でき、適切な特徴語が求められ、商品ウェブページであるとの判定が適切にできる。
【0079】
また、商品ウェブページ分析サーバ10のシステム制御部14が、特徴語に基づき、複数の商品ウェブページのうち任意の2つの商品ウェブページ間の類似度を算出し、類似度に基づき、複数の商品ウェブページをグルーピングする場合、類似度により異なる複数の特徴語でも商品ウェブページをグルーピングしやすくなる。
【0080】
また、商品ウェブページ分析サーバ10のシステム制御部14が、類似度が所定の値以上である場合の商品ウェブページをグルーピングする場合、類似度に閾値を設けたことにより、類似度により一律に、商品ウェブページをグルーピングすることができる。
【0081】
また、商品ウェブページ分析サーバ10のシステム制御部14が、複数の商品ウェブページのうち任意の2つの商品ウェブページにおいて共通の特徴語に基づき、類似度を算出する場合、共通の特徴語により的確に類似度を算出できる。
【0082】
また、商品ウェブページ分析サーバ10のシステム制御部14が、複数の商品ウェブページのうち任意の2つの商品ウェブページにおいて共通の特徴語の逆出現頻度に基づき類似度を算出する場合、特徴語の逆出現頻度により、特徴語のランク付けができるため、類似性の判断がしやすくなる。
【0083】
また、商品ウェブページ分析サーバ10のシステム制御部14が、カテゴリ関連語DB(カテゴリ関連語記憶手段)12aを参照して、検索結果において、ショッピングサイトのスニペット中にカテゴリ関連語が存在するか否かを判定する場合、商品を販売するために商品の説明がなされている商品ウェブページを多く有するショッピングサイトに絞るため、商品を適切に特徴付ける特徴語を抽出でき、特徴語の精度が高くなる。
【0084】
また、商品ウェブページ分析サーバ10のシステム制御部14が、テキストデータを形態素解析して得られた形態素から、ノイズの形態素を除去する場合、的確な特徴語候補を抽出できるため、特徴語の精度が高くなる。
【0085】
なお、ウェブ検索サーバ30は、サーバシステム5外である、他の検索サイトのウェブ検索サーバでもよい。この場合、商品ウェブページ分析サーバ10は、ネットワーク3を通して、検索クエリを送信し、検索結果を受信する。また、スニペットを求める際のウェブ検索する範囲は、ショッピングサーバ20内のウェブページに限ったり、ある国や地域のウェブページに限ったりしてもよい。
【0086】
さらに、本発明は、上記各実施形態に限定されるものではない。上記各実施形態は、例示であり、本発明の特許請求の範囲に記載された技術的思想と実質的に同一な構成を有し、同様な作用効果を奏するものは、いかなるものであっても本発明の技術的範囲に包含される。
【符号の説明】
【0087】
3:ネットワーク
5:サーバシステム
10:商品ウェブページ分析サーバ(検索装置)
12a:カテゴリ関連語DB(カテゴリ関連語記憶手段)
12b:ドメイン名DB
20:ショッピングサーバ
30:ウェブ検索サーバ

【特許請求の範囲】
【請求項1】
商品を分類するカテゴリに関連するカテゴリ関連語を記憶するカテゴリ関連語記憶手段と、
ユーザ端末からユーザ検索クエリを受信する検索クエリ受信手段と、
前記ユーザ検索クエリに基づく複数の商品ウェブページを、同一のカテゴリに属している商品ウェブページの中から取得する商品ウェブページ取得手段と、
前記各商品ウェブページ内に記述されているテキストデータを抽出するテキストデータ抽出手段と、
抽出した前記テキストデータを言語解析して、前記各商品ウェブページの特徴語候補を抽出する特徴語候補抽出手段と、
前記特徴語候補を検索キーワードとする検索クエリを作成し、前記検索クエリに基づく検索結果を取得する検索結果取得手段と、
前記カテゴリ関連語記憶手段を参照して、前記検索結果のスニペット中に前記カテゴリ関連語が存在するか否かを判定する検索結果判定手段と、
前記スニペット中に前記カテゴリ関連語が存在する場合の前記特徴語候補を前記各商品ウェブページの特徴語に決定する特徴語決定手段と、
前記複数の商品ウェブページを前記特徴語毎にグルーピングする商品ウェブページ・グルーピング手段と、
前記特徴語毎にグルーピングした前記商品ウェブページに関する情報を検索結果として前記ユーザ端末に送信する送信手段と、
を備えたことを特徴とする検索装置。
【請求項2】
請求項1に記載の検索装置において、
前記特徴語に基づき、前記複数の商品ウェブページのうち任意の2つの商品ウェブページ間の類似度を算出する類似度算出手段を更に備え、
前記商品ウェブページ・グルーピング手段が、前記類似度に基づき、前記複数の商品ウェブページをグルーピングすることを特徴とする検索装置。
【請求項3】
請求項2に記載の検索装置において、
前記商品ウェブページ・グルーピング手段が、前記類似度が所定の値以上である場合の商品ウェブページをグルーピングすることを特徴とする検索装置。
【請求項4】
請求項2または請求項3に記載の検索装置において、
前記類似度算出手段が、前記複数の商品ウェブページのうち任意の2つの商品ウェブページにおいて共通の前記特徴語に基づき、前記類似度を算出することを特徴とする検索装置。
【請求項5】
請求項1から請求項3のいずれか1項に記載の検索装置において、
前記類似度算出手段が、前記複数の商品ウェブページのうち任意の2つの商品ウェブページにおいて共通の前記特徴語の逆出現頻度に基づき前記類似度を算出することを特徴とする検索装置。
【請求項6】
請求項1から請求項5のいずれか1項に記載の検索装置において、
ショッピングサイトのドメイン名を記憶するドメイン名記憶手段を更に備え、
前記検索結果判定手段が、前記カテゴリ関連語記憶手段および前記ドメイン名記憶手段を参照して、前記検索結果において、ショッピングサイトのスニペット中に前記カテゴリ関連語が存在するか否かを判定することを特徴とする検索装置。
【請求項7】
請求項1から請求項6のいずれか1項に記載の検索装置において、
前記特徴語候補抽出手段が、前記テキストデータを形態素解析によって前記言語解析して得られた形態素から、ノイズの形態素を除去するノイズ除去手段を有することを特徴とする検索装置。
【請求項8】
商品を分類するカテゴリに関連するカテゴリ関連語を記憶するカテゴリ関連語記憶ステップと、
ユーザ端末からユーザ検索クエリを受信する検索クエリ受信ステップと、
前記ユーザ検索クエリに基づく複数の商品ウェブページを、同一のカテゴリに属している商品ウェブページの中から取得する商品ウェブページ取得ステップと、
前記各商品ウェブページ内に記述されているテキストデータを抽出するテキストデータ抽出ステップと、
抽出した前記テキストデータを言語解析して、前記各商品ウェブページの特徴語候補を抽出する特徴語候補抽出ステップと、
前記特徴語候補を検索キーワードとする検索クエリを作成し、前記検索クエリに基づく検索結果を取得する検索結果取得ステップと、
前記検索結果のスニペット中に前記カテゴリ関連語が存在するか否かを判定する検索結果判定ステップと、
前記スニペット中に前記カテゴリ関連語が存在する場合の前記特徴語候補を前記各商品ウェブページの特徴語に決定する特徴語決定ステップと、
前記複数の商品ウェブページを前記特徴語毎にグルーピングする商品ウェブページ・グルーピングステップと、
前記特徴語毎にグルーピングした前記商品ウェブページに関する情報を検索結果として前記ユーザ端末に送信する送信ステップと、
を有することを特徴とする検索方法。
【請求項9】
コンピュータを、
商品を分類するカテゴリに関連するカテゴリ関連語を記憶するカテゴリ関連語記憶手段、
ユーザ端末からユーザ検索クエリを受信する検索クエリ受信手段、
前記ユーザ検索クエリに基づく複数の商品ウェブページを、同一のカテゴリに属している商品ウェブページの中から取得する商品ウェブページ取得手段、
前記各商品ウェブページ内に記述されているテキストデータを抽出するテキストデータ抽出手段、
抽出した前記テキストデータを言語解析して、前記各商品ウェブページの特徴語候補を抽出する特徴語候補抽出手段、
前記特徴語候補を検索キーワードとする検索クエリを作成し、前記検索クエリに基づく検索結果を取得する検索結果取得手段、
前記カテゴリ関連語記憶手段を参照して、前記検索結果のスニペット中に前記カテゴリ関連語が存在するか否かを判定する検索結果判定手段、
前記スニペット中に前記カテゴリ関連語が存在する場合の前記特徴語候補を前記各商品ウェブページの特徴語に決定する特徴語決定手段、
前記複数の商品ウェブページを前記特徴語毎にグルーピングする商品ウェブページ・グルーピング手段、および、
前記特徴語毎にグルーピングした前記商品ウェブページに関する情報を検索結果として前記ユーザ端末に送信する送信手段として機能させることを特徴とする検索装置用のプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2013−101416(P2013−101416A)
【公開日】平成25年5月23日(2013.5.23)
【国際特許分類】
【出願番号】特願2010−43389(P2010−43389)
【出願日】平成22年2月26日(2010.2.26)
【出願人】(504046083)株式会社ランゲージ・クラフト研究所 (2)
【出願人】(399037405)楽天株式会社 (416)
【Fターム(参考)】