説明

検索用インデックス生成システム及び検索用インデックス生成方法、並びに情報検索システム及び情報検索方法

【課題】 直販サイトの検索用インデックスを生成することができる検索用インデックス生成システム及び方法、並びにその検索用インデックスを用いて情報検索を行うことができる情報検索システム及び方法を提供する。
【解決手段】
インデックス生成装置10は、インターネット上のショッピングサイトからウェブページ情報を収集し、その収集したウェブページ情報に基づいて、当該ウェブページ情報に係るショッピングサイトが直販サイトであるか否かを判定する。そして、インデックス生成装置10は、そのショッピングサイトが直販サイトであると判定した場合、当該ショッピングサイトに係るウェブページ情報を用いて、当該ウェブページ情報を検索するための検索用インデックスを生成する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ウェブページを検索する場合に用いられる検索用インデックスを生成する検索用インデックス生成システム及び検索用インデックス生成方法、並びにその検索用インデックスを用いて情報検索を行う情報検索システム及び情報検索方法に関する。
【背景技術】
【0002】
近年、インターネットが急速に普及してきており、これに伴い、複数の仮想店舗(ショッピングサイト)で構成される数多くのショッピングモールがインターネット上に形成されている(例えば、特許文献1及び2を参照。)。このようなショッピングモールの場合、種々の商品を取り扱っているショッピングサイトが集まっているため、効率良く買い物をすることができたり、同種の商品の価格等を容易に比較することができたり等、購入者にとって利便性が高い。これに対し、ショッピングサイトを出店する側にとっては、効率良く集客することが可能になる等のメリットがある一方で、ショッピングモールの運営側に多額の出店料を支払う必要がある等のデメリットがある。
【0003】
上記のようなデメリットを考慮し、商品を製造するメーカーは、ショッピングモールに出店せずに、いわゆる直販サイトを独自にインターネット上に構築するケースが増えている。これにより、ショッピングモールに出店する場合と比べて、利益率を高めることができる。また、直販サイトの場合、メーカー独自のポイント制度を設けたり、自由なデザインが可能になるためメーカーの個性を表現することができたり等のメリットがある。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2001−306841号公報
【特許文献2】特開2007−249494号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、直販サイトの場合、インターネット上でそれぞれが個々に構築されているため、複数の直販サイトで取り扱っている商品を比較することが困難である等、購入者にとっては必ずしも利便性が高くないという問題がある。また、直販サイトを運営するメーカーにとっても、ショッピングモールに出店する場合と比較して、集客力が低くなる可能性がある等の問題がある。
【0006】
本発明は斯かる事情に鑑みてなされたものであり、その主たる目的は、上記課題を解決することができる検索用インデックス生成システム及び検索用インデックス生成方法、並びに情報検索システム及び情報検索方法を提供することにある。
【課題を解決するための手段】
【0007】
上述した課題を解決するために、本発明の一の態様の検索用インデックス生成システム
は、インターネット上のショッピングサイトからウェブページ情報を収集するウェブページ情報収集手段と、前記ウェブページ情報収集手段によって収集されたウェブページ情報に基づいて、当該ウェブページ情報に係るショッピングサイトが直販サイトであるか否かを判定する判定手段と、前記判定手段により前記ショッピングサイトが直販サイトであると判定された場合、当該ショッピングサイトに係るウェブページ情報を用いて、当該ウェブページ情報を検索するための検索用インデックスを生成する検索用インデックス生成手段とを備えている。
【0008】
この態様において、前記判定手段が、前記収集されたウェブページ情報に含まれる文字に基づいて、当該ウェブページ情報に係るショッピングサイトが直販サイトであるか否かを判定するように構成されていてもよい。
【0009】
また、前記態様において、前記ウェブページ情報に画像が含まれている場合に、当該画像中の文字を認識する文字認識手段を更に備え、前記判定手段が、前記文字認識手段によって認識された文字に基づいて、前記ウェブページ情報に係るショッピングサイトが直販サイトであるか否かを判定するように構成されていてもよい。
【0010】
また、前記態様において、直販サイトにおける頻出語を記憶する頻出語記憶部を更に備え、前記判定手段が、前記頻出語記憶部に記憶された頻出語が前記収集されたウェブページ情報に含まれるか否かを判定し、その判定結果に基づいて、当該ウェブページ情報に係るショッピングサイトが直販サイトであるか否かを判定するように構成されていてもよい。
【0011】
また、前記態様において、前記判定手段が、前記収集されたウェブページ情報に含まれている前記頻出語の数に基づいて、当該ウェブページ情報に係るショッピングサイトが直販サイトであるか否かを判定するように構成されていてもよい。
【0012】
また、本発明の一の態様の情報検索システムは、インターネットを介して外部の装置からウェブページ情報の検索リクエストを受け付けた場合に、前記態様の検索用インデックス生成システムによって生成された検索用インデックスに基づいて、前記検索リクエストに応じた直販サイトに係るウェブページ情報に含まれる情報を示す画面情報を生成する画面情報生成手段と、前記画面情報生成手段によって生成された画面情報を前記外部の装置に対して送信する送信手段とを備えている。
【0013】
この態様において、前記画面情報生成手段が、前記検索リクエストに応じた複数の異なる直販サイトに係るウェブページ情報に含まれる情報を示す画面情報を生成するように構成されていてもよい。
【0014】
また、前記態様において、前記ウェブページ情報が、ショッピングサイトにおいて購入可能なファッション商品に関する情報であり、前記画面情報生成手段が、前記検索リクエストに応じた複数の異なる直販サイトに係るウェブページ情報に含まれる情報を対応付けることによって、ファッション商品のコーディネート案を示す画面情報を生成するように構成されていてもよい。
【0015】
また、本発明の一の態様の検索用インデックス生成方法は、インターネットにアクセス可能なコンピュータが、インターネット上のショッピングサイトからウェブページ情報を収集するステップと、前記コンピュータが、前記収集されたウェブページ情報に基づいて、当該ウェブページ情報に係るショッピングサイトが直販サイトであるか否かを判定するステップと、前記コンピュータが、前記判定により前記ショッピングサイトが直販サイトであるとされた場合、当該ショッピングサイトに係るウェブページ情報を用いて、当該ウェブページ情報を検索するための検索用インデックスを生成するステップとを有している。
【0016】
また、本発明の一の態様の情報検索方法は、インターネットを介して外部の装置からウェブページ情報の検索リクエストをコンピュータが受け付けた場合に、当該コンピュータが、前記態様の検索用インデックス生成方法によって生成された検索用インデックスに基づいて、前記検索リクエストに応じた直販サイトに係るウェブページ情報に含まれる情報を示す画面情報を生成するステップと、前記コンピュータが、前記生成された画面情報を前記外部の装置に対して送信するステップとを有している。
【発明の効果】
【0017】
本発明に係る検索用インデックス生成システム及び検索用インデックス生成方法によれば、直販サイトにおけるウェブページを検索するための検索用インデックス情報を容易に生成することができる。また、本発明に係る情報検索システム及び情報検索方法によれば、直販サイトにおけるウェブページを容易に検索することが可能になる。
【図面の簡単な説明】
【0018】
【図1】実施の形態1の検索用インデックス生成システム及び情報検索システムの構成を示すブロック図。
【図2】インデックス生成装置の構成を示すブロック図。
【図3】インデックス生成装置に設けられた検索用インデックス情報データベースのレイアウトの一例を示す図。
【図4】インデックス生成装置に設けられた高頻出語情報データベースのレイアウトの一例を示す図。
【図5】インデックス生成装置に設けられた低頻出語情報データベースのレイアウトの一例を示す図。
【図6】検索サーバの構成を示すブロック図。
【図7】コーディネート情報データベースのレイアウトの一例を示す図。
【図8】インデックス生成装置が実行する検索用インデックス生成処理の手順を示すフローチャート。
【図9】検索サーバ及びクライアントが実行する情報検索処理の手順の一例を示すフローチャート。
【図10】クライアントの表示部に表示される画面情報の一例を示す図。
【図11】検索サーバ及びクライアントが実行する情報検索処理の手順の他の例を示すフローチャート。
【図12】クライアントの表示部に表示される画面情報の他の例を示す図。
【図13】実施の形態2に係るインデックス生成装置が実行する文字認識処理の手順を示すフローチャート
【発明を実施するための形態】
【0019】
以下、本発明の好ましい実施の形態を、図面を参照しながら説明する。なお、以下に示す実施の形態では、衣料品等のファッション商品に関するウェブページを検索するための検索用インデックスを生成し、その検索用インデックスを用いて情報検索を行う方法及びシステムが記載されているが、これは例示であって、本発明の技術的思想はこれに限定されるわけではない。
【0020】
(実施の形態1)
図1は、実施の形態1の検索用インデックス生成システム及び情報検索システムの構成を示すブロック図である。図1において、符号10は、本実施の形態において検索用インデックス生成システムとして機能するインデックス生成装置を示しており、符号20は、同じく情報検索システムとして機能する検索サーバを示している。これらのインデックス生成装置10及び検索サーバ20は、公知の通信プロトコルを用いて通信可能に接続されている。また、インデックス生成装置10及び検索サーバ20はインターネットNTWに接続されており、このインターネットNTWを介して、インデックス生成装置10は複数のウェブサーバ30,30,…と、検索サーバ20は複数のクライアント40,40,…とそれぞれ通信可能になっている。
【0021】
ウェブサーバ30,30,…は、各種のウェブサイトを運用しているコンピュータであり、そのウェブサイトの中には直販サイト等のショッピングサイト、及びショッピングモール等が含まれる。また、クライアント40,40,…は、例えばパーソナルコンピュータ・携帯型電話機・PDA(Personal Digital Assistant)等の通信機能を有する端末であり、インターネットNTWを介して検索サーバ20及びウェブサーバ30,30,…と通信可能なように構成されている。
【0022】
インデックス生成装置10は、各ウェブサイトのウェブページ中に含まれるリンクを辿ることによってウェブページに関するウェブページ情報を収集するクロール処理を実行するクローラ(検索ロボット)であり、収集したウェブページ情報が直販サイトに係るものであるか否かを後述するようにして判定することによって、直販サイトのウェブページにアクセスするための検索用インデックスを生成する。検索サーバ20は、各クライアント40から検索リクエストを受信した場合に、後述するように、インデックス生成装置10によって生成された検索用インデックスに基づいて検索結果を返すレスポンス処理を実行する。
以下、これらのインデックス生成装置10及び検索サーバ20の詳細な構成について説明する。
【0023】
[インデックス生成装置10の構成]
図2は、インデックス生成装置10の構成を示すブロック図である。図2に示すとおり、インデックス生成装置10は、CPU101と、そのCPU101に接続された主記憶装置102、補助記憶装置103及び通信インタフェース(I/F)104とを備えている。これらのCPU101、主記憶装置102、補助記憶装置103及び通信I/F104はバス105によって接続されている。
【0024】
CPU101は、補助記憶装置103に記憶されているコンピュータプログラムを実行する。これにより、インデックス生成装置10は、各種のデバイスの動作を制御しながら、後述する各種の処理を実行することが可能になる。
【0025】
主記憶装置102は、SRAMまたはDRAM等によって構成されており、補助記憶装置103に記憶されているコンピュータプログラムの読み出しに用いられる。また、主記憶装置102は、CPU101がコンピュータプログラムを実行するときに、CPU101の作業領域としても利用される。
【0026】
補助記憶装置103は、フラッシュメモリ又はハードディスクなどの不揮発性記憶装置によって構成されており、CPU101に実行させるための種々のコンピュータプログラム及び当該コンピュータプログラムの実行に用いられるデータ等を記憶している。また、補助記憶装置103には、ウェブページ情報データベース(DB)110、検索用インデックス情報データベース(DB)120、高頻出語情報データベース(DB)130、低頻出語情報データベース(DB)140,及びメーカー名データベース(DB)150の各データベースが設けられている。これらのデータベースの詳細については後述する。
【0027】
通信I/F104は、外部の各種の装置と通信をするためのインタフェース装置である。上述したように、インデックス生成装置10は、インターネットNTWを介してウェブサーバ30,30,…と通信し、また、検索サーバ20とも別途通信する。これらの通信は、通信I/F104を介して行われる。
【0028】
次に、上述した各データベースについて説明する。
ウェブページ情報DB110は、クロール処理により収集された、HTML(Hyper
Text Markup Language)文書及びURL(Uniform Resource Locator)等を含むウェブページ情報を格納するためのデータベースである。インデックス生成装置10は、所定の時間間隔で繰り返しクロール処理を実行し、新たなHTML文書を見つけた場合に、当該HTML文書に関するウェブページ情報をウェブページ情報DB110に格納する。また、インデックス生成装置10は、既存のHTML文書が更新されている場合にはウェブページ情報DB110の対応するウェブページ情報を更新し、削除されている場合にはウェブページ情報DB110の対応するウェブページ情報も削除する等の処理を実行する。なお、このHTML文書には、静的なものの他、CMS(Contents Management System)等によって動的に生成されたものも含まれる。また、ウェブページ情報には、HTML文書中のテキスト情報、画像情報、及びそのHTML文書にリンクされている各種形式の情報等が含まれる。
【0029】
検索用インデックス情報DB120は、ウェブページ情報DB110に格納されているウェブページ情報に基づいて生成された検索用インデックス情報を格納するためのデータベースである。図3は、この検索用インデックス情報DB120のレイアウトの一例を示す図である。図3に示すように、検索用インデックス情報DB120は、直販サイトで購入可能な商品を識別するための識別子である商品IDが格納される商品IDフィールド120a、商品が属するカテゴリを示す情報が格納されるカテゴリフィールド120b、商品のブランドの名称が格納されるブランドフィールド120c、商品の価格が属する価格帯を示す情報が格納される価格帯フィールド120d、商品の色を示す情報が格納される色フィールド120e、商品が属するファッションの系統を示す情報が格納される系統フィールド120f、商品の購買層を示す情報が格納されるターゲットフィールド120g、商品を紹介するHTML文書中のテキスト情報が格納されるテキストフィールド120h、同じくHTML文書中の画像の保存先が格納される画像フィールド120i、及び同じくHTML文書のURLが格納されるURLフィールド120jを有している。
【0030】
インデックス生成装置10は、ウェブページ情報DB110に格納されているウェブページ情報を解析し、検索用インデックス情報DB120に格納する情報を抽出する。より具体的に説明すると、インデックス生成装置10は、例えばウェブページ情報におけるテキスト情報に対して形態素解析またはN−gram方式等を適用することによって、カテゴリ、ブランド名、価格帯、色、系統、ターゲット等の各種情報を抽出し、それらの情報を各フィールドに格納する。また、HTML文書中の画像は、補助記憶装置103の適当な領域に保存され、その保存先を示すパスが画像フィールド120iに格納される。また、HTML文書中のテキスト情報はそのままテキストフィールド120hに格納され。さらに、商品IDは自動的に採番され、商品IDフィールド120aに格納される。
【0031】
高頻出語情報DB130は、例えば“オフィシャル”、“直営”及び“本店”等、直販サイトに比較的高い頻度で出現する単語である「高頻出語」を格納するためのデータベースである。
図4は、この高頻出語情報DB130のレイアウトの一例を示す図である。図4に示すように、高頻出語情報DB130は、高頻出語が格納される高頻出語フィールド130a及びその高頻出語が直販サイトに出現する頻度が格納される頻度フィールド130bを有している。これらの高頻出語フィールド130a及び頻度フィールド130bに格納される情報は、複数の直販サイトを自動又は手動で解析することによって得られた統計情報等に基づいて生成される。図4には、高頻出語である“オフィシャル”が75%の頻度で直販サイトに出現する場合、換言すれば解析対象となった直販サイトのうち75%の直販サイトに“オフィシャル”という単語が出現する場合に、高頻出語フィールド130a及び頻度フィールド130bに格納される情報等が例示されている。
【0032】
低頻出語情報DB140は、例えば“ショッピングモール”、“○×モール”及び“△□プラザ”等、直販サイトに比較的低い頻度で出現する単語である「低頻出語」を格納するためのデータベースである。
図5は、この低頻出語情報DB140のレイアウトの一例を示す図である。図5に示すように、低頻出語情報DB140は、低頻出語が格納される低頻出語フィールド140a及びその低頻出語が直販サイトに出現する頻度が格納される頻度フィールド140bを有している。高頻出語情報DB130の場合と同様に、低頻出語フィールド140a及び頻度フィールド140bに格納される情報は、複数の直販サイトを自動又は手動で解析することによって得られた統計情報等に基づいて生成される。図5には、低頻出語である“ショッピングモール”が3%の頻度で直販サイトに出現する場合、換言すれば解析対象となった直販サイトのうち3%の直販サイトに“ショッピングモール”という単語が出現する場合に、低頻出語フィールド140a及び頻度フィールド140bに格納される情報等が例示されている。
【0033】
ある単語が高頻出語または低頻出語に該当するか否かは、所定の閾値を設定し、当該単語の出現頻度がその閾値を超えるか否かにより決定すればよい。すなわち、例えば出現頻度が30%を上回る単語を高頻出語とし、10%以下の場合を下回る単語を低頻出語とする等の基準を決め、その基準にしたがって各単語が高頻出語または低頻出語に該当するか否かを決定すればよい。
【0034】
メーカー名DB150は、メーカーの会社名を格納するためのデータベースである。本実施の形態では、ファッション商品に関するウェブページを検索する場合を例としているため、メーカー名DB150には、ファッション商品のメーカーの会社名が格納される。通常、直販サイトには、その直販サイトを運営するメーカーの会社名のみが表示され、それ以外のメーカーの会社名が表示されることは少ない。そのため、本実施の形態では、ショッピングサイトにおいてメーカーの会社名の数が2以上である場合に当該ショッピングサイトは直販サイトではないと判定し、その判定を行うためにメーカー名DB150を設けている。
【0035】
[検索サーバ20の構成]
図6は、検索サーバ20の構成を示すブロック図である。図6に示すとおり、検索サーバ20は、CPU201と、そのCPU201に接続された主記憶装置202、補助記憶装置203及び通信インタフェース(I/F)204とを備えている。なお、これらのCPU201、主記憶装置202、補助記憶装置203及び通信I/F204はバス205によって接続されている。
【0036】
CPU201は、補助記憶装置203に記憶されているコンピュータプログラムを実行する。これにより、検索サーバ20は、各種のデバイスの動作を制御しながら、後述する各種の処理を実行することが可能になる。
【0037】
主記憶装置202は、SRAMまたはDRAM等によって構成されており、補助記憶装置203に記憶されているコンピュータプログラムの読み出しに用いられる。また、主記憶装置202は、CPU201がコンピュータプログラムを実行するときに、CPU201の作業領域としても利用される。
【0038】
補助記憶装置203は、フラッシュメモリ又はハードディスクなどの不揮発性記憶装置によって構成されており、CPU201に実行させるための種々のコンピュータプログラム及び当該コンピュータプログラムの実行に用いられるデータ等を記憶している。また、補助記憶装置203には、検索用インデックス情報データベース(DB)210及びコーディネート情報データベース(DB)220の各データベースが設けられている。これらのデータベースの詳細については後述する。
【0039】
通信I/F204は、外部の各種の装置と通信をするためのインタフェース装置である。上述したように、検索サーバ20は、インターネットNTWを介してクライアント40,40,…と通信し、また、インデックス生成装置10とも別途通信する。これらの通信は、通信I/F204を介して行われる。
【0040】
次に、上述した各データベースについて説明する。
検索用インデックス情報DB210は、インデックス生成装置10によって生成された検索用インデックス情報を格納するためのデータベースである。この検索用インデックス情報DB210のレイアウトは、インデックス生成装置10に設けられている検索用インデックス情報DB120の場合と同様であるため、説明を省略する。検索サーバ20は、適宜のタイミングで繰り返しインデックス生成装置10から検索用インデックス情報を取得し、検索用インデックス情報DB210に格納する。
【0041】
コーディネート情報データベース(DB)220は、コーディネート案を作成するために参照されるコーディネート情報を格納するためのデータベースである。
図7は、このコーディネート情報DB220のレイアウトの一例を示す図である。図7に示すように、コーディネート情報DB220は、上半身用の商品の商品IDが格納される上半身1フィールド220a・上半身2フィールド220b・上半身3フィールド220c、下半身用の商品の商品IDが格納される下半身1フィールド220d・下半身2フィールド220e、帽子の商品IDが格納される帽子フィールド220f、靴の商品IDが格納される靴フィールド220g、鞄の商品IDが格納される鞄フィールド220h、及びネックレス等のアクセサリー類の商品IDが格納されるアクセサリーフィールド220iを有している。
【0042】
コーディネート情報DB220の各フィールドに格納される情報は、検索用インデックス情報DB210に格納された情報等を用いて、自動又は手動で生成される。ここで自動的に生成される場合は、例えば次のようにしてコーディネート情報DB220の各フィールドに商品IDが格納される。
(1)検索用インデックス情報DB210において、ブランドフィールド120c、系統フィールド120f及びターゲットフィールド120gに格納されている情報を参照し、これらが共通する商品の商品IDをコーディネート情報DB220の各フィールドに格納する。
(2)色フィールド120eに格納されている情報を参照し、予め定められている色の組合せ(例えば「青・白」、「黒・グレー」等)に係る色の商品の商品IDをコーディネート情報DB220の各フィールドに格納する。
(3)テキストフィールド120hに格納されているテキスト情報を参照し、当該情報に基づいて何れの季節用の商品であるのかを判定し(例えば、「春」「暖かくなる」等の語がテキストフィールド120hに格納されている場合は春用の商品と判定し、「夏」「涼しげ」等の語が同じく格納されている場合は夏用の商品と判定する等)、季節が共通する商品の商品IDをコーディネート情報DB220の各フィールドに格納する。
【0043】
なお、一つのコーディネート情報(コーディネート情報DB220における一つのレコード)には複数の異なるメーカーの商品に係る商品IDが含まれている。すなわち、異なる直販サイトにおいて取り扱われている商品を用いてコーディネート案が作成されている。
【0044】
次に、本実施の形態において実行される検索用インデックス生成処理及び情報検索処理について説明する。
【0045】
[検索用インデックス生成処理]
以下に説明する検索用インデックス生成処理は、本実施の形態においてはインデックス生成装置10によって実行される。
図8は、インデックス生成装置10が実行する検索用インデックス生成処理の手順を示すフローチャートである。インデックス生成装置10はまず、ウェブページ情報DB110を参照し(S101)、処理対象となるウェブページ情報を特定する。次に、インデックス生成装置10は、特定したウェブページ情報に含まれているHTML文書中のテキスト情報を取得し(S102)、そのテキスト情報と高頻出語情報DB130に格納されている高頻出語情報とを用いて、当該ウェブページ情報の高頻出語スコアを下記の式1により算出する(S103)。
高頻出語スコア=Σn・f … 式1
ここで、nは高頻出語情報DB130に格納されている高頻出語がテキスト情報中に出現する回数を、fはその高頻出語の出現頻度をそれぞれ示している。
【0046】
例えば、高頻出語情報DB130に図4に示すとおりの情報が格納されている場合であって、テキスト情報中に“オフィシャル”が4回、“直営”が5回出現しているときの高頻出語スコアは、4×0.75+5×0.6=6となる。
【0047】
なお、高頻出語スコアの算出方法は上記に限られるわけではなく、他のものであってもよい。例えば、出現頻度を考慮せずに出現回数の総和を高頻出語スコアとしてもよい。また、HTML文書における特定のタグ中に出現する語のみをスコア算出の対象としたり、タグ毎に重み付けをして高頻出語スコアを算出したりしてもよい。
【0048】
インデックス生成装置10は、ステップS103にて高頻出語スコアを算出した後、その高頻出語スコアが所定の閾値以上であるか否かを判定する(S104)。ここで高頻出語スコアが閾値よりも小さいと判定した場合(S104でNO)、インデックス生成装置10は、処理対象のウェブページ情報に係るウェブサイトが直販サイトではないと判断し、後述するステップS110に進む。他方、高頻出語スコアが閾値以上であると判定した場合(S104でYES)、インデックス生成装置10は、ステップS103の場合と同様に、テキスト情報と低頻出語情報DB140に格納されている低頻出語情報とを用いて、下記の式2により低頻出語スコアを算出する(S105)。
低頻出語スコア=Σn(1−f) … 式2
ここで、nは低頻出語情報DB140に格納されている低頻出語がテキスト情報中に出現する回数を、fはその低頻出語の出現頻度をそれぞれ示している。
【0049】
例えば、低頻出語情報DB140に図5に示すとおりの情報が格納されている場合であって、テキスト情報中に“ショッピングモール”が3回、“△□プラザ”が1回出現しているときの低頻出語スコアは、3×(1−0.03)+1×(1−0)=3.91となる。
なお、高頻出語スコアの場合と同様、低頻出語スコアについても上記以外の方法で算出されてもよいことは勿論である。
【0050】
次に、インデックス生成装置10は、算出した低頻出語スコアが所定の閾値以下であるか否かを判定する(S106)。ここで、低頻出語スコアが閾値より大きいと判定した場合(S106でNO)、インデックス生成装置10は、処理対象のウェブページ情報に係るウェブサイトが直販サイトではないと判断し、後述するステップS110へ進む。他方、低頻出語スコアが閾値以下であると判定した場合(S106でYES)、インデックス生成装置10は、メーカー名DB150を参照し、テキスト情報中に含まれているメーカー名の数が1以下であるか否かを判定する(S107)。
【0051】
ステップS107においてメーカー名の数が2以上であると判定した場合(S107でNO)、インデックス生成装置10は、処理対象のウェブページ情報に係るウェブサイトが直販サイトではないと判断し、後述するステップS110へ進む。他方、メーカー名の数が1以下であると判定した場合(S107でYES)、インデックス生成装置10は、処理対象のウェブページ情報に係るウェブサイトが直販サイトであると判断し、当該ウェブページ情報を検索するための検索用インデックス情報を生成する(S108)。このステップS108で実行される検索用インデックス情報の生成処理は、上述したように、ウェブページ情報のテキスト情報に対して形態素解析等を適用することによって、カテゴリ、ブランド名、価格帯、色、系統、ターゲット等の各種情報を抽出すること等によって行われる。
【0052】
インデックス生成装置10は、生成した検索用インデックス情報を検索用インデックス情報DB120に登録する(S109)。その後、インデックス生成装置10は、すべてのウェブページ情報が検索用インデックス生成処理の対象となったか否かを判定し(S110)、まだ処理対象となっていないウェブページ情報が存在すると判定した場合(S110でNO)、ステップS101に戻り、それ以降の処理を繰り返す。そして、すべてのウェブページ情報が処理対象になったと判定した場合(S110でYES)、インデックス生成装置10は処理を終了する。
【0053】
以上の検索用インデックス生成処理によって、クロール処理により収集されたウェブページ情報に係るウェブサイトのうちの直販サイトにアクセスするための検索用インデックス情報が生成され、検索用インデックス情報DB120に登録される。次に、このようにして生成された検索用インデックス情報を用いて検索を行う情報検索処理について説明する。
【0054】
[情報検索処理]
以下に説明する情報検索処理は、本実施の形態においては検索サーバ20及びクライアント40によって実行される。
図9は、検索サーバ20及びクライアント40が実行する情報検索処理の手順の一例を示すフローチャートである。なお、以下の処理を実行する前に、クライアント40が検索サーバ20にアクセスし、検索語を入力するための画面がクライアント40の表示部に表示されているものとする。
【0055】
ユーザは、クライアント40の表示部に表示されている画面に対して、所望の検索語(例えば、「シャツ」、「コート」、「黒」、「カジュアル」等)を入力する。クライアント40は、ユーザから検索語の入力を受け付けた場合(S201)、ユーザの指示にしたがってその検索語を検索サーバ20に対して送信することにより検索リクエストを行う(S202)。
【0056】
検索サーバ20は、クライアント40から送信された検索語を受信した場合(S301)、検索用インデックス情報DB210を参照し(S302)、検索結果の画面を示す画面情報を生成する(S303)。この画面情報には、複数の異なる直販サイトに係る商品情報が含まれている。検索サーバ20は、検索リクエストを行ったクライアント40に対して、生成した画面情報を送信する(S304)。
【0057】
クライアント40は、検索サーバ20から送信された画面情報を受信した場合(S203)、その受信した画面情報を液晶ディスプレイ等の表示部に表示する(S204)。図10は、クライアント40の表示部に表示される、検索結果としての画面情報の一例を示す図である。図10に示すとおり、画面情報300Aは、ユーザが検索語を入力するための検索語入力欄301、検索リクエストを送信するための検索ボタン302、後述するコーディネート案の提供を受けるためのコーディネートボタン303、検索された商品の画像を表示する商品画像欄304、及び当該商品の属性情報を表示するための属性表示欄305を有している。
【0058】
図10では、検索語入力欄301に「シャツ」及び「青」が入力されて検索ボタン302がクリックされた場合であって、商品画像欄304及び属性表示欄305が各6個設けられ、属性表示欄305にブランド、価格及びURLが表示されるときの画面情報が例示されている。図10に示すとおり、各直販サイトで購入可能な商品(シャツ)が対比可能なように複数表示されており、ユーザが商品画像欄304又はURLのリンクをクリックすると、当該商品を購入することができる直販サイトにアクセスすることができる。
【0059】
次に、コーディネート案を提供する場合の情報検索処理について説明する。図11は、検索サーバ20及びクライアント40が実行する情報検索処理の手順の他の例を示すフローチャートである。なお、以下の処理を実行する前に、クライアント40が検索サーバ20にアクセスし、検索語を入力するための画面がクライアント40の表示部に表示されているものとする。
【0060】
ユーザは、クライアント40の表示部に表示されている画面に対して、所望の検索語を入力する。クライアント40は、ユーザから検索語の入力を受け付けた場合(S401)、ユーザの指示にしたがってその検索語を検索サーバ20に対して送信することによって検索リクエストを行う(S402)。なお、この検索リクエストの際、ユーザはコーディネートボタン303をクリックしたものとする。
【0061】
検索サーバ20は、クライアント40から送信された検索語を受信した場合(S501)、検索用インデックス情報DB210を参照し(S502)、さらにコーディネート情報DB220を参照した上で(S503)、検索結果の画面を示す画面情報を生成する(S504)。この画面情報には、複数の直販サイトに係る商品情報を用いて作成されたコーディネート案が含まれている。検索サーバ20は、コーディネート情報DB220を参照し、コーディネート情報の各フィールドに格納されている商品IDをキーとして検索用インデックス情報から当該商品IDに係る商品の各種情報を取得することによって、コーディネート案を作成し、そのコーディネート案を含む画面情報を生成する。その後、検索サーバ20は、検索リクエストを行ったクライアント40に対して、生成した画面情報を送信する(S505)。
【0062】
クライアント40は、検索サーバ20から送信された画面情報を受信した場合(S403)、その受信した画面情報を液晶ディスプレイ等の表示部に表示する(S404)。図12は、クライアント40の表示部に表示される、検索結果としての画面情報の他の例を示す図である。図12に示すとおり、画面情報300Bは、図10に示す画面情報300Aの場合と同様に、検索語入力欄301、検索ボタン302、及びコーディネートボタン303を有しており、さらに、コーディネート案を表示するためのコーディネート案表示欄401を2個有している。このコーディネート案表示欄401は、商品の画像を表示する商品画像欄401a及び当該商品の属性情報を表示するための属性表示欄401bの組が複数設けられて構成されており、商品画像欄401a及び属性表示欄401bの組はその商品を購入者が身に付けたときの位置に応じた位置に配されている(例えば、帽子が一番上に、靴が一番下に配置される等)。このような配置にすることによって、コーディネート案をより具体的にイメージしやすくなる。
【0063】
図12では、検索語入力欄301に「帽子」、「茶」及び「ヤングカジュアル」が入力されてコーディネートボタン303がクリックされた場合であって、コーディネート案表示欄401が2個設けられ、そのコーディネート案表示欄401における属性表示欄401bにブランド、価格及びURLが表示されるときの画面情報が例示されている。図12に示すとおり、各直販サイトで購入可能な商品によってコーディネート案が構成されており、コーディネート案表示欄401中の商品画像欄304又はURLのリンクをユーザがクリックすると、当該商品を購入することができる直販サイトにアクセスすることができる。
【0064】
本実施の形態の検索用インデックス生成システム及び情報検索システムによれば、複数の異なる直販サイトの商品をまとめて取り扱うショッピングモールの如きウェブサイトを実現することができる。そのため、複数の直販サイトに係る商品の比較を容易に行うこと等が可能になるため、購入者にとって大きなメリットがある。また、直販サイトを運営するメーカー側にとっても、別途ショッピングモールに出店せずに集客力を高めることができ、しかも、特別な出店料等を支払う必要がないため、利益率を高めることができる。
【0065】
(実施の形態2)
実施の形態2は、ウェブページ情報に含まれている画像中の文字を認識する文字認識機能を備えた検索用インデックス生成システムである。なお、本実施の形態の場合においても、インデックス生成装置が単体で検索用インデックス生成システムとして機能する例が示されている。なお、実施の形態2のインデックス生成装置の構成は、文字認識機能を実現するためのコンピュータプログラムが補助記憶装置に格納されている以外、実施の形態1の場合と同様であるので、説明を省略する。以下、図2を適宜参照しながら、本実施の形態のインデックス生成装置の動作について説明する。
【0066】
図13は、実施の形態2に係るインデックス生成装置が実行する文字認識処理の手順を示すフローチャートである。インデックス生成装置10は、ウェブページ情報DB110を参照し(S601)、処理対象となるウェブページ情報を特定する。次に、インデックス生成装置10は、特定したウェブページ情報に含まれているHTML文書中の画像情報を取得し(S602)、公知のパターン認識等の手法によって当該画像中に存在する文字を認識する文字認識を実行する(S603)。そして、インデックス生成装置10は、ステップS603の結果認識された文字があれば、その文字を表す文字情報を生成し(S604)、その文字情報をウェブページ情報DB110に登録する(S605)。なお、これらのステップS602乃至S604の処理は、ウェブページ情報DB110に格納されているすべてのウェブページ情報に対して実行する。
【0067】
その後、インデックス生成装置10は、実施の形態1の場合と同様の処理を実行することによって、検索用インデックス情報を生成する。このとき、ウェブページ情報DB110には文字認識処理の結果得られた文字情報が含まれており、ウェブページ情報にもともと含まれているテキスト情報の他、この文字情報をも用いて、検索用インデックス情報が生成されることになる。そのため、例えばウェブページ情報中の画像に会社名等が表されている場合、その会社名等も用いて直販サイトであるか否か等の判定が行われることになり、より一層高精度に当該判定を行うことが可能になる。
【0068】
(その他の実施の形態)
上記の各実施の形態においては、インデックス生成装置10及び検索サーバ20が別々の装置で構成されているが、これらのインデックス生成装置10及び検索サーバ20の機能を一つの装置が行うような構成であってもよい。また、さらに他の装置と協働することによってインデックス生成装置10及び/又は検索サーバ20の機能を実現するような構成であってもよい。すなわち、本発明の検索用インデックス生成システム及び/又は情報検索システムは、一つの装置によって構成されていてもよく、複数の装置が協働することによって構成されていてもよい。
【0069】
また、上記の実施の形態1においては、高頻出語スコア、低頻出語スコア及びメーカー名の数の3要素に基づいて直販サイトであるか否かの判定を行っているが、何れか1つ又は2つの要素のみに基づいて当該判定を行うようにしてもよい。
【0070】
また、上記の実施の形態1において、検索サーバ20は、検索リクエストを受け取ったタイミングで検索結果を示す画面情報を生成しているが、このような態様でなくてもよい。例えば、検索サーバ20が、予め検索語に対応した画面情報を生成しておいて記憶しておき、検索リクエストを受け取ったときに記憶している画面情報の中から当該検索リクエストに応じた画面情報を選択し、これをクライアント40側へ送信するような構成であってもよい。これにより、応答時間の短縮化を図ることができる。
【産業上の利用可能性】
【0071】
本発明の検索用インデックス生成システム及び検索用インデックス生成方法は、ウェブサイトを検索するための検索用インデックス情報を生成するシステム及び方法等として有用であり、本発明の情報検索システム及び情報検索方法は、所望の商品を取り扱うウェブサイトにアクセするためのシステム及び方法等として有用である。
【符号の説明】
【0072】
10 インデックス生成装置
20 検索サーバ
30 ウェブサーバ
40 クライアント
101 CPU
102 主記憶装置
103 補助記憶装置
104 通信インタフェース
105 バス
110 ウェブページ情報DB
120 検索用インデックス情報DB
130 高頻出語情報DB
140 低頻出語情報DB
150 メーカー名DB
201 CPU
202 主記憶装置
203 補助記憶装置
204 通信インタフェース
205 バス
210 検索用インデックス情報DB
220 コーディネート情報DB
300A,B 画面情報
301 検索語入力欄
302 検索ボタン
303 コーディネートボタン
304 商品画像欄
305 属性表示欄
401 コーディネート案表示欄
401a 商品画像欄
401b 属性表示欄



【特許請求の範囲】
【請求項1】
インターネット上のショッピングサイトからウェブページ情報を収集するウェブページ情報収集手段と、
前記ウェブページ情報収集手段によって収集されたウェブページ情報に基づいて、当該ウェブページ情報に係るショッピングサイトが直販サイトであるか否かを判定する判定手段と、
前記判定手段により前記ショッピングサイトが直販サイトであると判定された場合、当該ショッピングサイトに係るウェブページ情報を用いて、当該ウェブページ情報を検索するための検索用インデックスを生成する検索用インデックス生成手段と
を備える、検索用インデックス生成システム。
【請求項2】
前記判定手段が、前記収集されたウェブページ情報に含まれる文字に基づいて、当該ウェブページ情報に係るショッピングサイトが直販サイトであるか否かを判定するように構成されている、
請求項1に記載の検索用インデックス生成システム。
【請求項3】
前記ウェブページ情報に画像が含まれている場合に、当該画像中の文字を認識する文字認識手段を更に備え、
前記判定手段が、前記文字認識手段によって認識された文字に基づいて、前記ウェブページ情報に係るショッピングサイトが直販サイトであるか否かを判定するように構成されている、
請求項2に記載の検索用インデックス生成システム。
【請求項4】
直販サイトにおける頻出語を記憶する頻出語記憶部を更に備え、
前記判定手段が、前記頻出語記憶部に記憶された頻出語が前記収集されたウェブページ情報に含まれるか否かを判定し、その判定結果に基づいて、当該ウェブページ情報に係るショッピングサイトが直販サイトであるか否かを判定するように構成されている、
請求項2又は3に記載の検索用インデックス生成システム。
【請求項5】
前記判定手段が、前記収集されたウェブページ情報に含まれている前記頻出語の数に基づいて、当該ウェブページ情報に係るショッピングサイトが直販サイトであるか否かを判定するように構成されている、
請求項4に記載の検索用インデックス生成システム。
【請求項6】
インターネットを介して外部の装置からウェブページ情報の検索リクエストを受け付けた場合に、請求項1乃至5の何れかに記載の検索用インデックス生成システムによって生成された検索用インデックスに基づいて、前記検索リクエストに応じた直販サイトに係るウェブページ情報に含まれる情報を示す画面情報を生成する画面情報生成手段と、
前記画面情報生成手段によって生成された画面情報を前記外部の装置に対して送信する送信手段と
を備える、情報検索システム。
【請求項7】
前記画面情報生成手段が、前記検索リクエストに応じた複数の異なる直販サイトに係るウェブページ情報に含まれる情報を示す画面情報を生成するように構成されている、
請求項6に記載の情報検索システム。
【請求項8】
前記ウェブページ情報が、ショッピングサイトにおいて購入可能なファッション商品に関する情報であり、
前記画面情報生成手段が、前記検索リクエストに応じた複数の異なる直販サイトに係るウェブページ情報に含まれる情報を対応付けることによって、ファッション商品のコーディネート案を示す画面情報を生成するように構成されている、
請求項7に記載の情報検索システム。
【請求項9】
インターネットにアクセス可能なコンピュータが、インターネット上のショッピングサイトからウェブページ情報を収集するステップと、
前記コンピュータが、前記収集されたウェブページ情報に基づいて、当該ウェブページ情報に係るショッピングサイトが直販サイトであるか否かを判定するステップと、
前記コンピュータが、前記判定により前記ショッピングサイトが直販サイトであるとされた場合、当該ショッピングサイトに係るウェブページ情報を用いて、当該ウェブページ情報を検索するための検索用インデックスを生成するステップと
を有する、検索用インデックス生成方法。
【請求項10】
インターネットを介して外部の装置からウェブページ情報の検索リクエストをコンピュータが受け付けた場合に、当該コンピュータが、請求項9に記載の検索用インデックス生成方法によって生成された検索用インデックスに基づいて、前記検索リクエストに応じた直販サイトに係るウェブページ情報に含まれる情報を示す画面情報を生成するステップと、
前記コンピュータが、前記生成された画面情報を前記外部の装置に対して送信するステップと
を有する、情報検索方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2012−38230(P2012−38230A)
【公開日】平成24年2月23日(2012.2.23)
【国際特許分類】
【出願番号】特願2010−180010(P2010−180010)
【出願日】平成22年8月11日(2010.8.11)
【出願人】(510139449)株式会社イングファシリティーズ (1)
【出願人】(510219512)株式会社クロス・フュージョン (1)
【Fターム(参考)】