特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及びコンテンツ生成装置
【課題】Webページを構成しているコンテンツの中からのそのWebページ特有のコンテンツを容易に抽出する。
【解決手段】指定されたWebページを構成しているコンテンツを抽出する抽出手段と、指定されたWebページを構成している各コンテンツの出現頻度を計算する計算手段と、指定されたWebページを構成しているコンテンツのうち、出現頻度が最も小さいコンテンツを当該Webページに特有のコンテンツであると判定する判定手段と、を備える。
【解決手段】指定されたWebページを構成しているコンテンツを抽出する抽出手段と、指定されたWebページを構成している各コンテンツの出現頻度を計算する計算手段と、指定されたWebページを構成しているコンテンツのうち、出現頻度が最も小さいコンテンツを当該Webページに特有のコンテンツであると判定する判定手段と、を備える。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、Webページを構成するコンテンツを抽出する技術分野に関する。
【背景技術】
【0002】
従来、Webサイト上に公開されているWebページを構成している素材たるコンテンツを取得し、取得したコンテンツに基づいて新たなコンテンツを生成する技術が知られている。例えば、非特許文献1には、ユーザにより画像データのURLが指定されると、当該URLに対応する画像データをWeb上から取得し、取得した画像データに基づいてバナーを自動作成する技術が開示されている。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】“バナー自動作成”、[online]、[平成21年10月21日検索]、インターネット<URL:http://hyperbannermaker.com/>
【発明の概要】
【発明が解決しようとする課題】
【0004】
Webサイトを構成する各Webページには、そのWebサイトの目的に沿った内容が掲載される。そのため、Webサイトを構成する各Webページの内容は、基本的には互いに関連性を有しているのであるが、夫々何らかの特徴を有してる場合がある。そして、そのWebページの内容を決める要因が、Webページを構成しているコンテンツ(例えば、テキストデータ、画像データ等)の内容である。従って、Webページを構成しているコンテンツの中で、そのWebページを特徴付けるコンテンツ、すなわち、そのWebページ特有のコンテンツが存在することがある。
【0005】
非特許文献1に記載の技術は、Webページに特有のコンテンツを抽出するものであるが、自動的に抽出するものではなく、ユーザが手作業でコンテンツを指定しなければならず、該Webページに特有のコンテンツを容易に抽出することはできない。そのため、どのコンテンツがWebページ特有のコンテンツであるかをユーザが判断することができない場合、又はユーザの嗜好によって好みのコンテンツが偏ってしまう場合など、Webページに特有のコンテンツを適格に抽出することができない。また、対象とするWebページのページ数が多いと、ユーザの作業が甚大となってしまう問題があった。
【0006】
また、例えば、HTML(HyperText Markup Language)文書のタグの記述に基づいて、画像だけ又はテキストだけといったように、特定種類のコンテンツを全て抽出することは可能である。しかしながら、抽出されたコンテンツの中には、Webページ特有のものではないありふれたコンテンツも含まれるので、抽出結果としての信頼性が低く、そのため抽出結果からユーザが特有のコンテンツを探さなければならなかった。
【0007】
本発明は以上の点に鑑みてなされたものであり、Webページを構成しているコンテンツの中からのそのWebページ特有のコンテンツを容易に抽出することができる特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム等を提供することを目的とする。
【課題を解決するための手段】
【0008】
上記課題を解決するために、請求項1に記載の発明は、指定されたWebページを構成しているコンテンツを抽出する抽出手段と、前記指定されたWebページを構成している各コンテンツの出現頻度を計算する計算手段と、前記指定されたWebページを構成しているコンテンツのうち、出現頻度が最も小さいコンテンツを当該Webページに特有のコンテンツであると判定する判定手段と、を備えることを特徴とする。
【0009】
この発明によれば、指定されたWebページを構成している各コンテンツの出現頻度が夫々計算される。この出現頻度が小さいコンテンツであるほど、指定されたWebページ以外にはあまり出現しないコンテンツであるので、最も出現頻度が小さいコンテンツを判断することで、指定されたWebページに特有のコンテンツが特定される。よって、Webページに特有のコンテンツを容易に抽出することができる。
【0010】
請求項2に記載の発明は、請求項1に記載の特有コンテンツ判定装置において、前記計算手段は、所定のサイトに含まれる複数のWebページ上における各コンテンツの出現頻度を計算することを特徴とする。
【0011】
この発明によれば、所定のサイトに含まれる或る複数のWebページ上において、指定されたWebページを構成している各コンテンツの出現頻度が計算されるので、サイト内で共通して用いられるコンテンツは、Webページに特有のコンテンツではないと判定することが可能となり、Webページに特有のコンテンツを判断する精度を上げることができる。
【0012】
請求項3に記載の発明は、請求項1又は請求項2に記載の特有コンテンツ判定装置において、前記抽出手段は、前記所定のサイトに含まれる予め定められた種類の各WebページについてWebページを構成しているコンテンツを抽出し、抽出したコンテンツを示すコンテンツ情報を予め記憶手段に記憶しておき、前記計算手段は、前記記憶されたコンテンツ情報に基づいて、前記指定されたWebページを構成している各コンテンツの出現頻度を計算することを特徴とする。
【0013】
この発明によれば、所定のサイトに含まれる予め定められた種類の各Webページについて予め抽出したておいた結果としてのコンテンツ情報に基づいて、指定されたWebページを構成している各コンテンツの出現頻度が計算されるので、出現頻度が正確に計算され、Webページに特有のコンテンツを判断する精度を上げることができる。
【0014】
請求項4に記載の発明は、請求項1乃至3の何れか一項に記載の特有コンテンツ判定装置において、前記抽出手段は、1つ以上のコンテンツで構成されたコンテンツグループの単位で、Webページを構成しているコンテンツを抽出し、前記計算手段は、前記指定されたWebページを構成しているコンテンツグループの出現頻度を計算し、前記判定手段は、前記指定されたWebページを構成しているコンテンツグループのうち、出現頻度が最も小さいコンテンツグループを当該Webページに特有のコンテンツグループであると判定することを特徴とする。
【0015】
この発明によれば、コンテンツグループの単位でWebページに特有のコンテンツが判断されるので、例えば、Webページ上において或るまとまりをもって表示されていたり、互いに関連性を有しているようなコンテンツをコンテンツグループとしたときに、Webページに特有のコンテンツとなるものを抽出することができる。
【0016】
請求項5に記載の発明は、請求項4に記載の特有コンテンツ判定装置において、前記抽出手段は、所定のマークアップ言語で記述され、Webページを構成するコンテンツを示すドキュメントデータに基づいて、コンテンツグループを抽出することを特徴とする。
【0017】
この発明によれば、Webページを構成するコンテンツを示すドキュメントデータに基づいてコンテンツグループが抽出されるので、的確にコンテンツグループを抽出することができる。
【0018】
請求項6に記載の発明は、請求項5に記載の特有コンテンツ判定装置において、前記抽出手段は、前記コンテンツを示すドキュメントデータにおいて予め定められたタグに基づいてコンテンツグループを定めることを特徴とする。
【0019】
この発明によれば、予め定められたタグに基づいてコンテンツグループが抽出されるので、Webページに特有のコンテンツと、特有ではないコンテンツとが夫々予め定められたタグでグループ化されている場合に、Webページに特有のコンテンツを判断する精度を上げることができる。
【0020】
請求項7に記載の発明は、指定されたWebページを構成しているコンテンツを抽出する抽出行程と、前記指定されたWebページを構成している各コンテンツの出現頻度を計算する計算行程と、前記指定されたWebページを構成しているコンテンツのうち、出現頻度が最も小さいコンテンツを当該Webページに特有のコンテンツであると判定する判定行程と、を備えることを特徴とする。
【0021】
請求項8に記載の発明は、コンピュータを、指定されたWebページを構成しているコンテンツを抽出する抽出手段、前記指定されたWebページを構成している各コンテンツの出現頻度を計算する計算手段、及び、前記指定されたWebページを構成しているコンテンツのうち、出現頻度が最も小さいコンテンツを当該Webページに特有のコンテンツであると判定する判定手段、として機能させることを特徴とする。
【0022】
請求項9に記載の発明は、請求項1乃至6の何れか1項に記載の特有コンテンツ判定装置と、前記特有コンテンツ判定装置により特有のコンテンツであると判定されたコンテンツに基づいて、新たなコンテンツを生成する生成手段と、を備えることを特徴とする。
【0023】
この発明によれば、Webページに特有のコンテンツに基づいて新たなコンテンツが生成されるので、例えば、当該Webページに掲載されている内容の特徴を示すコンテンツを生成することができる。
【発明の効果】
【0024】
本発明によれば、出現頻度が小さいコンテンツであるほど、指定されたWebページ以外にはあまり出現しないコンテンツであるので、最も出現頻度が小さいコンテンツを判断することで、指定されたWebページに特有のコンテンツが特定される。よって、Webページに特有のコンテンツを容易に抽出することができる。
【図面の簡単な説明】
【0025】
【図1】一実施形態に係るショッピングシステムSの概要構成の一例を示す図である。
【図2】一実施形態に係るコンテンツ生成サーバ1の概要構成の一例を示すブロック図である。
【図3】Webページが指定されてからFlashコンテンツが生成されるまでの処理の概要を示す図である。
【図4】Webページの構成例を示す図である。
【図5】HTML文書から生成されたDOMツリーの一例を示す図である。
【図6】素材抽出DB101に登録される情報の内容の一例を示す図である。
【図7】一実施形態に係るコンテンツ生成サーバ1のシステム制御部20の素材抽出処理における処理例を示すフローチャートである。
【図8】一実施形態に係るコンテンツ生成サーバ1のシステム制御部20の1ページ対応抽出処理における処理例を示すフローチャートである。
【図9】一実施形態に係るコンテンツ生成サーバ1のシステム制御部20のツリー探索処理における処理例を示すフローチャートである。
【図10】一実施形態に係るコンテンツ生成サーバ1のシステム制御部20のコンテンツ生成処理における処理例を示すフローチャートである。
【図11】一実施形態に係るコンテンツ生成サーバ1のシステム制御部20の特有コンテンツブロック判定処理における処理例を示すフローチャートである。
【図12】一実施形態に係るコンテンツ生成サーバ1のシステム制御部20のFlashコンテンツ生成処理における処理例を示すフローチャートである。
【発明を実施するための形態】
【0026】
以下、図面を参照して本発明の実施形態について詳細に説明する。なお、以下に説明する実施の形態は、ネットワーク上の電子的なやりとりにより商品の売買が行われるショッピングシステムにおいて、ショッピングサイトのWebページから抽出されたWebページに特有のコンテンツに基づいて新たなコンテンツを生成するサーバ装置に対して本発明を適用した場合の実施形態である。
【0027】
[1.ショッピングシステムの構成及び機能概要]
先ず、本実施形態に係るショッピングシステムSの構成及び概要機能について、図1を用いて説明する。
【0028】
図1は、本実施形態に係るショッピングシステムSの概要構成の一例を示す図である。
【0029】
図1に示すように、ショッピングシステムSは、特有コンテンツ判定装置及びコンテンツ生成装置の一例としてのコンテンツ生成サーバ1と、ショッピングサーバ2と、管理端末3と、複数の店舗端末4と、複数のユーザ端末5と、を含んで構成されている。そして、コンテンツ生成サーバ1と、ショッピングサーバ2と、各店舗端末4と、各ユーザ端末5とは、ネットワークNWを介して、例えば、通信プロトコルにTCP/IP等を用いて相互にデータの送受信が可能になっている。なお、ネットワークNWは、例えば、インターネット、専用通信回線(例えば、CATV(Community Antenna Television)回線)、移動体通信網(基地局等を含む)、及びゲートウェイ等により構築されている。また、コンテンツ生成サーバ1と管理端末3とは、LAN(Local Area Network)等のネットワークを介して接続されている。なお、コンテンツ生成サーバ1とショッピングサーバ2とが、同じくLAN等のネットワークを介して接続されても良い。
【0030】
このような構成のショッピングシステムSにおいて、ショッピングサーバ2は、店舗端末4やユーザ端末5からのリクエストに応じて、ショッピングサイトを構成するWebページを送信するWebサーバである。また、ショッピングサーバ2は、店舗端末4からのリクエストに基づいて、ショッピングサイトで販売される商品を登録し、その商品の詳細な説明等が掲載される商品詳細ページを生成する。そして、ショッピングサーバ2は、商品詳細ページDB201を備え、生成した商品詳細ページ(商品詳細ページのHTML文書(ドキュメントデータの一例)、商品詳細ページの素材である画像データ等)を商品詳細ページDB201に登録する。また、ショッピングサーバ2は、商品詳細ページを閲覧したユーザのユーザ端末5からのリクエストに基づいて、商品の購入の処理を行う。
【0031】
店舗端末4は、ショッピングサイトで商品を販売する店舗の従業員に使用される端末装置である。店舗端末4としては、例えば、パーソナルコンピュータ等が用いられる。
【0032】
ユーザ端末5は、ショッピングサイトで商品を購入するユーザに使用される端末装置である。ユーザ端末5としては、例えば、パーソナルコンピュータ、PDA、携帯電話機等が用いられる。
【0033】
コンテンツ生成サーバ1は、管理端末3や店舗端末4からのリクエストに基づいて、指定された商品詳細ページの特徴を示す(ひいては、商品の特徴を示す)Flashコンテンツ(Adobe Systems社により規格化されたソフトウェア)を生成する。生成されるFlashコンテンツは、例えば、商品のバナー画像、商品を紹介するスライドショーコンテンツ、動画コンテンツ等である。そして、Flashコンテンツは、例えば、店舗が運営するWebサイトに掲載されたり、ショッピングサイトを構成するWebページの素材として用いられたりする。
【0034】
このようなFlashコンテンツを生成するため、コンテンツ生成サーバ1は、素材抽出DB101を備え、商品詳細ページDB201に登録されている商品詳細ページを構成するWeb素材としてのコンテンツ(画像データ、HTML文書に記述されているテキストデータ等)を抽出して、その抽出結果を素材抽出DB101に登録しておく。そして、コンテンツ生成サーバ1は、指定された商品詳細ページから抽出されたコンテンツの中からその商品詳細ページ特有のコンテンツを特定し、特定されたコンテンツに基づいてFlashコンテンツを生成する。
【0035】
管理端末3は、ショッピングシステムSのシステム管理者により使用される端末装置である。管理端末3としては、例えば、パーソナルコンピュータ等が用いられる。
【0036】
[2.コンテンツ生成サーバの構成及び機能]
次に、コンテンツ生成サーバ1の構成及び機能について、図2を用いて説明する。
【0037】
図2は、本実施形態に係るコンテンツ生成サーバ1の概要構成の一例を示すブロック図である。また、図3は、Webページが指定されてからFlashコンテンツが生成されるまでの処理の概要を示す図である。また、図4は、Webページの構成例を示す図である。また、図5は、HTML文書から生成されたDOMツリーの一例を示す図である。また、図6は、素材抽出DB101に登録される情報の内容の一例を示す図である。
【0038】
図2に示すように、コンテンツ生成サーバ1は、操作部11と、表示部12と、通信部13と、ドライブ部14と、記憶手段の一例としての記憶部15と、入出力インタフェース部16と、システム制御部20と、を備えている。そして、システム制御部20と入出力インタフェース部16とは、システムバス21を介して接続されている。
【0039】
操作部11は、例えば、キーボード、マウス等により構成されており、システム管理者等からの操作指示を受け付け、その指示内容を指示信号としてシステム制御部20に出力するようになっている。表示部12は、例えば、CRT(Cathode Ray Tube)ディスプレイ、液晶ディスプレイ等により構成されており、文字や画像等の情報を表示するようになっている。通信部13は、ネットワークNW等に接続して、ショッピングサーバ2、管理端末3、店舗端末4、ユーザ端末5等との通信状態を制御するようになっている。ドライブ部14は、例えば、フレキシブルディスク、CD(Compact Disc)、DVD(Digital Versatile Disc)等のディスクDKからデータ等を読み出す一方、当該ディスクDKに対してデータ等を記録するようになっている。記憶部15は、例えば、ハードディスクドライブ等により構成されており、各種プログラム及びデータ等を記憶するようになっている。また、記憶部15には、素材抽出DB101が構築されている。入出力インタフェース部16は、操作部11〜記憶部15とシステム制御部20との間のインタフェース処理を行うようになっている。システム制御部20は、CPU(Central Processing Unit)17、ROM(Read Only Memory)18、RAM(Random Access Memory)19等により構成されている。
【0040】
システム制御部20は、CPU17が、ROM18や記憶部15に記憶された各種プログラムを読み出し実行することによりコンテンツ生成サーバ1の各部を制御する。また、システム制御部20は、コンテンツ生成ソフトウェア(特有コンテンツ判定プログラムの一例)を実行することにより、抽出手段、計算手段、判定手段及び生成手段として機能する。なお、コンテンツ生成ソフトウェア等は、例えば、他のサーバ装置等からネットワークNWを介して取得されるようにしても良いし、CD−ROM等のディスクDKに記録されてドライブ部14を介して読み込まれるようにしても良い。
【0041】
コンテンツ生成ソフトウェアは、商品詳細ページ特有のコンテンツに基づいてFlashコンテンツを生成するためのプログラムである。図3に示すように、コンテンツ生成ソフトウェアは、マネージャ部、素材抽出エンジン、SWF(ShockWave Flash Object)生成エンジン等により構成されている。マネージャ部は、素材抽出エンジン及びSWFエンジンの実行を制御するとともに、コンテンツ生成ソフトウェアを利用するユーザ(店舗従業員やシステム管理者)に対して、Flashコンテンツを生成するためのGUI(Graphical User Interface)を提供するためのソフトウェアである。素材抽出エンジンは、商品詳細ページのHTML文書からWeb素材としてのコンテンツを抽出するとともに、商品詳細ページ特有のコンテンツを判定するためのソフトウェアである。コンテンツの抽出は、後述のコンテンツブロック(コンテンツグループの一例)の単位で行われる。SWFエンジンは、与えられた1又は複数のコンテンツ(Web素材)に基づいてFlashコンテンツを生成するためのソフトウェアである。なお、新たなコンテンツとしてFlashコンテンツ以外のリッチインターネットアプリケーションを生成する場合、SWF生成エンジンに代えて、例えば、マイクロソフト社のSilverlight(商標)の生成エンジンを適用しても良い。また、Ajax(Asynchronous JavaScript(登録商標) + XML)等の技術を利用して動的ページを実現するスクリプトを生成するソフトウエアを適用しても良い。
【0042】
以下に、Flashコンテンツの生成の概要について説明する。図3に示すように、システム制御部20は、ショッピングサーバ2から商品詳細ページDB201に登録されているHTML文書を取得して解析し、Web素材たるコンテンツをコンテンツブロック単位で抽出する。そして、その抽出結果として、抽出したコンテンツブロック毎にコンテンツブロック対応情報(コンテンツ情報の一例)を素材抽出DB101に登録する(1)。この処理は、Flashコンテンツの生成前に予め行われ、基本的には、商品詳細ページDB201に登録されている全HTML文書、すなわち、ショッピングサイトを構成する全ての商品詳細ページについて抽出が行われる。
【0043】
その後、システム管理者又は店舗従業員により、Flashコンテンツの生成対象となる商品詳細ページのHTML文書のURLが指定される(2)。すると、システム制御部20は、指定されたURLに基づいてショッピングサーバ2からHTML文書を取得し、コンテンツブロックを抽出する。そして、制御部20は、素材抽出DB101を参照して、抽出した各コンテンツブロックの全商品詳細ページにおける出現頻度を計算する。計算される出現頻度としては、出現回数(度数)であっても良いし、全商品詳細ページの全コンテンツブロックに対する出現回数の割合(相対度数)であっても良い。そして、システム制御部20は、出現頻度の最も小さいコンテンツブロックを、指定されたURLに対応する商品詳細ページ特有のコンテンツブロックであると判定する(3)。
【0044】
システム制御部20は、特有のコンテンツブロックであると判定したコンテンツブロックに含まれるコンテンツをショッピングサーバ2を介して商品詳細ページDB201から取得する。システム制御部20は、取得したコンテンツに基づいてFlashコンテンツを生成する(4)。そして、システム管理者又は店舗従業員は、生成されたFlashコンテンツをダウンロードする(5)。なお、Flashコンテンツのダウンロードの前に、システム管理者や店舗従業員によって適宜Flashコンテンツを修正することができるようにしても良い。
【0045】
次に、コンテンツブロックの抽出方法について説明する。なお、本実施形態においては、テキストデータ及び画像データがWeb素材として抽出されるものとする。
【0046】
例えば、商品詳細ページの構成(レイアウト)が図4に示すようなものであるとする。Web素材としての各コンテンツは、商品詳細ページ上において、それぞれ或るまとまり(かたまり)毎に表示されている。その各まとまりがコンテンツブロックに相当する。各コンテンツは、HTML文書に記述されているDIVタグ及びTABLEタグ(予め定められたタグの一例)により夫々コンテンツブロックに分けられる。つまり、各コンテンツは、DIVタグ及びTABLEタグによりブロック化(グループ化)される。
【0047】
図4には、コンテンツブロック301〜306が表示されている。コンテンツブロック301は、例えば、ページのヘッダ部分のコンテンツブロックであり、テキストA及び画像aにより構成されている。また、コンテンツブロック302は、例えば、各種カテゴリの商品に関するWebページに移動するためのナビゲーション部分のコンテンツブロックであり、例えば、他のWebページへのリンクを示すテキストB、テキストC及びテキストDにより構成されている。また、コンテンツブロック303は、例えば、商品に関する情報が表示されるコンテンツブロックであり、商品名等の見出しを示すテキストE、コンテンツブロック304及びコンテンツブロック305により構成されいている。このように、コンテンツブロックが入れ子状、つまり、階層構造になっている場合もある。この場合、コンテンツブロック303に含まれるコンテンツはテキストEのみとされ、コンテンツブロック304及びコンテンツブロック305は、コンテンツブロック303から独立しているものとされる。コンテンツブロック304は、例えば、商品の詳細を示すコンテンツブロックであり、詳細な説明を示すテキストF、商品等の画像としての画像b及び画像cにより構成されている。コンテンツブロック305は、例えば、商品購入の際の一般的な注意事項等を示すコンテンツブロックであり、テキストG及びテキストHにより構成されている。コンテンツブロック306は、例えば、コピーライト表示を示すコンテンツブロックであり、テキストIにより構成されている。
【0048】
これらのコンテンツブロックのうち、コンテンツブロック301、302、305及び306は、図4に示す商品詳細ページ以外の商品詳細ページ上でも比較的頻繁に現れる。一方、コンテンツブロック303(テキストE)及びコンテンツブロック304は、当該商品詳細ページにだけに用いられるか、又は、他の商品詳細ページで用いられるとしても、その頻度はコンテンツブロック301、302、305及び306に比べて小さい。よって、例えば、コンテンツブロック303又はコンテンツブロック304が、当該商品詳細ページ特有のコンテンツブロックであると判断されることとなる。
【0049】
図4に示す商品詳細ページのHTML文書をDOM(Document Object Model)ツリー、すなわち、木構造で表したものが図5である。なお、図5に示すDOMツリーにおいて、本実施形態の説明に必要のないタグのノードの図示は省略している。
【0050】
DOMツリーにおいては、DIVタグを示すDIVノード及びTABLEタグを示すTABLEノードが、各コンテンツをコンテンツブロックにブロック化するノードとされる(以下、「ブロック化ノード」という)。システム制御部20は、例えば、深さ優先探索によりDOMツリーを探索し、コンテンツブロックを確定していく。具体的に、システム制御部20は、ブロック化ノードを発見すると、当該ノードを頂点とする部分木の各ノードに規定されているコンテンツを一まとめにしてコンテンツブロックとする。ただし、コンテンツブロックが階層的に規定された結果、或るブロック化ノード(以下、「上位のブロック化ノード」という)を発見した後、当該ブロック化ノードの子孫のノードの中から更にブロック化ノード(以下、「下位のブロック化ノード」という)を発見すると、コンテンツブロックが分割される。例えば、ルートノードからの距離が近いノードほど階層的により上位のノードであるとすると、上位のブロック化ノードを頂点とする部分木(以下、「上位部分木」という)に相当するコンテンツブロックを、下位のブロック化ノードを頂点とする部分木(以下、「下位部分木」という)に相当するコンテンツブロックと、上位部分木のうち下位部分木を除く部分に相当するコンテンツブロックとに分ける(例えば、コンテンツブロック304とコンテンツブロック303)。この場合においては、前者のコンテンツブロックを、後者のコンテンツブロックよりも階層的に下位にあるものとする。例えば、コンテンツブロック301、302、303及び306の階層は1であり、コンテンツブロック304及び305の階層は2である。つまり、階層の値が小さいほど階層的により上位となる。
【0051】
これを、HTML文書のタグの記述で説明すると、基本的にはブロック化タグが記述されていると、ブロック化タグに挟まれた範囲内に規定が記述されているコンテンツが、まとめて当該ブロック化タグに対応するコンテンツブロックとされる。ただし、ブロック化タグが階層的に記述されている場合、或るブロック化タグに挟まれた範囲内に規定が記述されているコンテンツのうち、当該ブロック化タグよりも下位に記述されているブロック化タグに挟まれた範囲に規定が記述されているコンテンツを除いたものが、まとめて当該ブロック化タグに対応するコンテンツブロックとされる。
【0052】
このようにしてコンテンツブロックを抽出すると、システム制御部20は、抽出結果を示すコンテンツブロック対応情報を素材抽出DB101に登録する。図6に示すように、コンテンツブロック対応情報(符号401)は、コンテンツブロック毎に登録される。コンテンツブロック対応情報には、抽出元のHTML文書のURL設定部分(符号402)とブロック構成情報(符号403)とにより構成されている。ブロック構成情報には、抽出された各コンテンツが設定される。ここで、テキストデータについては、DOMツリーにおけるテキストノードの内容が設定される。一方、画像データについては、画像データそのものの代わりとして、DOMツリーにおいてIMGタグを示すIMGノードのsrc属性としての画像データのURLが設定される。
【0053】
[3.ショッピングシステムの動作]
次に、ショッピングシステムSの動作について、図7乃至図12を用いて説明する。
【0054】
[3.1 全商品詳細ページからのコンテンツブロック抽出時]
図7は、本実施形態に係るコンテンツ生成サーバ1のシステム制御部20の素材抽出処理における処理例を示すフローチャートである。
【0055】
素材抽出処理は、例えば、定期的に実行されたり、システム管理者の操作に基づいて管理端末3から素材抽出処理の実行のリクエストが送信されてきたときに開始される。素材抽出処理において、システム制御部20は、商品詳細ページDB201に登録されている全てのHTML文書を解析する。そのために、システム制御部20は、例えば、商品詳細ページDB201に登録されているHTML文書の一覧の情報を予めショッピングサーバ2から取得しておき、この一覧の情報に基づいてHTML文書を取得しても良いし、ショッピングサイトのトップページのHTML文書から次々とリンクを辿って、商品詳細ページのHTML文書を順次取得しても良い。
【0056】
図7に示すように、システム制御部20は、素材抽出DB101を初期化する(ステップS1)。具体的に、システム制御部20は、素材抽出DB101にコンテンツブロック対応情報が登録されている場合には、全てのコンテンツブロック対応情報を素材抽出DB101から削除する。
【0057】
次いで、システム制御部20は、全商品詳細ページのうち最初に取得すべき商品詳細ページのHTML文書のURLを特定し(ステップS2)、特定したURLを設定したリクエストをショッピングサーバ2に送信することにより、当該ショッピングサーバ2からHTML文書を取得する(ステップS3)。次いで、システム制御部20は、取得したHTML文書を指定して、後述する1ページ対応抽出処理を実行する(ステップS4)。この1ページ対応抽出処理では、取得したHTML文書からコンテンツブロックが抽出され、コンテンツブロック対応情報が登録される。
【0058】
次いで、システム制御部20は、全ての商品詳細ページのコンテンツブロックを抽出したか否かを判定する(ステップS5)。このとき、システム制御部20は、コンテンツブロックを抽出していない商品詳細ページが存在する場合には(ステップS5:NO)、次の商品詳細ページのHTML文書のURLを特定して(ステップS6)、ステップS3に移行する。そして、システム制御部20は、ステップS3〜S6の処理を繰り返して全ての商品詳細ページのコンテンツブロックを抽出すると(ステップS5:YES)、素材抽出処理を終了させる。
【0059】
なお、システム制御部20は、素材抽出DB101を初期化してコンテンツブロック対応情報を登録し直さなくても良い。例えば、システム制御部20は、素材抽出DB101を初期化を行わず、前回素材抽出処理を実行した後に新規生成された商品詳細ページについてコンテンツブロック対応情報を生成して素材抽出DB101に追加登録し、また、前回素材抽出処理を実行した後に更新された商品詳細ページについてコンテンツブロック対応情報を生成して素材抽出DB101に更新登録しても良い。
【0060】
図8は、本実施形態に係るコンテンツ生成サーバ1のシステム制御部20の1ページ対応抽出処理における処理例を示すフローチャートである。
【0061】
図8に示すように、システム制御部20は、先ず、取得したHTML文書のDOMツリーをRAM19上に生成する(ステップS21)。
【0062】
次いで、システム制御部20は、ブロック数NUMに0を設定するとともに、階層LVに0を設定する(ステップS22)。ブロック数NUMは、現時点で発見済みのコンテンツブロックの個数である。また、階層LVは、DOMツリーにおいて現在探索中のノードが属するコンテンツブロックの階層である。NUM及びLVは何れもグローバル変数であり、1ページ対応抽出処理及び後述するツリー探索処理からアクセスが可能である。
【0063】
次いで、システム制御部20は、DOMツリーのルートノードを指定して(ステップS23)、ツリー探索処理を実行する(ステップS24)。ツリー探索処理は再帰呼び出しが可能であり、このツリー探索処理により、Webページから全てのコンテンツブロックが抽出され、コンテンツブロック対応情報が生成される。
【0064】
次いで、システム制御部20は、ツリー探索処理により生成された各コンテンツブロック対応情報を素材抽出DB101に登録する(ステップS25)。システム制御部20は、この処理を終えると、1ページ対応抽出処理を終了させる。
【0065】
図9は、本実施形態に係るコンテンツ生成サーバ1のシステム制御部20のツリー探索処理における処理例を示すフローチャートである。
【0066】
図9に示すように、システム制御部20は、先ず、指定されたノードの種類を判定する(ステップS31)。このとき、システム制御部20は、指定されたノードの種類が、DIVノード又はTABLEノード(ブロック化ノード)である場合には、すなわち、コンテンツブロックが発見された場合には(ステップS31:DIV又はTABLE)、ステップS32に移行する。
【0067】
ステップS32において、システム制御部20は、ブロック数NUMに1を加算するとともに、階層LVに1を加算する。次いで、システム制御部20は、ブロック番号BN[LV]にNUMを設定する(ステップS33)。ブロック番号BN[LV]は、現在探索中のノードが属する階層LVで示されるコンテンツブロックのブロック番号である。このブロック番号は、コンテンツブロックの発見順に付与される。また、BN[LV]は、グローバル変数である。
【0068】
次いで、システム制御部20は、ブロック番号BN[LV]のコンテンツブロックに対応するコンテンツブロック対応情報を初期化する(ステップS34)。具体的に、システム制御部20は、コンテンツブロック対応情報を格納する領域をRAM19上に設定し、取得したHTML文書のURLを、当該領域に設定する。
【0069】
次いで、システム制御部20は、指定されたノードの子ノードのうち、未だ探索されていない子ノードが存在するか否かを判定する(ステップS35)。このとき、システム制御部20は、未だ探索されていない子ノードが存在する場合には(ステップS35:YES)、ステップS36に移行する。
【0070】
ステップS36において、システム制御部20は、探索されていない子ノードのうちの1つの子ノードを指定して、ツリー探索処理を実行する(ステップS37)。システム制御部20は、ツリー探索処理を終えると、ステップS35に移行する。
【0071】
そして、システム制御部20は、ステップS35〜S37の処理を繰り返して全ての子ノードのツリー探索処理を終えると(ステップS35:NO)、ステップS38に移行する。なお、システム制御部20は、指定されたノードの子ノードが1つも存在しない場合にも、ステップS38に移行する。ステップS38において、システム制御部20は、階層LVから1を減算して、ツリー探索処理を終了させる。
【0072】
ステップS31において、システム制御部20は、指定されたノードの種類がテキストノードである場合には(ステップS31:テキスト)、指定されたノードの内容(テキストデータ)を、ブロック番号BN[LV]のコンテンツブロックに対応するコンテンツブロック対応情報中のブロック構成情報に追加設定する(ステップS39)。システム制御部20は、この処理を終えると、ツリー探索処理を終了させる。
【0073】
ステップS31において、システム制御部20は、指定されたノードの種類がIMGノードである場合には(ステップS31:IMG)、指定されたノードのsrc属性として設定されている画像データのURLを取得し、取得したURLを、ブロック番号BN[LV]のコンテンツブロックに対応するコンテンツブロック対応情報中のブロック構成情報に追加設定する(ステップS40)。システム制御部20は、この処理を終えると、ツリー探索処理を終了させる。
【0074】
ステップS31において、システム制御部20は、指定されたノードの種類が、DIVノード、TABLEノード、テキストノード、及びIMGノードの何れでもない場合には(ステップS31:その他)、指定されたノードの子ノードのうち、未だ探索されていない子ノードが存在するか否かを判定する(ステップS41)。このとき、システム制御部20は、未だ探索されていない子ノードが存在する場合には(ステップS41:YES)、探索されていない子ノードのうちの1つの子ノードを指定して(ステップS42)、ツリー探索処理を実行する(ステップS43)。システム制御部20は、ツリー探索処理を終えると、ステップS41に移行する。
【0075】
一方、システム制御部20は、指定されたノードの全ての子ノードのツリー探索処理を終えた場合、又は、指定されたノードの子ノードが1つも存在しない場合には(ステップS41:NO)、ツリー探索処理を終了させる。
【0076】
[3.2 Flashコンテンツ生成時]
図10は、本実施形態に係るコンテンツ生成サーバ1のシステム制御部20のコンテンツ生成処理における処理例を示すフローチャートである。
【0077】
コンテンツ生成処理は、システム管理者の操作に基づいて管理端末3からコンテンツ生成処理の実行のリクエストが送信されてきたとき、又は、店舗従業員の操作に基づいて店舗端末4からコンテンツ生成処理の実行のリクエストが送信されてきたときに開始される。
【0078】
そして、システム管理者又は店舗従業員がFlashコンテンツの生成対象とするHTML文書のURLを指定すると、図10に示すように、システム制御部20は、指定されたURLを管理端末3又は店舗端末4から受信する(ステップS51)。次いで、システム制御部20は、受信したURLを設定したリクエストをショッピングサーバ2に送信することにより、当該ショッピングサーバ2からHTML文書を取得する(ステップS52)。
【0079】
次いで、システム制御部20は、取得したHTML文書を指定して、後述する特有コンテンツブロック判定処理を実行する(ステップS53)。この特有コンテンツブロック判定処理では、取得したHTML文書からコンテンツブロックが抽出され、当該HTML文書特有のコンテンツブロックが判定される。
【0080】
次いで、システム制御部20は、特有と判定されたコンテンツブロックを構成する各コンテンツを取得する(ステップS54)。このとき、システム制御部20は、テキストデータを取得する場合には、特有と判定されたコンテンツブロックに対応するコンテンツブロック対応情報からテキストデータを取得する。一方、システム制御部20は、画像データを取得する場合には、特有と判定されたコンテンツブロックに対応するコンテンツブロック対応情報から画像データのURLを取得し、取得されたURLを設定したリクエストをショッピングサーバ2に送信することにより、商品詳細ページDB201に登録されている画像データをショッピングサーバ2から取得する。
【0081】
次いで、システム制御部20は、取得した全てのコンテンツを指定して、後述するFlashコンテンツ生成処理を実行する(ステップS55)。
【0082】
次いで、システム制御部20は、Flashコンテンツ生成処理において生成されたFlashコンテンツを、生成要求元の管理端末3又は店舗端末4に送信する(ステップS56)。システム制御部20は、この処理を終えると、コンテンツ生成処理を終了させる。
【0083】
図11は、本実施形態に係るコンテンツ生成サーバ1のシステム制御部20の特有コンテンツブロック判定処理における処理例を示すフローチャートである。
【0084】
図11に示すように、システム制御部20は、先ず、1ページ対応抽出処理と同様に、取得したHTML文書のDOMツリー生成(ステップS61)、ブロック数NUM及び階層LVに対して0の設定を行い(ステップS62)、DOMツリーのルートノードを指定して(ステップS63)、ツリー探索処理を実行する(ステップS64)。
【0085】
次いで、システム制御部20は、ブロック番号iに1を設定する(ステップS65)。次いで、システム制御部20は、ブロック番号iのコンテンツブロックの出現頻度を計算する(ステップS66)。
【0086】
具体的に、システム制御部20は、ツリー探索処理において生成されたコンテンツブロック対応情報i(ブロック番号iのコンテンツブロックに対応するコンテンツブロック対応情報)のブロック構成情報と、素材抽出DB101に登録されている各コンテンツブロック対応情報のブロック構成情報とを比較する。このとき、システム制御部20は、ブロック構成情報の内容が一致する場合には、出現回数1回としてカウントする。このとき、システム制御部20は、ブロック構成情報中におけるコンテンツの規定順は無視してかまわない。また、システム制御部20は、素材抽出DB101に登録されているコンテンツブロック対応情報のブロック構成情報に規定されている一部のコンテンツがコンテンツブロック対応情報iのブロック構成情報に規定されている全部のコンテンツに一致する場合も、出現回数1回としてカウントしても良い。更に、システム制御部20は、コンテンツブロック対応情報のブロック構成情報中に規定されているテキストデータ同士を比較する場合には、テキストデータが示す文章等そのものが一致するか否かを判定するのではなく、その文章等により表現されている実質的な内容を比較しても良い。例えば、システム制御部20は、夫々のテキストデータの形態素解析等を行うことによりテキストデータから単語を抽出し、抽出した単語同士を比較しても良い。そして、システム制御部20は、全ての単語が一致した場合にテキストデータ同士が一致したと判断しても良いし、所定の割合以上で単語が一致した場合にテキストデータ同士が一致したと判断しても良い。システム制御部20は、このようにしてコンテンツブロック対応情報iのブロック構成情報と、素材抽出DB101に登録されている全てのコンテンツブロック対応情報のブロック構成情報とを比較して、出現頻度を計算する。
【0087】
システム制御部20は、出現頻度を計算すると、ブロック番号iに1を加算して(ステップS67)、ブロック番号iがブロック数NUMの値より大きいか否かを判定する(ステップS68)。このとき、システム制御部20は、ブロック番号iがブロック数NUMの値以下である場合には(ステップS68:NO)、ステップS66に移行する。そして、システム制御部20は、ツリー探索処理において抽出された全てのコンテンツブロックの出現頻度を計算すると(ステップS68:YES)、ステップS69に移行する。
【0088】
ステップS69において、システム制御部20は、コンテンツブロック1からブロック数NUMが示すブロック番号までの全てのコンテンツブロックの出現頻度同士を比較して、出現頻度が最も少ないコンテンツブロックを、特有のコンテンツブロックであると判定する(ステップS69)。システム制御部20は、この処理を終えると、特有コンテンツブロック判定処理を終了させる。
【0089】
図12は、本実施形態に係るコンテンツ生成サーバ1のシステム制御部20のFlashコンテンツ生成処理における処理例を示すフローチャートである。なお、本実施形態においては、商品詳細ページに掲載されている商品を紹介するコンテンツとして、特有のコンテンツブロックであると判定されたコンテンツブロックに含まれる各コンテンツをスライドショー表示するFlashコンテンツを生成するものとして以下説明する。
【0090】
図12に示すように、システム制御部20は、先ず、指定された各コンテンツの表示サイズを調整する(ステップS71)。例えば、システム制御部20は、Flashコンテンツ再生時の実際の表示サイズに合うように、画像データの縦横の画素数を調整したり、テキストデータのフォントサイズ等を調整する。また、システム制御部20は、コンテンツの表示サイズがFlashコンテンツ再生時の実際表示サイズに比べて大きすぎる場合には、当該コンテンツを複数に分割する。また、システム制御部20は、コンテンツの表示サイズがFlashコンテンツ再生時の実際表示サイズに比べて小さすぎる場合には、複数のコンテンツを1つに結合する。
【0091】
次いで、システム制御部20は、各コンテンツの表示順序を決定する(ステップS72)。各コンテンツの表示順序は、基本的にはツリー探索処理におけるコンテンツブロック対応情報に対するコンテンツの設定順と同じ順序である。つまり、HTML文書において当該文書の先頭の近くに規定されているコンテンツほど、表示順序が早くなる。
【0092】
次いで、システム制御部20は、各コンテンツの遷移方法を決定する(ステップS73)。つまり、システム制御部20は、スライドショー表示において、表示するコンテンツを切り換える際に施されるエフェクト(表示効果)を決定する。エフェクトとしては、例えば、フェードイン/フェードアウト、スライド、ランダムブロック、ワイプ、エフェクトなし等がある。
【0093】
次いで、システム制御部20は、ステップS71において調整が行われた各コンテンツに基づき、ステップS72及びS73において決定された条件に基づいてFlashコンテンツを生成する(ステップS74)。システム制御部20は、この処理を終えると、Flashコンテンツ生成処理を終了させる。
【0094】
以上説明したように、本実施形態によれば、コンテンツ生成サーバ1のシステム制御部20が、指定されたURLに対応する商品詳細ページを構成しているコンテンツを抽出し、指定されたURLに対応する商品詳細ページを構成している各コンテンツの出現頻度を計算し、指定されたURLに対応する商品詳細ページを構成するコンテンツのうち、出現頻度が最も小さいコンテンツを当該商品詳細ページに特有のコンテンツであると判断する。
【0095】
従って、出現頻度が小さいコンテンツであるほど、指定された商品詳細ページ以外にはあまり出現しないコンテンツであるので、最も出現頻度が小さいコンテンツを判断することで、指定された商品詳細ページに特有のコンテンツを特定される。よって、商品詳細ページに特有のコンテンツを容易に抽出することができる。
【0096】
また、コンテンツ生成サーバ1のシステム制御部20が、商品詳細ページに特有のコンテンツであると判断されたコンテンツに基づいてFlashコンテンツを生成する。
【0097】
従って、当該商品詳細ページに掲載されている商品の内容等を端的に示し又は特徴を示すコンテンツを生成することができる。
【0098】
また、コンテンツ生成サーバ1のシステム制御部20が、ショッピングサイトに含まれる複数の商品詳細ページ上における各コンテンツの出現頻度を計算する。
【0099】
従って、ショッピングサイトに含まれる複数のWebページ上において、指定された商品詳細ページを構成している各コンテンツの出現頻度が計算されるので、ショッピングサイト内で共通して用いられるコンテンツは、特有のコンテンツではないと判定することが可能となり、判断精度を上げることができる。
【0100】
また、コンテンツ生成サーバ1のシステム制御部20が、ショッピングサイトを構成する全ての商品詳細ページについて、商品詳細ページを構成しているコンテンツを抽出し、抽出したコンテンツを示すコンテンツブロック対応情報を予め素材抽出DB101に登録しておき、素材抽出DB101に登録された各コンテンツブロック対応情報に基づいて、指定されたURLに対応する商品詳細ページを構成している各コンテンツの出現頻度を計算する。
【0101】
従って、全ての商品詳細ページに基づいて出現頻度計算されるので、特有のコンテンツを判断する精度を上げることができる。
【0102】
また、コンテンツ生成サーバ1のシステム制御部20が、1つ以上のコンテンツで構成されるコンテンツブロックの単位で、商品詳細ページを構成しているコンテンツを抽出し、指定されたURLに対応する商品詳細ページを構成している各コンテンツブロック出現頻度を計算し、指定されたURLに対応する商品詳細ページを構成するコンテンツブロックのうち、出現頻度が最も小さいコンテンツブロックを当該商品詳細ページに特有のコンテンツブロックであると判断する。
【0103】
従って、商品詳細ページ上において、例えば、ヘッダ部分、ナビゲーション部分、商品の詳細を示す部分、商品購入の際の一般的な注意事項等を示す部分、コピーライト表示の部分等のように、1つ以上のコンテンツがまとまりをもってコンテンツブロックとして表示されている場合に、商品詳細ページに特有のコンテンツブロックを抽出することができる。
【0104】
また、コンテンツ生成サーバ1のシステム制御部20が、商品詳細ページを構成しているコンテンツを当該商品詳細ページのHTML文書に基づいて抽出し、HTML文書においてDIVタグ又はTABLEタグに基づいてコンテンツブロックを定める。
【0105】
従って、DIVタグにより、HTML文書の作成の際に明示的にブロック化された1つ以上のコンテンツを特定することができ、また、TABLEタグにより、表形式でブロック化されて表示される1つ以上のコンテンツを特定することができるので、例えば、これらのタグにより、商品詳細ページに特有のコンテンツと、特有ではないコンテンツとがブロック化されている場合に、Webページに特有のコンテンツを判断する精度を上げることができる。
【0106】
なお、上記実施形態においては、Webページを構成しているコンテンツとして、テキストデータ及び画像データを抽出していたが、抽出対象のコンテンツはこれらに限られるものではない。例えば、Webページ上に表示されるコンテンツ、又は、Webページが表示されている際に再生されるコンテンツ(例えば、動画データ、音声データ、電子文書等)であれば良い。また、所定の種類のコンテンツのみを抽出しても良い。
【0107】
また、上記実施形態においては、指定された商品詳細ページを構成する各コンテンツブロックに対応するコンテンツブロック対応情報を、素材抽出DB101に登録されている全てのコンテンツブロック対応情報と比較することによって各出現頻度が計算されていた。つまり、指定された商品詳細ページを構成する各コンテンツブロックの出現頻度を計算する場合に、ショッピングサイトに含まれる全ての商品詳細ページを対象とした範囲に出現する頻度を計算するようになっていたが、全ての商品詳細ページを対象としなくても良い。例えば、対象となる店舗の指定を可能とし、指定された店舗に対応する全ての商品詳細ページを対象とした範囲に出現する頻度を計算するようにしても良い。また、例えば、予め定められたページ数分の商品詳細ページを対象としても良い。
【0108】
また、予め各商品詳細ページからコンテンツブロックの抽出しておかなくても良い。例えば、Flashコンテンツ生成時に、出現頻度を計算するのに必要な各商品詳細ページについてコンテンツブロックの抽出を行えば良い。
【0109】
また、上記実施形態においては、システム管理者又は店舗従業員から商品詳細ページのHTML文書のURLを指定されたときに、Flashコンテンツを生成するようにしていたが、例えば、新規の商品詳細ページが作成されたときや、商品詳細ページが更新されたときに、新規作成され又は更新された商品詳細ページについてのFlashコンテンツを生成しても良い。
【0110】
また、上記実施形態においては、DIVタグに挟まれているコンテンツ、及び、TABLEタグに挟まれているコンテンツを、コンテンツブロックとしてグループ化して抽出していたが、コンテンツをグループ化するタグとしては、これらのみに限られるものではない。
【0111】
また、上記実施形態においては、Webページに特有のコンテンツをコンテンツブロックの単位で抽出していたが、各コンテンツをそのまま一つずつ抽出しても良い。
【0112】
また、上記実施形態においては、出現頻度が最も小さいコンテンツブロックのみをWebページに特有のコンテンツとしていたが、例えば、出現頻度が1番目に小さいコンテンツブロックからN番目(Nは2以上の自然数)に小さいコンテンツまでのN個のコンテンツブロックをWebページに特有のコンテンツブロックとしても良い。これは、例えば、所望の処理に必要なコンテンツブロックの個数が2個以上で予め定められている場合に適用することができる。また、例えば、所望の処理に必要なコンテンツ(コンテンツブロックではない)の個数が2個以上で予め定められている場合に、出現頻度が1番目に小さいコンテンツブロックに含まれるコンテンツのみでは足りないときには、出現頻度が2番目に小さいコンテンツブロックをWebページに特有のコンテンツであると追加認定し、出現頻度が1番目に小さいコンテンツブロックと2番目に小さいコンテンツブロックに含まれるコンテンツのみで足りないときには、出現頻度が3番目に小さいコンテンツブロックをWebページに特有のコンテンツであると追加認定する、といった処理を行っても良い。
【0113】
また、上記実施形態においては、Webページに特有のコンテンツを用いてFlashコンテンツを生成していたが、Flashコンテンツ以外のコンテンツ(例えば、動画データ、静止画像データ、電子文書等)を生成しても良い。
【0114】
また、Webページに特有のコンテンツの用途としては新たなコンテンツの生成のみに限られるものではない。例えば、Webページに特有の画像データを判定し、特有の画像データと判定された画像データを、当該Webページを代表する画像データとして、検索結果等に表示しても良い。
【0115】
また、上記実施形態においては、サーバ装置に対して本発明の特有コンテンツ判定装置を適用していたが、記憶手段やネットワーク上からHTML文書を取得することができれば、端末装置等に対して特有コンテンツ判定装置を適用しても良い。
【0116】
また、上記実施形態においては、HTML文書に対して本発明のドキュメントデータを適用していたが、マークアップ言語で記述され、Webページを構成するコンテンツを示すデータ(例えば、XHTML(Extensible HyperText Markup Language)文書等)に対してドキュメントデータを適用しても良い。
【0117】
また、上記実施形態においては、ショッピングサイトにおける商品詳細ページを構成するコンテンツを抽出していたが、対象とするサイト及びページの種類はこれらのみに限られるものではない。
【符号の説明】
【0118】
1 コンテンツ生成サーバ
2 ショッピングサーバ
3 管理端末
4 店舗端末
5 ユーザ端末
11 操作部
12 表示部
13 通信部
14 ドライブ部
15 記憶部
16 入出力インタフェース部
17 CPU
18 ROM
19 RAM
20 システム制御部
21 システムバス
101 素材抽出DB
201 商品詳細ページDB
NW ネットワーク
S ショッピングシステム
【技術分野】
【0001】
本発明は、Webページを構成するコンテンツを抽出する技術分野に関する。
【背景技術】
【0002】
従来、Webサイト上に公開されているWebページを構成している素材たるコンテンツを取得し、取得したコンテンツに基づいて新たなコンテンツを生成する技術が知られている。例えば、非特許文献1には、ユーザにより画像データのURLが指定されると、当該URLに対応する画像データをWeb上から取得し、取得した画像データに基づいてバナーを自動作成する技術が開示されている。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】“バナー自動作成”、[online]、[平成21年10月21日検索]、インターネット<URL:http://hyperbannermaker.com/>
【発明の概要】
【発明が解決しようとする課題】
【0004】
Webサイトを構成する各Webページには、そのWebサイトの目的に沿った内容が掲載される。そのため、Webサイトを構成する各Webページの内容は、基本的には互いに関連性を有しているのであるが、夫々何らかの特徴を有してる場合がある。そして、そのWebページの内容を決める要因が、Webページを構成しているコンテンツ(例えば、テキストデータ、画像データ等)の内容である。従って、Webページを構成しているコンテンツの中で、そのWebページを特徴付けるコンテンツ、すなわち、そのWebページ特有のコンテンツが存在することがある。
【0005】
非特許文献1に記載の技術は、Webページに特有のコンテンツを抽出するものであるが、自動的に抽出するものではなく、ユーザが手作業でコンテンツを指定しなければならず、該Webページに特有のコンテンツを容易に抽出することはできない。そのため、どのコンテンツがWebページ特有のコンテンツであるかをユーザが判断することができない場合、又はユーザの嗜好によって好みのコンテンツが偏ってしまう場合など、Webページに特有のコンテンツを適格に抽出することができない。また、対象とするWebページのページ数が多いと、ユーザの作業が甚大となってしまう問題があった。
【0006】
また、例えば、HTML(HyperText Markup Language)文書のタグの記述に基づいて、画像だけ又はテキストだけといったように、特定種類のコンテンツを全て抽出することは可能である。しかしながら、抽出されたコンテンツの中には、Webページ特有のものではないありふれたコンテンツも含まれるので、抽出結果としての信頼性が低く、そのため抽出結果からユーザが特有のコンテンツを探さなければならなかった。
【0007】
本発明は以上の点に鑑みてなされたものであり、Webページを構成しているコンテンツの中からのそのWebページ特有のコンテンツを容易に抽出することができる特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム等を提供することを目的とする。
【課題を解決するための手段】
【0008】
上記課題を解決するために、請求項1に記載の発明は、指定されたWebページを構成しているコンテンツを抽出する抽出手段と、前記指定されたWebページを構成している各コンテンツの出現頻度を計算する計算手段と、前記指定されたWebページを構成しているコンテンツのうち、出現頻度が最も小さいコンテンツを当該Webページに特有のコンテンツであると判定する判定手段と、を備えることを特徴とする。
【0009】
この発明によれば、指定されたWebページを構成している各コンテンツの出現頻度が夫々計算される。この出現頻度が小さいコンテンツであるほど、指定されたWebページ以外にはあまり出現しないコンテンツであるので、最も出現頻度が小さいコンテンツを判断することで、指定されたWebページに特有のコンテンツが特定される。よって、Webページに特有のコンテンツを容易に抽出することができる。
【0010】
請求項2に記載の発明は、請求項1に記載の特有コンテンツ判定装置において、前記計算手段は、所定のサイトに含まれる複数のWebページ上における各コンテンツの出現頻度を計算することを特徴とする。
【0011】
この発明によれば、所定のサイトに含まれる或る複数のWebページ上において、指定されたWebページを構成している各コンテンツの出現頻度が計算されるので、サイト内で共通して用いられるコンテンツは、Webページに特有のコンテンツではないと判定することが可能となり、Webページに特有のコンテンツを判断する精度を上げることができる。
【0012】
請求項3に記載の発明は、請求項1又は請求項2に記載の特有コンテンツ判定装置において、前記抽出手段は、前記所定のサイトに含まれる予め定められた種類の各WebページについてWebページを構成しているコンテンツを抽出し、抽出したコンテンツを示すコンテンツ情報を予め記憶手段に記憶しておき、前記計算手段は、前記記憶されたコンテンツ情報に基づいて、前記指定されたWebページを構成している各コンテンツの出現頻度を計算することを特徴とする。
【0013】
この発明によれば、所定のサイトに含まれる予め定められた種類の各Webページについて予め抽出したておいた結果としてのコンテンツ情報に基づいて、指定されたWebページを構成している各コンテンツの出現頻度が計算されるので、出現頻度が正確に計算され、Webページに特有のコンテンツを判断する精度を上げることができる。
【0014】
請求項4に記載の発明は、請求項1乃至3の何れか一項に記載の特有コンテンツ判定装置において、前記抽出手段は、1つ以上のコンテンツで構成されたコンテンツグループの単位で、Webページを構成しているコンテンツを抽出し、前記計算手段は、前記指定されたWebページを構成しているコンテンツグループの出現頻度を計算し、前記判定手段は、前記指定されたWebページを構成しているコンテンツグループのうち、出現頻度が最も小さいコンテンツグループを当該Webページに特有のコンテンツグループであると判定することを特徴とする。
【0015】
この発明によれば、コンテンツグループの単位でWebページに特有のコンテンツが判断されるので、例えば、Webページ上において或るまとまりをもって表示されていたり、互いに関連性を有しているようなコンテンツをコンテンツグループとしたときに、Webページに特有のコンテンツとなるものを抽出することができる。
【0016】
請求項5に記載の発明は、請求項4に記載の特有コンテンツ判定装置において、前記抽出手段は、所定のマークアップ言語で記述され、Webページを構成するコンテンツを示すドキュメントデータに基づいて、コンテンツグループを抽出することを特徴とする。
【0017】
この発明によれば、Webページを構成するコンテンツを示すドキュメントデータに基づいてコンテンツグループが抽出されるので、的確にコンテンツグループを抽出することができる。
【0018】
請求項6に記載の発明は、請求項5に記載の特有コンテンツ判定装置において、前記抽出手段は、前記コンテンツを示すドキュメントデータにおいて予め定められたタグに基づいてコンテンツグループを定めることを特徴とする。
【0019】
この発明によれば、予め定められたタグに基づいてコンテンツグループが抽出されるので、Webページに特有のコンテンツと、特有ではないコンテンツとが夫々予め定められたタグでグループ化されている場合に、Webページに特有のコンテンツを判断する精度を上げることができる。
【0020】
請求項7に記載の発明は、指定されたWebページを構成しているコンテンツを抽出する抽出行程と、前記指定されたWebページを構成している各コンテンツの出現頻度を計算する計算行程と、前記指定されたWebページを構成しているコンテンツのうち、出現頻度が最も小さいコンテンツを当該Webページに特有のコンテンツであると判定する判定行程と、を備えることを特徴とする。
【0021】
請求項8に記載の発明は、コンピュータを、指定されたWebページを構成しているコンテンツを抽出する抽出手段、前記指定されたWebページを構成している各コンテンツの出現頻度を計算する計算手段、及び、前記指定されたWebページを構成しているコンテンツのうち、出現頻度が最も小さいコンテンツを当該Webページに特有のコンテンツであると判定する判定手段、として機能させることを特徴とする。
【0022】
請求項9に記載の発明は、請求項1乃至6の何れか1項に記載の特有コンテンツ判定装置と、前記特有コンテンツ判定装置により特有のコンテンツであると判定されたコンテンツに基づいて、新たなコンテンツを生成する生成手段と、を備えることを特徴とする。
【0023】
この発明によれば、Webページに特有のコンテンツに基づいて新たなコンテンツが生成されるので、例えば、当該Webページに掲載されている内容の特徴を示すコンテンツを生成することができる。
【発明の効果】
【0024】
本発明によれば、出現頻度が小さいコンテンツであるほど、指定されたWebページ以外にはあまり出現しないコンテンツであるので、最も出現頻度が小さいコンテンツを判断することで、指定されたWebページに特有のコンテンツが特定される。よって、Webページに特有のコンテンツを容易に抽出することができる。
【図面の簡単な説明】
【0025】
【図1】一実施形態に係るショッピングシステムSの概要構成の一例を示す図である。
【図2】一実施形態に係るコンテンツ生成サーバ1の概要構成の一例を示すブロック図である。
【図3】Webページが指定されてからFlashコンテンツが生成されるまでの処理の概要を示す図である。
【図4】Webページの構成例を示す図である。
【図5】HTML文書から生成されたDOMツリーの一例を示す図である。
【図6】素材抽出DB101に登録される情報の内容の一例を示す図である。
【図7】一実施形態に係るコンテンツ生成サーバ1のシステム制御部20の素材抽出処理における処理例を示すフローチャートである。
【図8】一実施形態に係るコンテンツ生成サーバ1のシステム制御部20の1ページ対応抽出処理における処理例を示すフローチャートである。
【図9】一実施形態に係るコンテンツ生成サーバ1のシステム制御部20のツリー探索処理における処理例を示すフローチャートである。
【図10】一実施形態に係るコンテンツ生成サーバ1のシステム制御部20のコンテンツ生成処理における処理例を示すフローチャートである。
【図11】一実施形態に係るコンテンツ生成サーバ1のシステム制御部20の特有コンテンツブロック判定処理における処理例を示すフローチャートである。
【図12】一実施形態に係るコンテンツ生成サーバ1のシステム制御部20のFlashコンテンツ生成処理における処理例を示すフローチャートである。
【発明を実施するための形態】
【0026】
以下、図面を参照して本発明の実施形態について詳細に説明する。なお、以下に説明する実施の形態は、ネットワーク上の電子的なやりとりにより商品の売買が行われるショッピングシステムにおいて、ショッピングサイトのWebページから抽出されたWebページに特有のコンテンツに基づいて新たなコンテンツを生成するサーバ装置に対して本発明を適用した場合の実施形態である。
【0027】
[1.ショッピングシステムの構成及び機能概要]
先ず、本実施形態に係るショッピングシステムSの構成及び概要機能について、図1を用いて説明する。
【0028】
図1は、本実施形態に係るショッピングシステムSの概要構成の一例を示す図である。
【0029】
図1に示すように、ショッピングシステムSは、特有コンテンツ判定装置及びコンテンツ生成装置の一例としてのコンテンツ生成サーバ1と、ショッピングサーバ2と、管理端末3と、複数の店舗端末4と、複数のユーザ端末5と、を含んで構成されている。そして、コンテンツ生成サーバ1と、ショッピングサーバ2と、各店舗端末4と、各ユーザ端末5とは、ネットワークNWを介して、例えば、通信プロトコルにTCP/IP等を用いて相互にデータの送受信が可能になっている。なお、ネットワークNWは、例えば、インターネット、専用通信回線(例えば、CATV(Community Antenna Television)回線)、移動体通信網(基地局等を含む)、及びゲートウェイ等により構築されている。また、コンテンツ生成サーバ1と管理端末3とは、LAN(Local Area Network)等のネットワークを介して接続されている。なお、コンテンツ生成サーバ1とショッピングサーバ2とが、同じくLAN等のネットワークを介して接続されても良い。
【0030】
このような構成のショッピングシステムSにおいて、ショッピングサーバ2は、店舗端末4やユーザ端末5からのリクエストに応じて、ショッピングサイトを構成するWebページを送信するWebサーバである。また、ショッピングサーバ2は、店舗端末4からのリクエストに基づいて、ショッピングサイトで販売される商品を登録し、その商品の詳細な説明等が掲載される商品詳細ページを生成する。そして、ショッピングサーバ2は、商品詳細ページDB201を備え、生成した商品詳細ページ(商品詳細ページのHTML文書(ドキュメントデータの一例)、商品詳細ページの素材である画像データ等)を商品詳細ページDB201に登録する。また、ショッピングサーバ2は、商品詳細ページを閲覧したユーザのユーザ端末5からのリクエストに基づいて、商品の購入の処理を行う。
【0031】
店舗端末4は、ショッピングサイトで商品を販売する店舗の従業員に使用される端末装置である。店舗端末4としては、例えば、パーソナルコンピュータ等が用いられる。
【0032】
ユーザ端末5は、ショッピングサイトで商品を購入するユーザに使用される端末装置である。ユーザ端末5としては、例えば、パーソナルコンピュータ、PDA、携帯電話機等が用いられる。
【0033】
コンテンツ生成サーバ1は、管理端末3や店舗端末4からのリクエストに基づいて、指定された商品詳細ページの特徴を示す(ひいては、商品の特徴を示す)Flashコンテンツ(Adobe Systems社により規格化されたソフトウェア)を生成する。生成されるFlashコンテンツは、例えば、商品のバナー画像、商品を紹介するスライドショーコンテンツ、動画コンテンツ等である。そして、Flashコンテンツは、例えば、店舗が運営するWebサイトに掲載されたり、ショッピングサイトを構成するWebページの素材として用いられたりする。
【0034】
このようなFlashコンテンツを生成するため、コンテンツ生成サーバ1は、素材抽出DB101を備え、商品詳細ページDB201に登録されている商品詳細ページを構成するWeb素材としてのコンテンツ(画像データ、HTML文書に記述されているテキストデータ等)を抽出して、その抽出結果を素材抽出DB101に登録しておく。そして、コンテンツ生成サーバ1は、指定された商品詳細ページから抽出されたコンテンツの中からその商品詳細ページ特有のコンテンツを特定し、特定されたコンテンツに基づいてFlashコンテンツを生成する。
【0035】
管理端末3は、ショッピングシステムSのシステム管理者により使用される端末装置である。管理端末3としては、例えば、パーソナルコンピュータ等が用いられる。
【0036】
[2.コンテンツ生成サーバの構成及び機能]
次に、コンテンツ生成サーバ1の構成及び機能について、図2を用いて説明する。
【0037】
図2は、本実施形態に係るコンテンツ生成サーバ1の概要構成の一例を示すブロック図である。また、図3は、Webページが指定されてからFlashコンテンツが生成されるまでの処理の概要を示す図である。また、図4は、Webページの構成例を示す図である。また、図5は、HTML文書から生成されたDOMツリーの一例を示す図である。また、図6は、素材抽出DB101に登録される情報の内容の一例を示す図である。
【0038】
図2に示すように、コンテンツ生成サーバ1は、操作部11と、表示部12と、通信部13と、ドライブ部14と、記憶手段の一例としての記憶部15と、入出力インタフェース部16と、システム制御部20と、を備えている。そして、システム制御部20と入出力インタフェース部16とは、システムバス21を介して接続されている。
【0039】
操作部11は、例えば、キーボード、マウス等により構成されており、システム管理者等からの操作指示を受け付け、その指示内容を指示信号としてシステム制御部20に出力するようになっている。表示部12は、例えば、CRT(Cathode Ray Tube)ディスプレイ、液晶ディスプレイ等により構成されており、文字や画像等の情報を表示するようになっている。通信部13は、ネットワークNW等に接続して、ショッピングサーバ2、管理端末3、店舗端末4、ユーザ端末5等との通信状態を制御するようになっている。ドライブ部14は、例えば、フレキシブルディスク、CD(Compact Disc)、DVD(Digital Versatile Disc)等のディスクDKからデータ等を読み出す一方、当該ディスクDKに対してデータ等を記録するようになっている。記憶部15は、例えば、ハードディスクドライブ等により構成されており、各種プログラム及びデータ等を記憶するようになっている。また、記憶部15には、素材抽出DB101が構築されている。入出力インタフェース部16は、操作部11〜記憶部15とシステム制御部20との間のインタフェース処理を行うようになっている。システム制御部20は、CPU(Central Processing Unit)17、ROM(Read Only Memory)18、RAM(Random Access Memory)19等により構成されている。
【0040】
システム制御部20は、CPU17が、ROM18や記憶部15に記憶された各種プログラムを読み出し実行することによりコンテンツ生成サーバ1の各部を制御する。また、システム制御部20は、コンテンツ生成ソフトウェア(特有コンテンツ判定プログラムの一例)を実行することにより、抽出手段、計算手段、判定手段及び生成手段として機能する。なお、コンテンツ生成ソフトウェア等は、例えば、他のサーバ装置等からネットワークNWを介して取得されるようにしても良いし、CD−ROM等のディスクDKに記録されてドライブ部14を介して読み込まれるようにしても良い。
【0041】
コンテンツ生成ソフトウェアは、商品詳細ページ特有のコンテンツに基づいてFlashコンテンツを生成するためのプログラムである。図3に示すように、コンテンツ生成ソフトウェアは、マネージャ部、素材抽出エンジン、SWF(ShockWave Flash Object)生成エンジン等により構成されている。マネージャ部は、素材抽出エンジン及びSWFエンジンの実行を制御するとともに、コンテンツ生成ソフトウェアを利用するユーザ(店舗従業員やシステム管理者)に対して、Flashコンテンツを生成するためのGUI(Graphical User Interface)を提供するためのソフトウェアである。素材抽出エンジンは、商品詳細ページのHTML文書からWeb素材としてのコンテンツを抽出するとともに、商品詳細ページ特有のコンテンツを判定するためのソフトウェアである。コンテンツの抽出は、後述のコンテンツブロック(コンテンツグループの一例)の単位で行われる。SWFエンジンは、与えられた1又は複数のコンテンツ(Web素材)に基づいてFlashコンテンツを生成するためのソフトウェアである。なお、新たなコンテンツとしてFlashコンテンツ以外のリッチインターネットアプリケーションを生成する場合、SWF生成エンジンに代えて、例えば、マイクロソフト社のSilverlight(商標)の生成エンジンを適用しても良い。また、Ajax(Asynchronous JavaScript(登録商標) + XML)等の技術を利用して動的ページを実現するスクリプトを生成するソフトウエアを適用しても良い。
【0042】
以下に、Flashコンテンツの生成の概要について説明する。図3に示すように、システム制御部20は、ショッピングサーバ2から商品詳細ページDB201に登録されているHTML文書を取得して解析し、Web素材たるコンテンツをコンテンツブロック単位で抽出する。そして、その抽出結果として、抽出したコンテンツブロック毎にコンテンツブロック対応情報(コンテンツ情報の一例)を素材抽出DB101に登録する(1)。この処理は、Flashコンテンツの生成前に予め行われ、基本的には、商品詳細ページDB201に登録されている全HTML文書、すなわち、ショッピングサイトを構成する全ての商品詳細ページについて抽出が行われる。
【0043】
その後、システム管理者又は店舗従業員により、Flashコンテンツの生成対象となる商品詳細ページのHTML文書のURLが指定される(2)。すると、システム制御部20は、指定されたURLに基づいてショッピングサーバ2からHTML文書を取得し、コンテンツブロックを抽出する。そして、制御部20は、素材抽出DB101を参照して、抽出した各コンテンツブロックの全商品詳細ページにおける出現頻度を計算する。計算される出現頻度としては、出現回数(度数)であっても良いし、全商品詳細ページの全コンテンツブロックに対する出現回数の割合(相対度数)であっても良い。そして、システム制御部20は、出現頻度の最も小さいコンテンツブロックを、指定されたURLに対応する商品詳細ページ特有のコンテンツブロックであると判定する(3)。
【0044】
システム制御部20は、特有のコンテンツブロックであると判定したコンテンツブロックに含まれるコンテンツをショッピングサーバ2を介して商品詳細ページDB201から取得する。システム制御部20は、取得したコンテンツに基づいてFlashコンテンツを生成する(4)。そして、システム管理者又は店舗従業員は、生成されたFlashコンテンツをダウンロードする(5)。なお、Flashコンテンツのダウンロードの前に、システム管理者や店舗従業員によって適宜Flashコンテンツを修正することができるようにしても良い。
【0045】
次に、コンテンツブロックの抽出方法について説明する。なお、本実施形態においては、テキストデータ及び画像データがWeb素材として抽出されるものとする。
【0046】
例えば、商品詳細ページの構成(レイアウト)が図4に示すようなものであるとする。Web素材としての各コンテンツは、商品詳細ページ上において、それぞれ或るまとまり(かたまり)毎に表示されている。その各まとまりがコンテンツブロックに相当する。各コンテンツは、HTML文書に記述されているDIVタグ及びTABLEタグ(予め定められたタグの一例)により夫々コンテンツブロックに分けられる。つまり、各コンテンツは、DIVタグ及びTABLEタグによりブロック化(グループ化)される。
【0047】
図4には、コンテンツブロック301〜306が表示されている。コンテンツブロック301は、例えば、ページのヘッダ部分のコンテンツブロックであり、テキストA及び画像aにより構成されている。また、コンテンツブロック302は、例えば、各種カテゴリの商品に関するWebページに移動するためのナビゲーション部分のコンテンツブロックであり、例えば、他のWebページへのリンクを示すテキストB、テキストC及びテキストDにより構成されている。また、コンテンツブロック303は、例えば、商品に関する情報が表示されるコンテンツブロックであり、商品名等の見出しを示すテキストE、コンテンツブロック304及びコンテンツブロック305により構成されいている。このように、コンテンツブロックが入れ子状、つまり、階層構造になっている場合もある。この場合、コンテンツブロック303に含まれるコンテンツはテキストEのみとされ、コンテンツブロック304及びコンテンツブロック305は、コンテンツブロック303から独立しているものとされる。コンテンツブロック304は、例えば、商品の詳細を示すコンテンツブロックであり、詳細な説明を示すテキストF、商品等の画像としての画像b及び画像cにより構成されている。コンテンツブロック305は、例えば、商品購入の際の一般的な注意事項等を示すコンテンツブロックであり、テキストG及びテキストHにより構成されている。コンテンツブロック306は、例えば、コピーライト表示を示すコンテンツブロックであり、テキストIにより構成されている。
【0048】
これらのコンテンツブロックのうち、コンテンツブロック301、302、305及び306は、図4に示す商品詳細ページ以外の商品詳細ページ上でも比較的頻繁に現れる。一方、コンテンツブロック303(テキストE)及びコンテンツブロック304は、当該商品詳細ページにだけに用いられるか、又は、他の商品詳細ページで用いられるとしても、その頻度はコンテンツブロック301、302、305及び306に比べて小さい。よって、例えば、コンテンツブロック303又はコンテンツブロック304が、当該商品詳細ページ特有のコンテンツブロックであると判断されることとなる。
【0049】
図4に示す商品詳細ページのHTML文書をDOM(Document Object Model)ツリー、すなわち、木構造で表したものが図5である。なお、図5に示すDOMツリーにおいて、本実施形態の説明に必要のないタグのノードの図示は省略している。
【0050】
DOMツリーにおいては、DIVタグを示すDIVノード及びTABLEタグを示すTABLEノードが、各コンテンツをコンテンツブロックにブロック化するノードとされる(以下、「ブロック化ノード」という)。システム制御部20は、例えば、深さ優先探索によりDOMツリーを探索し、コンテンツブロックを確定していく。具体的に、システム制御部20は、ブロック化ノードを発見すると、当該ノードを頂点とする部分木の各ノードに規定されているコンテンツを一まとめにしてコンテンツブロックとする。ただし、コンテンツブロックが階層的に規定された結果、或るブロック化ノード(以下、「上位のブロック化ノード」という)を発見した後、当該ブロック化ノードの子孫のノードの中から更にブロック化ノード(以下、「下位のブロック化ノード」という)を発見すると、コンテンツブロックが分割される。例えば、ルートノードからの距離が近いノードほど階層的により上位のノードであるとすると、上位のブロック化ノードを頂点とする部分木(以下、「上位部分木」という)に相当するコンテンツブロックを、下位のブロック化ノードを頂点とする部分木(以下、「下位部分木」という)に相当するコンテンツブロックと、上位部分木のうち下位部分木を除く部分に相当するコンテンツブロックとに分ける(例えば、コンテンツブロック304とコンテンツブロック303)。この場合においては、前者のコンテンツブロックを、後者のコンテンツブロックよりも階層的に下位にあるものとする。例えば、コンテンツブロック301、302、303及び306の階層は1であり、コンテンツブロック304及び305の階層は2である。つまり、階層の値が小さいほど階層的により上位となる。
【0051】
これを、HTML文書のタグの記述で説明すると、基本的にはブロック化タグが記述されていると、ブロック化タグに挟まれた範囲内に規定が記述されているコンテンツが、まとめて当該ブロック化タグに対応するコンテンツブロックとされる。ただし、ブロック化タグが階層的に記述されている場合、或るブロック化タグに挟まれた範囲内に規定が記述されているコンテンツのうち、当該ブロック化タグよりも下位に記述されているブロック化タグに挟まれた範囲に規定が記述されているコンテンツを除いたものが、まとめて当該ブロック化タグに対応するコンテンツブロックとされる。
【0052】
このようにしてコンテンツブロックを抽出すると、システム制御部20は、抽出結果を示すコンテンツブロック対応情報を素材抽出DB101に登録する。図6に示すように、コンテンツブロック対応情報(符号401)は、コンテンツブロック毎に登録される。コンテンツブロック対応情報には、抽出元のHTML文書のURL設定部分(符号402)とブロック構成情報(符号403)とにより構成されている。ブロック構成情報には、抽出された各コンテンツが設定される。ここで、テキストデータについては、DOMツリーにおけるテキストノードの内容が設定される。一方、画像データについては、画像データそのものの代わりとして、DOMツリーにおいてIMGタグを示すIMGノードのsrc属性としての画像データのURLが設定される。
【0053】
[3.ショッピングシステムの動作]
次に、ショッピングシステムSの動作について、図7乃至図12を用いて説明する。
【0054】
[3.1 全商品詳細ページからのコンテンツブロック抽出時]
図7は、本実施形態に係るコンテンツ生成サーバ1のシステム制御部20の素材抽出処理における処理例を示すフローチャートである。
【0055】
素材抽出処理は、例えば、定期的に実行されたり、システム管理者の操作に基づいて管理端末3から素材抽出処理の実行のリクエストが送信されてきたときに開始される。素材抽出処理において、システム制御部20は、商品詳細ページDB201に登録されている全てのHTML文書を解析する。そのために、システム制御部20は、例えば、商品詳細ページDB201に登録されているHTML文書の一覧の情報を予めショッピングサーバ2から取得しておき、この一覧の情報に基づいてHTML文書を取得しても良いし、ショッピングサイトのトップページのHTML文書から次々とリンクを辿って、商品詳細ページのHTML文書を順次取得しても良い。
【0056】
図7に示すように、システム制御部20は、素材抽出DB101を初期化する(ステップS1)。具体的に、システム制御部20は、素材抽出DB101にコンテンツブロック対応情報が登録されている場合には、全てのコンテンツブロック対応情報を素材抽出DB101から削除する。
【0057】
次いで、システム制御部20は、全商品詳細ページのうち最初に取得すべき商品詳細ページのHTML文書のURLを特定し(ステップS2)、特定したURLを設定したリクエストをショッピングサーバ2に送信することにより、当該ショッピングサーバ2からHTML文書を取得する(ステップS3)。次いで、システム制御部20は、取得したHTML文書を指定して、後述する1ページ対応抽出処理を実行する(ステップS4)。この1ページ対応抽出処理では、取得したHTML文書からコンテンツブロックが抽出され、コンテンツブロック対応情報が登録される。
【0058】
次いで、システム制御部20は、全ての商品詳細ページのコンテンツブロックを抽出したか否かを判定する(ステップS5)。このとき、システム制御部20は、コンテンツブロックを抽出していない商品詳細ページが存在する場合には(ステップS5:NO)、次の商品詳細ページのHTML文書のURLを特定して(ステップS6)、ステップS3に移行する。そして、システム制御部20は、ステップS3〜S6の処理を繰り返して全ての商品詳細ページのコンテンツブロックを抽出すると(ステップS5:YES)、素材抽出処理を終了させる。
【0059】
なお、システム制御部20は、素材抽出DB101を初期化してコンテンツブロック対応情報を登録し直さなくても良い。例えば、システム制御部20は、素材抽出DB101を初期化を行わず、前回素材抽出処理を実行した後に新規生成された商品詳細ページについてコンテンツブロック対応情報を生成して素材抽出DB101に追加登録し、また、前回素材抽出処理を実行した後に更新された商品詳細ページについてコンテンツブロック対応情報を生成して素材抽出DB101に更新登録しても良い。
【0060】
図8は、本実施形態に係るコンテンツ生成サーバ1のシステム制御部20の1ページ対応抽出処理における処理例を示すフローチャートである。
【0061】
図8に示すように、システム制御部20は、先ず、取得したHTML文書のDOMツリーをRAM19上に生成する(ステップS21)。
【0062】
次いで、システム制御部20は、ブロック数NUMに0を設定するとともに、階層LVに0を設定する(ステップS22)。ブロック数NUMは、現時点で発見済みのコンテンツブロックの個数である。また、階層LVは、DOMツリーにおいて現在探索中のノードが属するコンテンツブロックの階層である。NUM及びLVは何れもグローバル変数であり、1ページ対応抽出処理及び後述するツリー探索処理からアクセスが可能である。
【0063】
次いで、システム制御部20は、DOMツリーのルートノードを指定して(ステップS23)、ツリー探索処理を実行する(ステップS24)。ツリー探索処理は再帰呼び出しが可能であり、このツリー探索処理により、Webページから全てのコンテンツブロックが抽出され、コンテンツブロック対応情報が生成される。
【0064】
次いで、システム制御部20は、ツリー探索処理により生成された各コンテンツブロック対応情報を素材抽出DB101に登録する(ステップS25)。システム制御部20は、この処理を終えると、1ページ対応抽出処理を終了させる。
【0065】
図9は、本実施形態に係るコンテンツ生成サーバ1のシステム制御部20のツリー探索処理における処理例を示すフローチャートである。
【0066】
図9に示すように、システム制御部20は、先ず、指定されたノードの種類を判定する(ステップS31)。このとき、システム制御部20は、指定されたノードの種類が、DIVノード又はTABLEノード(ブロック化ノード)である場合には、すなわち、コンテンツブロックが発見された場合には(ステップS31:DIV又はTABLE)、ステップS32に移行する。
【0067】
ステップS32において、システム制御部20は、ブロック数NUMに1を加算するとともに、階層LVに1を加算する。次いで、システム制御部20は、ブロック番号BN[LV]にNUMを設定する(ステップS33)。ブロック番号BN[LV]は、現在探索中のノードが属する階層LVで示されるコンテンツブロックのブロック番号である。このブロック番号は、コンテンツブロックの発見順に付与される。また、BN[LV]は、グローバル変数である。
【0068】
次いで、システム制御部20は、ブロック番号BN[LV]のコンテンツブロックに対応するコンテンツブロック対応情報を初期化する(ステップS34)。具体的に、システム制御部20は、コンテンツブロック対応情報を格納する領域をRAM19上に設定し、取得したHTML文書のURLを、当該領域に設定する。
【0069】
次いで、システム制御部20は、指定されたノードの子ノードのうち、未だ探索されていない子ノードが存在するか否かを判定する(ステップS35)。このとき、システム制御部20は、未だ探索されていない子ノードが存在する場合には(ステップS35:YES)、ステップS36に移行する。
【0070】
ステップS36において、システム制御部20は、探索されていない子ノードのうちの1つの子ノードを指定して、ツリー探索処理を実行する(ステップS37)。システム制御部20は、ツリー探索処理を終えると、ステップS35に移行する。
【0071】
そして、システム制御部20は、ステップS35〜S37の処理を繰り返して全ての子ノードのツリー探索処理を終えると(ステップS35:NO)、ステップS38に移行する。なお、システム制御部20は、指定されたノードの子ノードが1つも存在しない場合にも、ステップS38に移行する。ステップS38において、システム制御部20は、階層LVから1を減算して、ツリー探索処理を終了させる。
【0072】
ステップS31において、システム制御部20は、指定されたノードの種類がテキストノードである場合には(ステップS31:テキスト)、指定されたノードの内容(テキストデータ)を、ブロック番号BN[LV]のコンテンツブロックに対応するコンテンツブロック対応情報中のブロック構成情報に追加設定する(ステップS39)。システム制御部20は、この処理を終えると、ツリー探索処理を終了させる。
【0073】
ステップS31において、システム制御部20は、指定されたノードの種類がIMGノードである場合には(ステップS31:IMG)、指定されたノードのsrc属性として設定されている画像データのURLを取得し、取得したURLを、ブロック番号BN[LV]のコンテンツブロックに対応するコンテンツブロック対応情報中のブロック構成情報に追加設定する(ステップS40)。システム制御部20は、この処理を終えると、ツリー探索処理を終了させる。
【0074】
ステップS31において、システム制御部20は、指定されたノードの種類が、DIVノード、TABLEノード、テキストノード、及びIMGノードの何れでもない場合には(ステップS31:その他)、指定されたノードの子ノードのうち、未だ探索されていない子ノードが存在するか否かを判定する(ステップS41)。このとき、システム制御部20は、未だ探索されていない子ノードが存在する場合には(ステップS41:YES)、探索されていない子ノードのうちの1つの子ノードを指定して(ステップS42)、ツリー探索処理を実行する(ステップS43)。システム制御部20は、ツリー探索処理を終えると、ステップS41に移行する。
【0075】
一方、システム制御部20は、指定されたノードの全ての子ノードのツリー探索処理を終えた場合、又は、指定されたノードの子ノードが1つも存在しない場合には(ステップS41:NO)、ツリー探索処理を終了させる。
【0076】
[3.2 Flashコンテンツ生成時]
図10は、本実施形態に係るコンテンツ生成サーバ1のシステム制御部20のコンテンツ生成処理における処理例を示すフローチャートである。
【0077】
コンテンツ生成処理は、システム管理者の操作に基づいて管理端末3からコンテンツ生成処理の実行のリクエストが送信されてきたとき、又は、店舗従業員の操作に基づいて店舗端末4からコンテンツ生成処理の実行のリクエストが送信されてきたときに開始される。
【0078】
そして、システム管理者又は店舗従業員がFlashコンテンツの生成対象とするHTML文書のURLを指定すると、図10に示すように、システム制御部20は、指定されたURLを管理端末3又は店舗端末4から受信する(ステップS51)。次いで、システム制御部20は、受信したURLを設定したリクエストをショッピングサーバ2に送信することにより、当該ショッピングサーバ2からHTML文書を取得する(ステップS52)。
【0079】
次いで、システム制御部20は、取得したHTML文書を指定して、後述する特有コンテンツブロック判定処理を実行する(ステップS53)。この特有コンテンツブロック判定処理では、取得したHTML文書からコンテンツブロックが抽出され、当該HTML文書特有のコンテンツブロックが判定される。
【0080】
次いで、システム制御部20は、特有と判定されたコンテンツブロックを構成する各コンテンツを取得する(ステップS54)。このとき、システム制御部20は、テキストデータを取得する場合には、特有と判定されたコンテンツブロックに対応するコンテンツブロック対応情報からテキストデータを取得する。一方、システム制御部20は、画像データを取得する場合には、特有と判定されたコンテンツブロックに対応するコンテンツブロック対応情報から画像データのURLを取得し、取得されたURLを設定したリクエストをショッピングサーバ2に送信することにより、商品詳細ページDB201に登録されている画像データをショッピングサーバ2から取得する。
【0081】
次いで、システム制御部20は、取得した全てのコンテンツを指定して、後述するFlashコンテンツ生成処理を実行する(ステップS55)。
【0082】
次いで、システム制御部20は、Flashコンテンツ生成処理において生成されたFlashコンテンツを、生成要求元の管理端末3又は店舗端末4に送信する(ステップS56)。システム制御部20は、この処理を終えると、コンテンツ生成処理を終了させる。
【0083】
図11は、本実施形態に係るコンテンツ生成サーバ1のシステム制御部20の特有コンテンツブロック判定処理における処理例を示すフローチャートである。
【0084】
図11に示すように、システム制御部20は、先ず、1ページ対応抽出処理と同様に、取得したHTML文書のDOMツリー生成(ステップS61)、ブロック数NUM及び階層LVに対して0の設定を行い(ステップS62)、DOMツリーのルートノードを指定して(ステップS63)、ツリー探索処理を実行する(ステップS64)。
【0085】
次いで、システム制御部20は、ブロック番号iに1を設定する(ステップS65)。次いで、システム制御部20は、ブロック番号iのコンテンツブロックの出現頻度を計算する(ステップS66)。
【0086】
具体的に、システム制御部20は、ツリー探索処理において生成されたコンテンツブロック対応情報i(ブロック番号iのコンテンツブロックに対応するコンテンツブロック対応情報)のブロック構成情報と、素材抽出DB101に登録されている各コンテンツブロック対応情報のブロック構成情報とを比較する。このとき、システム制御部20は、ブロック構成情報の内容が一致する場合には、出現回数1回としてカウントする。このとき、システム制御部20は、ブロック構成情報中におけるコンテンツの規定順は無視してかまわない。また、システム制御部20は、素材抽出DB101に登録されているコンテンツブロック対応情報のブロック構成情報に規定されている一部のコンテンツがコンテンツブロック対応情報iのブロック構成情報に規定されている全部のコンテンツに一致する場合も、出現回数1回としてカウントしても良い。更に、システム制御部20は、コンテンツブロック対応情報のブロック構成情報中に規定されているテキストデータ同士を比較する場合には、テキストデータが示す文章等そのものが一致するか否かを判定するのではなく、その文章等により表現されている実質的な内容を比較しても良い。例えば、システム制御部20は、夫々のテキストデータの形態素解析等を行うことによりテキストデータから単語を抽出し、抽出した単語同士を比較しても良い。そして、システム制御部20は、全ての単語が一致した場合にテキストデータ同士が一致したと判断しても良いし、所定の割合以上で単語が一致した場合にテキストデータ同士が一致したと判断しても良い。システム制御部20は、このようにしてコンテンツブロック対応情報iのブロック構成情報と、素材抽出DB101に登録されている全てのコンテンツブロック対応情報のブロック構成情報とを比較して、出現頻度を計算する。
【0087】
システム制御部20は、出現頻度を計算すると、ブロック番号iに1を加算して(ステップS67)、ブロック番号iがブロック数NUMの値より大きいか否かを判定する(ステップS68)。このとき、システム制御部20は、ブロック番号iがブロック数NUMの値以下である場合には(ステップS68:NO)、ステップS66に移行する。そして、システム制御部20は、ツリー探索処理において抽出された全てのコンテンツブロックの出現頻度を計算すると(ステップS68:YES)、ステップS69に移行する。
【0088】
ステップS69において、システム制御部20は、コンテンツブロック1からブロック数NUMが示すブロック番号までの全てのコンテンツブロックの出現頻度同士を比較して、出現頻度が最も少ないコンテンツブロックを、特有のコンテンツブロックであると判定する(ステップS69)。システム制御部20は、この処理を終えると、特有コンテンツブロック判定処理を終了させる。
【0089】
図12は、本実施形態に係るコンテンツ生成サーバ1のシステム制御部20のFlashコンテンツ生成処理における処理例を示すフローチャートである。なお、本実施形態においては、商品詳細ページに掲載されている商品を紹介するコンテンツとして、特有のコンテンツブロックであると判定されたコンテンツブロックに含まれる各コンテンツをスライドショー表示するFlashコンテンツを生成するものとして以下説明する。
【0090】
図12に示すように、システム制御部20は、先ず、指定された各コンテンツの表示サイズを調整する(ステップS71)。例えば、システム制御部20は、Flashコンテンツ再生時の実際の表示サイズに合うように、画像データの縦横の画素数を調整したり、テキストデータのフォントサイズ等を調整する。また、システム制御部20は、コンテンツの表示サイズがFlashコンテンツ再生時の実際表示サイズに比べて大きすぎる場合には、当該コンテンツを複数に分割する。また、システム制御部20は、コンテンツの表示サイズがFlashコンテンツ再生時の実際表示サイズに比べて小さすぎる場合には、複数のコンテンツを1つに結合する。
【0091】
次いで、システム制御部20は、各コンテンツの表示順序を決定する(ステップS72)。各コンテンツの表示順序は、基本的にはツリー探索処理におけるコンテンツブロック対応情報に対するコンテンツの設定順と同じ順序である。つまり、HTML文書において当該文書の先頭の近くに規定されているコンテンツほど、表示順序が早くなる。
【0092】
次いで、システム制御部20は、各コンテンツの遷移方法を決定する(ステップS73)。つまり、システム制御部20は、スライドショー表示において、表示するコンテンツを切り換える際に施されるエフェクト(表示効果)を決定する。エフェクトとしては、例えば、フェードイン/フェードアウト、スライド、ランダムブロック、ワイプ、エフェクトなし等がある。
【0093】
次いで、システム制御部20は、ステップS71において調整が行われた各コンテンツに基づき、ステップS72及びS73において決定された条件に基づいてFlashコンテンツを生成する(ステップS74)。システム制御部20は、この処理を終えると、Flashコンテンツ生成処理を終了させる。
【0094】
以上説明したように、本実施形態によれば、コンテンツ生成サーバ1のシステム制御部20が、指定されたURLに対応する商品詳細ページを構成しているコンテンツを抽出し、指定されたURLに対応する商品詳細ページを構成している各コンテンツの出現頻度を計算し、指定されたURLに対応する商品詳細ページを構成するコンテンツのうち、出現頻度が最も小さいコンテンツを当該商品詳細ページに特有のコンテンツであると判断する。
【0095】
従って、出現頻度が小さいコンテンツであるほど、指定された商品詳細ページ以外にはあまり出現しないコンテンツであるので、最も出現頻度が小さいコンテンツを判断することで、指定された商品詳細ページに特有のコンテンツを特定される。よって、商品詳細ページに特有のコンテンツを容易に抽出することができる。
【0096】
また、コンテンツ生成サーバ1のシステム制御部20が、商品詳細ページに特有のコンテンツであると判断されたコンテンツに基づいてFlashコンテンツを生成する。
【0097】
従って、当該商品詳細ページに掲載されている商品の内容等を端的に示し又は特徴を示すコンテンツを生成することができる。
【0098】
また、コンテンツ生成サーバ1のシステム制御部20が、ショッピングサイトに含まれる複数の商品詳細ページ上における各コンテンツの出現頻度を計算する。
【0099】
従って、ショッピングサイトに含まれる複数のWebページ上において、指定された商品詳細ページを構成している各コンテンツの出現頻度が計算されるので、ショッピングサイト内で共通して用いられるコンテンツは、特有のコンテンツではないと判定することが可能となり、判断精度を上げることができる。
【0100】
また、コンテンツ生成サーバ1のシステム制御部20が、ショッピングサイトを構成する全ての商品詳細ページについて、商品詳細ページを構成しているコンテンツを抽出し、抽出したコンテンツを示すコンテンツブロック対応情報を予め素材抽出DB101に登録しておき、素材抽出DB101に登録された各コンテンツブロック対応情報に基づいて、指定されたURLに対応する商品詳細ページを構成している各コンテンツの出現頻度を計算する。
【0101】
従って、全ての商品詳細ページに基づいて出現頻度計算されるので、特有のコンテンツを判断する精度を上げることができる。
【0102】
また、コンテンツ生成サーバ1のシステム制御部20が、1つ以上のコンテンツで構成されるコンテンツブロックの単位で、商品詳細ページを構成しているコンテンツを抽出し、指定されたURLに対応する商品詳細ページを構成している各コンテンツブロック出現頻度を計算し、指定されたURLに対応する商品詳細ページを構成するコンテンツブロックのうち、出現頻度が最も小さいコンテンツブロックを当該商品詳細ページに特有のコンテンツブロックであると判断する。
【0103】
従って、商品詳細ページ上において、例えば、ヘッダ部分、ナビゲーション部分、商品の詳細を示す部分、商品購入の際の一般的な注意事項等を示す部分、コピーライト表示の部分等のように、1つ以上のコンテンツがまとまりをもってコンテンツブロックとして表示されている場合に、商品詳細ページに特有のコンテンツブロックを抽出することができる。
【0104】
また、コンテンツ生成サーバ1のシステム制御部20が、商品詳細ページを構成しているコンテンツを当該商品詳細ページのHTML文書に基づいて抽出し、HTML文書においてDIVタグ又はTABLEタグに基づいてコンテンツブロックを定める。
【0105】
従って、DIVタグにより、HTML文書の作成の際に明示的にブロック化された1つ以上のコンテンツを特定することができ、また、TABLEタグにより、表形式でブロック化されて表示される1つ以上のコンテンツを特定することができるので、例えば、これらのタグにより、商品詳細ページに特有のコンテンツと、特有ではないコンテンツとがブロック化されている場合に、Webページに特有のコンテンツを判断する精度を上げることができる。
【0106】
なお、上記実施形態においては、Webページを構成しているコンテンツとして、テキストデータ及び画像データを抽出していたが、抽出対象のコンテンツはこれらに限られるものではない。例えば、Webページ上に表示されるコンテンツ、又は、Webページが表示されている際に再生されるコンテンツ(例えば、動画データ、音声データ、電子文書等)であれば良い。また、所定の種類のコンテンツのみを抽出しても良い。
【0107】
また、上記実施形態においては、指定された商品詳細ページを構成する各コンテンツブロックに対応するコンテンツブロック対応情報を、素材抽出DB101に登録されている全てのコンテンツブロック対応情報と比較することによって各出現頻度が計算されていた。つまり、指定された商品詳細ページを構成する各コンテンツブロックの出現頻度を計算する場合に、ショッピングサイトに含まれる全ての商品詳細ページを対象とした範囲に出現する頻度を計算するようになっていたが、全ての商品詳細ページを対象としなくても良い。例えば、対象となる店舗の指定を可能とし、指定された店舗に対応する全ての商品詳細ページを対象とした範囲に出現する頻度を計算するようにしても良い。また、例えば、予め定められたページ数分の商品詳細ページを対象としても良い。
【0108】
また、予め各商品詳細ページからコンテンツブロックの抽出しておかなくても良い。例えば、Flashコンテンツ生成時に、出現頻度を計算するのに必要な各商品詳細ページについてコンテンツブロックの抽出を行えば良い。
【0109】
また、上記実施形態においては、システム管理者又は店舗従業員から商品詳細ページのHTML文書のURLを指定されたときに、Flashコンテンツを生成するようにしていたが、例えば、新規の商品詳細ページが作成されたときや、商品詳細ページが更新されたときに、新規作成され又は更新された商品詳細ページについてのFlashコンテンツを生成しても良い。
【0110】
また、上記実施形態においては、DIVタグに挟まれているコンテンツ、及び、TABLEタグに挟まれているコンテンツを、コンテンツブロックとしてグループ化して抽出していたが、コンテンツをグループ化するタグとしては、これらのみに限られるものではない。
【0111】
また、上記実施形態においては、Webページに特有のコンテンツをコンテンツブロックの単位で抽出していたが、各コンテンツをそのまま一つずつ抽出しても良い。
【0112】
また、上記実施形態においては、出現頻度が最も小さいコンテンツブロックのみをWebページに特有のコンテンツとしていたが、例えば、出現頻度が1番目に小さいコンテンツブロックからN番目(Nは2以上の自然数)に小さいコンテンツまでのN個のコンテンツブロックをWebページに特有のコンテンツブロックとしても良い。これは、例えば、所望の処理に必要なコンテンツブロックの個数が2個以上で予め定められている場合に適用することができる。また、例えば、所望の処理に必要なコンテンツ(コンテンツブロックではない)の個数が2個以上で予め定められている場合に、出現頻度が1番目に小さいコンテンツブロックに含まれるコンテンツのみでは足りないときには、出現頻度が2番目に小さいコンテンツブロックをWebページに特有のコンテンツであると追加認定し、出現頻度が1番目に小さいコンテンツブロックと2番目に小さいコンテンツブロックに含まれるコンテンツのみで足りないときには、出現頻度が3番目に小さいコンテンツブロックをWebページに特有のコンテンツであると追加認定する、といった処理を行っても良い。
【0113】
また、上記実施形態においては、Webページに特有のコンテンツを用いてFlashコンテンツを生成していたが、Flashコンテンツ以外のコンテンツ(例えば、動画データ、静止画像データ、電子文書等)を生成しても良い。
【0114】
また、Webページに特有のコンテンツの用途としては新たなコンテンツの生成のみに限られるものではない。例えば、Webページに特有の画像データを判定し、特有の画像データと判定された画像データを、当該Webページを代表する画像データとして、検索結果等に表示しても良い。
【0115】
また、上記実施形態においては、サーバ装置に対して本発明の特有コンテンツ判定装置を適用していたが、記憶手段やネットワーク上からHTML文書を取得することができれば、端末装置等に対して特有コンテンツ判定装置を適用しても良い。
【0116】
また、上記実施形態においては、HTML文書に対して本発明のドキュメントデータを適用していたが、マークアップ言語で記述され、Webページを構成するコンテンツを示すデータ(例えば、XHTML(Extensible HyperText Markup Language)文書等)に対してドキュメントデータを適用しても良い。
【0117】
また、上記実施形態においては、ショッピングサイトにおける商品詳細ページを構成するコンテンツを抽出していたが、対象とするサイト及びページの種類はこれらのみに限られるものではない。
【符号の説明】
【0118】
1 コンテンツ生成サーバ
2 ショッピングサーバ
3 管理端末
4 店舗端末
5 ユーザ端末
11 操作部
12 表示部
13 通信部
14 ドライブ部
15 記憶部
16 入出力インタフェース部
17 CPU
18 ROM
19 RAM
20 システム制御部
21 システムバス
101 素材抽出DB
201 商品詳細ページDB
NW ネットワーク
S ショッピングシステム
【特許請求の範囲】
【請求項1】
指定されたWebページを構成しているコンテンツを抽出する抽出手段と、
前記指定されたWebページを構成している各コンテンツの出現頻度を計算する計算手段と、
前記指定されたWebページを構成しているコンテンツのうち、出現頻度が最も小さいコンテンツを当該Webページに特有のコンテンツであると判定する判定手段と、
を備えることを特徴とする特有コンテンツ判定装置。
【請求項2】
請求項1に記載の特有コンテンツ判定装置において、
前記計算手段は、所定のサイトに含まれる複数のWebページ上における各コンテンツの出現頻度を計算することを特徴とする特有コンテンツ判定装置。
【請求項3】
請求項1又は請求項2に記載の特有コンテンツ判定装置において、
前記抽出手段は、前記所定のサイトに含まれる予め定められた種類の各WebページについてWebページを構成しているコンテンツを抽出し、抽出したコンテンツを示すコンテンツ情報を予め記憶手段に記憶しておき、
前記計算手段は、前記記憶されたコンテンツ情報に基づいて、前記指定されたWebページを構成している各コンテンツの出現頻度を計算することを特徴とする特有コンテンツ判定装置。
【請求項4】
請求項1乃至3の何れか一項に記載の特有コンテンツ判定装置において、
前記抽出手段は、1つ以上のコンテンツで構成されたコンテンツグループの単位で、Webページを構成しているコンテンツを抽出し、
前記計算手段は、前記指定されたWebページを構成しているコンテンツグループの出現頻度を計算し、
前記判定手段は、前記指定されたWebページを構成しているコンテンツグループのうち、出現頻度が最も小さいコンテンツグループを当該Webページに特有のコンテンツグループであると判定することを特徴とする特有コンテンツ判定装置。
【請求項5】
請求項4に記載の特有コンテンツ判定装置において、
前記抽出手段は、所定のマークアップ言語で記述され、Webページを構成するコンテンツを示すドキュメントデータに基づいて、コンテンツグループを抽出することを特徴とする特有コンテンツ判定装置。
【請求項6】
請求項5に記載の特有コンテンツ判定装置において、
前記抽出手段は、前記コンテンツを示すドキュメントデータにおいて予め定められたタグに基づいてコンテンツグループを定めることを特徴とする特有コンテンツ判定装置。
【請求項7】
指定されたWebページを構成しているコンテンツを抽出する抽出行程と、
前記指定されたWebページを構成している各コンテンツの出現頻度を計算する計算行程と、
前記指定されたWebページを構成しているコンテンツのうち、出現頻度が最も小さいコンテンツを当該Webページに特有のコンテンツであると判定する判定行程と、
を有することを特徴とする特有コンテンツ判定方法。
【請求項8】
コンピュータを、
指定されたWebページを構成しているコンテンツを抽出する抽出手段、
前記指定されたWebページを構成している各コンテンツの出現頻度を計算する計算手段、及び、
前記指定されたWebページを構成しているコンテンツのうち、出現頻度が最も小さいコンテンツを当該Webページに特有のコンテンツであると判定する判定手段、
として機能させることを特徴とする特有コンテンツ判定プログラム。
【請求項9】
請求項1乃至6の何れか1項に記載の特有コンテンツ判定装置と、
前記特有コンテンツ判定装置により特有のコンテンツであると判定されたコンテンツに基づいて、新たなコンテンツを生成する生成手段と、
を備えることを特徴とするコンテンツ生成装置。
【請求項1】
指定されたWebページを構成しているコンテンツを抽出する抽出手段と、
前記指定されたWebページを構成している各コンテンツの出現頻度を計算する計算手段と、
前記指定されたWebページを構成しているコンテンツのうち、出現頻度が最も小さいコンテンツを当該Webページに特有のコンテンツであると判定する判定手段と、
を備えることを特徴とする特有コンテンツ判定装置。
【請求項2】
請求項1に記載の特有コンテンツ判定装置において、
前記計算手段は、所定のサイトに含まれる複数のWebページ上における各コンテンツの出現頻度を計算することを特徴とする特有コンテンツ判定装置。
【請求項3】
請求項1又は請求項2に記載の特有コンテンツ判定装置において、
前記抽出手段は、前記所定のサイトに含まれる予め定められた種類の各WebページについてWebページを構成しているコンテンツを抽出し、抽出したコンテンツを示すコンテンツ情報を予め記憶手段に記憶しておき、
前記計算手段は、前記記憶されたコンテンツ情報に基づいて、前記指定されたWebページを構成している各コンテンツの出現頻度を計算することを特徴とする特有コンテンツ判定装置。
【請求項4】
請求項1乃至3の何れか一項に記載の特有コンテンツ判定装置において、
前記抽出手段は、1つ以上のコンテンツで構成されたコンテンツグループの単位で、Webページを構成しているコンテンツを抽出し、
前記計算手段は、前記指定されたWebページを構成しているコンテンツグループの出現頻度を計算し、
前記判定手段は、前記指定されたWebページを構成しているコンテンツグループのうち、出現頻度が最も小さいコンテンツグループを当該Webページに特有のコンテンツグループであると判定することを特徴とする特有コンテンツ判定装置。
【請求項5】
請求項4に記載の特有コンテンツ判定装置において、
前記抽出手段は、所定のマークアップ言語で記述され、Webページを構成するコンテンツを示すドキュメントデータに基づいて、コンテンツグループを抽出することを特徴とする特有コンテンツ判定装置。
【請求項6】
請求項5に記載の特有コンテンツ判定装置において、
前記抽出手段は、前記コンテンツを示すドキュメントデータにおいて予め定められたタグに基づいてコンテンツグループを定めることを特徴とする特有コンテンツ判定装置。
【請求項7】
指定されたWebページを構成しているコンテンツを抽出する抽出行程と、
前記指定されたWebページを構成している各コンテンツの出現頻度を計算する計算行程と、
前記指定されたWebページを構成しているコンテンツのうち、出現頻度が最も小さいコンテンツを当該Webページに特有のコンテンツであると判定する判定行程と、
を有することを特徴とする特有コンテンツ判定方法。
【請求項8】
コンピュータを、
指定されたWebページを構成しているコンテンツを抽出する抽出手段、
前記指定されたWebページを構成している各コンテンツの出現頻度を計算する計算手段、及び、
前記指定されたWebページを構成しているコンテンツのうち、出現頻度が最も小さいコンテンツを当該Webページに特有のコンテンツであると判定する判定手段、
として機能させることを特徴とする特有コンテンツ判定プログラム。
【請求項9】
請求項1乃至6の何れか1項に記載の特有コンテンツ判定装置と、
前記特有コンテンツ判定装置により特有のコンテンツであると判定されたコンテンツに基づいて、新たなコンテンツを生成する生成手段と、
を備えることを特徴とするコンテンツ生成装置。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【公開番号】特開2011−96073(P2011−96073A)
【公開日】平成23年5月12日(2011.5.12)
【国際特許分類】
【出願番号】特願2009−250594(P2009−250594)
【出願日】平成21年10月30日(2009.10.30)
【出願人】(399037405)楽天株式会社 (416)
【Fターム(参考)】
【公開日】平成23年5月12日(2011.5.12)
【国際特許分類】
【出願日】平成21年10月30日(2009.10.30)
【出願人】(399037405)楽天株式会社 (416)
【Fターム(参考)】
[ Back to top ]