説明

検索装置、検索システム、検索方法及び検索プログラム

【課題】アクセス回数を抑制し、必要な情報を迅速に入手することを課題とする。
【解決手段】検索要求受付部11は、コンテンツの検索要求をウェブクライアント30から受け付ける。ウェブページ収集部12は、検索要求に該当するコンテンツが含まれるウェブページを収集する。ウェブブロック抽出部13は、収集された各ウェブページから、検索要求に該当するコンテンツが含まれるウェブブロックを抽出する。ウェブページ生成部14は、各ウェブページから抽出された複数のウェブブロックをウェブクライアント30にて一括表示するためのウェブページを生成する。ウェブページ返答部15は、生成されたウェブページをウェブクライアント30に返答する。

【発明の詳細な説明】
【技術分野】
【0001】
開示の技術は、検索装置、検索システム、検索方法及び検索プログラムに関する。
【背景技術】
【0002】
近年、インターネットなどの通信ネットワーク上では、ウェブ(Web)検索システムが普及している。このウェブ検索システムにおいて、ウェブクライアントは、例えばユーザがウェブブラウザにキーワードを入力することで、コンテンツの検索要求を検索サーバに送信する。一方、検索サーバは、検索要求を受け付け、検索要求に該当するコンテンツが含まれるウェブページのハイパーリンク(Hyperlink)が記載されたリストを生成し、ウェブクライアントに返答する。ウェブクライアントは、例えばユーザがこの返答結果に含まれるハイパーリンクを選択することで、選択されたウェブページにアクセスする。
【0003】
このウェブ検索システムは、様々なウェブページへのアクセスをサポートすることからポータルサイトなどと呼ばれている。もっとも、アクセス先のウェブページに記載されたコンテンツの量が多く、不要な情報も多数記載されているような場合には、必要なコンテンツを探し出す作業が煩雑化する。このため、従来、ウェブページに混在する複数のコンテンツをウェブページよりも細かい単位であるウェブブロック単位で分割し、コンテンツの収集を効率化する試みが提案されている。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】塚本 圭一郎他、「Webページのブロック間類似度を用いたハイパーリンクの参照箇所推定手法」、電子情報通信学会、2009年総合大会、2009年3月
【非特許文献2】Deng Cai他、「Block−based Web Search」、SIGIR’04、2004年7月
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上述した従来の技術では、依然として必要なコンテンツを探し出す作業が煩雑であり、必要な情報を迅速に入手することができない。すなわち、ウェブ検索システムにおいて、検索サーバは、多数のハイパーリンクが記載されたリストをウェブクライアントに返答するので、多くの場合、ユーザは、複数のウェブページに繰り返しアクセスすることが必要であり、その作業は煩雑である。アクセス先をウェブブロックに絞り込んだとしても、アクセス回数が削減されるわけではないので、依然としてその作業は煩雑である。このようなことから、アクセス回数を抑制し、必要な情報を迅速に入手することが求められている。
【課題を解決するための手段】
【0006】
上述した課題を解決し、目的を達成するために、検索装置は、受付部と、収集部と、抽出部と、生成部と、返答部とを備える。受付部は、コンテンツの検索要求を端末から受け付ける。収集部は、前記検索要求に該当するコンテンツが含まれるウェブページを収集する。抽出部は、前記収集部によって収集された各ウェブページから、前記検索要求に該当するコンテンツが含まれるブロックを抽出する。生成部は、前記各ウェブページから抽出された複数のブロックを前記端末にて一括表示するためのウェブページを生成する。返答部は、前記生成部によって生成されたウェブページを前記端末に返答する。
【0007】
また、検索方法は、コンピュータが、受付工程と、収集工程と、抽出工程と、生成工程と、返答工程とを含む。受付工程は、コンテンツの検索要求を端末から受け付ける。収集工程は、前記検索要求に該当するコンテンツが含まれるウェブページを収集する。抽出工程は、前記収集工程によって収集された各ウェブページから、前記検索要求に該当するコンテンツが含まれるブロックを抽出する。生成工程は、前記各ウェブページから抽出された複数のブロックを前記端末にて一括表示するためのウェブページを生成する。返答工程は、前記生成工程によって生成されたウェブページを前記端末に返答する。
【0008】
また、検索プログラムは、受付手順と、収集手順と、抽出手順と、生成手順と、返答手順とをコンピュータに実行させる。受付手順は、コンテンツの検索要求を端末から受け付ける。収集手順は、前記検索要求に該当するコンテンツが含まれるウェブページを収集する。抽出手順は、前記収集手順によって収集された各ウェブページから、前記検索要求に該当するコンテンツが含まれるブロックを抽出する。生成手順は、前記各ウェブページから抽出された複数のブロックを前記端末にて一括表示するためのウェブページを生成する。返答手順は、前記生成手順によって生成されたウェブページを前記端末に返答する。
【発明の効果】
【0009】
開示の技術よれば、アクセス回数を抑制し、必要な情報を迅速に入手することが可能になるという効果を奏する。
【図面の簡単な説明】
【0010】
【図1】図1は、実施例1に係る検索システムのネットワーク構成を示す図である。
【図2】図2は、実施例1に係るオンデマンド百科事典システムの動作を説明するための図である。
【図3】図3は、実施例1に係るハイパーリンク集を説明するための図である。
【図4】図4は、実施例1に係るウェブブロック集を説明するための図である。
【図5】図5は、実施例2に係る検索システムのネットワーク構成を示す図である。
【発明を実施するための形態】
【0011】
以下に、本願の開示する検索装置、検索システム、検索方法及び検索プログラムの実施例を説明する。なお、以下の実施例により開示の技術が限定されるものではない。
【実施例1】
【0012】
[実施例1に係る検索システムの概要]
実施例1において、検索装置は「オンデマンド百科事典システム」として実現される。また、実施例1においては、ウェブサーバ、検索サーバ、オンデマンド百科事典システム及びウェブクライアントを含むシステムを、「検索システム」と称する。
【0013】
図1は、実施例1に係る検索システムのネットワーク構成を示す図である。図1に示すように、実施例1においては、ウェブサーバ1、ウェブサーバ2、ウェブサーバ3、ウェブサーバ4、検索サーバ20、オンデマンド百科事典システム10及びウェブクライアント30が、インターネット100を介して接続される。なお、ウェブクライアント30は、ユーザ31によって操作される。
【0014】
ウェブサーバ1は、コンテンツとしてウェブページ1を保有し、これをインターネット100上で公開している。また、ウェブサーバ2も同様に、コンテンツとしてウェブページ2を保有し、これをインターネット100上で公開している。また、ウェブサーバ3も同様に、コンテンツとしてウェブページ3を保有し、これをインターネット100上で公開している。また、ウェブサーバ4も同様に、コンテンツとしてウェブページ4を保有し、これをインターネット100上で公開している。また、各ウェブページ1、ウェブページ2、ウェブページ3及びウェブページ4には、複数のウェブブロックが含まれている。なお、ウェブブロックは、ウェブページに含まれるコンテンツを、ウェブページよりも細かい単位で区分けしたものである。
【0015】
ここで、従来の技術によるコンテンツの検索の場合、ウェブクライアント30は、コンテンツの検索要求を検索サーバ20に送信する。検索サーバ20は、ウェブページ1、ウェブページ2、ウェブページ3及びウェブページ4が、ウェブサーバ1、ウェブサーバ2、ウェブサーバ3及びウェブサーバ4のいずれに保有されているかの情報を予め収集し、記憶している。このため、検索サーバ20は、検索要求をウェブクライアント30から受け付けると、検索要求に含まれた検索クエリを元にウェブページの検索を行い、検索要求に該当するコンテンツがどのウェブサーバに保有されているかを特定する。そして、検索サーバ20は、特定したウェブサーバのハイパーリンクが記載されたリストをウェブクライアント30に返答する。
【0016】
一方、ウェブクライアント30は、検索サーバ20からの返答を受け取ると、直接、ウェブサーバ1、ウェブサーバ2、ウェブサーバ3あるいはウェブサーバ4のいずれかに、ウェブページ1、ウェブページ2、ウェブページ3あるいはウェブページ4の閲覧要求を送信する。すると、閲覧要求を受け付けたウェブサーバは、該当するウェブページをウェブクライアント30に送信する。多くの場合、検索サーバ20は、多数のハイパーリンクが記載されたリストをウェブクライアント30に返答する。すると、ウェブクライアント30を操作するユーザ31が、このリストに含まれるハイパーリンクを順に選択してクリックすることで、ウェブクライアント30は、複数のウェブサーバに繰り返し閲覧要求を送信することになる。
【0017】
さて、このような従来の技術によるコンテンツの検索に対し、実施例1に係る検索システムにおいて、ウェブクライアント30は、コンテンツの検索要求をオンデマンド百科事典システム10に送信する。
【0018】
図1に示すように、オンデマンド百科事典システム10は、検索要求受付部11、ウェブページ収集部12、ウェブブロック抽出部13、ウェブページ生成部14及びウェブページ返答部15を備える。
【0019】
検索要求受付部11は、コンテンツの検索要求をウェブクライアント30から受け付ける。ウェブページ収集部12は、検索要求に該当するコンテンツが含まれるウェブページを収集する。ウェブブロック抽出部13は、ウェブページ収集部12によって収集された各ウェブページから、検索要求に該当するコンテンツが含まれるウェブブロックを抽出する。ウェブページ生成部14は、各ウェブページから抽出された複数のウェブブロックを検索要求の要求元であるウェブクライアント30にて一括表示するためのウェブページを生成する。ウェブページ返答部15は、ウェブページ生成部14によって生成されたウェブページを、検索要求の要求元であるウェブクライアント30に返答する。
【0020】
このように、オンデマンド百科事典システム10は、検索結果に基づいてアクセスするであろう複数のウェブページについて、ウェブブロックへの絞り込みを行うと共に、これらをウェブクライアント30にて一括表示させる。この結果、ユーザ31によるウェブサーバへのアクセス回数は抑制され、ユーザ31は必要な情報を迅速に入手することが可能になる。
【0021】
[実施例1に係るオンデマンド百科事典システム10の動作]
次に、実施例1に係るオンデマンド百科事典システム10について、その動作をより詳細に説明する。図2は、実施例1に係るオンデマンド百科事典システム10の動作を説明するための図である。図2は、ウェブクライアント30が検索要求(以下、検索クエリ)をオンデマンド百科事典システム10に送信してから、ウェブクライアント30のウェブブラウザ上にウェブブロック集のページが表示されるまでの動作フローを示す。
【0022】
また、図2は、オンデマンド百科事典システム10と連携動作する装置として、検索サーバ20、並びに、ウェブサーバ1、ウェブサーバ2、ウェブサーバ3及びウェブサーバ4を示す。検索サーバ20は、オンデマンド百科事典システム10から検索クエリを受け付け、検索結果として、検索クエリに該当するコンテンツが含まれるウェブページのハイパーリンクが記載されたリスト(以下、ハイパーリンク集)を返答する。各ウェブサーバは、各ウェブページをインターネット100上に公開している。オンデマンド百科事典システム10が、ハイパーリンク集に記載されたURL(Uniform Resource Locator)にアクセス要求を送信すると、各ウェブサーバは、アクセス応答として、ウェブページを返答する。
【0023】
以下、図2に示す矢印に沿って、実施例1に係る検索システムの処理手順全体を説明する。図2に示すように、オンデマンド百科事典システム10は、ユーザ31からの依頼としてウェブクライアント30から検索クエリを受け付けると、検索クエリに該当するコンテンツが含まれるウェブページを検索する(ステップS101)。具体的には、検索要求受付部11が検索クエリを受け付け、ウェブページ収集部12が検索サーバ20に検索クエリを送信し、検索結果としてハイパーリンク集を受け取る。
【0024】
ここで、ウェブページ収集部12が検索サーバ20から受け取るハイパーリンク集は、図3のような構成となっているものとする。図3は、実施例1に係るハイパーリンク集を説明するための図である。すなわち、図3に示す例において、ハイパーリンク集は、検索キーワードと共に、ウェブページ1に該当する見出し1、ウェブページ2に該当する見出し2、ウェブページ3に該当する見出し3、及びウェブページ4に該当する見出し4を含む。また、各見出しは、検索キーワードを含む。また、各見出しは、ウェブページ1へのハイパーリンク、ウェブページ2へのハイパーリンク、ウェブページ3へのハイパーリンク、及びウェブページ4へのハイパーリンクに対応する。
【0025】
図2に戻り、次に、オンデマンド百科事典システム10は、ウェブクライアント30から受け付けた検索クエリと、ステップS101において受け取ったハイパーリンク集とを用いて、ウェブページを収集する(ステップS102)。具体的には、ウェブページ収集部12が、ハイパーリンク集から各ウェブページのURLを抜き出し、抜き出したURLにアクセス要求を送信することで、検索クエリに該当するコンテンツが含まれるウェブページの収集を行う。
【0026】
例えば、ウェブページ収集部12は、各ウェブサーバ、すなわち、ウェブサーバ1、ウェブサーバ2、ウェブサーバ3及びウェブサーバ4それぞれに、アクセス要求を送信する。すると、各ウェブサーバは、アクセス要求に対し、アクセス応答を返信する。ここで、これらのアクセス応答には、各ウェブページ、すなわち、ウェブページ1、ウェブページ2、ウェブページ3及びウェブページ4それぞれが含まれている。そして、ウェブページ収集部12は、ハイパーリンク集と、ステップS102において収集した各ウェブページとを、次の処理を行うウェブブロック抽出部13に渡す。
【0027】
続いて、オンデマンド百科事典システム10は、ステップS102において収集された各ウェブページから、検索クエリに該当するコンテンツが含まれるウェブブロックを抽出する(ステップS103)。すなわち、ウェブブロック抽出部13は、検索キーワードが含まれるウェブブロックを抽出する。
【0028】
例えば、ウェブブロック抽出部13は、非特許文献1に記載された公知技術を用いて、ウェブブロックを抽出する。すなわち、ウェブブロック抽出部13は、まず、各ウェブページを、HTML(Hypertext Markup Language)のタグ構造、CSS(Cascading Style Sheet)によるウェブページのレイアウト情報、ウェブページ中のテキストの文字列長などに基づいて、複数のウェブブロックに分割する。
【0029】
次に、ウェブブロック抽出部13は、ウェブページ毎に、複数のウェブブロックの中から、ウェブブロックと検索キーワードとの類似性が最大となるウェブブロック(見出し情報を含むであろうウェブブロック)を抽出する。すなわち、ウェブブロック抽出部13は、ウェブページ1からウェブブロック1を抽出し、ウェブページ2からウェブブロック2を抽出し、ウェブページ3からウェブブロック3を抽出し、ウェブページ4からウェブブロック4を抽出する。なお、必ずしも1ウェブページから1ウェブブロックを抽出する手法に限られるものではなく、ウェブブロック抽出部13は、1ウェブページから複数のウェブブロックを抽出してもよい。
【0030】
そして、ウェブブロック抽出部13は、検索キーワードとの類似性が最大となるウェブブロックを各ウェブページから抽出すると、抽出した複数のウェブブロックを、検索クエリに該当するコンテンツを含むウェブブロックの集合(以下、ウェブブロック集)として、次の処理を行うウェブページ生成部14に渡す。
【0031】
続いて、オンデマンド百科事典システム10は、ステップS103において抽出されたウェブブロック集について、コンテンツ間の類似性が高いと判定されたウェブブロックが重複してウェブクライアント30にて表示されないように、重複した内容のウェブブロックを削除する(ステップS104)。具体的には、ウェブページ生成部14が、重複した内容のウェブブロックを削除する。
【0032】
すなわち、まず、ウェブページ生成部14は、ステップS103において抽出されたウェブブロック集、すなわち、ウェブブロック1、ウェブブロック2、ウェブブロック3及びウェブブロック4について、各ウェブブロックに含まれるコンテンツ間の類似性を計算する。例えば、ウェブページ生成部14は、各ウェブブロック中のテキストの語の類似性を計算する。そして、ウェブページ生成部14は、計算した類似性と所定の閾値とを比較し、閾値を上回ることにより過度に類似性が高いと判定されたウェブブロックの組は、ウェブブロック中の情報が重複しているとして、ウェブブロックの組の一方をウェブブロック集の中から取り除く。なお、類似性は、テキストの語の類似性に基づいて計算される手法に限られず、静止画、動画の数や、URLの類似性などに基づいて計算される手法でもよい。
【0033】
また、ウェブページ生成部14は、ウェブブロックの組の内のどちらを取り除くかを、ウェブブロックに含まれる情報量によって決定する。例えば、ウェブページ生成部14は、ウェブブロック中のテキストの語数を比較し、少ない方のウェブブロックを情報量が少ないウェブブロックとして削除対象にする。そして、ウェブページ生成部14は、重複した内容のウェブブロックを取り除く処理が終わると、それぞれ独立した情報を持つウェブブロックのみとなったウェブブロック集を用いて次の処理を行う。
【0034】
すなわち、オンデマンド百科事典システム10は、それぞれ独立した情報を持つウェブブロックのみとなったウェブブロック集を用いて、各ウェブブロックの表示位置の決定を行う(ステップS105)。具体的には、引き続きウェブページ生成部14が、各ウェブブロックの表示位置の決定を行う。
【0035】
すなわち、ウェブページ生成部14は、ウェブブロック間の参照関係の推定(ステップS105−1)及びウェブブロックのクラスタリング(ステップS105−2)の2つの工程を経ることにより、表示位置を決定する。また、例えば、ウェブページ生成部14は、HTMLを用いてウェブブロック集を構造化することで、表示位置を制御する。
【0036】
ウェブブロック間の参照関係の推定(ステップS105−1)を説明する。例えば、ウェブページ生成部14は、非特許文献1に記載された公知技術を用いて、ウェブブロック間の参照関係を推定する。すなわち、ウェブページ生成部14は、ウェブブロック集の中から、ウェブブロックを取り出した元のウェブページ間でハイパーリンクが結ばれており、かつ、ウェブブロック中のテキストの語の類似性が一定以上高いウェブブロックの組があるか否かを判定する。
【0037】
ウェブページ生成部14は、上述した条件を充たすウェブブロックの組があると判定すると、そのウェブブロックの組は参照関係にあるとして、ウェブクライアント30にウェブブロック集を表示する際に、参照関係にあるウェブブロック同士が隣接して配置されるように、ウェブブロックの組を構造化する。
【0038】
構造化の手法は、どのように各ウェブブロックを位置づけるかによって変化するが、例えば、ウェブページ生成部14は、
<div class=” referred”>
<div class=” ref-source-block”>[参照元ウェブブロック1]</div>
<div class=” ref-destination-block”>[参照先ウェブブロック2]</div>
</div>
のように、divタグ及びclass属性を用いることで、参照関係にあるウェブブロックの組を構造化する。
【0039】
次に、ウェブブロックのクラスタリング(ステップS105−2)を説明する。例えば、ウェブページ生成部14は、ウェブブロック集の中から、ウェブブロック中のテキストの語の共起関係からウェブブロックを分類し、まとめる。
【0040】
例えば、検索キーワードが「パソコン」であった場合、ウェブブロックの中には、「パソコン」に関するあらゆる情報が混在している(「パソコン、かつ、Windows(登録商標)」の情報、「パソコン、かつ、価格」の情報など)。ウェブページ生成部14は、混在するこれらの情報を、「パソコン、かつ、Windows」の情報を含むウェブブロックの集合、「パソコン、かつ、価格」の情報を含むウェブブロックの集合に、それぞれ分類する。
【0041】
そして、ウェブページ生成部14は、ウェブクライアント30にてウェブブロック集が表示される際に、同様の分類の中に含まれるウェブブロックの集合が隣接して配置されるように、ウェブブロックの組を構造化する。
【0042】
構造化の手法は、どのように各ウェブブロックを位置づけるかによって変化するが、例えば、ウェブページ生成部14は、
<div class=” PC Windows”>
[パソコン、かつ、Windowsの情報を持つウェブブロック1]
</div>
<div class=” PC Windows”>
[パソコン、かつ、Windowsの情報を持つウェブブロック2]
</div>
<div class=” PC Price”>
[パソコン、かつ、価格の情報を持つウェブブロック3]
</div>
のように、divタグ及びclass属性を用いることで、ウェブブロックの分類を構造化する。
【0043】
そして、ウェブページ生成部14は、2つの工程を経ることにより表示位置を決定し、次の処理を行う。
【0044】
すなわち、オンデマンド百科事典システム10は、ウェブブロック集のページを生成する(ステップS106)。具体的には、引き続きウェブページ生成部14が、ウェブブロック集のページを生成する。
【0045】
すなわち、ウェブページ生成部14は、ステップS105において構造化されたウェブブロック集をレイアウトするCSSやJavaScript(登録商標)を生成する。例えば、ウェブページ生成部14は、CSSに、
div.PC.Windows {border: medium solid blue;}
div.PC.Price {border: medium solid green;}
と記述することで、分類毎にウェブブロックを囲むボーダーの色を変える、というようなレイアウト指定を行う。
【0046】
そして、オンデマンド百科事典システム10は、ステップS106において生成したウェブブロック集のページをウェブクライアント30に返答することで、一連の処理を終了する。具体的には、ウェブページ返答部15が、ウェブブロック集のページをウェブクライアント30に返答する。
【0047】
ここで、図4は、実施例1に係るウェブブロック集を説明するための図である。図4に示すように、ウェブブロック集は、検索キーワードと共に、テキストコンテンツ1、テキストコンテンツ2、映像コンテンツ1、画像コンテンツ1で構成され、これらが見やすくなるように、百科事典のようにレイアウトされている。これらのコンテンツは、それぞれ、ウェブブロック1、ウェブブロック2、ウェブブロック3及びウェブブロック4に該当する。
【0048】
このように、実施例1によれば、ハイパーリンク集を返答する従来の検索とは異なり、百科事典風のウェブページをオンデマンドに生成し、これを返答することから、ユーザ31は、多数のウェブサーバにアクセスすることなく、必要な情報を素早く入手することが可能になる。また、ユーザ31は、より多くの情報を概観することが容易になるため、より高度な情報処理作業を支援することが期待される。
【0049】
[実施例1の効果]
上述したように、実施例1に係るオンデマンド百科事典システム10は、検索要求受付部11と、ウェブページ収集部12と、ウェブブロック抽出部13と、ウェブページ生成部14と、ウェブページ返答部15とを備える。検索要求受付部11は、コンテンツの検索要求をウェブクライアント30から受け付ける。ウェブページ収集部12は、検索要求に該当するコンテンツが含まれるウェブページを収集する。ウェブブロック抽出部13は、ウェブページ収集部12によって収集された各ウェブページから、検索要求に該当するコンテンツが含まれるウェブブロックを抽出する。ウェブページ生成部14は、各ウェブページから抽出された複数のウェブブロックをウェブクライアント30にて一括表示するためのウェブページを生成する。ウェブページ返答部15は、ウェブページ生成部14によって生成されたウェブページをウェブクライアント30に返答する。このようなことから、実施例1によれば、ユーザ31によるウェブサーバへのアクセス回数は抑制され、ユーザ31は必要な情報を迅速に入手することが可能になる。
【0050】
すなわち、実施例1によれば、オンデマンド百科事典システム10は、検索結果に基づいてアクセスするであろう複数のウェブページについて、ウェブブロックへの絞り込みを行うと共に、これらをウェブクライアント30にて一括表示させる。具体的には、オンデマンド百科事典システム10は、複数のウェブサーバに予めアクセスすることで、各ウェブサーバがインターネット100上に公開するコンテンツを取得する。そして、オンデマンド百科事典システム10は、取得した複数のコンテンツを列挙する形式で表示するためのウェブページを生成し、ウェブクライアント30に返答する。すると、ウェブクライアント30を利用するユーザ31は、このウェブページを閲覧するだけで、必要な情報を入手することが可能になる。併せて、ユーザ31によるウェブサーバへのアクセス回数が抑制されるため、必要なコンテンツを探し出す作業自体の煩雑さを緩和することも可能になる。
【0051】
また、実施例1に係るウェブページ生成部14は、ウェブクライアント30に返答するためのウェブページとして、テキストのみのウェブページのみならず、静止画及び動画のうち少なくとも一方を含むウェブページを生成する。例えば、ウェブページ生成部14は、テキスト及び静止画を含むウェブページを生成する。また、例えば、ウェブページ生成部14は、テキスト及び動画を含むウェブページを生成する。例えば、ウェブページ生成部14は、テキスト、静止画及び静止画を含むウェブページを生成する。
【0052】
すなわち、実施例1によれば、ウェブクライアント30に返答するコンテンツとして、テキスト、静止画及び動画を含めることで、ユーザ31は、多角的な情報収集が可能になり、より直観的な情報収集が可能になる。ひいては、より早期に必要な情報を収集できる効果が期待できる。
【0053】
また、実施例1に係るウェブページ生成部14は、各ウェブページから抽出された複数のウェブブロックについて、各ウェブブロックに含まれるコンテンツ間の類似性を計算する。そして、ウェブページ生成部14は、所定閾値以上に類似性が高いと判定された場合には、類似性が高いと判定されたウェブブロックが重複してウェブクライアント30にて表示されないようにウェブページを生成する。
【0054】
すなわち、実施例1によれば、各ウェブブロックに含まれるコンテンツ間の類似性、テキスト中に含まれる語の類似性、静止画、動画の数や、URLの類似性などから、内容が重複するウェブブロックを推定し、重複するコンテンツを表示しないようにすることで、ウェブクライアント30に表示される情報の情報量を高めることが可能になる。ひいては、より早期に多角的な情報を収集できる効果が期待できる。
【0055】
また、実施例1に係るウェブページ生成部14は、各ウェブページから抽出された複数のウェブブロックについて、ウェブブロック間の参照関係を推定し、参照関係を有するウェブブロック同士が近隣に配置されて表示されるようにウェブページを生成する。
【0056】
すなわち、実施例1によれば、ウェブブロック中のテキストに含まれる語の類似性と、ハイパーリンクの接続関係とから、ウェブブロック間の参照関係を推定し、参照関係にあるウェブブロック同士を近隣に配置することで、ユーザ31によるコンテンツの理解を助ける効果が期待できる。
【0057】
また、実施例1に係るウェブページ生成部14は、各ウェブページから抽出された複数のウェブブロックを、各ウェブブロックに含まれる語の共起関係に基づき分類し、同一の分類内に存在するウェブブロック同士が近隣に配置されて表示されるようにウェブページを生成する。
【0058】
すなわち、実施例1によれば、ウェブブロック中のテキストの語の共起関係からウェブブロックを分類し、同じ分類内に存在するウェブブロック同士を近隣に配置することで、ユーザ31によるコンテンツの理解を助ける効果が期待できる。
【実施例2】
【0059】
上述した実施例1においては、オンデマンド百科事典システム10は、インターネット100の一サーバ上で稼働していた。しかしながら、開示の技術はこれに限られるものではない。オンデマンド百科事典システム10は、ウェブクライアント30の計算機上で稼働してもよい。
【0060】
図5は、実施例2に係る検索システムのネットワーク構成を示す図である。図5に示すように、実施例2においては、オンデマンド百科事典システム10は、ウェブクライアント30の計算機上で稼働する。すなわち、ウェブクライアント30が、検索要求受付部11、ウェブページ収集部12、ウェブブロック抽出部13、ウェブページ生成部14及びウェブページ返答部15に相当する機能を有する。
【0061】
この場合、ウェブクライアント30は、実施例1においてオンデマンド百科事典システム10が稼働するサーバに対して送信していた検索クエリを、ウェブクライアント30のウェブブラウザからローカルホストに対して送信することで、オンデマンド百科事典システム10を利用することができる。
【0062】
なお、実施例2においては、ウェブクライアント30が、検索要求受付部11、ウェブページ収集部12、ウェブブロック抽出部13、ウェブページ生成部14及びウェブページ返答部15に相当する機能全てを有する例を説明したが、開示の技術はこれに限られるものではない。ウェブクライアント30は、その機能の一部を有してもよい。
【0063】
[実施例2の効果]
上述したように、実施例2に係る検索システムは、ウェブクライアント30による検索要求に応じてコンテンツを検索する。また、実施例2に係る検索システムにおいては、ウェブクライアント30が、検索要求受付部11、ウェブページ収集部12、ウェブブロック抽出部13、ウェブページ生成部14及びウェブページ返答部15に相当する機能を有する。このように、実施例1において説明したオンデマンド百科事典システム10の処理を、サーバ側だけでなくウェブクライアント30側でも実現可能にし、分散処理することで、サーバ高負荷時に、サーバの負荷を分散する効果が期待できる。
【実施例3】
【0064】
さて、これまで開示の技術の実施例1及び2を説明したが、開示の技術は、上記実施例以外にも種々の異なる形態にて実施されてよいものである。すなわち、開示の技術は、その他の様々な形態で実施されることが可能であり、種々の省略、置き換え、変更を行うことができる。
【0065】
例えば、上述した処理手順、名称、データなどについては、特記する場合を除いて任意に変更することができる。また、図1などに示したオンデマンド百科事典システム10の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、オンデマンド百科事典システム10の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。なお、これらの実施例やその変形は、開示の技術に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
【0066】
また、オンデマンド百科事典システム10にて行なわれる処理機能は、その全部又は任意の一部が、CPU(Central Processing Unit)にて解析実行されるプログラムによって実現され得る。すなわち、開示の技術に係る検索プログラムによる情報処理は、コンピュータを用いて具体的に実現される。
【符号の説明】
【0067】
10 オンデマンド百科事典システム
11 検索要求受付部
12 ウェブページ収集部
13 ウェブブロック抽出部
14 ウェブページ生成部
15 ウェブページ返答部

【特許請求の範囲】
【請求項1】
コンテンツの検索要求を端末から受け付ける受付部と、
前記検索要求に該当するコンテンツが含まれるウェブページを収集する収集部と、
前記収集部によって収集された各ウェブページから、前記検索要求に該当するコンテンツが含まれるブロックを抽出する抽出部と、
前記各ウェブページから抽出された複数のブロックを前記端末にて一括表示するためのウェブページを生成する生成部と、
前記生成部によって生成されたウェブページを前記端末に返答する返答部と
を備えたことを特徴とする検索装置。
【請求項2】
前記生成部は、前記ウェブページとして、テキストに加え、静止画及び動画のうち少なくとも一方を含むウェブページを生成することを特徴とする請求項1に記載の検索装置。
【請求項3】
前記生成部は、前記各ウェブページから抽出された複数のブロックについて、各ブロックに含まれるコンテンツ間の類似性を計算し、所定閾値以上に類似性が高いと判定された場合には、類似性が高いと判定されたブロックが重複して前記端末にて表示されないように前記ウェブページを生成することを特徴とする請求項1又は2に記載の検索装置。
【請求項4】
前記生成部は、前記各ウェブページから抽出された複数のブロックについて、ブロック間の参照関係を推定し、参照関係を有するブロック同士が近隣に配置されて表示されるように前記ウェブページを生成することを特徴とする請求項1〜3のいずれか一つに記載の検索装置。
【請求項5】
前記生成部は、前記各ウェブページから抽出された複数のブロックを、各ブロックに含まれる語の共起関係に基づき分類し、同一の分類内に存在するブロック同士が近隣に配置されて表示されるように前記ウェブページを生成することを特徴とする請求項1〜4のいずれか一つに記載の検索装置。
【請求項6】
端末による検索要求に応じてコンテンツを検索する検索システムであって、
コンテンツの検索要求を端末から受け付ける受付部と、
前記検索要求に該当するコンテンツが含まれるウェブページを収集する収集部と、
前記収集部によって収集された各ウェブページから、前記検索要求に該当するコンテンツが含まれるブロックを抽出する抽出部と、
前記各ウェブページから抽出された複数のブロックを前記端末にて一括表示するためのウェブページを生成する生成部と、
前記生成部によって生成されたウェブページを前記端末に返答する返答部とを備え、
前記端末が、前記受付部、前記収集部、前記抽出部、前記生成部、及び前記返答部のうち少なくとも一つを備えることを特徴とする検索システム。
【請求項7】
コンピュータが、
コンテンツの検索要求を端末から受け付ける受付工程と、
前記検索要求に該当するコンテンツが含まれるウェブページを収集する収集工程と、
前記収集工程によって収集された各ウェブページから、前記検索要求に該当するコンテンツが含まれるブロックを抽出する抽出工程と、
前記各ウェブページから抽出された複数のブロックを前記端末にて一括表示するためのウェブページを生成する生成工程と、
前記生成工程によって生成されたウェブページを前記端末に返答する返答工程と
を含むことを特徴とする検索方法。
【請求項8】
コンテンツの検索要求を端末から受け付ける受付手順と、
前記検索要求に該当するコンテンツが含まれるウェブページを収集する収集手順と、
前記収集手順によって収集された各ウェブページから、前記検索要求に該当するコンテンツが含まれるブロックを抽出する抽出手順と、
前記各ウェブページから抽出された複数のブロックを前記端末にて一括表示するためのウェブページを生成する生成手順と、
前記生成手順によって生成されたウェブページを前記端末に返答する返答手順と
をコンピュータに実行させることを特徴とする検索プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2012−88800(P2012−88800A)
【公開日】平成24年5月10日(2012.5.10)
【国際特許分類】
【出願番号】特願2010−232971(P2010−232971)
【出願日】平成22年10月15日(2010.10.15)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【出願人】(504176911)国立大学法人大阪大学 (1,536)
【Fターム(参考)】