説明

座標付きホームページ情報収集提供方法、記録媒体及び装置

【課題】 検索の対象となる情報数の増大と情報母集団の偏りを是正した座標つきホームページ収集提供を実現する。
【解決手段】 ホームページ情報の効率的に再帰収集するために、各リンク情報の前後の語句を評価し収集の優先度を評価し、収集したホームページをその記述内容により評価し、ホームページから場所を示す語句を抽出し地図及び複数のデータベースと比較して座標値割付けを実施し、複数端末からの複数の検索方法及びその結果の複数の表示方法ならびにそれを実装する装置である。

【発明の詳細な説明】
【0001】
【発明の属する技術分野】コンピュータネットワーク上に保存されているホームページの数は飛躍的に増大し、効率的に情報を発見するためには、ネットワーク上で公開されている検索サービスを利用することが一般的になってきている。本発明は、この検索サービスを実現する上で不可欠なホームページ情報の収集、収集した情報の整理及びその提供方法及びその実施装置に関し、特に、地理情報もしくは地理情報及びホームページに記述されている情報のカテゴリに注目することによるホームページ収集の効率化、ホームページ中の地理情報に基づいたホームページ情報への座標値割当ての実施、及びその収集した情報を対象とした検索及び表示技術に適用して有効な技術に関するものである。
【0002】
【従来の技術】最近のコンピュータの高性能化、ネットワーク技術の進歩により、多くのコンピュータが、限定領域で利用するイントラネットもしくは世界的に普及したインターネットに接続可能になっている。
【0003】ネットワークにおいては、ハイパーテキストトランスファプロトコルに基づいて情報を転送するWWWが普及し、様々な情報が個人や企業を問わずに発信され、その情報が広く共有されているようになっている。また、コンピュータの高性能化によって、ブラウザと呼ばれるソフトウェア上でWWW上の情報が表示可能となっており、従来の製造メーカによる機種依存の大きい作業環境から、様々な端末から世界中の人々が同じ情報を同じように扱えるようになってきている。
【0004】このように情報発信・共有の手段として普及したWWWではあるが、発信される情報量の爆発的な増大によって、情報検索サービスの重要性が増している。米国の検索サービス「Yahoo」をはじめ、国内でも自動的にホームページを収集しその中に含まれるキーワードによって検索を可能にするロボット型検索サービス「goo」「InfoseekJapan」、一般からの登録に応じて情報を整理しホームページを階層的に管理し、その上での検索サービスを実現している「Yahoo!Japan」がある。
【0005】また、前記の検索方法が文字列によりキーワードを入力し検索を実行するのに対し、「広告情報の供給方法及びその登録方法(特開平9−34902号公報)」「情報提供システム、情報提供方法、情報処理装置、及び、情報処理方法(特開平10−254907号公報)」では地図上の情報の視覚的な分かりやすさを利用した情報提供を実現している。
【0006】前記特開平9−34902号公報、特開平10−254907号公報はともに、情報登録時にその情報と地図上の位置の入力を求め、その登録情報を地図上に表示する。また、これらのシステムはWWW上での動作が考慮されており、ブラウザ上で利用する際には、表示された登録情報を選択することで、その登録情報に関する詳細な画面の表示や、その登録情報ホームページである場合にはそのホームページを表示するクリッカブルマップの機能を有している。
【0007】
【発明が解決しようとする課題】しかしながら、前記特開平9−34902号公報では、広告媒体としての利用に特化していること、また、特開平10−254907号公報では、地図や情報の検索時に地名の入力を簡略化しネットワーク接続時間を節約することが主目的であることから、双方とも検索対象となる情報は、第3者からの登録により収集している。そのため、情報検索の母集団が営利目的や一部の興味に偏っており、ネットワーク上に発信されている多くの公共目的、福祉目的、個人・団体の情報は検索の対象外となっている。これを従来の枠組みに解決するためには、検索サービス運営する管理者による膨大な作業なくしては、母集団の偏りは解決できない。
【0008】本発明の目的は、検索の対象となる情報数の増大と情報母集団の偏りを是正した座標付きホームページ収集提供を実現することが可能な技術を提供することにある。本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述及び添付図面によって明らかにする。
【0009】
【課題を解決するための手段】本願において開示される発明のうち代表的なものの概要を簡単に説明すると、以下のとおりである。
(1)コンピュータネットワーク上のホームページ情報を収集し、その収集した情報を検索用に編集加工してデータベースとして管理し、コンピュータネットワークに接続された複数の端末からの検索要求に応じて、収集したホームページ情報を提供するホームページ情報収集提供方法であって、所定の地域もしくはカテゴリの設定のもと、所定のホームページを起点とし、ホームページ中に記述されているリンク情報に抽出し、その前後に出現する地域、住所、場所を指し示す固有名詞及びそれらに関連もしくはそれらを導出する語句、ホームページ分類用のキーワードであるカテゴリ名及びそれに関連した語句を検出してリンク情報の属性とし、その属性すべてもしくは一部の組み合わせから抽出した各リンク情報と、あらかじめ設定された地域もしくはカテゴリとの関連度を属性もしくはその文脈の類似度で求め、その類似度からリンク情報の優先度を計算し、特定の地域及びカテゴリに関連したリンク先ホームページを優先的に再帰収集する再帰収集処理ステップと、前記収集したホームページをデザイン、記述されている情報の公共性及び知名度、情報更新頻度及びホームページ作成者もしくは発信者の本人性及び信頼度を複数情報源間でその出現を比較評価し、収集したホームページの中からデータベースとして管理しホームページ情報として提供するホームページを取捨選択するホームページ取捨選択処理ステップと、前記選択したホームページに含まれる語句、画像、映像もしくは音声から抽出できる情報にしたがって選択されたホームページを階層的にカテゴリ分けするカテゴリ分け処理ステップと、前記選択したホームページから、ホームページで主に記述されている情報に関する住所、地名、建物名、企業名、団体名もしくはそれらを導出する語句を抽出し、複数の住宅地図情報を収録したデータベースもしくは地図ソフトウェアからその各属性ごとに類似度の高い候補を検索し、各属性間の類似度の高さ及び複数のデータベースもしくは地図ソフトウェア間の情報一致度を評価して最良の候補を選択し、ホームページと地図上の情報の対を作成する情報対作成処理ステップと、前記ホームページと対にした地図上の情報からホームページ中に記述されている情報の緯度経度もしくは地図特有の直角座標系の座標値を求め、ホームページと地図上の情報と座標の組合わせを作成する情報座標組合わせ作成処理ステップと、前記組み合わせを記録したデータベースと、その検索の高速化を図るために作成したインデックスをあわせて管理運営する管理運営処理ステップと、コンピュータネットワークに接続された複数の端末からのカテゴリもしくは座標範囲指定のある検索要求に応じて、カテゴリ、座標範囲のすべてもしくはその一部の組み合わせで決定される範囲の座標情報付きホームページを提供するホームページ提供処理ステップとを具備する座標付きホームページ情報収集提供方法である。
【0010】(2)前記コンピュータネットワークは、特定の端末からのみ接続利用できるイントラネットであり、そのネットワーク上で動作する。
(3)前記コンピュータネットワークは、インターネットであり、そのネットワーク上で動作する。
(4)前記再帰収集処理ステップは、ハイパーテキストトランスファプロトコルを利用してファイルを転送してホームページを収集する処理手順である。
(5)前記ホームページ提供処理ステップは、複数端末からの検索要求をハイパーテキストトランスファプロトコルを利用して受け付け、同プロトコルを利用して検索結果を返送する処理手順である。
(6)前記ホームページ提供処理ステップは、コンピュータネットワークに接続された複数の端末から、緯度経度もしくは地図特有の直角座標系の座標値による地理的範囲、もしくはその地理的範囲と情報のカテゴリを組による検索を受け付ける処理手順である。
【0011】(7)前記ホームページ提供処理ステップは、コンピュータネットワークに接続された複数の端末から、その端末上に表示される地図を利用して指定される地理的範囲、もしくはその地理的範囲と情報のカテゴリを組による検索を受け付ける処理手順である。
(8)前記ホームページ提供処理ステップは、コンピュータネットワークに接続された複数の端末から、その端末上に表示される3次元の都市を再現したウォークスルー空間を利用して指定される地理的範囲、もしくはその地理的範囲と情報のカテゴリを組による検索を受け付ける処理手順である。
(9)前記ホームページ提供処理ステップは、検索結果を文字情報としての表示、及びその表示情報を選択することでそのホームページを表示するハイパーリンク機能を実現できる形にホームページ情報を整形して出力する処理手順である。
【0012】(10)前記ホームページ提供処理ステップは、検索結果の各ホームページ情報の座標値を利用し、端末上で表示される地図上へのホームページの位置の表示、及びその表示された位置を選択することでそのホームページを表示するハイパーリンク機能を実現できる形にホームページ情報を整形し出力する処理手順である。
(11)前記ホームページ提供処理ステップは、検索結果の各ホームページ情報の座標値を利用し、端末上で表示される3次元の都市を再現したウォークスルー空間内のオブジェクトもしくは特定の位置へのホームページ情報の表示、及びその表示された情報を選択することでそのホームページを表示するハイパーリンク機能を実現できる形にホームページ情報を整形し出力する処理手順である。
【0013】(12)前記手段の座標付きホームページ情報収集提供方法の処理手順を、コンピュータに実行させるためのプログラムを記録した記録媒体であって、所定の地域もしくはカテゴリの設定のもと、所定のホームページを起点とし、ホームページ中に記述されているリンク情報に抽出し、その前後に出現する地域、住所、場所を指し示す固有名詞及びそれらに関連もしくはそれらを導出する語句、ホームページ分類用のキーワードであるカテゴリ名及びそれに関連した語句を検出してリンク情報の属性とし、その属性すべてもしくは一部の組み合わせから抽出した各リンク情報と、あらかじめ設定された地域もしくはカテゴリとの関連度を属性もしくはその文脈の類似度で求め、その類似度からリンク情報の優先度を計算し、特定の地域及びカテゴリに関連したリンク先ホームページを優先的に再帰収集する再帰収集処理手順と、前記収集したホームページをデザイン、記述されている情報の公共性及び知名度、情報更新頻度及びホームページ作成者もしくは発信者の本人性及び信頼度を複数情報源間でその出現を比較評価し、収集したホームページの中からデータベースとして管理しホームページ情報として提供するホームページを取捨選択するホームページ取捨選択処理手順と、前記選択したホームページに含まれる語句、画像、映像もしくは音声から抽出できる情報にしたがって選択されたホームページを階層的にカテゴリ分けするカテゴリ分け処理手順と、前記選択したホームページから、ホームページで主に記述されている情報に関する住所、地名、建物名、企業名、団体名もしくはそれらを導出する語句を抽出し、複数の住宅地図情報を収録したデータベースもしくは地図ソフトウェアからその各属性ごとに類似度の高い候補を検索し、各属性間の類似度の高さ及び複数のデータベースもしくは地図ソフトウェア間の情報一致度を評価して最良の候補を選択し、ホームページと地図上の情報の対を作成する情報対作成処理ステップと、前記ホームページと対にした地図上の情報からホームページ中に記述されている情報の緯度経度もしくは地図特有の直角座標系の座標値を求め、ホームページと地図上の情報と座標の組合わせを作成する情報座標組合わせ作成処理手順と、その組み合わせを記録したデータベースと、その検索の高速化を図るために作成したインデックスをあわせて管理運営する管理運営処理手順と、コンピュータネットワークに接続された複数の端末からのカテゴリもしくは座標範囲指定のある検索要求に応じて、カテゴリ、座標範囲のすべてもしくはその一部の組み合わせで決定される範囲の座標情報付きホームページを提供するホームページ提供処理手順をコンピュータに実行させるための、プログラムを記録した記録媒体である。
【0014】(13)コンピュータネットワーク上のホームページ情報を収集し、その収集した情報を検索用に編集加工してデータベースとして管理し、コンピュータネットワークに接続された複数の端末からの検索要求に応じて、収集したホームページ情報を提供するホームページ情報収集提供装置であって、所定の地域もしくはカテゴリの設定のもと、所定のホームページを起点とし、ホームページ中に記述されているリンク情報に抽出し、その前後に出現する地域、住所、場所を指し示す固有名詞及びそれらに関連もしくはそれらを導出する語句、ホームページ分類用のキーワードであるカテゴリ名及びそれに関連した語句を検出してリンク情報の属性とし、その属性すべてもしくは一部の組み合わせから抽出した各リンク情報と、あらかじめ設定された地域もしくはカテゴリとの関連度を属性もしくはその文脈の類似度で求め、その類似度からリンク情報の優先度を計算し、特定の地域及びカテゴリに関連したリンク先ホームページを優先的に再帰収集する再帰収集手段と、前記収集したホームページをデザイン、記述されている情報の公共性及び知名度、情報更新頻度及びホームページ作成者もしくは発信者の本人性及び信頼度を複数情報源間でその出現を比較評価し、収集したホームページの中からデータベースとして管理しホームページ情報として提供するホームページを取捨選択するホームページ取捨選択手段と、前記選択したホームページに含まれる語句、画像、映像もしくは音声から抽出できる情報にしたがって選択されたホームページを階層的にカテゴリ分けするカテゴリ分け手段と、前記選択したホームページから、ホームページで主に記述されている情報に関する住所、地名、建物名、企業名、団体名もしくはそれらを導出する語句を抽出し、複数の住宅地図情報を収録したデータベースもしくは地図ソフトウェアからその各属性ごとに類似度の高い候補を検索し、各属性間の類似度の高さ及び複数のデータベースもしくは地図ソフトウェア間の情報一致度を評価して最良の候補を選択し、ホームページと地図上の情報の対を作成する情報対作成手段と、前記ホームページと対にした地図上の情報からホームページ中に記述されている情報の緯度経度もしくは地図特有の直角座標系の座標値を求め、ホームページと地図上の情報と座標の組合わせを作成する情報座標組合わせ作成手段と、その組み合わせを記録したデータベースと、その検索の高速化を図るために作成したインデックスをあわせて管理運営する管理運営手段と、コンピュータネットワークに接続された複数の端末からのカテゴリもしくは座標範囲指定のある検索要求に応じて、カテゴリ、座標範囲のすべてもしくはその一部の組み合わせで決定される範囲の座標情報付きホームページを提供するホームページ提供手段とを具備する座標付きホームページ情報収集提供装置である。
【0015】(14)前記コンピュータネットワークは、特定の端末からのみ接続利用できるイントラネットであり、そのネットワーク上で動作するものである。
(15)前記手段(13)の座標付きホームページ情報収集提装置において、前記コンピュータネットワークは、インターネットであり、そのネットワーク上で動作するものである。
(16)前記再帰収集手段は、ハイパーテキストトランスファプロトコルを利用してファイルを転送してホームページを収集するものである。
(17)前記ホームページ提供手段は、複数端末からの検索要求をハイパーテキストトランスファプロトコルを利用して受け付け、同プロトコルを利用して検索結果を返送するものである。
【0016】(18)前記ホームページ提供手段は、コンピュータネットワークに接続された複数の端末から、緯度経度もしくは地図特有の直角座標系の座標値による地理的範囲、もしくはその地理的範囲と情報のカテゴリを組による検索を受け付けるものである。
(19)前記ホームページ提供手段は、コンピュータネットワークに接続された複数の端末から、その端末上に表示される地図を利用して指定される地理的範囲、もしくはその地理的範囲と情報のカテゴリを組による検索を受け付けるものである。
(20)前記ホームページ提供手段は、コンピュータネットワークに接続された複数の端末から、その端末上に表示される3次元の都市を再現したウォークスルー空間を利用して指定される地理的範囲、もしくはその地理的範囲と情報のカテゴリを組による検索を受け付けるものである。
【0017】(21)前記ホームページ提供手段は、検索結果を文字情報としての表示、及びその表示情報を選択することでそのホームページを表示するハイパーリンク機能を実現できる形にホームページ情報を整形して出力するものである。
(22)前記ホームページ提供手段は、検索結果の各ホームページ情報の座標を利用し、端末上で表示される地図上へのホームページの位置の表示、及びその表示された位置を選択することでそのホームページを表示するハイパーリンク機能を実現できる形にホームページ情報を整形し出力するものである。
(23)検索結果の各ホームページ情報の座標値を利用し、端末上で表示される3次元の都市を再現したウォークスルー空間内のオブジェクトもしくは特定の位置へのホームページ情報の表示、及びその表示された情報を選択することでそのホームページを表示するハイパーリンク機能を実現できる形にホームページ情報を整形し出力するものである。
【0018】本発明のポイントは、ホームページ情報の効率的に再帰収集するために、各リンク情報の前後の語句を評価し収集の優先度を評価し、収集したホームページをその記述内容により評価し、ホームページから場所を示す語句を抽出し地図及び複数のデータベースと比較して座標値割付けを実施し、複数端末からの複数の検索方法及びその結果の複数の表示方法及び装置を実現することである。
【0019】コンピュータネットワーク上のホームページの数は膨大であり、その接続を表す相互リンクも網状に発達しており、無作為にホームページを収集すると所定の地域及び所定のカテゴリに属すホームページ収集数に対し、それに関係無いホームページ収集の数が遥かに上回ることになり、ネットワーク利用効率及び記憶装置の利用効率上問題がある。
【0020】本発明のホームページ情報の収集では、各リンク情報の前後の語句を評価し、所定の地域及びカテゴリと関連度を求め、関連度の高いリンクを優先的に収集することで、効率的なホームページの再帰収集が可能となる。また、収集したホームページをその記述内容により評価することで、情報検索の対象となる情報の母集団の質を維持・向上させることができる。また、ホームページから場所を示す語句を抽出し地図及び複数のデータベースと比較し座標値割付けを実施することで、第3者からの登録を基本とした場合と比較し、より多くのホームページを対象とすることが可能となる。また、複数端末からの複数の検索手段及びその結果の複数の表示手段を設けることで、地域もしくは地域及びカテゴリ情報の検索手段を地図からだけでなく、文字列による座標指定の情報検索、地図上での情報指定による検索、3次元ウォークスルーからの検索と複数の利用方法を実現することが可能となる。
【0021】
【発明の実施の形態】以下、本発明について、図面を参照して本発明の実施形態(実施例)とともにを詳細に説明する。
(実施形態1)図1は、本発明による座標付きホームページ情報収集提供装置の実施形態1の概略構成を示す模式図である。本実施形態1の座標付きホームページ情報収集提供装置は、図1に示すように、インターネット101に接続したホームページ103を提供するホームページサーバ102、ユーザが利用するユーザ端末104、検索サービス提供装置113、ホームページ収集装置105および座標付きホームページ情報検索用ホームページサーバ111、インターネット101に必要に応じて接続するホームページ評価装置106及び座標割付け装置107、そしてホームページ情報の評価に用いる地図データベース108及び各種情報データベース109で構成されている。
【0022】以下、本実施形態1の座標付きホームページ情報収集提供装置の動作を図1を用いて説明する。前記ホームページ収集装置105は、所定の地域もしくはカテゴリの設定のもとで、所定のホームページ103を起点とし、ホームページ103中のタグ上に基づいてリンクホームページのアドレスを再帰的に収集する。その際、ホームページ収集装置105は、一般品詞辞書及び固有名詞辞書112を参照しながら、リンク情報の前後に出現する地域、住所、場所を指し示す固有名詞及びそれらに関連もしくはそれらを導出する語句、及びホームページ分類用のキーワードであるカテゴリ名及びそれに関連した語句を検出し、リンク情報の属性として記録する。
【0023】この記録したリンク情報の属性すべてもしくは一部の組み合わせから、あらかじめ設定されている地域もしくはカテゴリとの関連度を属性もしくはその属性の出現するホームページ103の文脈の類似度で求め、その類似度からリンク情報の優先度を計算し、特定の地域及びカテゴリに関連したリンク先ホームページ優先的に再帰収集する。
【0024】所定の地域に関する語句は、その地域に関する地図データベース108中より、地名や建物名をはじめとした各種オブジェクトの名前を抽出し、その位置関係や地名における従属関係・階層関係に従って整理し、ホームページ103中に記述されている情報と比較し、その字面の類似性及び表記の類似性で属性の類似度を決定する。
【0025】カテゴリに関する語句は、広辞苑や百科事典等CD−ROM形態になっている各種の情報データベース109を利用して、その中における説明を利用して語句の相関関係を求め、直接カテゴリを説明する後からの語句の従属関係に従い、ホームページ103に出現する語句のチェックを行う。カテゴリに関しては、字面の類似性や表記の類似性による類似度に加え、概念的な類似関係も考慮し類似度を求める。収集されたホームページ情報は、ホームページ評価装置106へ転送される。
【0026】前記ホームページ評価装置106は、転送されたホームページ103をデザイン、記述されている情報の公共性及び知名度、情報更新頻度及びホームページ作成者もしくは発信者の本人性及び信頼度で評価する。デザインの評価は、ホームページ103中で利用されているHTMLタグの種類、記述されている情報量、語句の配置方法、表、項目の指定方法、図の利用形態、Javaアプレット等の各種拡張機能の利用頻度及びその出現位置により、それぞれ得点化する。デザインに関する評価以外の記述されている情報に関する評価は、一般品詞辞書及び固有名詞辞書112、各種の情報データベース109も参照して、いくつの情報源にその情報が紹介されているかという情報の出現頻度及び項目の大きさ等による公共性及び知名度の判断、ホームページファイルの作成時間の継続的監視によって求める情報更新頻度及びホームページ作成者もしくは発信者の本人性及び信頼度に関する評価は、ホームページ103中での情報の記述方法、地図データベース108中及び各種の情報データベース109中での存在の有無、記述情報に関する検索サービス提供装置からの検索結果をそれぞれ得点化し、デザイン評価における得点とを足し合わせて評価する。
【0027】座標付きホームページ情報検索サービスで利用するものとして適当と判断されたホームページ情報は、ホームページ103に含まれる語句、画像、映像もしくは音声から抽出できる情報にしたがって選択されたホームページを階層的にカテゴリ分けされる。カテゴリ分け後、ホームページ情報は座標割付け装置へと転送される。
【0028】前記座標割付け装置107は、ホームページ103からそのホームページで主に記述されている情報に関する住所、地名、建物名、企業名、団体名もしくはそれらを導出する語句を抽出し、その語句を利用して複数の地図データベース108もしくは複数の情報データベース109内におけるその情報もしくは類似した情報を検索する。抽出した語句と検索結果をその語句の示す内容ごとに属性値として分類し、各属性値に関してそれぞれ類似度を計算し、属性を種類ごとに類似度計算し、最良の候補を求め、ホームページ103と地図上の情報の対を作成する。座標割付け装置107は、また、最良と選択された地図上の上から緯度経度もしくは地図特有の直角座標系の座標値を求め、ホームページ103と地図上の情報と座標値の組合わせを作成し、座標付きホームページ情報データベース110へ転送する。
【0029】座標付きホームページ情報データベース110は、インターネット101と座標付きホームページ検索用サーバ111を経由して行われる複数のユーザ端末104からの座標範囲もしくは座標範囲及びカテゴリに指定による検索要求に対して、座標付きホームページ検索用サーバ111とインターネット101を経由して検索結果であるホームページ情報及びその座標値を転送する。また、座標付きホームページ情報データベース110は、検索要求を高速に処理するため、データベース中の各項目に関して検索用インデックスを作成し、データベースの管理運営を行う。
【0030】以上説明したように、本実施形態1によれば、ホームページ103の効率的な再帰的収集とホームページに記述されている情報の評価及び座標値取得により、情報検索の母集団の偏りを是正することができる。また、検索の対象となる情報数の増大と情報母集団の偏りを是正した座標付きホームページ収集提供を実現できる。
【0031】(実施形態2)図2は、本発明による座標付きホームページ情報収集提供装置の実施形態2の概略構成を示す模式図である。本実施形態2の座標付きホームページ情報収集提供装置は、図2に示すように、インターネット201に接続したホームページ203を提供するホームページサーバ202、ユーザが利用するユーザ端末204、検索サービス提供装置213、ホームページ収集装置205及び座標付きホームページ情報検索用ホームページサーバ211、インターネット201に必要に応じて接続するホームページ評価装置206及び座標割付け装置207、そしてホームページ情報の評価に用いる地図データベース208、各種の情報データベース209、及び形態素解析器214で構成されている。
【0032】本実施形態2の座標付きホームページ情報収集提供装置は、図1の座標割付け装置107を、図2に示すように、形態素解析器214と接続し、ホームページ203からそのホームページで主に記述されている情報に関する住所、地位名、建物名、企業名、団体名もしくはそれらを導出する語句を抽出する部分に、所定の地域及びカテゴリに関連した固有名詞を収集し、それを拡張辞書として利用する形態素解析器214を用いて語句の品詞名を分別し、その品詞ごとにその示す地域の広さ等で階層的に属性分けし、各属性ごとにそれぞれ類似度を計算するようにしたものである。
【0033】このようにすることにより、品詞ごとにその示す地域の広さ等で階層的に属性分けし、各属性ごとにそれぞれ類似度を計算するので、情報検索の母集団の偏りをさらに是正することができる。
【0034】(実施形態3)本発明による実施形態3の座標付きホームページ情報収集提供装置は、図1のホームページ評価装置106におけるデザイン評価における得点とデザインの評価以外、記述されている情報の公共性及び知名度、情報更新頻度及びホームページ作成者もしくは発信者の本人性及び信頼度に関する評価それぞれの得点を足し合わせるときに、各得点に対して教師データに基づいた重みづけを行い、総合的な評価を決定するものである。教師データとして、ホームページ情報と採用・不採用に関する総合的な評価の組を用意し、事例学習を実施して各項目の得点に関してその重みを求める。
【0035】このようにすることにより、総合的な評価の信頼性を向上することができるので、情報検索の母集団の偏りをさらに是正することができる。
【0036】(実施形態4)本発明による実施形態4の座標付きホームページ情報収集提供装置は、図1の座標割付け装置207における抽出した語句属性に関して教師データに基づいた重みづけを行い、総合的な評価を決定するものである。教師データとして、ホームページ情報と採用・不採用に関する総合的な評価の組を用意し、事例学習を実施して各項目の得点に関しその重みを求める。このようにすることにより、例示に基づいた情報母集団を作成することができる。
【0037】(実施例5)本発明による実施形態5の座標付きホームページ情報収集提供装置は、図1のユーザ端末104上でWWW情報を表示するブラウザを利用し、座標範囲もしくは座標範囲及びカテゴリの組合せで座標付きホームページを検索するものである。このようにすることにより、前記実施形態4と同様に例示に基づいた情報母集団を作成することができる。
【0038】(実施形態6)本発明による実施形態6の座標付きホームページ情報収集提供装置は、図1のユーザ端末上でWWW情報を表示するブラウザを利用し、座標範囲もしくは座標範囲及びカテゴリの組合わせを、ブラウザ上に表示される地図から入力させ、その検索結果を地図上の座標に基づいた対応点に表示するものである。ブラウザ上に表示する地図をクリッカブルマップもしくはそれと同等の機能を持つ地図で表示し、その上に表示した対応点を選択することで、そのホームページを表示させる。このようにすることにより、前記実施形態4,5と同様に、例示に基づいた情報母集団を作成することができる。
【0039】(実施形態7)本発明による実施形態7の座標付きホームページ情報収集提供装置は、図1のユーザ端末上でWWW情報を表示するブラウザを利用し、座標範囲もしくは座標範囲及びカテゴリの組合わせをブラウザ上に表示される3次元の都市を再現したウォークスルー空間から入力させ、その検索結果を空中の対応座標もしくは対応オブジェクトに表示するものである。3次元空中のホームページ対応座標もしくは対応オブジェクトを選択することにより、そのホームページを表示する。
【0040】このようにすることにより、前記実施形態4〜6と同様に、例示に基づいた情報母集団を作成することができる。以上、本発明者によってなされた発明を、前記実施形態に基づき具体的に説明したが、本発明は、前記実施形態に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能であることは勿論である。
【0041】
【発明の効果】以上説明したように、本発明によれば、ホームページの効率的な再帰的収集とホームページに記述されている情報の評価及び座標値取得により、情報検索の母集団の偏りを是正することができる。また、検索の対象となる情報数の増大と情報母集団の偏りを是正した座標付きホームページ収集提供を実現できる。
【図面の簡単な説明】
【図1】本発明による座標付きホームページ情報収集提供装置の実施形態1の概略構成を示す模式図である。
【図2】図2は、本発明による座標付きホームページ情報収集提供装置の実施形態2の概略構成を示す模式図である。
【符号の説明】
101,201…インターネット、102,202…ホームページサーバ、103,203…ホームページ、104,204…ユーザ端末、105,205…ホームページ収集装置、106,206…ホームページ評価装置、107,207…座標割付け装置、108,208…地図データベース、109,209…各種の情報データベース、110,210…座標付きホームページ情報データベース、111,211…座標付きホームページ情報検索用ホームページサーバ、112,212…一般品詞辞書及び固有名詞辞書、113,213…検索サービス提供装置、214…形態素解析器。

【特許請求の範囲】
【請求項1】 コンピュータネットワーク上のホームページ情報を収集し、その収集した情報を検索用に編集加工してデータベースとして管理し、コンピュータネットワークに接続された複数の端末からの検索要求に応じて、収集したホームページ情報を提供するホームページ情報収集提供方法であって、所定の地域もしくはカテゴリの設定のもと、所定のホームページを起点とし、ホームページ中に記述されているリンク情報を抽出し、その前後に出現する地域、住所、場所を指し示す固有名詞及びそれらに関連もしくはそれらを導出する語句、ホームページ分類用のキーワードであるカテゴリ名及びそれに関連した語句を検出してリンク情報の属性とし、その属性すべてもしくは一部の組み合わせによって決まる各リンク情報の統合属性と、あらかじめ設定された地域もしくはカテゴリとの関連度を属性もしくはその文脈の類似度で求め、その類似度からリンク情報の優先度を計算し、特定の地域及びカテゴリに関連したリンク先ホームページを優先的に再帰収集する再帰収集処理ステップと、前記収集したホームページをデザイン、記述されている情報の公共性及び知名度、情報更新頻度及びホームページ作成者もしくは発信者の本人性及び信頼度を複数情報源間でその出現を比較評価し、収集したホームページの中からデータベースとして管理しホームページ情報として提供するホームページを取捨選択するホームページ取捨選択処理ステップと、前記選択したホームページに含まれる語句、画像、映像もしくは音声から抽出できる情報にしたがって選択されたホームページを階層的にカテゴリ分けするカテゴリ分け処理ステップと、前記選択したホームページから、ホームページで主に記述されている情報に関する住所、地名、建物名、企業名、団体名もしくはそれらを導出する語句を抽出し、複数の住宅地図情報を収録したデータベースもしくは地図ソフトウェアからその各属性ごとに類似度の高い候補を検索し、各属性間の類似度の高さ及び複数のデータベースもしくは地図ソフトウェア間の情報一致度を評価して最良の候補を選択し、ホームページと地図上の情報の対を作成する情報対作成処理ステップと、前記ホームページと対にした地図上の情報からホームページ中に記述されている情報の緯度経度もしくは地図特有の直角座標系の座標値を求め、ホームページと地図上の情報と座標の組合わせを作成する情報座標組合わせ作成処理ステップと、前記組み合わせを記録したデータベースと、その検索の高速化を図るために作成したインデックスをあわせて管理運営する管理運営処理ステップと、コンピュータネットワークに接続された複数の端末からのカテゴリもしくは座標範囲指定のある検索要求に応じて、カテゴリ、座標範囲のすべてもしくはその一部の組み合わせで決定される範囲の座標情報付きホームページを提供するホームページ提供処理ステップとを具備することを特徴とする座標付きホームページ情報収集提供方法。
【請求項2】 請求項1に記載の座標付きホームページ情報収集提供方法において、前記コンピュータネットワークは、特定の端末からのみ接続利用できるイントラネットであり、そのネットワーク上で動作することを特徴とする座標付きホームページ情報収集提供方法。
【請求項3】 請求項1に記載の座標付きホームページ情報収集提供方法において、前記コンピュータネットワークは、インターネットであり、そのネットワーク上で動作することを特徴とする座標付きホームページ情報収集提供方法。
【請求項4】 請求項1に記載の座標付きホームページ情報収集提供方法において、前記再帰収集処理ステップは、ハイパーテキストトランスファプロトコルを利用してファイルを転送してホームページを収集することを特徴とする座標付きホームページ情報収集提供方法。
【請求項5】 請求項1に記載の座標付きホームページ情報収集提供方法において、前記ホームページ提供処理ステップは、複数端末からの検索要求をハイパーテキストトランスファプロトコルを利用して受け付け、同プロトコルを利用して検索結果を返送することを特徴とする座標付きホームページ情報収集提供方法。
【請求項6】 請求項1に記載の座標付きホームページ情報収集提供方法において、前記ホームページ提供処理ステップは、コンピュータネットワークに接続された複数の端末から、緯度経度もしくは地図特有の直角座標系の座標値による地理的範囲、もしくはその地理的範囲と情報のカテゴリを組による検索を受け付けることを特徴とする座標付きホームページ情報収集提供方法。
【請求項7】 請求項1に記載の座標付きホームページ情報収集提供方法において、前記ホームページ提供処理ステップは、コンピュータネットワークに接続された複数の端末から、その端末上に表示される地図を利用して指定される地理的範囲、もしくはその地理的範囲と情報のカテゴリを組による検索を受け付けることを特徴とする座標付きホームページ情報収集提供方法。
【請求項8】 請求項1に記載の座標付きホームページ情報収集提供方法において、前記ホームページ提供処理ステップは、コンピュータネットワークに接続された複数の端末から、その端末上に表示される3次元の都市を再現したウォークスルー空間を利用して指定される地理的範囲、もしくはその地理的範囲と情報のカテゴリを組による検索を受け付けることを特徴とする座標付きホームページ情報収集提供方法。
【請求項9】 請求項1に記載の座標付きホームページ情報収集提供方法において、前記ホームページ提供処理ステップは、検索結果を文字情報としての表示、及びその表示情報を選択することでそのホームページを表示するハイパーリンク機能を実現できる形にホームページ情報を整形して出力することを特徴とする座標付きホームページ情報収集提供方法。
【請求項10】 請求項1に記載の座標付きホームページ情報収集提供方法において、前記ホームページ提供処理ステップは、検索結果の各ホームページ情報の座標値を利用し、端末上で表示される地図上へのホームページの位置の表示、及びその表示された位置を選択することでそのホームページを表示するハイパーリンク機能を実現できる形にホームページ情報を整形し出力することを特徴とする座標付きホームページ情報収集提供方法。
【請求項11】 請求項1に記載の座標付きホームページ情報収集提供方法において、前記ホームページ提供処理ステップは、検索結果の各ホームページ情報の座標値を利用し、端末上で表示される3次元の都市を再現したウォークスルー空間内のオブジェクトもしくは特定の位置へのホームページ情報の表示、及びその表示された情報を選択することでそのホームページを表示するハイパーリンク機能を実現できる形にホームページ情報を整形し出力することを特徴とする座標付きホームページ情報収集提供方法。
【請求項12】 請求項1に記載の座標付きホームページ情報収集提供方法の処理手順を、コンピュータに実行させるためのプログラムを記録した記録媒体であって、所定の地域もしくはカテゴリの設定のもと、所定のホームページを起点とし、ホームページ中に記述されているリンク情報を抽出し、その前後に出現する地域、住所、場所を指し示す固有名詞及びそれらに関連もしくはそれらを導出する語句、ホームページ分類用のキーワードであるカテゴリ名及びそれに関連した語句を検出してリンク情報の属性とし、その属性すべてもしくは一部の組み合わせによって決まる各リンク情報の統合属性と、あらかじめ設定された地域もしくはカテゴリとの関連度を属性もしくはその文脈の類似度で求め、その類似度からリンク情報の優先度を計算し、特定の地域及びカテゴリに関連したリンク先ホームページを優先的に再帰収集する再帰収集処理手順と、前記収集したホームページをデザイン、記述されている情報の公共性及び知名度、情報更新頻度及びホームページ作成者もしくは発信者の本人性及び信頼度を複数情報源間でその出現を比較評価し、収集したホームページの中からデータベースとして管理しホームページ情報として提供するホームページを取捨選択するホームページ取捨選択処理手順と、前記選択したホームページに含まれる語句、画像、映像もしくは音声から抽出できる情報にしたがって選択されたホームページを階層的にカテゴリ分けするカテゴリ分け処理手順と、前記選択したホームページから、ホームページで主に記述されている情報に関する住所、地名、建物名、企業名、団体名もしくはそれらを導出する語句を抽出し、複数の住宅地図情報を収録したデータベースもしくは地図ソフトウェアからその各属性ごとに類似度の高い候補を検索し、各属性間の類似度の高さ及び複数のデータベースもしくは地図ソフトウェア間の情報一致度を評価して最良の候補を選択し、ホームページと地図上の情報の対を作成する情報対作成処理手順と、前記ホームページと対にした地図上の情報からホームページ中に記述されている情報の緯度経度もしくは地図特有の直角座標系の座標値を求め、ホームページと地図上の情報と座標の組合わせを作成する情報座標組合わせ作成処理手順と、その組み合わせを記録したデータベースと、その検索の高速化を図るために作成したインデックスをあわせて管理運営する管理運営処理手順と、コンピュータネットワークに接続された複数の端末からのカテゴリもしくは座標範囲指定のある検索要求に応じて、カテゴリ、座標範囲のすべてもしくはその一部の組み合わせで決定される範囲の座標情報付きホームページを提供するホームページ提供処理手順をコンピュータに実行させるための、プログラムを記録した記録媒体。
【請求項13】 コンピュータネットワーク上のホームページ情報を収集し、その収集した情報を検索用に編集加工してデータベースとして管理し、コンピュータネットワークに接続された複数の端末からの検索要求に応じて、収集したホームページ情報を提供するホームページ情報収集提供装置であって、所定の地域もしくはカテゴリの設定のもと、所定のホームページを起点とし、ホームページ中に記述されているリンク情報に抽出し、その前後に出現する地域、住所、場所を指し示す固有名詞及びそれらに関連もしくはそれらを導出する語句、ホームページ分類用のキーワードであるカテゴリ名及びそれに関連した語句を検出してリンク情報の属性とし、その属性すべてもしくは一部の組み合わせから抽出した各リンク情報と、あらかじめ設定された地域もしくはカテゴリとの関連度を属性もしくはその文脈の類似度で求め、その類似度からリンク情報の優先度を計算し、特定の地域及びカテゴリに関連したリンク先ホームページを優先的に再帰収集する再帰収集手段と、前記収集したホームページをデザイン、記述されている情報の公共性及び知名度、情報更新頻度及びホームページ作成者もしくは発信者の本人性及び信頼度を複数情報源間でその出現を比較評価し、収集したホームページの中からデータベースとして管理しホームページ情報として提供するホームページを取捨選択するホームページ取捨選択手段と、前記選択したホームページに含まれる語句、画像、映像もしくは音声から抽出できる情報にしたがって選択されたホームページを階層的にカテゴリ分けするカテゴリ分け手段と、前記選択したホームページから、ホームページで主に記述されている情報に関する住所、地名、建物名、企業名、団体名もしくはそれらを導出する語句を抽出し、複数の住宅地図情報を収録したデータベースもしくは地図ソフトウェアからその各属性ごとに類似度の高い候補を検索し、各属性間の類似度の高さ及び複数のデータベースもしくは地図ソフトウェア間の情報一致度を評価して最良の候補を選択し、ホームページと地図上の情報の対を作成する情報対作成手段と、前記ホームページと対にした地図上の情報からホームページ中に記述されている情報の緯度経度もしくは地図特有の直角座標系の座標値を求め、ホームページと地図上の情報と座標の組合わせを作成する情報座標組合わせ作成手段と、その組み合わせを記録したデータベースと、その検索の高速化を図るために作成したインデックスをあわせて管理運営する管理運営手段と、コンピュータネットワークに接続された複数の端末からのカテゴリもしくは座標範囲指定のある検索要求に応じて、カテゴリ、座標範囲のすべてもしくはその一部の組み合わせで決定される範囲の座標情報付きホームページを提供するホームページ提供手段とを具備することを特徴とする座標付きホームページ情報収集提供装置。
【請求項14】 請求項13に記載の座標付きホームページ情報収集提供装置において、前記コンピュータネットワークは、特定の端末からのみ接続利用できるイントラネットであり、そのネットワーク上で動作することを特徴とする座標付きホームページ情報収集提供装置。
【請求項15】 請求項13に記載の座標付きホームページ情報収集提供装置において、前記コンピュータネットワークは、インターネットであり、そのネットワーク上で動作することを特徴とする座標付きホームページ情報収集提供装置。
【請求項16】 請求項13に記載の座標付きホームページ情報収集提供装置において、前記再帰収集手段は、ハイパーテキストトランスファプロトコルを利用してファイルを転送してホームページを収集することを特徴とする座標付きホームページ情報収集提供装置。
【請求項17】 請求項13に記載の座標付きホームページ情報収集提供装置において、前記ホームページ提供手段は、複数端末からの検索要求をハイパーテキストトランスファプロトコルを利用して受け付け、同プロトコルを利用して検索結果を返送することを特徴とする座標付きホームページ情報収集提供装置。
【請求項18】 請求項13に記載の座標付きホームページ情報収集提供装置において、前記ホームページ提供手段は、コンピュータネットワークに接続された複数の端末から、緯度経度もしくは地図特有の直角座標系の座標値による地理的範囲、もしくはその地理的範囲と情報のカテゴリを組による検索を受け付けることを特徴とする座標付きホームページ情報収集提供装置。
【請求項19】 請求項13に記載の座標付きホームページ情報収集提供装置において、前記ホームページ提供手段は、コンピュータネットワークに接続された複数の端末から、その端末上に表示される地図を利用して指定される地理的範囲、もしくはその地理的範囲と情報のカテゴリを組による検索を受け付けることを特徴とする座標付きホームページ情報収集提供装置。
【請求項20】 請求項13に記載の座標付きホームページ情報収集提供装置において、前記ホームページ提供手段は、コンピュータネットワークに接続された複数の端末から、その端末上に表示される3次元の都市を再現したウォークスルー空間を利用して指定される地理的範囲、もしくはその地理的範囲と情報のカテゴリを組による検索を受け付けることを特徴とする座標付きホームページ情報収集提供装置。
【請求項21】 請求項13に記載の座標付きホームページ情報収集提供装置において、前記ホームページ提供手段は、検索結果を文字情報としての表示、及びその表示情報を選択することでそのホームページを表示するハイパーリンク機能を実現できる形にホームページ情報を整形して出力することを特徴とする座標付きホームページ情報収集提供装置。
【請求項22】 請求項13に記載の座標付きホームページ情報収集提供装置において、前記ホームページ提供手段は、検索結果の各ホームページ情報の座標を利用し、端末上で表示される地図上へのホームページの位置の表示、及びその表示された位置を選択することでそのホームページを表示するハイパーリンク機能を実現できる形にホームページ情報を整形し出力することを特徴とする座標付きホームページ情報収集提供装置。
【請求項23】 請求項13に記載の座標付きホームページ情報収集提供装置において、検索結果の各ホームページ情報の座標値を利用し、端末上で表示される3次元の都市を再現したウォークスルー空間内のオブジェクトもしくは特定の位置へのホームページ情報の表示、及びその表示された情報を選択することでそのホームページを表示するハイパーリンク機能を実現できる形にホームページ情報を整形し出力することを特徴とする座標付きホームページ情報収集提供装置。

【図1】
image rotate


【図2】
image rotate


【公開番号】特開2000−339330(P2000−339330A)
【公開日】平成12年12月8日(2000.12.8)
【国際特許分類】
【出願番号】特願平11−149100
【出願日】平成11年5月28日(1999.5.28)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】