ナビゲーションパス情報に基づく主題関連ウェブページのフィルタリング方法およびシステム

【課題】主題に関連するウェブページのフィルタリングを高精度で行うために、コンテキスト情報としてウェブページのナビゲーションパスの集合を利用する方法とシステムが提供される。
【解決手段】この方法は、１つ以上のウェブページコレクションに含まれる全てのウェブページを取得するステップと、取得したウェブページからリンク情報を収集するステップと、収集したリンクに基づいて、取得した各ウェブページのナビゲーションパス集合を抽出するステップと、目的のウェブページを取得するために、抽出したナビゲーションパス集合に基づいて取得済みウェブページをフィルタリングするステップとを備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は情報検索または情報抽出に関し、特にウェブページ検索またはウェブページマイニングに関する。具体的には、本発明は、主題に関連するウェブページのフィルタリングを高精度で行うために、コンテキスト情報としてウェブページのナビゲーションパスの集合を利用する方法とシステムを提供する。
【背景技術】
【０００２】
インターネットの普及を背景とした電子情報の爆発的増加に伴い、大量で多様な情報がウェブ上に集積され、今なお信じがたいほどの速度で増加を続けている。ネット市民にとって、この膨大な情報の集積から有用な情報を見つけ出すことは非常に困難な作業である。
【０００３】
情報検索（ＩＲ）とは、文書集合内の情報を検索するための技術であり、さらに（１）文書に含まれる特定情報の検索、（２）文書そのものの検索、（３）文書を説明するメタデータの検索、（４）独立したリレーショナルデータベースや、インターネット、イントラネットのようなハイパーテキストでネットワーク化されたデータベース内のテキスト、音声、画像、データの検索、の４つに分類することができる。情報抽出（ＩＥ）は情報検索の一種で、機会読み取りの可能な非構造化文書から、構造化もしくは半構造化された情報を自動的に抽出することを目的とする。長い歴史を持つこれら２つの研究分野から出現したウェブ検索エンジン（例：Ｇｏｏｇｌｅ、百度（Ｂａｉｄｕ））は、ウェブ上で情報を見つけるための文書検索システムであり、特定の基準を満たすコンテンツ（典型的には、与えられた単語または語句を含むコンテンツ）を検索し、基準に一致する項目リストを取り込むことができる。近年、バーティカル（垂直）検索エンジンという新しいタイプのウェブ検索エンジンがウェブ上で人気を集めている。この検索エンジンは、特定分野に関心を持つ人々に従来よりも正確で有用性の高い情報を提供することを目的とするもので、いくつかの情報抽出またはウェブマイニング技術を利用して、高度に洗練されたデータベースや、特定トピックに関するウェブサイトから構造化情報を抽出する。
【０００４】
インターネット時代の到来を受けて出現した情報検索または情報抽出の多数の解決策の１つ、ウェブページフィルタリングは、一般的な（バーティカル）ウェブ検索エンジンであれ、特定分野に特化したウェブマイニングシステムであれ、その内部できわめて重要な役割を果たす。
【０００５】
技術的には、ウェブページフィルタリングのプロセスは主に２つのステップで構成される。すなわち、まず特定のフィルタリング目的に合った適切で効率的なウェブページの特徴を選択し、次に選択した特徴に基づいてフィルタリングメカニズムをモデル化する、というステップである。特徴の選択という側面からみた場合、現在のウェブページフィルタリング手法は、（１）コンテンツベースのフィルタリング、（２）ページタイプベースのフィルタリング、（３）リンクベースのフィルタリング、（４）拡張アンカベースのフィルタリング、という４つのカテゴリに大別できる。以下に、この４種類のウェブページフィルタリング手法を簡単に紹介する。
【０００６】
コンテンツベースの手法：この手法は情報検索の研究［１］−［２］から直接派生したもので、クエリ依存型のアルゴリズムである。この手法では、クエリがサブミットされると、各ウェブページに類似度スコアが割り当てられる。その基本的な概念とは、以下のようなものである。すなわち、ウェブページに出現した単語が、関連するウェブページの検索に利用される。ここでは、クエリ語が文書内に早く出現するウェブページや、クエリ語のフォントが大きいか太字のウェブページに高いスコアが付与される。ウェブページとそれに対するクエリ間の類似度計算は、ベクトル空間モデル（ＶＳＭ）に基づいて、余弦測定方法によって行うことができる。その後、類似度スコアから、関連するウェブページのフィルタリングが実現される。
【０００７】
ページタイプベースの手法：ほとんどのインターネットユーザは、さっと見ただけでそのウェブページの文書の種類を認識できるので、人間によるウェブページ評価の結論は、コンテンツだけでなく、各種フォーマットやデザイン情報についても考慮して導き出されていると考えられる。この観察をもとに、ウェブページのタイプ分類のためのルールベース分類子においては、ウェブページのコンテンツに加えて、その構造的特徴も使用されている。基本構造の特徴としては、典型的なタグ−文字列ペア、インラインイメージのサイズと数、リンクの種類と数、ＵＲＬ文字列などが挙げられる。また、類似したウェブページの内部特徴（アンカーテキスト、キーワード、タイトル、ＵＲＬなど）に基づいて、機械学習ベースの方法をウェブページの分類に適用することもできる。
【０００８】
リンクベースの手法：ウェブは個々のページのテキストコンテンツとハイパーリンクを合わせたコレクションなので、これらのコレクションのリンク構造には、ウェブページフィルタリングに利用可能な（そして、利用すべき）情報が含まれる。ウェブページ重要度ランキングの方法としては、ウェブブラウザ挙動に関する想定「ランダムサーファ」モデルを使用したリンクベースの方法が提案されている。この方法は、ウェブのリンク構造を利用して、各ウェブページの品質ランキング（「ＰａｇｅＲａｎｋスコア」と呼ばれる）を計算する。品質ランキングは、ページへの入リンクに対して、そのページの品質に応じた重み付けを行って計算される。ウェブページのランキングスコアは、ウェブのグラフ構造（ウェブページの外部情報）内におけるページの配置場所によってのみ決まるため、クエリ依存型であり、クエリ時間に先立って計算することができる。最後に、コンテンツベースの方法とリンクベースの方法から得られたランク値が結合され、ウェブページと主題間の相関性を測定するための最終スコアが決定される。
【０００９】
拡張アンカベースの手法：ウェブのハイパーリンク構造を利用してウェブページフィルタリングを行う際には、リンク上に出現するテキスト、すなわちアンカーテキストも、ウェブページランキングに利用できる。アンカーテキストは、リンクが張られたページだけでなく、そのリンクが示すページにも関連付けることができる。特に後者のケースでは、アンカーテキストはウェブページそのものよりも正確にウェブページを記述していることが多いため、非テキスト情報の検索に役立つのみならず、少ない文書ダウンロード数（画像、プログラム、データベース等）で広い検索範囲を確保できるという利点がある。上記の考察に基づいて、ウェブページフィルタリングのための拡張アンカベース手法が提案されている。この手法では、まず、ウェブブラウザをトップのホームページから各ターゲットウェブページへと誘導するウェブページ上の全てのアンカーテキストが収集され、それを使って拡張アンカリストが作成される。次に、拡張アンカリストに含まれるキーワードを使って、ターゲットウェブページのフィルタリングが行われる。
【００１０】
しかし、ウェブページフィルタリングのための既存の解決策はいくつかの短所を抱える。まず、コンテンツ、ページタイプ、およびリンクベースの各手法で採用される情報検索モデルは、各ウェブページを１つの独立した文書として扱い、単一のページに対して索引付けとランキングを行う。そのため、返されるページにはクエリ内の全てのキーワードが含まれていなければならない。つまり、これらのモデルは、ウェブページの内部コンテンツは自己完結型ではない事が多いという事実を無視しているのである。これらの解決策の索引付け機能は、ウェブページの内部コンテンツのみに基づいて索引付けを行うが、このように限られたコンテンツから生成されるウェブページフィルタリングの結果は、満足のゆく品質とはならない。
【００１１】
通常、ユーザがウェブのナビゲーションを行う際には、ウェブページのコンテキスト情報（ドメイン、ディレクトリ、他のページからのナビゲーションハイパーリンク等）もユーザの念頭にあるはずであり、そのウェブページのコンテンツを示す重要な手がかりとなりうる。しかし、従来技術はコンテキスト情報は十分に活用していない。
【００１２】
一方、コンテンツベースの手法は、ウェブを従来型の文書リポジトリとして扱う。そのため、ウェブページフィルタリングでは、コンテキスト情報のようなウェブとウェブページの特殊情報はまったく利用されない。ウェブページのテキストコンテンツはウェブページフィルタリングを行う上では不十分であり、高精度なウェブページフィルタリング結果は期待できない。
【００１３】
さらに、ページタイプベースの手法では、ウェブページフィルタリングのためにウェブページの構造的特徴が利用されてはいるものの、ウェブ内のハイパーリンク情報は内部で考慮されていない。しかし、ハイパーリンクコレクションのリンク構造は、ターゲットとするウェブページについての人間の暗黙的な推奨を反映しているので、ウェブページフィルタリング結果の品質向上に大いに貢献するはずである。
【００１４】
リンクベースおよび拡張アンカベースの手法はウェブ内のハイパーリンク情報を利用するが、その潜在的可能性を完全に活かしているとは言い難い。リンクベースの手法の場合、想定ランダムサーファによるリンクのクリックはランダムとはならない可能性がある。ユーザは、ウェブブラウジングする際の移動には、アンカーテキストも利用する。そのため、入リンク数とそれぞれの重み付けに加えて、ナビゲーションパスに出現するアンカーテキストもまた、宛先ウェブページに関する重要な手がかりとなる。拡張アンカベースの手法は、このアンカーテキスト情報のみを考慮してウェブページのフィルタリングを行う。ページタイトル、ＵＲＬテキスト、ときにはドメインやホストさえも、ウェブページのコンテンツを知るための重要な手がかりとなりうるが、これらは利用されない。
【発明の開示】
【発明が解決しようとする課題】
【００１５】
本発明は、従来技術の上記の欠点を鑑みて、従来技術の技術的問題を解決してウェブページフィルタリング結果の品質を向上させることのできるウェブページフィルタリング方法およびシステムを提供するためになされた。
【課題を解決するための手段】
【００１６】
本発明の一態様によれば、ウェブページフィルタリング方法であって、１つ以上のウェブページコレクションに含まれる全てのウェブページを取得するステップと、取得したウェブページからリンク情報を収集するステップと、収集したリンクに基づいて、取得した各ウェブページのナビゲーションパス集合を抽出するステップと、目的のウェブページを取得するために、抽出したナビゲーションパス集合に基づいて取得済みウェブページをフィルタリングするステップとを備えることを特徴とするウェブページフィルタリング方法が提供される。ナビゲーションパスは、トップウェブページからターゲットウェブページに至るパス上のウェブページに関連する、ＵＲＬ、アンカーテキスト、ウェブページタイトル、コンテンツ名、およびドメイン名を組み合わせたリストである。一部の実施例では、ウェブページコレクションは、ドメイン、サブドメイン、またはディレクトリのいずれでもよい。より正確で効果的なウェブページフィルタリングを実現するためには、ナビゲーションパス集合を、ウェブページの全てのリンクからではなく、ナビゲーションリンクのみから抽出できるのが望ましい。そのため、一部の実施例は、ナビゲーションパス集合の抽出前か抽出中に、収集されたリンク集合のフィルタリングを行ってナビゲーションリンクを取得し、それを使用して目的のナビゲーションパス集合を取得するように構成されている。また、ウェブページのフィルタリングは、主題関連のウェブページフィルタリングとして実行するのが望ましい。
【００１７】
本発明の他の態様によれば、ウェブページフィルタリングシステムであって、１つ以上のウェブページコレクションに含まれる全てのウェブページを取得するウェブページ取得手段と、取得したウェブページからリンク情報を収集するリンク情報収集手段と、収集したリンクに基づいて、取得した各ウェブページのナビゲーションパス集合を抽出するナビゲーションパス抽出手段と、目的のウェブページを取得するために、抽出したナビゲーションパス集合に基づいて取得済みウェブページをフィルタリングするウェブページフィルタリング手段とを備えることを特徴とするウェブページフィルタリングシステムが提供される。ナビゲーションパスは、トップウェブページからターゲットウェブページに至るパス上のウェブページに関連する、ＵＲＬ、アンカーテキスト、ウェブページタイトル、コンテンツ名、およびドメイン名を組み合わせたリストである。一部の実施例では、ウェブページコレクションは、ドメイン、サブドメイン、またはディレクトリのいずれでもよい。より正確で効果的なウェブページフィルタリングを実現するためには、ナビゲーションパス抽出手段は、ナビゲーションパス集合を、ウェブページの全てのリンクからではなく、ナビゲーションリンクのみから抽出できるのが望ましい。そのため、一部の実施例は、ナビゲーションパス集合の抽出前か抽出中に、収集されたリンク集合のフィルタリングを行ってナビゲーションリンクを取得し、それを使用して目的のナビゲーションパス集合を取得するように構成されている。また、ウェブページのフィルタリング手段は、主題関連のウェブページフィルタリングを実行できるのが望ましい。
【発明の効果】
【００１８】
本発明によれば、ウェブページのナビゲーションパスは、対応するウェブページのコンテキスト情報として抽出され、各ウェブページがそれに索引付けされて索引テーブルが生成される。そのため、ウェブページのリンク構造だけでなく、ウェブ内に存在するユーザナビゲーションの誘導に有効な全てのテキストも利用されるので、高品質なウェブページフィルタリングが実現される。
【００１９】
さらに、１つのウェブページが、異なる制作者によってデザインされた複数のナビゲーションパスによって示される状況もありうる。この場合、各ナビゲーションパスに出現するテキストを、ターゲットウェブページのコンテンツを１つの側面から見た一種の要約か説明とみなすとすれば、複数の制作者の観点（すなわち、コンテキスト）がナビゲーションパス集合に反映されるので、ウェブページフィルタリングの客観性が保証される。
【００２０】
さらに、各ナビゲーションパスは、１つのウェブページに限定されず、関連するウェブページの集合を包括する情報に関わるものなので、オントロジ的な観点に立つと、ウェブ内のハイパーリンクグラフは、ソースページを主語、アンカーテキストを述語、示される宛先ページを目的語とする多数の説明を直接または間接的に示唆すると考えられる。これに基づけば、ウェブページフィルタリングのプロセスに意味的推論機能も潜在的に含まれているということができる。
【００２１】
すなわち、従来技術に比較して、本発明はウェブページフィルタリングのためのウェブページのコンテキスト情報をより包括的に利用するため、ウェブページフィルタリングの精度と客観性を向上させることができる。
【００２２】
本発明の上記および他の特徴と利点は、図面を参照しながら下記の詳細な説明を読むことによりさらに明白となるであろう。ただし、本発明の範囲は、本書で説明する特定の具体例または実施例に限定されないことに留意されたい。
【発明を実施するための最良の形態】
【００２３】
前述したように、ウェブページのコンテキスト情報は、ウェブページのコンテンツに関する重要な情報を提供するため、ウェブページフィルタリングにおいて重要な役割を果たす。しかし、従来技術はコンテキスト情報を十分に活用していない。これに対し、本発明は、ウェブ内のハイパーリンク情報を使用してウェブページのナビゲーションパス集合を確立し、そのナビゲーションパス集合をコンテキスト情報として使用してウェブページをフィルタリングすることでウェブページフィルタリングの正確性と客観性を向上させる、コンテキスト情報を使用したウェブページフィルタリング方法およびシステムを提供する。
【００２４】
本書で使用する「ナビゲーションパス」とは、索引付けのためのウェブページのコンテキストのことであり、「ＵＲＬ、アンカ、ウェブページタイトルを組み合わせたリスト」と定義される。このリストは、ウェブユーザがウェブサイト内でのブラウジングによってターゲットウェブページに至るまで（リンクのクリックを継続する過程で、アンカーテキストを使ってウェブサイト内のナビゲーションを誘導することにより、目指す情報を見つけるまで）の全ての潜在的な経路を記録するために利用できる。ナビゲーションパスはウェブサイト依存であり、ウェブサイトはそれぞれ独自のナビゲーションパス集合を有する。ウェブページを示すナビゲーションパスの集合は、ウェブサイト内の対応するウェブページのコンテキストに関する包括的な説明を提供する。各ナビゲーションパスは宛先ウェブページと関連付けられる。このとき、１つのウェブページに複数のナビゲーションパスが関連付けられてもよい。以下では、ナビゲーションパスについて、図３Ａと図３Ｂを参照しながら詳細に説明する。
【００２５】
本書で使用する「ナビゲーションリンク」とは、制作者がページ読者を、関連するコンテンツを有する他のページに誘導するためのリンクのことである。ナビゲーションリンクには、（１）ディレクトリ構造内において、「子」ウェブページを「親」ウェブページに導くリンク、（２）ディレクトリ構造内において、同じ階層に属する全ての「兄弟」ウェブページを同一のウェブページへと誘導するリンク、および（３）ディレクトリ構造内において、同じ意味的ブロックに存在する全てのウェブページを同一ウェブページへと誘導するリンク、は含まれない。これらのリンクは、有効なウェブページフィルタリングを実現するために、ナビゲーションリンク選択に関する発見的ルールによって除去される。この場合、ナビゲーションパス集合の抽出は、全リンクではなく、ナビゲーションリンクのみを対象に実行される。したがって、ナビゲーションパスは、「ナビゲーションリンクを介して結び付けられた複数ウェブページのアンカーテキストとタイトルとを連結した連鎖」と言うことがもきる。ナビゲーションパスは、ソースページのタイトルで始まり、宛先ページのタイトルで終わる。ナビゲーションリンクとナビゲーションリンクフィルタリングの詳細については後述する。
【００２６】
以下では、添付図面を参照して、本発明の例示的実施例を説明する。ここでの実施例の説明は例示のみを目的とするものであり、本発明はこれらの特定の実施例に限定されないことに留意されたい。
【００２７】
図１は、本発明の第１の実施例によるウェブページフィルタリングシステム１００を示す構造的ブロック図である。図１に示すように、ウェブページフィルタリングシステム１００の主な構成要素は、本発明の中核的な機能を実装するパスランキング／ウェブページフィルタリングモジュール１０と、パスランキング／ウェブページフィルタリングモジュール１０と連動した複数のデータベースである。これらのデータベースとは、ウェブクローラ等により収集されたウェブページコレクションを格納するウェブページデータベース１０６、抽出されたナビゲーションパスを格納するナビゲーションパスデータベース１０７、生成された索引テーブルを格納する索引テーブルデータベース１０８、およびフィルタリングの結果得られたウェブページを格納する結果ウェブページデータベース１０９である。これら複数のデータベースは、パスランキング／ウェブページフィルタリングモジュール１０の動作をサポートする資源を提供するために、コンピュータシステム内の固定記憶装置に格納される。パスランキング／ウェブページフィルタリングモジュール１０は、ウェブページ取得手段１０１と、リンク情報収集手段１０２と、ナビゲーションパス抽出手段１０３と、索引付け手段１０４と、ウェブページフィルタリング手段１０５とをさらに含む。ここで、ウェブページデータベース１０６内に格納されるものは、ウェブクローラ＆ウェブページ解析モジュール（図示せず）を使用してネットワークから取得された１つ以上のウェブページコレクション（ドメイン（ウェブサイト）、サブドメイン、ディレクトリ等）に含まれる全てのウェブページであることに留意されたい。
【００２８】
以下では、まず、図２、３を使ってナビゲーションパスおよびナビゲーションパスベースの索引付けについて説明する。図２はウェブページのナビゲーションパスの一例を示す。図３は、ナビゲーションパスベースの方法による図１Ａのウェブページ構造でのウェブページ索引付けと、従来技術の方法によるウェブページ索引付けとを比較する比較表である。
【００２９】
図２に示すように、この例には４つのウェブページＰ１、Ｐ２、Ｐ３、Ｐ４がある。Ａ１、Ａ２、Ａ３は、ウェブページＰ１、Ｐ２、Ｐ３内のアンカーテキストを表す。Ｔｉ、Ｕｉ、Ｗｉは、それぞれ、ウェブページＰｉのタイトル、ＵＲＬ、テキストコンテンツ（ｉ＝ｌ，２，３，４）を表す。図１Ｂに示すように、ページＰ４の索引付けは、コンテンツベースの索引付けまたはページタイプベースの索引付けが使用される場合には｛Ｔ４、Ｗ４｝として定義され、リンクベースの索引付けが使用される場合には｛Ｕ４、Ｔ４、Ｗ４、Ａ３｝として定義され、拡張アンカ−ベースの索引付けが使用される場合には｛Ａｌ＋Ａ２＋Ａ３，Ｔ４，Ｗ４｝として定義され、本発明によるナビゲーションパスベースの索引付けが使用される場合には、｛Ｔ１＋Ａ１＋Ｔ２＋Ａ２＋Ｔ３＋Ａ３＋Ｔ４，Ｕ１＋Ｕ２＋Ｕ３＋Ｕ４，Ｗ４，ドメイン名｝として定義される。そのため、本発明において使用されるナビゲーションパスベースの方法は、ウェブページのコンテキスト情報を利用して、ウェブページフィルタリングをより包括的に実行することができる。
【００３０】
図４は、図１に示すウェブページフィルタリングシステム１００の動作を示すフローチャート図である。まず、ステップ１０１ａにおいて、ウェブページ取得手段１０１が、ウェブページデータベース１０６から１つ以上のウェブページコレクションに含まれる全てのウェブページを取得する。前述したように、ウェブページコレクションは、ドメイン、サブドメイン、またはディレクトリのいずれでもよい。以下の説明では、本発明を説明するための例としてドメイン（ウェブサイト）を取り上げる。なお、本発明はこれらの例に限定されず、サブドメインやディレクトリのような索引ページを有する他のウェブページコレクションを使用して実装できることは、当業者には明らかである。次に、ステップ１０２ａにおいて、リンク情報収集手段１０２が、取得された全てのウェブページからリンク情報を収集する。ステップ１０３ａにおいて、ナビゲーションパス抽出手段１０３は、収集されたリンク情報に基づいて、取得された各ウェブページのナビゲーションパス集合を抽出することができる。その後、ステップ１０４ａにおいて、索引付け手段１０４が、抽出されたナビゲーションパス集合内のナビゲーションパスを、取得された各ウェブページに索引付けし、後の処理のために、索引テーブルデータベース１０８に索引付けした結果を索引テーブルとして格納する。ここで説明した索引付けステップは、参照文書索引付け等の当該技術においてよく知られた索引付け方法を使用して実行することができる。具体的には、この索引付けステップにおいて、取得されたウェブページに対応する１つ以上のナビゲーションパス集合が索引付けされ、１つの列にはウェブページＩＤが格納され、他の列にはウェブページに対応するナビゲーションパス集合が格納された索引テーブルが生成される。索引付け技術は当該技術ではよく知られていることを考慮して、ここでは詳細な説明は省略する。次に、ステップ１０５ａにおいて、格納された索引付け結果がウェブページフィルタリング手段１０５に適用され、取得されたウェブページから抽出されたナビゲーションパス集合に基づいて全てのウェブページがフィルタリングされる。ナビゲーションパス集合を抽出するプロセスとウェブページフィルタリングを実行するプロセスは本発明の最も重要なポイントであるため、添付図面を参照してさらに詳細に説明する。
【００３１】
前述したように、ナビゲーションリンク集合はウェブサイト内の全てのリンクの部分集合であり、これには、（１）ディレクトリ構造内において、「子」ウェブページから「親」ウェブページへと誘導するリンク、（２）ディレクトリ構造内において、同じ階層の全ての「兄弟」ウェブページから同一のウェブページへと誘導するリンク、および（３）ディレクトリ構造内において、同じ意味的ブロックに存在する全てのウェブページから同一のウェブページへと誘導するリンク、は含まれない。このような定義を行う目的は、より効率的なウェブサイトナビゲーションを実現し、かつナビゲーションパスの抽出への悪影響を解消して、ウェブページフィルタリングの効率性と精度を向上させることにある。この観点に立つと、さらに高精度なナビゲーションパス集合を得るためには、まずウェブページの全リンクからナビゲーションリンクをフィルタリングして、その後ナビゲーションリンクに基づいて各ウェブページのナビゲーションパス集合を抽出できるのが望ましい。ナビゲーションリンクフィルタリングを実際の用途に応じてナビゲーションパス集合の抽出前か抽出中に行うことで、さらに高効率で高精度なナビゲーションパス抽出を実現することができる。以下では、第２および第３の実施例におけるナビゲーションリンクに基づいたナビゲーションパス抽出について、さらに詳細に説明する。
【００３２】
図５は、本発明の第２の実施例によるウェブページフィルタリングシステム１００ａを示す構造ブロック図である。ここでは、ナビゲーションパス集合を抽出する前に、リンクフィルタリングプロセスの実行によりナビゲーションリンクが取得されている。
【００３３】
図１のブロック図と比較すると、図５は、ウェブページフィルタリングシステム１００ａが、各構成要素に加えて、ディレクトリ構造収集手段１１２と、ナビゲーションリンクフィルタ１１０と、主題入力手段１１１とをさらに含む点が異なっている。この実施例においては、主題関連ウェブページフィルタリングを実行するために、ユーザが関心を持つ主題を入力するための主題入力手段１１１がウェブページフィルタリング手段１０５に連結されている。その後、ウェブページフィルタリング手段１０５は、入力された主題に従い、ウェブページのナビゲーションパス集合に基づいて、ウェブページに対して主題関連のフィルタリングを実行する。ただし、本発明はこのような主題関連フィルタリングに限定されず、ウェブページフィルタリングのための他のフィルタリングルールも使用できることも可能である。
【００３４】
図６は、図５に示すウェブページフィルタリングシステムの代替の実装１００ｂである。この場合、主題入力手段１１１は、様々な用途に応じて、（ウェブページフィルタリング手段１０５ではなく）前フィルタリング手段１１３に連結される。前フィルタリング手段１１３は、ウェブページ取得手段１０１とリンク情報収集手段１０２との間に連結配置され、ウェブページのリンク情報が収集される前に、取得されたウェブページに対して主題関連の事前フィルタリング（プリフィルタリング）を実行するために使用される。この場合、ナビゲーションパス集合の抽出に関係するのは、一部の主題関連ウェブページのみである。そのため、ナビゲーションパス集合の抽出前にすでに実行されているウェブページフィルタリングは第１レベルのフィルタリングとみなすことができ、ウェブページフィルタリング手段１０５で実行されるナビゲーションパスベースのウェブページフィルタリングは、さらに高精度なルールを適用してより高精度なフィルタリングが実現される第２レベルのフィルタリングとみなすことができる。これに対し、図５に示すシステムでは、ユーザが関心を持つ主題は主題入力手段１１１を介してウェブページフィルタリング手段１０５に入力される。そのため、この例においては、取得されたウェブページのリンクとディレクトリ構造に関する情報が収集され、ナビゲーションパス集合が全てのウェブページから抽出された後に、ウェブページフィルタリング手段１０５によって対応する主題関連ウェブページフィルタリングが実行される。対象となる主題が１種類のみの場合には、図６のシステムは図５のシステムよりも高いパフォーマンスを発揮する。しかし、新たな主題が出現すると、図６のシステムではナビゲーションパス抽出を再度実行しなければならなくなる。図５のシステムの場合は、ナビゲーションパス抽出手段１０３によって全てのナビゲーションパスが抽出されているので、対象の主題が変わっても、ウェブページフィルタリングのプロセスを再度実行するだけでよい。そのため、入力される主題が頻繁に変わる場合には、図５のシステムの方が高効率を発揮する。
【００３５】
次に、図７、８を参照して、図５、６のシステム１００ａ、１００ｂの動作について説明する。図７は、図５のウェブページフィルタリングシステム１００ａの動作を示すフローチャート図であり、図８は、図６のウェブページフィルタリングシステム１００ｂの動作を示すフローチャート図である。
【００３６】
まず、図８を参照すると、プロセスは１つ以上のドメイン上の全てのウェブページを取得することから始まる（ステップ３０１ａ）。続いて、ステップ３０２ａにおいて、取得されたウェブページリンクとディレクトリ構造に関する情報が収集される。第１の実施例とは異なり、全リンクからナビゲーションリンクをフィルタリングするためには、ウェブページフィルタリングの参照情報として、各ドメインのディレクトリ構造を収集する必要がある。ウェブページのリンクの抽出は、例えば、各文書のＨＴＭＬソースコードを解析することによって実行することができる。通常、ウェブページ集合の抽出済みハイパーリンク情報は、｛（リンク元，リンク先）｜「リンク元，リンク先」は当該ウェブページ集合に含まれ、リンク元からリンク先へのハイパーリンクが少なくとも１つ存在する｝という形式の２要素集合である。ディレクトリ構造は、ウェブ文書のＵＲＬに示されるウェブサーバの階層的ディレクトリ構造を調べることによって、これと同時に取得できる。ウェブ文書集合の抽出済みディレクトリ構造もまた２要素集合であり、その形式は｛（親，子）｜「親，子」は前記ウェブ文書集合に含まれ、ディレクトリ構造内では「親」は「子」の親である｝となる。リンク関係とディレクトリ構造を収集する方法は当該技術でよく知られているため、ここでは説明を省略する。
【００３７】
次に、ステップ３０３ａにおいて、取得したディレクトリ構造に基づいて収集されたリンクからナビゲーションリンクがフィルタリングされ、その後、ウェブページのナビゲーションパス集合がナビゲーションリンク集合から抽出される（ステップ３０４ａ）。ステップ３０５ａにおいて、抽出されたナビゲーションパス集合がステップ３０１ａで取得されたウェブページに索引付けされ、索引テーブルデータベースにその索引付け結果が索引テーブルとして格納される。続くステップ３０６ａにおいて、ユーザが関心を持つ主題が入力される。主題の入力後、ステップ３０７ａにおいて、ステップ３０３ａで抽出されたナビゲーションパス集合に基づいて、取得されたウェブページに対して主題関連ウェブページフィルタリングが実行される。これでプロセスは終了する。
【００３８】
図８のプロセスは、図７と同様に、１つ以上のドメイン上の全てのウェブページを取得することから始まる（ステップ３０１ｂ）。続くステップ３０２ｂにおいて、主題入力手段を介してユーザが関心を持つ主題が入力される。ステップ３０３ｂにおいて、入力された主題に基づいて、取得されたウェブに対してページ主題関連ウェブページの前フィルタリングがまず実行され、これにより入力された主題に関連しないことが明白なウェブページが除去される。その後、ステップ３０４ｂにおいて、ステップ３０３ｂの前フィルタリング後に残ったウェブページのリンクとディレクトリ構造が収集される。これが完了すると、ステップ３０５ｂにおいて、図７のプロセスと同様に、収集されたディレクトリ構造に基づいてナビゲーションリンクがフィルタリングされる。ステップ３０６ｂにおいて、ナビゲーションリンクに基づいて、前フィルタリングされた各ウェブページのナビゲーションパス集合が抽出される。ステップ３０７ｂにおいて、抽出されたナビゲーションパス集合が取得されたウェブページに索引付けされ、索引テーブルデータベースにその索引付け結果が索引テーブルとして格納される。その後、ステップ３０８ｂにおいて、抽出されたナビゲーションパス集合に基づいて、取得されたウェブページに対して主題関連ウェブページフィルタリングが実行される。これでプロセスは終了する。
【００３９】
次に、図９、１０、１１を参照して、第２の実施例によるナビゲーションリンクフィルタリングおよびナビゲーションパス抽出のプロセスについて説明する。図９は、本発明の第２の実施例によるナビゲーションリンクフィルタリングプロセスを示すフローチャート図である。図１０は、図９に示すナビゲーションリンクフィルタリングを説明するための、ウェブサイト構造の例を示す図である。また、図１１は、本発明の第２の実施例による、ナビゲーションパス集合の抽出プロセスを示すフローチャート図である。
【００４０】
図９を見ると分かるように、この例では、ナビゲーションリンクフィルタリングのプロセスは、第１のフィルタリングステップ４０１、第２のフィルタリングステップ４０２、および第３のフィルタリングステップ４０３において、計３層のフィルタを使って実行される。まず、ステップ４０１において、ディレクトリ構造内の「子」ウェブページから「親」ウェブページへと誘導する逆リンクが削除される。例えば、図１０のウェブサイト構造の場合であれば、ページＡ１はページＡ１２の「親」であり、ページＡ２はページＡ２１の「親」である。この構造には、「子」ページＡ１２から「親」ページＡｌへと誘導する逆リンクＬ１と、「子」ページＡ２１から「親」ページＡ２へと誘導する逆リンクＬ２が含まれている。そのため、第１のフィルタリングステップにおいて、収集されたウェブサイトのディレクトリ構造からこれらの逆リンクＬ１、Ｌ２が削除される。続いて、ステップ４０２において、ディレクトリ構造内において、同じ階層に属する「兄弟」ウェブページから同一のウェブページに誘導するリンクが全て削除される。例えば、図１０を見ると、ページＡ１１、Ａ１２、Ａ２１、Ａ２２が同じ階層にあり、それぞれがリンクＬ５、Ｌ６、Ｌ７、Ｌ８によって同一のページＡ２２２を示している。このような場合には、第２のフィルタリングステップでリンクＬ５、Ｌ６、Ｌ７、Ｌ８が削除される。ステップ４０３において、ディレクトリ構造内において、同じ意味的ブロックに存在するウェブページから同一のウェブページに誘導するリンクが全て削除される。例えば、図１０において、同じ階層にあるページＡ１１、Ａ１２は同じ意味的ブロックに存在し、リンクＬ３、Ｌ４を介して同一のページＡ１１１を示している。第３のフィルタリングステップでは、このリンクＬ３、Ｌ４が削除される。このように、全ての非ナビゲーションリンクを削除することにより、ナビゲーションリンク集合が取得される。
【００４１】
次に、図１１を参照して、取得された各ウェブページのナビゲーションパス集合プロセスを抽出するプロセスについて説明する。まず、ステップ６０１において、取得されたウェブページについて、各ウェブページが属するドメイン（ウェブサイト等）へのウェブページキュー（キュー）が作成され、ドメインの索引ページが、ドメインのウェブページキューのソースページとして検索される（ステップ６０２）。次に、ステップ６０３において、キューに含まれる各ウェブページの全てのナビゲーションリンクが処理される。この処理はソースページから開始される。ここで、非ナビゲーションリンクは直前のナビゲーションリンクフィルタリングによって全て削除されているため、残りのナビゲーションリンクのみが処理されることに注意する必要がある。ステップ６０４では、ウェブページａのナビゲーションリンクＬに関して、まず、リンクＬが示すウェブページｐ（Ｌ）がページａと同じドメインに存在するかどうかが判定される。同じドメインに存在する場合は、ステップ６０５において、Ｌのアンカーテキストとウェブページｐ（Ｌ）のタイトルがページａのナビゲーションパスに付加され、リンクＬが示すウェブページｐ（Ｌ）がドメインのキューに加えられる。ページｐ（Ｌ）とａが同じドメイン内に存在しないと判定された場合は、ステップ６０６において、Ｌのアンカーテキストとウェブページｐ（Ｌ）のタイトルがページａのナビゲーションパスに付加されるが、リンクＬが示すウェブページｐ（Ｌ）はドメインのキューには加えられない。その後、プロセスはステップ６０２に戻り、ウェブページｐ（Ｌ）が属する新たなドメインの索引ページをソースページとする検索が再度実行され、そのドメインのウェブページキューが作成される。次に、この新たなドメインを対象に、ステップ６０２以降の動作が繰り返される。ステップ６０５の完了後、ステップ６０７が対象とするウェブページのナビゲーションリンクがさらに存在するかどうかが判定される。存在する場合は、次のナビゲーションリンクＬ＝Ｌ＋１を対象に上記のプロセスが繰り返される（ステップ６０８）。ナビゲーションリンクの処理が全て完了したら、ステップ６０９において、ドメインのキュー内に処理すべきウェブページがまだ残っているかどうかがさらに判定される。残っている場合は、次のページが抽出され（ステップ６１０）、その後ステップ６０３に戻って、新たに取得したウェブページのナビゲーションリンクが処理される。全てのウェブページの処理が完了すると、プロセスは終了する。
【００４２】
前述では、本発明の第２の実施例について、ナビゲーションパスの抽出前にリンク集合がフィルタリングされ、フィルタリングで残ったナビゲーションリンクに基づいて、目的のナビゲーションパス集合が抽出されることを説明した。これにより、ウェブページフィルタリングの精度を向上させることができる。以下では、図１２、１３を参照して、本発明の第３の実施例について説明する。
【００４３】
図１２は、本発明の第３の実施例によるウェブページフィルタリングシステム１００ｃを示す構造的ブロック図である。図５、６に示した第２の実施例と比較すると、ウェブページフィルタリングシステム１００ｃには、ナビゲーションパス抽出手段１０３にナビゲーションリンクフィルタ１１０が含まれている。このフィルタは、第２の実施例のようなナビゲーションパス抽出プロセスの前ではなく、ナビゲーションパス抽出プロセスの途中にナビゲーションパスをフィルタリングするために使用される。図１２に示すシステム１００ｃの他の構成要素は第２の実施例と同じなので、ここでは説明を省略する。さらに、図１２では主題入力手段１１１は第２の実施例と同様にウェブページフィルタリング手段１０５に連結されているが、主題入力手段１１１は、ウェブページ取得手段１０１とリンク情報収集手段１０２との間に連結配置される前フィルタリング手段１１３に連結して、図２Ｂのようにナビゲーションパスの抽出前に取得済みウェブページに対して主題関連前フィルタリングを実行するようにしてもよい。
【００４４】
図１３は、本発明の第３の実施例による、ウェブページフィルタリングシステム１００ｃが実行するナビゲーションパス集合抽出プロセスを示すフローチャート図である。第３の実施例のナビゲーションパス抽出プロセス以外のステップは第２の実施例と同じであるため、図７、８を参照して説明した上記のプロセスを参照することとし、その詳細な説明はここでは省略する。図１３に示すプロセスでは、ステップ８０１から始まり、取得されたウェブページについて、ステップ８０２において各ウェブページが属するドメイン（ウェブサイト等）へのウェブページキューが作成され、ドメインの索引ページが、ドメインのウェブページキューのソースページとして検索される。次に、ステップ８０３において、キューに含まれる各ウェブページの全てのリンクが処理される。この処理はソースページから開始される。ここでは、第１の実施例とは異なり、ウェブページのリンクはナビゲーションパスの抽出前にフィルタリングされないことに注意する必要がある。そのため、本実施例では、各ウェブページの全てのリンクが考慮され、処理される。次に、ステップ８０４で、ウェブページａのナビゲーションリンクＬに関して、リンクＬが示すウェブページｐ（Ｌ）がページａと同じドメインに存在するかどうかがまず判定される。同じドメインに存在する場合、プロセスはステップ８０５に進み、リンクＬがナビゲーションリンクかどうかが判定される。ステップ８０４の判定でリンクＬが示すウェブページｐ（Ｌ）はウェブページａと同じドメインに存在しないことが判明した場合は、ステップ８０６において、Ｌのアンカーテキストとウェブページｐ（Ｌ）のタイトルがページａのナビゲーションパスに付加されるが、リンクＬが示すウェブページｐ（Ｌ）はドメインのキューには加えられない。その後、プロセスはステップ８０２に戻り、そこで、ウェブページｐ（Ｌ）が属する新たなドメインの索引ページをソースページとする検索が新たに実行され、その新たなドメインのウェブページキューが作成される。次に、この新たなドメインを対象に、ステップ８０２以降の動作が繰り返される。ステップ８０４において、ウェブページｐ（Ｌ）がウェブページａと同じドメインに存在すると判定されたら、さらに、ウェブページｐ（Ｌ）がすでにドメインのキューに加えられているかどうか、すなわち、ウェブページｐ（Ｌ）が前に抽出されたナビゲーションパスにおいてすでに考慮されたかどうかが判定される（ステップ８０５）。すでにキューに加えられている場合、リンクＬはナビゲーションリンクとして処理されず、ステップ８０９に進んで、次のリンクＬ＝Ｌ＋１を対象に前述したプロセスが繰り返される。一方、ステップ８０５においてウェブページｐ（Ｌ）はまだ考慮されていないと判定された場合には、リンクＬはナビゲーションリンクであると判定されるので、ステップ８０７に進んで、Ｌのアンカーテキストとウェブページｐ（Ｌ）のタイトルがページａのナビゲーションパスに付加され、リンクＬが示すウェブページｐ（Ｌ）がドメインのキューには加えられる。その後、ステップ８０８において、未処理のリンクが存在するかどうかが判定される。存在する場合は、次のリンクＬ＝Ｌ＋１を対象に上記のプロセスが繰り返される（ステップ８０９）。ナビゲーションリンクの処理が全て完了したら、ステップ８１０において、ドメインのキュー内に処理すべきウェブページがまだ残っているかどうかがさらに判定される。残っている場合は、次のページが抽出され（ステップ８１１）、その後ステップ６０３に戻って、新たに取得したウェブページの全てのリンクが処理される。全てのウェブページの処理が完了すると、プロセスは終了する。
【００４５】
以上では、第２および第３の実施例による、ナビゲーションリンクに基づくナビゲーションパス集合の抽出プロセスについて説明してきた。ナビゲーションパスは以降のウェブページフィルタリングにおいて重要な役割を果たすため、抽出方法は、その品質のみならず、最終的なウェブページフィルタリング結果の品質も保証されるように、慎重にデザインする必要がある。また、実施例を改善するために、さらなる変更を加えることもできる。ナビゲーションリンクのフィルタリングプロセスとナビゲーションパスの抽出プロセスは上記の２つの実施例に限定されないことは、当該技術に精通する当業者には理解されるであろう。また、実際の用途に応じて、他のフィルタリング方法と抽出方法をデザインして利用することも可能である。
【００４６】
図７および８に戻ると、ナビゲーションパス集合の抽出後、抽出されたナビゲーションパス集合は、収集されたウェブページコレクションに含まれるウェブページに索引付けされる。この索引付けの結果は、その後、主題関連ウェブページのフィルタリングに利用される。次に、図１４を参照して、主題関連ウェブページフィルタリングプロセスの一例を示す。
【００４７】
前述したように、ユーザは関心のある主題を予め決定し、主題入力手段１１１を介してそれを入力することができる。通常、ウェブページは、関連するキーワードがＵＲＬ、ページタイトル、またはこのページに誘導するアンカーテキストの１つに含まれている場合に、明確な主題関連ページであると判断される。ウェブページが明確な主題関連ページの場合は、ナビゲーションパスを介して明確な主題関連ページから到達することのできる全てのページが、可能な主題関連ページであるとみなされる。また、ナビゲーションパスを介したウェブページから明確な主題関連ページまでの距離が短いほど、そのウェブページは主題関連ウェブページである可能性が高いとみなされる。したがって、ナビゲーションパス情報を利用するためには、いくつかの主題関連オントロジ用語（主題関連キーワード）を予め作成する必要がある。またこれと同時に、主題非関連オントロジ用語（すなわち、当該主題以外の他の主題に関連するキーワード）も、精度向上のために任意で事前定義することもできる。例えば、ある企業ウェブサイトにおいて、製品（主題）に関連するウェブページを検索する際には、製品関連キーワードは「製品」、「ソリューション」、「サービス」といったものになり、製品非関連キーワードは、「ニュース」、「フォーラム」、「サポート」等のこの企業ウェブサイト内に存在する他の主題に関連するキーワードとなる。
【００４８】
図１４を参照すると、ステップ９０１において、主題入力手段１１１を介してユーザが関心を持つ主題が入力される。続くステップ９０２においては、この入力された主題に基づいて、主題関連オントロジ用語と主題非関連オントロジ用語とが選択される。ステップ９０３において、取得されたウェブページ集合に含まれるウェブページａに関して、選択されたオントロジ用語に基づいて、ウェブページａが明確な主題関連ページと明確な主題非関連ページのどちらであるかが判定される（ステップ９０４）。この判定方法には、当該技術でよく知られた類似度測定技術を任意に選んで利用できる。ステップ９０４において、ウェブページａが明確な主題関連ページであると判定されると、ウェブページａは保存される（ステップ９０５）。ステップ９０４において、ウェブページａが明確な主題非関連ページであると判定された場合には、ウェブページａは拒否される（ステップ９０６）。ステップ９０４でウェブページａのタイプを判定できなかった場合は、ステップ９０７に進む。ステップ９０７において、ナビゲーションによって各明確な主題関連ページからウェブページａに到達できるかどうかが判定される。到達できる場合、ウェブページａは候補ページとみなされる（ステップ９０８）。到達できない場合、ウェブページａは拒否される（ステップ９０９）。ウェブページａが候補ページであると判定された後、ステップ９１０において、候補ページａとナビゲーションパス上の各明確な主題関連ページ間の距離のうち最短の距離が、所定のたしきい値Ｔｈよりも短いかどうかが判定される。短い場合には、ウェブページａは主題関連ページであると判定され、保存される（ステップ９１１）。最短の距離が所定の（事前定義された）しきい値Ｔｈよりも長い場合は、ステップ９１２において、ウェブページａは保留ページとみなされる。ステップ９１３で保留ページに関して、ナビゲーションパスを介して各明確な主題非関連ページからウェブページａに到達できるかどうかがさらに判定される。到達できる場合は、このページは拒否される（ステップ９１４）。到達できない場合には、ウェブページａは主題関連ページであると判定され、保存される（ステップ９１５）。その後、取得されたウェブページコレクションにおける次のページに関して、上記のプロセスが繰り返され（ステップ９１６）、全てのウェブページが処理されるまでこれが続けられる。
【００４９】
図１４に示したプロセスは本発明によるウェブページフィルタリングの一例にすぎず、本発明はこれに限定されないことに留意されたい。他の用途においても、フィルタリングルールをそれぞれの用途に適したようにデザインできることは容易に理解できることである。また、ウェブページフィルタリング方法は上記の主題関連ウェブページフィルタリングに限定されない。
【００５０】
図１５は、本発明の実装に使用されるコンピュータシステム１０００の概略ブロック図である。この図に示すように、コンピュータシステム１０００は、ＣＰＵ１００１と、ユーザインターフェース１００２と、周辺機器１００３と、メモリ１００５と、恒久的記憶装置１００６と、これらの構成要素を相互に接続する内部バス１００４とを含む。また、メモリ１００５は、パスランキング／ウェブページフィルタリングモジュール、ウェブクローラ＆ウェブページ解析モジュール、オペレーティングシステム（ＯＳ）等をさらに含む。本発明は、主に、図１に示すパスランキング／ウェブページフィルタリングモジュール１０のようなパスランキング／ウェブページフィルタリングモジュールに関連する。ウェブクローラ＆ウェブページ解析モジュールは、ネットワークからウェブページを取得し、そのウェブページをウェブページデータベースに格納するために使用できる。恒久的記憶装置１００６は、ウェブページデータベース１０６、ナビゲーションパスデータベース１０７、索引テーブルデータベース１０８、結果ウェブページデータベース１０９等の、本発明に関連する各種データベースを格納する。
【００５１】
上記では、添付図面を参照しながら、第１および第２の実施例によるナビゲーションパスベースのウェブページフィルタリングシステムとその動作について説明してきた。上記の説明で示したように、ウェブページのナビゲーションパスはウェブページのコンテキスト情報として抽出される。その後、ナビゲーションパス集合がウェブページに索引付けされ、索引テーブルに格納される。これにより、リンク構造だけでなく、ウェブ内に存在するユーザナビゲーションの誘導に有効な全てのテキストも利用されるので、高品質なウェブページフィルタリングが実現される。さらに、１つのウェブページが、異なる制作者によってデザインされた複数のナビゲーションパスによって示される状況もありうる。この場合、各ナビゲーションパスに出現するテキストを、ターゲットウェブページのコンテンツを１つの側面から見た一種の要約か説明とみなすとすれば、複数の制作者の観点（すなわち、コンテキスト）がナビゲーションパス集合に反映されるので、ウェブページフィルタリングの客観性が保証される。
【００５２】
上記では、添付図面を参照して本発明の特定の実施例について説明してきたが、本発明は添付図面に示した特定の構成および処理に限定されるものではない。また、上記の実施例では、いくつかの具体的なステップを例示したが、本発明の方法のプロセスはこれらのステップに限定されるものではない。これらのステップは、本発明の精神と実質的な特性から逸脱することなく変更、修正、補完が可能であり、また一部ステップについては順序の入れ替えも可能なことは、当業者には理解されるであろう。
【００５３】
本発明の各要素は、ハードウェア、ソフトウェア、ファームウェア、またはその組み合わせで実装され、システム、サブシステム、そのコンポーネントもしくはサブコンポーネント内で利用される。ソフトウェアで実装された場合、本発明の各要素はプログラムもしくはコードセグメントとして必要なタスクを実行するために使用される。プログラムまたはコードセグメントは、機械読取り可能な媒体に格納することも、あるいは、伝送媒体もしくは通信リンクを介して搬送波内に具現化されたデータ信号により伝送することもできる。「機械読取り可能な媒体」には、情報を格納または伝送できるあらゆる媒体が含まれる。機械読取り可能な媒体の例としては、電子回路、半導体記憶装置、ＲＯＭ、フラッシュメモリ、消去可能ＲＯＭ（ＥＲＯＭ）、フロッピーディスク、ＣＤ−ＲＯＭ、光ディスク、ハードディスク、光ファイバー媒体、無線周波数（ＲＦ）リンク等が挙げられる。コードセグメントは、インターネット、イントラネット等のコンピュータネットワークを介してダウンロードすることもできる。
【００５４】
上記では本発明を特定の実施例を参照して説明したが、本発明は上記の特定の実施例や、図面に示した特定の構成に限定されるものではない。例えば、図示した一部のコンポーネントは、互いに組み合わせて１つのコンポーネントとしたり、１つのコンポーネントを複数のサブコンポーネントに分割したり、他の既知のコンポーネントを追加したりすることもできる。また、動作プロセスも同様に、例に示されたものに限定されない。本発明はその精神と主要な特徴から逸脱することなく他の様々な形態で実装できることは、当該技術に精通した当業者により理解されるであろう。したがって、本発明の実施例はあらゆる点において例示的であり、限定的なものではない。本発明の範囲は前述の説明よりむしろ付記した特許請求の範囲に示されており、各請求項と等価な意味と範囲に含まれるあらゆる変更がそれに包含される。
【図面の簡単な説明】
【００５５】
本発明の上記および他の特徴は、図面を参照しながら下記の詳細な説明を読むことにより、より完全に理解することができる。
【図１】本発明の第１の実施例によるウェブページフィルタリングシステム１００を示すブロック図である。
【図２】ウェブページのナビゲーションパスの一例を示す。
【図３】ナビゲーションパスベースの方法による図２に示すウェブページ構造でのウェブページ索引付けと、従来技術の方法によるウェブページ索引付けとを比較する比較表である。
【図４】図１に示すウェブページフィルタリングシステム１００の動作を示すフローチャート図である。
【図５】本発明の第２の実施例によるウェブページフィルタリングシステム１００ａを示す構造ブロック図である。ここでは、ナビゲーションパス集合を抽出する前に、リンクフィルタリングプロセスが実行されてナビゲーションリンクが取得されている。
【図６】図５に示すウェブページフィルタリングシステムの代替の実装１００ｂである。ここでは、ナビゲーションパス集合を抽出する前に、予め決定された関心主題が入力され、それに基づいて、取得したウェブページ集合に対して前フィルタリングが実行されている。
【図７】図５に示すウェブページフィルタリングシステム１００ａの動作を示すフローチャート図である。
【図８】図６に示すウェブページフィルタリングシステム１００ｂの動作を示すフローチャート図である。
【図９】本発明の第２の実施例によるナビゲーションリンクフィルタリングプロセスを示すフローチャート図である。
【図１０】図９に示すナビゲーションリンクフィルタリングを説明するためのウェブサイト構造の一例である。
【図１１】本発明の第２の実施例によるナビゲーションパス集合抽出プロセスを示すフローチャート図である。
【図１２】本発明の第３の実施例によるウェブページフィルタリングシステム１００ｃを示す構造ブロック図である。ここでは、ナビゲーションパス集合の抽出プロセス中に、ナビゲーションリンクのフィルタリングが実行されている。
【図１３】本発明の第３の実施例によるナビゲーションパス集合抽出プロセスを示すフローチャート図である。
【図１４】本発明によるウェブページフィルタリングシステムの主題関連ウェブページのフィルタリングプロセスを示すフローチャート図である。
【図１５】本発明の実装に使用されるコンピュータシステムの概略ブロック図である。
【符号の説明】
【００５６】
１００：パスランキング／ウェブページフィルタリングモジュール１０
１０１：ウェブページ取得手段
１０２：リンク情報収集手段
１０３：ナビゲーションパス抽出手段
１０４：索引付け手段
１０５：ウェブページフィルタリング手段
１０６：ウェブページデータベース
１０９：結果ウェブページデータベース
１０７：ナビゲーションパスデータベース
１０８：索引テーブルデータベース
１１０：ナビゲーションリンクフィルタ
１１１：主題入力手段
１１２：ディレクトリ構造収集手段
１１３：前フィルタリング手段
１００１：ＣＰＵ
１００２：ユーザインターフェース
１００３：周辺機器
１００４：内部バス
１００５：メモリ

【特許請求の範囲】
【請求項１】
ウェブページフィルタリング方法であって、
１つ以上のウェブページコレクションに含まれる全てのウェブページを取得するステップと、
取得した前記ウェブページからリンク情報を収集するステップと、
収集した前記リンクに基づいて、取得した各ウェブページのナビゲーションパス集合を抽出するステップと、
目的のウェブページを取得するために、抽出した前記ナビゲーションパス集合に基づいて取得済みウェブページをフィルタリングするステップと
を有することを特徴とするウェブページフィルタリング方法。
【請求項２】
前記ナビゲーションパス集合を抽出した後、取得済みの各ウェブページに、抽出済みの前記ナビゲーションパス集合内のナビゲーションパスを索引付けするステップと、
前記索引付けしたナビゲーションパス集合に基づいて、取得済みの前記ウェブページをフィルタリングするステップを有することを特徴とする請求項１に記載のウェブページフィルタリング方法。
【請求項３】
各ウェブページコレクションのディレクトリ構造を収集するステップと、
ナビゲーションリンク集合を取得するために、ウェブページコレクション内のウェブページについて収集したリンクから、前記ディレクトリ構造に従って非ナビゲーションリンクを全て削除するステップと、
前記ナビゲーションリンク集合に基づいて、取得済みの各ウェブ・ページのナビゲーションパス集合を抽出するステップを有することを特徴とする請求項１に記載のウェブページフィルタリング方法。
【請求項４】
前記非ナビゲーションリンクが、
前記ディレクトリ構造内において、「子」ウェブページを「親」ウェブページに導くリンク、
前記ディレクトリ構造内において、同じ階層に属する全ての「兄弟」ウェブページを同一のウェブページへと誘導するリンク、
前記ディレクトリ構造内において、同じ意味的ブロックに存在する全てのウェブページを同一ウェブページへと誘導するリンク
のうちの少なくとも１つであることを特徴とする請求項３に記載のウェブページフィルタリング方法。
【請求項５】
前記ナビゲーションパス集合の抽出ステップが、
（ａ）取得済みのウェブページからウェブページを選択し、
（ｂ）選択したウェブページが属する前記ウェブページコレクションについてキューの生成し、前記ウェブページコレクションの索引ページを前記キュー内のソースページとして検索し、
（ｃ）前記ソースページで始まる前記キュー内の各ウェブページの各ナビゲーションリンクに関して、
前記ナビゲーションリンクが示すウェブページ及び関心あるウェブページが、同一の前記ウェブページコレクションに存在する場合、
ナビゲーションリンクに対応するアンカーテキストとナビゲーションリンクが示すウェブページのタイトルを、関心あるウェブページのナビゲーションパスに加え、関心あるウェブページが属するウェブページコレクションのキューにナビゲーションリンクが示すウェブページを加え、関心あるウェブページの次のナビゲーションリンクに関してステップ（ｃ）に戻り、
前記ナビゲーションリンクが示すウェブページ及び関心あるウェブページが、同一の前記ウェブページコレクションに存在しない場合、
前記ナビゲーションリンクに対応するアンカーテキストと前記ナビゲーションリンクが示すウェブページのタイトルを、関心あるウェブページのナビゲーションパスに加え、前記ナビゲーションリンクが示すウェブページが属する前記ウェブページコレクションについてキューを作成するためにステップ（ｂ）に戻り、前記ウェブページコレクションの前記索引ページを前記ソースページとして検索して、（ｃ）の処理を繰り返す
ことを特徴とする請求項３に記載のウェブページフィルタリング方法。
【請求項６】
前記ナビゲーションパス集合の抽出ステップが、
（ａ）取得済みのウェブページからウェブページを選択し、
（ｂ）選択したウェブページが属する前記ウェブページコレクションについてキューの生成し、前記ウェブページコレクションの索引ページを前記キュー内のソースページとして検索し、
（ｃ）前記ソースページで始まる前記キュー内の各ウェブページの各リンクに関して、
前記リンクが示すウェブページ及び関心あるウェブページが、同一の前記ウェブページコレクションに存在する場合、前記リンクが示すウェブページがウェブページコレクションのキューに既に存在するかどうかを判定し、前記リンクが示すウェブページが前記ウェブページコレクションのキューに存在しない場合、前記リンクに対応するアンカーテキストと前記リンクが示すウェブページのタイトルを、関心あるウェブページのナビゲーションパスに加え、前記リンクが示すウェブページが前記ウェブページコレクションのキューに存在する場合、関心あるウェブページの次のリンクに関してステップ（ｃ）に戻り、
前記ナビゲーションリンクが示すウェブページ及び関心あるウェブページが、同一の前記ウェブページコレクションに存在しない場合、前記リンクに対応するアンカーテキストと前記リンクが示すウェブページのタイトルを、関心あるウェブページのナビゲーションパスに加え、前記リンクが示すウェブページが属する前記ウェブページコレクションについてキューを作成するためにステップ（ｂ）に戻り、前記ウェブページコレクションの前記索引ページを前記ソースページとして検索して、（ｃ）の処理を繰り返す
ことを特徴とする請求項１に記載のウェブページフィルタリング方法。
【請求項７】
前記ウェブページのフィルタリングが、主題関連ウェブページフィルタリングであり、
前記ナビゲーションパス集合を抽出した後、所定の主題を入力するステップと、
目的のウェブページを取得するために、前記所定の主題に従い、前記抽出したナビゲーションパス集合に基づいて取得済みウェブページをフィルタリングするステップとをさらに含むことを特徴とする請求項１に記載のウェブページフィルタリング方法。
【請求項８】
前記ウェブページのフィルタリングが、主題関連ウェブページフィルタリングであり、
前記ナビゲーションパス集合を抽出する前に、所定の主題を入力するステップと、
前記所定の主題に従い、前記取得済みのウェブページについて主題関連ウェブページプリフィルタリングを実行するステップと、
前記ウェブページの部分集合についてナビゲーションパス集合を抽出するステップと、
前記所定の主題に従い、前記抽出したナビゲーションパス集合に基づいてプリフィルタリング済みのウェブページをフィルタリングするステップとをさらに含むことを特徴とする請求項１に記載のウェブページフィルタリング方法。
【請求項９】
前記主題関連ウェブページフィルタリングを実行するステップが、
所定の主題に従って主題関連オントロジ用語と主題非関連オントロジ用語を選択するステップと、
各ウェブページについて、
選択した前記主題関連オントロジ用語および主題非関連オントロジ用語に従って、ウェブページが明確な主題関連ページまたは明確な主題非関連ページであるかどうかを判定するステップと、
すべての明確な主題関連ページを目的のウェブページとして保存し、すべての明確な主題非関連ページを拒否するステップと、
明確な主題関連ページでも明確な主題非関連ページでもない他のウェブページについて、
前記ナビゲーションパスを介して、何れかの明確な主題関連ページからウェブページに到達できない場合、前記ウェブページを拒否し、到達できる場合、当該ページを候補ページとみなし、
前記候補ページと前記ナビゲーションパス上の何れかの明確な主題関連ページの間の最短距離が所定のしきい値より短い場合、当該ウェブページを目的のウェブページとして保存し、長い場合、当該ページを保留ページとみなし、
前記ナビゲーションパスを介して、何れかの明確な主題関連ページから前記保留ページに到達できる場合、前記ウェブページを拒否し、到達できない場合、前記ページを候補ページとみなす
ことを特徴とする請求項７又は請求項８に記載のウェブページフィルタリング方法。
【請求項１０】
請求項１に記載のウェブページフィルタリング方法であって、
前記ウェブページコレクションが、ドメイン、サブドメインあるいはディレクトリである。
【請求項１１】
ウェブページのナビゲーションパス集合に基づくウェブページフィルタリング方法であって、
前記ナビゲーションパスは、トップウェブページからターゲットウェブページに至るパス上のウェブページに関連する、ＵＲＬ、アンカーテキスト、ウェブページタイトルを組み合わせたリストであり、
１つ以上のウェブページコレクションに含まれる全てのウェブページを取得するステップと、
取得した前記ウェブページからリンク情報を収集するステップと、
収集した前記リンクに基づいて、取得した各ウェブページのナビゲーションパス集合を抽出するステップと、
目的のウェブページを取得するために、抽出した前記ナビゲーションパス集合に基づいて取得済みウェブページをフィルタリングするステップと
を有することを特徴とするウェブページフィルタリング方法。
【請求項１２】
ウェブページフィルタリングシステムであって、
１つ以上のウェブページコレクションに含まれる全てのウェブページを取得するウェブページ取得手段と、
取得したウェブページからリンク情報を収集するリンク情報収集手段と、
収集したリンクに基づいて、取得済みの各ウェブページのナビゲーションパス集合を抽出するナビゲーションパス抽出手段と、
目的のウェブページを取得するために、抽出したナビゲーションパス集合に基づいて取得済みウェブページをフィルタリングするウェブページフィルタリング手段とを備えることを特徴とするウェブページフィルタリングシステム。
【請求項１３】
前記ナビゲーションパス抽出手段と前記ウェブページフィルタリング手段に接続され、取得済みの各ウェブページに、抽出済みの前記ナビゲーションパス集合内のナビゲーションパスを索引付けする索引付け手段を備え、
前記ウェブページフィルタリング手段が、前記索引付けしたナビゲーションパス集合に基づいて、目的のウェブページを取得するために、取得済みの前記ウェブページをフィルタリングする
ことを特徴とする請求項１２に記載のウェブページフィルタリングシステム。
【請求項１４】
各ウェブページコレクションのディレクトリ構造を収集するディレクトリ構造収集手段と、
ナビゲーションリンク集合を取得するために、ウェブページコレクション内のウェブページについて収集したリンクから、前記ディレクトリ構造に従って非ナビゲーションリンクを全て削除するナビゲーションリンクフィルタとを備え、
前記ナビゲーションパス抽出手段が、前記ナビゲーションリンク集合に基づいて、取得済みの各ウェブ・ページのナビゲーションパス集合を抽出することを特徴とする請求項１２に記載のウェブページフィルタリングシステム。
【請求項１５】
前記非ナビゲーションリンクが、
ディレクトリ構造内において、「子」ウェブページを「親」ウェブページに導くリンク、
ディレクトリ構造内において、同じ階層に属する全ての「兄弟」ウェブページを同一のウェブページへと誘導するリンク、
ディレクトリ構造内において、同じ意味的ブロックに存在する全てのウェブページを同一ウェブページへと誘導するリンク
のうちの少なくとも１つであることを特徴とする請求項１４に記載のウェブページフィルタリングシステム。
【請求項１６】
前記ナビゲーションパス抽出手段が、
（ａ）取得済みのウェブページからウェブページを選択し、
（ｂ）選択したウェブページが属する前記ウェブページコレクションについてキューの生成し、前記ウェブページコレクションの索引ページを前記キュー内のソースページとして検索し、
（ｃ）前記ソースページで始まる前記キュー内の各ウェブページの各ナビゲーションリンクに関して、
前記ナビゲーションリンクが示すウェブページ及び関心あるウェブページが、同一の前記ウェブページコレクションに存在する場合、
ナビゲーションリンクに対応するアンカーテキストとナビゲーションリンクが示すウェブページのタイトルを、関心あるウェブページのナビゲーションパスに加え、関心あるウェブページが属するウェブページコレクションのキューにナビゲーションリンクが示すウェブページを加え、関心あるウェブページの次のナビゲーションリンクに関してステップ（ｃ）に戻り、
前記ナビゲーションリンクが示すウェブページ及び関心あるウェブページが、同一の前記ウェブページコレクションに存在しない場合、
前記ナビゲーションリンクに対応するアンカーテキストと前記ナビゲーションリンクが示すウェブページのタイトルを、関心あるウェブページのナビゲーションパスに加え、前記ナビゲーションリンクが示すウェブページが属する前記ウェブページコレクションについてキューを作成するためにステップ（ｂ）に戻り、前記ウェブページコレクションの前記索引ページを前記ソースページとして検索して、（ｃ）の処理を繰り返す
ことを特徴とする請求項１４に記載のウェブページフィルタリングシステム。
【請求項１７】
前記ナビゲーションパス抽出手段が、
（ａ）取得済みのウェブページからウェブページを選択し、
（ｂ）選択したウェブページが属する前記ウェブページコレクションについてキューの生成し、前記ウェブページコレクションの索引ページを前記キュー内のソースページとして検索し、
（ｃ）前記ソースページで始まる前記キュー内の各ウェブページの各リンクに関して、
前記リンクが示すウェブページ及び関心あるウェブページが、同一の前記ウェブページコレクションに存在する場合、前記リンクが示すウェブページがウェブページコレクションのキューに既に存在するかどうかを判定し、前記リンクが示すウェブページが前記ウェブページコレクションのキューに存在しない場合、前記リンクに対応するアンカーテキストと前記リンクが示すウェブページのタイトルを、関心あるウェブページのナビゲーションパスに加え、前記リンクが示すウェブページが前記ウェブページコレクションのキューに存在する場合、関心あるウェブページの次のリンクに関してステップ（ｃ）に戻り、
前記ナビゲーションリンクが示すウェブページ及び関心あるウェブページが、同一の前記ウェブページコレクションに存在しない場合、前記リンクに対応するアンカーテキストと前記リンクが示すウェブページのタイトルを、関心あるウェブページのナビゲーションパスに加え、前記リンクが示すウェブページが属する前記ウェブページコレクションについてキューを作成するためにステップ（ｂ）に戻り、前記ウェブページコレクションの前記索引ページを前記ソースページとして検索して、（ｃ）の処理を繰り返す
ことを特徴とする請求項１２に記載のウェブページフィルタリングシステム。
【請求項１８】
前記ウェブページのフィルタリングが、主題関連ウェブページフィルタリングであり、
前記ウェブページフィルタリング手段に接続され、所定の主題を入力する主題入力手段を備え、
前記ウェブページフィルタリング手段が、目的のウェブページを取得するために、前記所定の主題に従い、前記抽出したナビゲーションパス集合に基づいて取得済みウェブページをフィルタリングすることを特徴とする請求項１２に記載のウェブページフィルタリングシステム。
【請求項１９】
前記ウェブページのフィルタリングが、主題関連ウェブページフィルタリングであり、
前記ウェブページ手段と前記リンク情報収集手段間に接続されたプリフィルタリング手段と、
前記ウェブページフィルタリング手段に接続され、所定の主題を入力する主題入力手段を備え、
前記プリフィルタリング手段が、前記所定の主題に従い、前記取得済みのウェブページについて主題関連ウェブページプリフィルタリングを実行し、前記ナビゲーションパス抽出手段が、前記ウェブページの部分集合についてナビゲーションパス集合を抽出し、前記ウェブページフィルタリング手段が、前記所定の主題に従い、前記抽出したナビゲーションパス集合に基づいてプリフィルタリング済みのウェブページをフィルタリングすることを特徴とする請求項１２に記載のウェブページフィルタリングシステム。
【請求項２０】
前記ウェブページフィルタリング手段が、
所定の主題に従って主題関連オントロジ用語と主題非関連オントロジ用語を選択し、
各ウェブページについて、
選択した前記主題関連オントロジ用語および主題非関連オントロジ用語に従って、ウェブページが明確な主題関連ページまたは明確な主題非関連ページであるかどうかを判定し、
すべての明確な主題関連ページを目的のウェブページとして保存し、すべての明確な主題非関連ページを拒否し、
明確な主題関連ページでも明確な主題非関連ページでもない他のウェブページについて、
前記ナビゲーションパスを介して、何れかの明確な主題関連ページからウェブページに到達できない場合、前記ウェブページを拒否し、到達できる場合、当該ページを候補ページとみなし、
前記候補ページと前記ナビゲーションパス上の何れかの明確な主題関連ページの間の最短距離が所定のしきい値より短い場合、当該ウェブページを目的のウェブページとして保存し、長い場合、当該ページを保留ページとみなし、
前記ナビゲーションパスを介して、何れかの明確な主題関連ページから前記保留ページに到達できる場合、前記ウェブページを拒否し、到達できない場合、前記ページを候補ページとみなす
ことを特徴とする請求項１８又は請求項１９に記載のウェブページフィルタリングシステム。
【請求項２１】
前記ウェブページコレクションが、ドメイン、サブドメインあるいはディレクトリであることを特徴とする請求項１２に記載のウェブページフィルタリングシステム。
【請求項２２】
ウェブページのナビゲーションパス集合に基づくウェブページフィルタリングシステムであって、
前記ナビゲーションパスは、トップウェブページからターゲットウェブページに至るパス上のウェブページに関連する、ＵＲＬ、アンカーテキスト、ウェブページタイトルを組み合わせたリストであり、
１つ以上のウェブページコレクションに含まれる全てのウェブページを取得するウェブページ取得手段と、
取得した前記ウェブページからリンク情報を収集するリンク情報収集手段と、
収集したリンクに基づいて、取得済みの各ウェブページのナビゲーションパス集合を抽出するナビゲーションパス抽出手段と、
目的のウェブページを取得するために、抽出したナビゲーションパス集合に基づいて取得済みウェブページをフィルタリングするウェブページフィルタリング手段とを備えることを特徴とするウェブページフィルタリングシステム。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【図１３】

【図１４】

【図１５】

【公開番号】特開２００９−１５１７４９（Ｐ２００９−１５１７４９Ａ）
【公開日】平成２１年７月９日（２００９．７．９）
【国際特許分類】

物理学 (1,541,580)
- 計算；計数 (381,677)
  - 電気的デジタルデータ処理 (228,215)

【外国語出願】
【出願番号】特願２００８−２４３９６４（Ｐ２００８−２４３９６４）
【出願日】平成２０年９月２４日（２００８．９．２４）
【公序良俗違反の表示】
（特許庁注：以下のものは登録商標）
１．フロッピー
【出願人】（５０５４１８８７０）エヌイーシー（チャイナ）カンパニー，　リミテッド (108)
【氏名又は名称原語表記】ＮＥＣ（Ｃｈｉｎａ）Ｃｏ．，Ｌｔｄ．
【Ｆターム（参考）】

[ Back to top ]

ナビゲーションパス情報に基づく主題関連ウェブページのフィルタリング方法およびシステム

メニュー

スポンサーリンク

次の公報 »

« 前の公報

ナビゲーションパス情報に基づく主題関連ウェブページのフィルタリング方法およびシステム

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク