説明

ナビゲーションパス情報に基づく主題関連ウェブページのフィルタリング方法およびシステム

【課題】 主題に関連するウェブページのフィルタリングを高精度で行うために、コンテキスト情報としてウェブページのナビゲーションパスの集合を利用する方法とシステムが提供される。
【解決手段】 この方法は、1つ以上のウェブページコレクションに含まれる全てのウェブページを取得するステップと、取得したウェブページからリンク情報を収集するステップと、収集したリンクに基づいて、取得した各ウェブページのナビゲーションパス集合を抽出するステップと、目的のウェブページを取得するために、抽出したナビゲーションパス集合に基づいて取得済みウェブページをフィルタリングするステップとを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は情報検索または情報抽出に関し、特にウェブページ検索またはウェブページマイニングに関する。具体的には、本発明は、主題に関連するウェブページのフィルタリングを高精度で行うために、コンテキスト情報としてウェブページのナビゲーションパスの集合を利用する方法とシステムを提供する。
【背景技術】
【0002】
インターネットの普及を背景とした電子情報の爆発的増加に伴い、大量で多様な情報がウェブ上に集積され、今なお信じがたいほどの速度で増加を続けている。ネット市民にとって、この膨大な情報の集積から有用な情報を見つけ出すことは非常に困難な作業である。
【0003】
情報検索(IR)とは、文書集合内の情報を検索するための技術であり、さらに(1)文書に含まれる特定情報の検索、(2)文書そのものの検索、(3)文書を説明するメタデータの検索、(4)独立したリレーショナルデータベースや、インターネット、イントラネットのようなハイパーテキストでネットワーク化されたデータベース内のテキスト、音声、画像、データの検索、の4つに分類することができる。情報抽出(IE)は情報検索の一種で、機会読み取りの可能な非構造化文書から、構造化もしくは半構造化された情報を自動的に抽出することを目的とする。長い歴史を持つこれら2つの研究分野から出現したウェブ検索エンジン(例:Google、百度(Baidu))は、ウェブ上で情報を見つけるための文書検索システムであり、特定の基準を満たすコンテンツ(典型的には、与えられた単語または語句を含むコンテンツ)を検索し、基準に一致する項目リストを取り込むことができる。近年、バーティカル(垂直)検索エンジンという新しいタイプのウェブ検索エンジンがウェブ上で人気を集めている。この検索エンジンは、特定分野に関心を持つ人々に従来よりも正確で有用性の高い情報を提供することを目的とするもので、いくつかの情報抽出またはウェブマイニング技術を利用して、高度に洗練されたデータベースや、特定トピックに関するウェブサイトから構造化情報を抽出する。
【0004】
インターネット時代の到来を受けて出現した情報検索または情報抽出の多数の解決策の1つ、ウェブページフィルタリングは、一般的な(バーティカル)ウェブ検索エンジンであれ、特定分野に特化したウェブマイニングシステムであれ、その内部できわめて重要な役割を果たす。
【0005】
技術的には、ウェブページフィルタリングのプロセスは主に2つのステップで構成される。すなわち、まず特定のフィルタリング目的に合った適切で効率的なウェブページの特徴を選択し、次に選択した特徴に基づいてフィルタリングメカニズムをモデル化する、というステップである。特徴の選択という側面からみた場合、現在のウェブページフィルタリング手法は、(1)コンテンツベースのフィルタリング、(2)ページタイプベースのフィルタリング、(3)リンクベースのフィルタリング、(4)拡張アンカベースのフィルタリング、という4つのカテゴリに大別できる。以下に、この4種類のウェブページフィルタリング手法を簡単に紹介する。
【0006】
コンテンツベースの手法:この手法は情報検索の研究[1]−[2]から直接派生したもので、クエリ依存型のアルゴリズムである。この手法では、クエリがサブミットされると、各ウェブページに類似度スコアが割り当てられる。その基本的な概念とは、以下のようなものである。すなわち、ウェブページに出現した単語が、関連するウェブページの検索に利用される。ここでは、クエリ語が文書内に早く出現するウェブページや、クエリ語のフォントが大きいか太字のウェブページに高いスコアが付与される。ウェブページとそれに対するクエリ間の類似度計算は、ベクトル空間モデル(VSM)に基づいて、余弦測定方法によって行うことができる。その後、類似度スコアから、関連するウェブページのフィルタリングが実現される。
【0007】
ページタイプベースの手法:ほとんどのインターネットユーザは、さっと見ただけでそのウェブページの文書の種類を認識できるので、人間によるウェブページ評価の結論は、コンテンツだけでなく、各種フォーマットやデザイン情報についても考慮して導き出されていると考えられる。この観察をもとに、ウェブページのタイプ分類のためのルールベース分類子においては、ウェブページのコンテンツに加えて、その構造的特徴も使用されている。基本構造の特徴としては、典型的なタグ−文字列ペア、インラインイメージのサイズと数、リンクの種類と数、URL文字列などが挙げられる。また、類似したウェブページの内部特徴(アンカーテキスト、キーワード、タイトル、URLなど)に基づいて、機械学習ベースの方法をウェブページの分類に適用することもできる。
【0008】
リンクベースの手法:ウェブは個々のページのテキストコンテンツとハイパーリンクを合わせたコレクションなので、これらのコレクションのリンク構造には、ウェブページフィルタリングに利用可能な(そして、利用すべき)情報が含まれる。ウェブページ重要度ランキングの方法としては、ウェブブラウザ挙動に関する想定「ランダムサーファ」モデルを使用したリンクベースの方法が提案されている。この方法は、ウェブのリンク構造を利用して、各ウェブページの品質ランキング(「PageRankスコア」と呼ばれる)を計算する。品質ランキングは、ページへの入リンクに対して、そのページの品質に応じた重み付けを行って計算される。ウェブページのランキングスコアは、ウェブのグラフ構造(ウェブページの外部情報)内におけるページの配置場所によってのみ決まるため、クエリ依存型であり、クエリ時間に先立って計算することができる。最後に、コンテンツベースの方法とリンクベースの方法から得られたランク値が結合され、ウェブページと主題間の相関性を測定するための最終スコアが決定される。
【0009】
拡張アンカベースの手法:ウェブのハイパーリンク構造を利用してウェブページフィルタリングを行う際には、リンク上に出現するテキスト、すなわちアンカーテキストも、ウェブページランキングに利用できる。アンカーテキストは、リンクが張られたページだけでなく、そのリンクが示すページにも関連付けることができる。特に後者のケースでは、アンカーテキストはウェブページそのものよりも正確にウェブページを記述していることが多いため、非テキスト情報の検索に役立つのみならず、少ない文書ダウンロード数(画像、プログラム、データベース等)で広い検索範囲を確保できるという利点がある。上記の考察に基づいて、ウェブページフィルタリングのための拡張アンカベース手法が提案されている。この手法では、まず、ウェブブラウザをトップのホームページから各ターゲットウェブページへと誘導するウェブページ上の全てのアンカーテキストが収集され、それを使って拡張アンカリストが作成される。次に、拡張アンカリストに含まれるキーワードを使って、ターゲットウェブページのフィルタリングが行われる。
【0010】
しかし、ウェブページフィルタリングのための既存の解決策はいくつかの短所を抱える。まず、コンテンツ、ページタイプ、およびリンクベースの各手法で採用される情報検索モデルは、各ウェブページを1つの独立した文書として扱い、単一のページに対して索引付けとランキングを行う。そのため、返されるページにはクエリ内の全てのキーワードが含まれていなければならない。つまり、これらのモデルは、ウェブページの内部コンテンツは自己完結型ではない事が多いという事実を無視しているのである。これらの解決策の索引付け機能は、ウェブページの内部コンテンツのみに基づいて索引付けを行うが、このように限られたコンテンツから生成されるウェブページフィルタリングの結果は、満足のゆく品質とはならない。
【0011】
通常、ユーザがウェブのナビゲーションを行う際には、ウェブページのコンテキスト情報(ドメイン、ディレクトリ、他のページからのナビゲーションハイパーリンク等)もユーザの念頭にあるはずであり、そのウェブページのコンテンツを示す重要な手がかりとなりうる。しかし、従来技術はコンテキスト情報は十分に活用していない。
【0012】
一方、コンテンツベースの手法は、ウェブを従来型の文書リポジトリとして扱う。そのため、ウェブページフィルタリングでは、コンテキスト情報のようなウェブとウェブページの特殊情報はまったく利用されない。ウェブページのテキストコンテンツはウェブページフィルタリングを行う上では不十分であり、高精度なウェブページフィルタリング結果は期待できない。
【0013】
さらに、ページタイプベースの手法では、ウェブページフィルタリングのためにウェブページの構造的特徴が利用されてはいるものの、ウェブ内のハイパーリンク情報は内部で考慮されていない。しかし、ハイパーリンクコレクションのリンク構造は、ターゲットとするウェブページについての人間の暗黙的な推奨を反映しているので、ウェブページフィルタリング結果の品質向上に大いに貢献するはずである。
【0014】
リンクベースおよび拡張アンカベースの手法はウェブ内のハイパーリンク情報を利用するが、その潜在的可能性を完全に活かしているとは言い難い。リンクベースの手法の場合、想定ランダムサーファによるリンクのクリックはランダムとはならない可能性がある。ユーザは、ウェブブラウジングする際の移動には、アンカーテキストも利用する。そのため、入リンク数とそれぞれの重み付けに加えて、ナビゲーションパスに出現するアンカーテキストもまた、宛先ウェブページに関する重要な手がかりとなる。拡張アンカベースの手法は、このアンカーテキスト情報のみを考慮してウェブページのフィルタリングを行う。ページタイトル、URLテキスト、ときにはドメインやホストさえも、ウェブページのコンテンツを知るための重要な手がかりとなりうるが、これらは利用されない。
【発明の開示】
【発明が解決しようとする課題】
【0015】
本発明は、従来技術の上記の欠点を鑑みて、従来技術の技術的問題を解決してウェブページフィルタリング結果の品質を向上させることのできるウェブページフィルタリング方法およびシステムを提供するためになされた。
【課題を解決するための手段】
【0016】
本発明の一態様によれば、ウェブページフィルタリング方法であって、1つ以上のウェブページコレクションに含まれる全てのウェブページを取得するステップと、取得したウェブページからリンク情報を収集するステップと、収集したリンクに基づいて、取得した各ウェブページのナビゲーションパス集合を抽出するステップと、目的のウェブページを取得するために、抽出したナビゲーションパス集合に基づいて取得済みウェブページをフィルタリングするステップとを備えることを特徴とするウェブページフィルタリング方法が提供される。ナビゲーションパスは、トップウェブページからターゲットウェブページに至るパス上のウェブページに関連する、URL、アンカーテキスト、ウェブページタイトル、コンテンツ名、およびドメイン名を組み合わせたリストである。一部の実施例では、ウェブページコレクションは、ドメイン、サブドメイン、またはディレクトリのいずれでもよい。より正確で効果的なウェブページフィルタリングを実現するためには、ナビゲーションパス集合を、ウェブページの全てのリンクからではなく、ナビゲーションリンクのみから抽出できるのが望ましい。そのため、一部の実施例は、ナビゲーションパス集合の抽出前か抽出中に、収集されたリンク集合のフィルタリングを行ってナビゲーションリンクを取得し、それを使用して目的のナビゲーションパス集合を取得するように構成されている。また、ウェブページのフィルタリングは、主題関連のウェブページフィルタリングとして実行するのが望ましい。
【0017】
本発明の他の態様によれば、ウェブページフィルタリングシステムであって、1つ以上のウェブページコレクションに含まれる全てのウェブページを取得するウェブページ取得手段と、取得したウェブページからリンク情報を収集するリンク情報収集手段と、収集したリンクに基づいて、取得した各ウェブページのナビゲーションパス集合を抽出するナビゲーションパス抽出手段と、目的のウェブページを取得するために、抽出したナビゲーションパス集合に基づいて取得済みウェブページをフィルタリングするウェブページフィルタリング手段とを備えることを特徴とするウェブページフィルタリングシステムが提供される。ナビゲーションパスは、トップウェブページからターゲットウェブページに至るパス上のウェブページに関連する、URL、アンカーテキスト、ウェブページタイトル、コンテンツ名、およびドメイン名を組み合わせたリストである。一部の実施例では、ウェブページコレクションは、ドメイン、サブドメイン、またはディレクトリのいずれでもよい。より正確で効果的なウェブページフィルタリングを実現するためには、ナビゲーションパス抽出手段は、ナビゲーションパス集合を、ウェブページの全てのリンクからではなく、ナビゲーションリンクのみから抽出できるのが望ましい。そのため、一部の実施例は、ナビゲーションパス集合の抽出前か抽出中に、収集されたリンク集合のフィルタリングを行ってナビゲーションリンクを取得し、それを使用して目的のナビゲーションパス集合を取得するように構成されている。また、ウェブページのフィルタリング手段は、主題関連のウェブページフィルタリングを実行できるのが望ましい。
【発明の効果】
【0018】
本発明によれば、ウェブページのナビゲーションパスは、対応するウェブページのコンテキスト情報として抽出され、各ウェブページがそれに索引付けされて索引テーブルが生成される。そのため、ウェブページのリンク構造だけでなく、ウェブ内に存在するユーザナビゲーションの誘導に有効な全てのテキストも利用されるので、高品質なウェブページフィルタリングが実現される。
【0019】
さらに、1つのウェブページが、異なる制作者によってデザインされた複数のナビゲーションパスによって示される状況もありうる。この場合、各ナビゲーションパスに出現するテキストを、ターゲットウェブページのコンテンツを1つの側面から見た一種の要約か説明とみなすとすれば、複数の制作者の観点(すなわち、コンテキスト)がナビゲーションパス集合に反映されるので、ウェブページフィルタリングの客観性が保証される。
【0020】
さらに、各ナビゲーションパスは、1つのウェブページに限定されず、関連するウェブページの集合を包括する情報に関わるものなので、オントロジ的な観点に立つと、ウェブ内のハイパーリンクグラフは、ソースページを主語、アンカーテキストを述語、示される宛先ページを目的語とする多数の説明を直接または間接的に示唆すると考えられる。これに基づけば、ウェブページフィルタリングのプロセスに意味的推論機能も潜在的に含まれているということができる。
【0021】
すなわち、従来技術に比較して、本発明はウェブページフィルタリングのためのウェブページのコンテキスト情報をより包括的に利用するため、ウェブページフィルタリングの精度と客観性を向上させることができる。
【0022】
本発明の上記および他の特徴と利点は、図面を参照しながら下記の詳細な説明を読むことによりさらに明白となるであろう。ただし、本発明の範囲は、本書で説明する特定の具体例または実施例に限定されないことに留意されたい。
【発明を実施するための最良の形態】
【0023】
前述したように、ウェブページのコンテキスト情報は、ウェブページのコンテンツに関する重要な情報を提供するため、ウェブページフィルタリングにおいて重要な役割を果たす。しかし、従来技術はコンテキスト情報を十分に活用していない。これに対し、本発明は、ウェブ内のハイパーリンク情報を使用してウェブページのナビゲーションパス集合を確立し、そのナビゲーションパス集合をコンテキスト情報として使用してウェブページをフィルタリングすることでウェブページフィルタリングの正確性と客観性を向上させる、コンテキスト情報を使用したウェブページフィルタリング方法およびシステムを提供する。
【0024】
本書で使用する「ナビゲーションパス」とは、索引付けのためのウェブページのコンテキストのことであり、「URL、アンカ、ウェブページタイトルを組み合わせたリスト」と定義される。このリストは、ウェブユーザがウェブサイト内でのブラウジングによってターゲットウェブページに至るまで(リンクのクリックを継続する過程で、アンカーテキストを使ってウェブサイト内のナビゲーションを誘導することにより、目指す情報を見つけるまで)の全ての潜在的な経路を記録するために利用できる。ナビゲーションパスはウェブサイト依存であり、ウェブサイトはそれぞれ独自のナビゲーションパス集合を有する。ウェブページを示すナビゲーションパスの集合は、ウェブサイト内の対応するウェブページのコンテキストに関する包括的な説明を提供する。各ナビゲーションパスは宛先ウェブページと関連付けられる。このとき、1つのウェブページに複数のナビゲーションパスが関連付けられてもよい。以下では、ナビゲーションパスについて、図3Aと図3Bを参照しながら詳細に説明する。
【0025】
本書で使用する「ナビゲーションリンク」とは、制作者がページ読者を、関連するコンテンツを有する他のページに誘導するためのリンクのことである。ナビゲーションリンクには、(1)ディレクトリ構造内において、「子」ウェブページを「親」ウェブページに導くリンク、(2)ディレクトリ構造内において、同じ階層に属する全ての「兄弟」ウェブページを同一のウェブページへと誘導するリンク、および(3)ディレクトリ構造内において、同じ意味的ブロックに存在する全てのウェブページを同一ウェブページへと誘導するリンク、は含まれない。これらのリンクは、有効なウェブページフィルタリングを実現するために、ナビゲーションリンク選択に関する発見的ルールによって除去される。この場合、ナビゲーションパス集合の抽出は、全リンクではなく、ナビゲーションリンクのみを対象に実行される。したがって、ナビゲーションパスは、「ナビゲーションリンクを介して結び付けられた複数ウェブページのアンカーテキストとタイトルとを連結した連鎖」と言うことがもきる。ナビゲーションパスは、ソースページのタイトルで始まり、宛先ページのタイトルで終わる。ナビゲーションリンクとナビゲーションリンクフィルタリングの詳細については後述する。
【0026】
以下では、添付図面を参照して、本発明の例示的実施例を説明する。ここでの実施例の説明は例示のみを目的とするものであり、本発明はこれらの特定の実施例に限定されないことに留意されたい。
【0027】
図1は、本発明の第1の実施例によるウェブページフィルタリングシステム100を示す構造的ブロック図である。図1に示すように、ウェブページフィルタリングシステム100の主な構成要素は、本発明の中核的な機能を実装するパスランキング/ウェブページフィルタリングモジュール10と、パスランキング/ウェブページフィルタリングモジュール10と連動した複数のデータベースである。これらのデータベースとは、ウェブクローラ等により収集されたウェブページコレクションを格納するウェブページデータベース106、抽出されたナビゲーションパスを格納するナビゲーションパスデータベース107、生成された索引テーブルを格納する索引テーブルデータベース108、およびフィルタリングの結果得られたウェブページを格納する結果ウェブページデータベース109である。これら複数のデータベースは、パスランキング/ウェブページフィルタリングモジュール10の動作をサポートする資源を提供するために、コンピュータシステム内の固定記憶装置に格納される。パスランキング/ウェブページフィルタリングモジュール10は、ウェブページ取得手段101と、リンク情報収集手段102と、ナビゲーションパス抽出手段103と、索引付け手段104と、ウェブページフィルタリング手段105とをさらに含む。ここで、ウェブページデータベース106内に格納されるものは、ウェブクローラ&ウェブページ解析モジュール(図示せず)を使用してネットワークから取得された1つ以上のウェブページコレクション(ドメイン(ウェブサイト)、サブドメイン、ディレクトリ等)に含まれる全てのウェブページであることに留意されたい。
【0028】
以下では、まず、図2、3を使ってナビゲーションパスおよびナビゲーションパスベースの索引付けについて説明する。図2はウェブページのナビゲーションパスの一例を示す。図3は、ナビゲーションパスベースの方法による図1Aのウェブページ構造でのウェブページ索引付けと、従来技術の方法によるウェブページ索引付けとを比較する比較表である。
【0029】
図2に示すように、この例には4つのウェブページP1、P2、P3、P4がある。A1、A2、A3は、ウェブページP1、P2、P3内のアンカーテキストを表す。Ti、Ui、Wiは、それぞれ、ウェブページPiのタイトル、URL、テキストコンテンツ(i=l,2,3,4)を表す。図1Bに示すように、ページP4の索引付けは、コンテンツベースの索引付けまたはページタイプベースの索引付けが使用される場合には{T4、W4}として定義され、リンクベースの索引付けが使用される場合には{U4、T4、W4、A3}として定義され、拡張アンカ−ベースの索引付けが使用される場合には{Al+A2+A3,T4,W4}として定義され、本発明によるナビゲーションパスベースの索引付けが使用される場合には、{T1+A1+T2+A2+T3+A3+T4,U1+U2+U3+U4,W4,ドメイン名}として定義される。そのため、本発明において使用されるナビゲーションパスベースの方法は、ウェブページのコンテキスト情報を利用して、ウェブページフィルタリングをより包括的に実行することができる。
【0030】
図4は、図1に示すウェブページフィルタリングシステム100の動作を示すフローチャート図である。まず、ステップ101aにおいて、ウェブページ取得手段101が、ウェブページデータベース106から1つ以上のウェブページコレクションに含まれる全てのウェブページを取得する。前述したように、ウェブページコレクションは、ドメイン、サブドメイン、またはディレクトリのいずれでもよい。以下の説明では、本発明を説明するための例としてドメイン(ウェブサイト)を取り上げる。なお、本発明はこれらの例に限定されず、サブドメインやディレクトリのような索引ページを有する他のウェブページコレクションを使用して実装できることは、当業者には明らかである。次に、ステップ102aにおいて、リンク情報収集手段102が、取得された全てのウェブページからリンク情報を収集する。ステップ103aにおいて、ナビゲーションパス抽出手段103は、収集されたリンク情報に基づいて、取得された各ウェブページのナビゲーションパス集合を抽出することができる。その後、ステップ104aにおいて、索引付け手段104が、抽出されたナビゲーションパス集合内のナビゲーションパスを、取得された各ウェブページに索引付けし、後の処理のために、索引テーブルデータベース108に索引付けした結果を索引テーブルとして格納する。ここで説明した索引付けステップは、参照文書索引付け等の当該技術においてよく知られた索引付け方法を使用して実行することができる。具体的には、この索引付けステップにおいて、取得されたウェブページに対応する1つ以上のナビゲーションパス集合が索引付けされ、1つの列にはウェブページIDが格納され、他の列にはウェブページに対応するナビゲーションパス集合が格納された索引テーブルが生成される。索引付け技術は当該技術ではよく知られていることを考慮して、ここでは詳細な説明は省略する。次に、ステップ105aにおいて、格納された索引付け結果がウェブページフィルタリング手段105に適用され、取得されたウェブページから抽出されたナビゲーションパス集合に基づいて全てのウェブページがフィルタリングされる。ナビゲーションパス集合を抽出するプロセスとウェブページフィルタリングを実行するプロセスは本発明の最も重要なポイントであるため、添付図面を参照してさらに詳細に説明する。
【0031】
前述したように、ナビゲーションリンク集合はウェブサイト内の全てのリンクの部分集合であり、これには、(1)ディレクトリ構造内において、「子」ウェブページから「親」ウェブページへと誘導するリンク、(2)ディレクトリ構造内において、同じ階層の全ての「兄弟」ウェブページから同一のウェブページへと誘導するリンク、および(3)ディレクトリ構造内において、同じ意味的ブロックに存在する全てのウェブページから同一のウェブページへと誘導するリンク、は含まれない。このような定義を行う目的は、より効率的なウェブサイトナビゲーションを実現し、かつナビゲーションパスの抽出への悪影響を解消して、ウェブページフィルタリングの効率性と精度を向上させることにある。この観点に立つと、さらに高精度なナビゲーションパス集合を得るためには、まずウェブページの全リンクからナビゲーションリンクをフィルタリングして、その後ナビゲーションリンクに基づいて各ウェブページのナビゲーションパス集合を抽出できるのが望ましい。ナビゲーションリンクフィルタリングを実際の用途に応じてナビゲーションパス集合の抽出前か抽出中に行うことで、さらに高効率で高精度なナビゲーションパス抽出を実現することができる。以下では、第2および第3の実施例におけるナビゲーションリンクに基づいたナビゲーションパス抽出について、さらに詳細に説明する。
【0032】
図5は、本発明の第2の実施例によるウェブページフィルタリングシステム100aを示す構造ブロック図である。ここでは、ナビゲーションパス集合を抽出する前に、リンクフィルタリングプロセスの実行によりナビゲーションリンクが取得されている。
【0033】
図1のブロック図と比較すると、図5は、ウェブページフィルタリングシステム100aが、各構成要素に加えて、ディレクトリ構造収集手段112と、ナビゲーションリンクフィルタ110と、主題入力手段111とをさらに含む点が異なっている。この実施例においては、主題関連ウェブページフィルタリングを実行するために、ユーザが関心を持つ主題を入力するための主題入力手段111がウェブページフィルタリング手段105に連結されている。その後、ウェブページフィルタリング手段105は、入力された主題に従い、ウェブページのナビゲーションパス集合に基づいて、ウェブページに対して主題関連のフィルタリングを実行する。ただし、本発明はこのような主題関連フィルタリングに限定されず、ウェブページフィルタリングのための他のフィルタリングルールも使用できることも可能である。
【0034】
図6は、図5に示すウェブページフィルタリングシステムの代替の実装100bである。この場合、主題入力手段111は、様々な用途に応じて、(ウェブページフィルタリング手段105ではなく)前フィルタリング手段113に連結される。前フィルタリング手段113は、ウェブページ取得手段101とリンク情報収集手段102との間に連結配置され、ウェブページのリンク情報が収集される前に、取得されたウェブページに対して主題関連の事前フィルタリング(プリフィルタリング)を実行するために使用される。この場合、ナビゲーションパス集合の抽出に関係するのは、一部の主題関連ウェブページのみである。そのため、ナビゲーションパス集合の抽出前にすでに実行されているウェブページフィルタリングは第1レベルのフィルタリングとみなすことができ、ウェブページフィルタリング手段105で実行されるナビゲーションパスベースのウェブページフィルタリングは、さらに高精度なルールを適用してより高精度なフィルタリングが実現される第2レベルのフィルタリングとみなすことができる。これに対し、図5に示すシステムでは、ユーザが関心を持つ主題は主題入力手段111を介してウェブページフィルタリング手段105に入力される。そのため、この例においては、取得されたウェブページのリンクとディレクトリ構造に関する情報が収集され、ナビゲーションパス集合が全てのウェブページから抽出された後に、ウェブページフィルタリング手段105によって対応する主題関連ウェブページフィルタリングが実行される。対象となる主題が1種類のみの場合には、図6のシステムは図5のシステムよりも高いパフォーマンスを発揮する。しかし、新たな主題が出現すると、図6のシステムではナビゲーションパス抽出を再度実行しなければならなくなる。図5のシステムの場合は、ナビゲーションパス抽出手段103によって全てのナビゲーションパスが抽出されているので、対象の主題が変わっても、ウェブページフィルタリングのプロセスを再度実行するだけでよい。そのため、入力される主題が頻繁に変わる場合には、図5のシステムの方が高効率を発揮する。
【0035】
次に、図7、8を参照して、図5、6のシステム100a、100bの動作について説明する。図7は、図5のウェブページフィルタリングシステム100aの動作を示すフローチャート図であり、図8は、図6のウェブページフィルタリングシステム100bの動作を示すフローチャート図である。
【0036】
まず、図8を参照すると、プロセスは1つ以上のドメイン上の全てのウェブページを取得することから始まる(ステップ301a)。続いて、ステップ302aにおいて、取得されたウェブページリンクとディレクトリ構造に関する情報が収集される。第1の実施例とは異なり、全リンクからナビゲーションリンクをフィルタリングするためには、ウェブページフィルタリングの参照情報として、各ドメインのディレクトリ構造を収集する必要がある。ウェブページのリンクの抽出は、例えば、各文書のHTMLソースコードを解析することによって実行することができる。通常、ウェブページ集合の抽出済みハイパーリンク情報は、{(リンク元,リンク先)|「リンク元,リンク先」は当該ウェブページ集合に含まれ、リンク元からリンク先へのハイパーリンクが少なくとも1つ存在する}という形式の2要素集合である。ディレクトリ構造は、ウェブ文書のURLに示されるウェブサーバの階層的ディレクトリ構造を調べることによって、これと同時に取得できる。ウェブ文書集合の抽出済みディレクトリ構造もまた2要素集合であり、その形式は{(親,子)|「親,子」は前記ウェブ文書集合に含まれ、ディレクトリ構造内では「親」は「子」の親である}となる。リンク関係とディレクトリ構造を収集する方法は当該技術でよく知られているため、ここでは説明を省略する。
【0037】
次に、ステップ303aにおいて、取得したディレクトリ構造に基づいて収集されたリンクからナビゲーションリンクがフィルタリングされ、その後、ウェブページのナビゲーションパス集合がナビゲーションリンク集合から抽出される(ステップ304a)。ステップ305aにおいて、抽出されたナビゲーションパス集合がステップ301aで取得されたウェブページに索引付けされ、索引テーブルデータベースにその索引付け結果が索引テーブルとして格納される。続くステップ306aにおいて、ユーザが関心を持つ主題が入力される。主題の入力後、ステップ307aにおいて、ステップ303aで抽出されたナビゲーションパス集合に基づいて、取得されたウェブページに対して主題関連ウェブページフィルタリングが実行される。これでプロセスは終了する。
【0038】
図8のプロセスは、図7と同様に、1つ以上のドメイン上の全てのウェブページを取得することから始まる(ステップ301b)。続くステップ302bにおいて、主題入力手段を介してユーザが関心を持つ主題が入力される。ステップ303bにおいて、入力された主題に基づいて、取得されたウェブに対してページ主題関連ウェブページの前フィルタリングがまず実行され、これにより入力された主題に関連しないことが明白なウェブページが除去される。その後、ステップ304bにおいて、ステップ303bの前フィルタリング後に残ったウェブページのリンクとディレクトリ構造が収集される。これが完了すると、ステップ305bにおいて、図7のプロセスと同様に、収集されたディレクトリ構造に基づいてナビゲーションリンクがフィルタリングされる。ステップ306bにおいて、ナビゲーションリンクに基づいて、前フィルタリングされた各ウェブページのナビゲーションパス集合が抽出される。ステップ307bにおいて、抽出されたナビゲーションパス集合が取得されたウェブページに索引付けされ、索引テーブルデータベースにその索引付け結果が索引テーブルとして格納される。その後、ステップ308bにおいて、抽出されたナビゲーションパス集合に基づいて、取得されたウェブページに対して主題関連ウェブページフィルタリングが実行される。これでプロセスは終了する。
【0039】
次に、図9、10、11を参照して、第2の実施例によるナビゲーションリンクフィルタリングおよびナビゲーションパス抽出のプロセスについて説明する。図9は、本発明の第2の実施例によるナビゲーションリンクフィルタリングプロセスを示すフローチャート図である。図10は、図9に示すナビゲーションリンクフィルタリングを説明するための、ウェブサイト構造の例を示す図である。また、図11は、本発明の第2の実施例による、ナビゲーションパス集合の抽出プロセスを示すフローチャート図である。
【0040】
図9を見ると分かるように、この例では、ナビゲーションリンクフィルタリングのプロセスは、第1のフィルタリングステップ401、第2のフィルタリングステップ402、および第3のフィルタリングステップ403において、計3層のフィルタを使って実行される。まず、ステップ401において、ディレクトリ構造内の「子」ウェブページから「親」ウェブページへと誘導する逆リンクが削除される。例えば、図10のウェブサイト構造の場合であれば、ページA1はページA12の「親」であり、ページA2はページA21の「親」である。この構造には、「子」ページA12から「親」ページAlへと誘導する逆リンクL1と、「子」ページA21から「親」ページA2へと誘導する逆リンクL2が含まれている。そのため、第1のフィルタリングステップにおいて、収集されたウェブサイトのディレクトリ構造からこれらの逆リンクL1、L2が削除される。続いて、ステップ402において、ディレクトリ構造内において、同じ階層に属する「兄弟」ウェブページから同一のウェブページに誘導するリンクが全て削除される。例えば、図10を見ると、ページA11、A12、A21、A22が同じ階層にあり、それぞれがリンクL5、L6、L7、L8によって同一のページA222を示している。このような場合には、第2のフィルタリングステップでリンクL5、L6、L7、L8が削除される。ステップ403において、ディレクトリ構造内において、同じ意味的ブロックに存在するウェブページから同一のウェブページに誘導するリンクが全て削除される。例えば、図10において、同じ階層にあるページA11、A12は同じ意味的ブロックに存在し、リンクL3、L4を介して同一のページA111を示している。第3のフィルタリングステップでは、このリンクL3、L4が削除される。このように、全ての非ナビゲーションリンクを削除することにより、ナビゲーションリンク集合が取得される。
【0041】
次に、図11を参照して、取得された各ウェブページのナビゲーションパス集合プロセスを抽出するプロセスについて説明する。まず、ステップ601において、取得されたウェブページについて、各ウェブページが属するドメイン(ウェブサイト等)へのウェブページキュー(キュー)が作成され、ドメインの索引ページが、ドメインのウェブページキューのソースページとして検索される(ステップ602)。次に、ステップ603において、キューに含まれる各ウェブページの全てのナビゲーションリンクが処理される。この処理はソースページから開始される。ここで、非ナビゲーションリンクは直前のナビゲーションリンクフィルタリングによって全て削除されているため、残りのナビゲーションリンクのみが処理されることに注意する必要がある。ステップ604では、ウェブページaのナビゲーションリンクLに関して、まず、リンクLが示すウェブページp(L)がページaと同じドメインに存在するかどうかが判定される。同じドメインに存在する場合は、ステップ605において、Lのアンカーテキストとウェブページp(L)のタイトルがページaのナビゲーションパスに付加され、リンクLが示すウェブページp(L)がドメインのキューに加えられる。ページp(L)とaが同じドメイン内に存在しないと判定された場合は、ステップ606において、Lのアンカーテキストとウェブページp(L)のタイトルがページaのナビゲーションパスに付加されるが、リンクLが示すウェブページp(L)はドメインのキューには加えられない。その後、プロセスはステップ602に戻り、ウェブページp(L)が属する新たなドメインの索引ページをソースページとする検索が再度実行され、そのドメインのウェブページキューが作成される。次に、この新たなドメインを対象に、ステップ602以降の動作が繰り返される。ステップ605の完了後、ステップ607が対象とするウェブページのナビゲーションリンクがさらに存在するかどうかが判定される。存在する場合は、次のナビゲーションリンクL=L+1を対象に上記のプロセスが繰り返される(ステップ608)。ナビゲーションリンクの処理が全て完了したら、ステップ609において、ドメインのキュー内に処理すべきウェブページがまだ残っているかどうかがさらに判定される。残っている場合は、次のページが抽出され(ステップ610)、その後ステップ603に戻って、新たに取得したウェブページのナビゲーションリンクが処理される。全てのウェブページの処理が完了すると、プロセスは終了する。
【0042】
前述では、本発明の第2の実施例について、ナビゲーションパスの抽出前にリンク集合がフィルタリングされ、フィルタリングで残ったナビゲーションリンクに基づいて、目的のナビゲーションパス集合が抽出されることを説明した。これにより、ウェブページフィルタリングの精度を向上させることができる。以下では、図12、13を参照して、本発明の第3の実施例について説明する。
【0043】
図12は、本発明の第3の実施例によるウェブページフィルタリングシステム100cを示す構造的ブロック図である。図5、6に示した第2の実施例と比較すると、ウェブページフィルタリングシステム100cには、ナビゲーションパス抽出手段103にナビゲーションリンクフィルタ110が含まれている。このフィルタは、第2の実施例のようなナビゲーションパス抽出プロセスの前ではなく、ナビゲーションパス抽出プロセスの途中にナビゲーションパスをフィルタリングするために使用される。図12に示すシステム100cの他の構成要素は第2の実施例と同じなので、ここでは説明を省略する。さらに、図12では主題入力手段111は第2の実施例と同様にウェブページフィルタリング手段105に連結されているが、主題入力手段111は、ウェブページ取得手段101とリンク情報収集手段102との間に連結配置される前フィルタリング手段113に連結して、図2Bのようにナビゲーションパスの抽出前に取得済みウェブページに対して主題関連前フィルタリングを実行するようにしてもよい。
【0044】
図13は、本発明の第3の実施例による、ウェブページフィルタリングシステム100cが実行するナビゲーションパス集合抽出プロセスを示すフローチャート図である。第3の実施例のナビゲーションパス抽出プロセス以外のステップは第2の実施例と同じであるため、図7、8を参照して説明した上記のプロセスを参照することとし、その詳細な説明はここでは省略する。図13に示すプロセスでは、ステップ801から始まり、取得されたウェブページについて、ステップ802において各ウェブページが属するドメイン(ウェブサイト等)へのウェブページキューが作成され、ドメインの索引ページが、ドメインのウェブページキューのソースページとして検索される。次に、ステップ803において、キューに含まれる各ウェブページの全てのリンクが処理される。この処理はソースページから開始される。ここでは、第1の実施例とは異なり、ウェブページのリンクはナビゲーションパスの抽出前にフィルタリングされないことに注意する必要がある。そのため、本実施例では、各ウェブページの全てのリンクが考慮され、処理される。次に、ステップ804で、ウェブページaのナビゲーションリンクLに関して、リンクLが示すウェブページp(L)がページaと同じドメインに存在するかどうかがまず判定される。同じドメインに存在する場合、プロセスはステップ805に進み、リンクLがナビゲーションリンクかどうかが判定される。ステップ804の判定でリンクLが示すウェブページp(L)はウェブページaと同じドメインに存在しないことが判明した場合は、ステップ806において、Lのアンカーテキストとウェブページp(L)のタイトルがページaのナビゲーションパスに付加されるが、リンクLが示すウェブページp(L)はドメインのキューには加えられない。その後、プロセスはステップ802に戻り、そこで、ウェブページp(L)が属する新たなドメインの索引ページをソースページとする検索が新たに実行され、その新たなドメインのウェブページキューが作成される。次に、この新たなドメインを対象に、ステップ802以降の動作が繰り返される。ステップ804において、ウェブページp(L)がウェブページaと同じドメインに存在すると判定されたら、さらに、ウェブページp(L)がすでにドメインのキューに加えられているかどうか、すなわち、ウェブページp(L)が前に抽出されたナビゲーションパスにおいてすでに考慮されたかどうかが判定される(ステップ805)。すでにキューに加えられている場合、リンクLはナビゲーションリンクとして処理されず、ステップ809に進んで、次のリンクL=L+1を対象に前述したプロセスが繰り返される。一方、ステップ805においてウェブページp(L)はまだ考慮されていないと判定された場合には、リンクLはナビゲーションリンクであると判定されるので、ステップ807に進んで、Lのアンカーテキストとウェブページp(L)のタイトルがページaのナビゲーションパスに付加され、リンクLが示すウェブページp(L)がドメインのキューには加えられる。その後、ステップ808において、未処理のリンクが存在するかどうかが判定される。存在する場合は、次のリンクL=L+1を対象に上記のプロセスが繰り返される(ステップ809)。ナビゲーションリンクの処理が全て完了したら、ステップ810において、ドメインのキュー内に処理すべきウェブページがまだ残っているかどうかがさらに判定される。残っている場合は、次のページが抽出され(ステップ811)、その後ステップ603に戻って、新たに取得したウェブページの全てのリンクが処理される。全てのウェブページの処理が完了すると、プロセスは終了する。
【0045】
以上では、第2および第3の実施例による、ナビゲーションリンクに基づくナビゲーションパス集合の抽出プロセスについて説明してきた。ナビゲーションパスは以降のウェブページフィルタリングにおいて重要な役割を果たすため、抽出方法は、その品質のみならず、最終的なウェブページフィルタリング結果の品質も保証されるように、慎重にデザインする必要がある。また、実施例を改善するために、さらなる変更を加えることもできる。ナビゲーションリンクのフィルタリングプロセスとナビゲーションパスの抽出プロセスは上記の2つの実施例に限定されないことは、当該技術に精通する当業者には理解されるであろう。また、実際の用途に応じて、他のフィルタリング方法と抽出方法をデザインして利用することも可能である。
【0046】
図7および8に戻ると、ナビゲーションパス集合の抽出後、抽出されたナビゲーションパス集合は、収集されたウェブページコレクションに含まれるウェブページに索引付けされる。この索引付けの結果は、その後、主題関連ウェブページのフィルタリングに利用される。次に、図14を参照して、主題関連ウェブページフィルタリングプロセスの一例を示す。
【0047】
前述したように、ユーザは関心のある主題を予め決定し、主題入力手段111を介してそれを入力することができる。通常、ウェブページは、関連するキーワードがURL、ページタイトル、またはこのページに誘導するアンカーテキストの1つに含まれている場合に、明確な主題関連ページであると判断される。ウェブページが明確な主題関連ページの場合は、ナビゲーションパスを介して明確な主題関連ページから到達することのできる全てのページが、可能な主題関連ページであるとみなされる。また、ナビゲーションパスを介したウェブページから明確な主題関連ページまでの距離が短いほど、そのウェブページは主題関連ウェブページである可能性が高いとみなされる。したがって、ナビゲーションパス情報を利用するためには、いくつかの主題関連オントロジ用語(主題関連キーワード)を予め作成する必要がある。またこれと同時に、主題非関連オントロジ用語(すなわち、当該主題以外の他の主題に関連するキーワード)も、精度向上のために任意で事前定義することもできる。例えば、ある企業ウェブサイトにおいて、製品(主題)に関連するウェブページを検索する際には、製品関連キーワードは「製品」、「ソリューション」、「サービス」といったものになり、製品非関連キーワードは、「ニュース」、「フォーラム」、「サポート」等のこの企業ウェブサイト内に存在する他の主題に関連するキーワードとなる。
【0048】
図14を参照すると、ステップ901において、主題入力手段111を介してユーザが関心を持つ主題が入力される。続くステップ902においては、この入力された主題に基づいて、主題関連オントロジ用語と主題非関連オントロジ用語とが選択される。ステップ903において、取得されたウェブページ集合に含まれるウェブページaに関して、選択されたオントロジ用語に基づいて、ウェブページaが明確な主題関連ページと明確な主題非関連ページのどちらであるかが判定される(ステップ904)。この判定方法には、当該技術でよく知られた類似度測定技術を任意に選んで利用できる。ステップ904において、ウェブページaが明確な主題関連ページであると判定されると、ウェブページaは保存される(ステップ905)。ステップ904において、ウェブページaが明確な主題非関連ページであると判定された場合には、ウェブページaは拒否される(ステップ906)。ステップ904でウェブページaのタイプを判定できなかった場合は、ステップ907に進む。ステップ907において、ナビゲーションによって各明確な主題関連ページからウェブページaに到達できるかどうかが判定される。到達できる場合、ウェブページaは候補ページとみなされる(ステップ908)。到達できない場合、ウェブページaは拒否される(ステップ909)。ウェブページaが候補ページであると判定された後、ステップ910において、候補ページaとナビゲーションパス上の各明確な主題関連ページ間の距離のうち最短の距離が、所定のたしきい値Thよりも短いかどうかが判定される。短い場合には、ウェブページaは主題関連ページであると判定され、保存される(ステップ911)。最短の距離が所定の(事前定義された)しきい値Thよりも長い場合は、ステップ912において、ウェブページaは保留ページとみなされる。ステップ913で保留ページに関して、ナビゲーションパスを介して各明確な主題非関連ページからウェブページaに到達できるかどうかがさらに判定される。到達できる場合は、このページは拒否される(ステップ914)。到達できない場合には、ウェブページaは主題関連ページであると判定され、保存される(ステップ915)。その後、取得されたウェブページコレクションにおける次のページに関して、上記のプロセスが繰り返され(ステップ916)、全てのウェブページが処理されるまでこれが続けられる。
【0049】
図14に示したプロセスは本発明によるウェブページフィルタリングの一例にすぎず、本発明はこれに限定されないことに留意されたい。他の用途においても、フィルタリングルールをそれぞれの用途に適したようにデザインできることは容易に理解できることである。また、ウェブページフィルタリング方法は上記の主題関連ウェブページフィルタリングに限定されない。
【0050】
図15は、本発明の実装に使用されるコンピュータシステム1000の概略ブロック図である。この図に示すように、コンピュータシステム1000は、CPU1001と、ユーザインターフェース1002と、周辺機器1003と、メモリ1005と、恒久的記憶装置1006と、これらの構成要素を相互に接続する内部バス1004とを含む。また、メモリ1005は、パスランキング/ウェブページフィルタリングモジュール、ウェブクローラ&ウェブページ解析モジュール、オペレーティングシステム(OS)等をさらに含む。本発明は、主に、図1に示すパスランキング/ウェブページフィルタリングモジュール10のようなパスランキング/ウェブページフィルタリングモジュールに関連する。ウェブクローラ&ウェブページ解析モジュールは、ネットワークからウェブページを取得し、そのウェブページをウェブページデータベースに格納するために使用できる。恒久的記憶装置1006は、ウェブページデータベース106、ナビゲーションパスデータベース107、索引テーブルデータベース108、結果ウェブページデータベース109等の、本発明に関連する各種データベースを格納する。
【0051】
上記では、添付図面を参照しながら、第1および第2の実施例によるナビゲーションパスベースのウェブページフィルタリングシステムとその動作について説明してきた。上記の説明で示したように、ウェブページのナビゲーションパスはウェブページのコンテキスト情報として抽出される。その後、ナビゲーションパス集合がウェブページに索引付けされ、索引テーブルに格納される。これにより、リンク構造だけでなく、ウェブ内に存在するユーザナビゲーションの誘導に有効な全てのテキストも利用されるので、高品質なウェブページフィルタリングが実現される。さらに、1つのウェブページが、異なる制作者によってデザインされた複数のナビゲーションパスによって示される状況もありうる。この場合、各ナビゲーションパスに出現するテキストを、ターゲットウェブページのコンテンツを1つの側面から見た一種の要約か説明とみなすとすれば、複数の制作者の観点(すなわち、コンテキスト)がナビゲーションパス集合に反映されるので、ウェブページフィルタリングの客観性が保証される。
【0052】
上記では、添付図面を参照して本発明の特定の実施例について説明してきたが、本発明は添付図面に示した特定の構成および処理に限定されるものではない。また、上記の実施例では、いくつかの具体的なステップを例示したが、本発明の方法のプロセスはこれらのステップに限定されるものではない。これらのステップは、本発明の精神と実質的な特性から逸脱することなく変更、修正、補完が可能であり、また一部ステップについては順序の入れ替えも可能なことは、当業者には理解されるであろう。
【0053】
本発明の各要素は、ハードウェア、ソフトウェア、ファームウェア、またはその組み合わせで実装され、システム、サブシステム、そのコンポーネントもしくはサブコンポーネント内で利用される。ソフトウェアで実装された場合、本発明の各要素はプログラムもしくはコードセグメントとして必要なタスクを実行するために使用される。プログラムまたはコードセグメントは、機械読取り可能な媒体に格納することも、あるいは、伝送媒体もしくは通信リンクを介して搬送波内に具現化されたデータ信号により伝送することもできる。「機械読取り可能な媒体」には、情報を格納または伝送できるあらゆる媒体が含まれる。機械読取り可能な媒体の例としては、電子回路、半導体記憶装置、ROM、フラッシュメモリ、消去可能ROM(EROM)、フロッピーディスク、CD−ROM、光ディスク、ハードディスク、光ファイバー媒体、無線周波数(RF)リンク等が挙げられる。コードセグメントは、インターネット、イントラネット等のコンピュータネットワークを介してダウンロードすることもできる。
【0054】
上記では本発明を特定の実施例を参照して説明したが、本発明は上記の特定の実施例や、図面に示した特定の構成に限定されるものではない。例えば、図示した一部のコンポーネントは、互いに組み合わせて1つのコンポーネントとしたり、1つのコンポーネントを複数のサブコンポーネントに分割したり、他の既知のコンポーネントを追加したりすることもできる。また、動作プロセスも同様に、例に示されたものに限定されない。本発明はその精神と主要な特徴から逸脱することなく他の様々な形態で実装できることは、当該技術に精通した当業者により理解されるであろう。したがって、本発明の実施例はあらゆる点において例示的であり、限定的なものではない。本発明の範囲は前述の説明よりむしろ付記した特許請求の範囲に示されており、各請求項と等価な意味と範囲に含まれるあらゆる変更がそれに包含される。
【図面の簡単な説明】
【0055】
本発明の上記および他の特徴は、図面を参照しながら下記の詳細な説明を読むことにより、より完全に理解することができる。
【図1】本発明の第1の実施例によるウェブページフィルタリングシステム100を示すブロック図である。
【図2】ウェブページのナビゲーションパスの一例を示す。
【図3】ナビゲーションパスベースの方法による図2に示すウェブページ構造でのウェブページ索引付けと、従来技術の方法によるウェブページ索引付けとを比較する比較表である。
【図4】図1に示すウェブページフィルタリングシステム100の動作を示すフローチャート図である。
【図5】本発明の第2の実施例によるウェブページフィルタリングシステム100aを示す構造ブロック図である。ここでは、ナビゲーションパス集合を抽出する前に、リンクフィルタリングプロセスが実行されてナビゲーションリンクが取得されている。
【図6】図5に示すウェブページフィルタリングシステムの代替の実装100bである。ここでは、ナビゲーションパス集合を抽出する前に、予め決定された関心主題が入力され、それに基づいて、取得したウェブページ集合に対して前フィルタリングが実行されている。
【図7】図5に示すウェブページフィルタリングシステム100aの動作を示すフローチャート図である。
【図8】図6に示すウェブページフィルタリングシステム100bの動作を示すフローチャート図である。
【図9】本発明の第2の実施例によるナビゲーションリンクフィルタリングプロセスを示すフローチャート図である。
【図10】図9に示すナビゲーションリンクフィルタリングを説明するためのウェブサイト構造の一例である。
【図11】本発明の第2の実施例によるナビゲーションパス集合抽出プロセスを示すフローチャート図である。
【図12】本発明の第3の実施例によるウェブページフィルタリングシステム100cを示す構造ブロック図である。ここでは、ナビゲーションパス集合の抽出プロセス中に、ナビゲーションリンクのフィルタリングが実行されている。
【図13】本発明の第3の実施例によるナビゲーションパス集合抽出プロセスを示すフローチャート図である。
【図14】本発明によるウェブページフィルタリングシステムの主題関連ウェブページのフィルタリングプロセスを示すフローチャート図である。
【図15】本発明の実装に使用されるコンピュータシステムの概略ブロック図である。
【符号の説明】
【0056】
100:パスランキング/ウェブページフィルタリングモジュール10
101:ウェブページ取得手段
102:リンク情報収集手段
103:ナビゲーションパス抽出手段
104:索引付け手段
105:ウェブページフィルタリング手段
106:ウェブページデータベース
109:結果ウェブページデータベース
107:ナビゲーションパスデータベース
108:索引テーブルデータベース
110:ナビゲーションリンクフィルタ
111:主題入力手段
112:ディレクトリ構造収集手段
113:前フィルタリング手段
1001:CPU
1002:ユーザインターフェース
1003:周辺機器
1004:内部バス
1005:メモリ


【特許請求の範囲】
【請求項1】
ウェブページフィルタリング方法であって、
1つ以上のウェブページコレクションに含まれる全てのウェブページを取得するステップと、
取得した前記ウェブページからリンク情報を収集するステップと、
収集した前記リンクに基づいて、取得した各ウェブページのナビゲーションパス集合を抽出するステップと、
目的のウェブページを取得するために、抽出した前記ナビゲーションパス集合に基づいて取得済みウェブページをフィルタリングするステップと
を有することを特徴とするウェブページフィルタリング方法。
【請求項2】
前記ナビゲーションパス集合を抽出した後、取得済みの各ウェブページに、抽出済みの前記ナビゲーションパス集合内のナビゲーションパスを索引付けするステップと、
前記索引付けしたナビゲーションパス集合に基づいて、取得済みの前記ウェブページをフィルタリングするステップを有することを特徴とする請求項1に記載のウェブページフィルタリング方法。
【請求項3】
各ウェブページコレクションのディレクトリ構造を収集するステップと、
ナビゲーションリンク集合を取得するために、ウェブページコレクション内のウェブページについて収集したリンクから、前記ディレクトリ構造に従って非ナビゲーションリンクを全て削除するステップと、
前記ナビゲーションリンク集合に基づいて、取得済みの各ウェブ・ページのナビゲーションパス集合を抽出するステップを有することを特徴とする請求項1に記載のウェブページフィルタリング方法。
【請求項4】
前記非ナビゲーションリンクが、
前記ディレクトリ構造内において、「子」ウェブページを「親」ウェブページに導くリンク、
前記ディレクトリ構造内において、同じ階層に属する全ての「兄弟」ウェブページを同一のウェブページへと誘導するリンク、
前記ディレクトリ構造内において、同じ意味的ブロックに存在する全てのウェブページを同一ウェブページへと誘導するリンク
のうちの少なくとも1つであることを特徴とする請求項3に記載のウェブページフィルタリング方法。
【請求項5】
前記ナビゲーションパス集合の抽出ステップが、
(a)取得済みのウェブページからウェブページを選択し、
(b)選択したウェブページが属する前記ウェブページコレクションについてキューの生成し、前記ウェブページコレクションの索引ページを前記キュー内のソースページとして検索し、
(c)前記ソースページで始まる前記キュー内の各ウェブページの各ナビゲーションリンクに関して、
前記ナビゲーションリンクが示すウェブページ及び関心あるウェブページが、同一の前記ウェブページコレクションに存在する場合、
ナビゲーションリンクに対応するアンカーテキストとナビゲーションリンクが示すウェブページのタイトルを、関心あるウェブページのナビゲーションパスに加え、関心あるウェブページが属するウェブページコレクションのキューにナビゲーションリンクが示すウェブページを加え、関心あるウェブページの次のナビゲーションリンクに関してステップ(c)に戻り、
前記ナビゲーションリンクが示すウェブページ及び関心あるウェブページが、同一の前記ウェブページコレクションに存在しない場合、
前記ナビゲーションリンクに対応するアンカーテキストと前記ナビゲーションリンクが示すウェブページのタイトルを、関心あるウェブページのナビゲーションパスに加え、前記ナビゲーションリンクが示すウェブページが属する前記ウェブページコレクションについてキューを作成するためにステップ(b)に戻り、前記ウェブページコレクションの前記索引ページを前記ソースページとして検索して、(c)の処理を繰り返す
ことを特徴とする請求項3に記載のウェブページフィルタリング方法。
【請求項6】
前記ナビゲーションパス集合の抽出ステップが、
(a)取得済みのウェブページからウェブページを選択し、
(b)選択したウェブページが属する前記ウェブページコレクションについてキューの生成し、前記ウェブページコレクションの索引ページを前記キュー内のソースページとして検索し、
(c)前記ソースページで始まる前記キュー内の各ウェブページの各リンクに関して、
前記リンクが示すウェブページ及び関心あるウェブページが、同一の前記ウェブページコレクションに存在する場合、前記リンクが示すウェブページがウェブページコレクションのキューに既に存在するかどうかを判定し、前記リンクが示すウェブページが前記ウェブページコレクションのキューに存在しない場合、前記リンクに対応するアンカーテキストと前記リンクが示すウェブページのタイトルを、関心あるウェブページのナビゲーションパスに加え、前記リンクが示すウェブページが前記ウェブページコレクションのキューに存在する場合、関心あるウェブページの次のリンクに関してステップ(c)に戻り、
前記ナビゲーションリンクが示すウェブページ及び関心あるウェブページが、同一の前記ウェブページコレクションに存在しない場合、前記リンクに対応するアンカーテキストと前記リンクが示すウェブページのタイトルを、関心あるウェブページのナビゲーションパスに加え、前記リンクが示すウェブページが属する前記ウェブページコレクションについてキューを作成するためにステップ(b)に戻り、前記ウェブページコレクションの前記索引ページを前記ソースページとして検索して、(c)の処理を繰り返す
ことを特徴とする請求項1に記載のウェブページフィルタリング方法。
【請求項7】
前記ウェブページのフィルタリングが、主題関連ウェブページフィルタリングであり、
前記ナビゲーションパス集合を抽出した後、所定の主題を入力するステップと、
目的のウェブページを取得するために、前記所定の主題に従い、前記抽出したナビゲーションパス集合に基づいて取得済みウェブページをフィルタリングするステップとをさらに含むことを特徴とする請求項1に記載のウェブページフィルタリング方法。
【請求項8】
前記ウェブページのフィルタリングが、主題関連ウェブページフィルタリングであり、
前記ナビゲーションパス集合を抽出する前に、所定の主題を入力するステップと、
前記所定の主題に従い、前記取得済みのウェブページについて主題関連ウェブページプリフィルタリングを実行するステップと、
前記ウェブページの部分集合についてナビゲーションパス集合を抽出するステップと、
前記所定の主題に従い、前記抽出したナビゲーションパス集合に基づいてプリフィルタリング済みのウェブページをフィルタリングするステップとをさらに含むことを特徴とする請求項1に記載のウェブページフィルタリング方法。
【請求項9】
前記主題関連ウェブページフィルタリングを実行するステップが、
所定の主題に従って主題関連オントロジ用語と主題非関連オントロジ用語を選択するステップと、
各ウェブページについて、
選択した前記主題関連オントロジ用語および主題非関連オントロジ用語に従って、ウェブページが明確な主題関連ページまたは明確な主題非関連ページであるかどうかを判定するステップと、
すべての明確な主題関連ページを目的のウェブページとして保存し、すべての明確な主題非関連ページを拒否するステップと、
明確な主題関連ページでも明確な主題非関連ページでもない他のウェブページについて、
前記ナビゲーションパスを介して、何れかの明確な主題関連ページからウェブページに到達できない場合、前記ウェブページを拒否し、到達できる場合、当該ページを候補ページとみなし、
前記候補ページと前記ナビゲーションパス上の何れかの明確な主題関連ページの間の最短距離が所定のしきい値より短い場合、当該ウェブページを目的のウェブページとして保存し、長い場合、当該ページを保留ページとみなし、
前記ナビゲーションパスを介して、何れかの明確な主題関連ページから前記保留ページに到達できる場合、前記ウェブページを拒否し、到達できない場合、前記ページを候補ページとみなす
ことを特徴とする請求項7又は請求項8に記載のウェブページフィルタリング方法。
【請求項10】
請求項1に記載のウェブページフィルタリング方法であって、
前記ウェブページコレクションが、ドメイン、サブドメインあるいはディレクトリである。
【請求項11】
ウェブページのナビゲーションパス集合に基づくウェブページフィルタリング方法であって、
前記ナビゲーションパスは、トップウェブページからターゲットウェブページに至るパス上のウェブページに関連する、URL、アンカーテキスト、ウェブページタイトルを組み合わせたリストであり、
1つ以上のウェブページコレクションに含まれる全てのウェブページを取得するステップと、
取得した前記ウェブページからリンク情報を収集するステップと、
収集した前記リンクに基づいて、取得した各ウェブページのナビゲーションパス集合を抽出するステップと、
目的のウェブページを取得するために、抽出した前記ナビゲーションパス集合に基づいて取得済みウェブページをフィルタリングするステップと
を有することを特徴とするウェブページフィルタリング方法。
【請求項12】
ウェブページフィルタリングシステムであって、
1つ以上のウェブページコレクションに含まれる全てのウェブページを取得するウェブページ取得手段と、
取得したウェブページからリンク情報を収集するリンク情報収集手段と、
収集したリンクに基づいて、取得済みの各ウェブページのナビゲーションパス集合を抽出するナビゲーションパス抽出手段と、
目的のウェブページを取得するために、抽出したナビゲーションパス集合に基づいて取得済みウェブページをフィルタリングするウェブページフィルタリング手段とを備えることを特徴とするウェブページフィルタリングシステム。
【請求項13】
前記ナビゲーションパス抽出手段と前記ウェブページフィルタリング手段に接続され、取得済みの各ウェブページに、抽出済みの前記ナビゲーションパス集合内のナビゲーションパスを索引付けする索引付け手段を備え、
前記ウェブページフィルタリング手段が、前記索引付けしたナビゲーションパス集合に基づいて、目的のウェブページを取得するために、取得済みの前記ウェブページをフィルタリングする
ことを特徴とする請求項12に記載のウェブページフィルタリングシステム。
【請求項14】
各ウェブページコレクションのディレクトリ構造を収集するディレクトリ構造収集手段と、
ナビゲーションリンク集合を取得するために、ウェブページコレクション内のウェブページについて収集したリンクから、前記ディレクトリ構造に従って非ナビゲーションリンクを全て削除するナビゲーションリンクフィルタとを備え、
前記ナビゲーションパス抽出手段が、前記ナビゲーションリンク集合に基づいて、取得済みの各ウェブ・ページのナビゲーションパス集合を抽出することを特徴とする請求項12に記載のウェブページフィルタリングシステム。
【請求項15】
前記非ナビゲーションリンクが、
ディレクトリ構造内において、「子」ウェブページを「親」ウェブページに導くリンク、
ディレクトリ構造内において、同じ階層に属する全ての「兄弟」ウェブページを同一のウェブページへと誘導するリンク、
ディレクトリ構造内において、同じ意味的ブロックに存在する全てのウェブページを同一ウェブページへと誘導するリンク
のうちの少なくとも1つであることを特徴とする請求項14に記載のウェブページフィルタリングシステム。
【請求項16】
前記ナビゲーションパス抽出手段が、
(a)取得済みのウェブページからウェブページを選択し、
(b)選択したウェブページが属する前記ウェブページコレクションについてキューの生成し、前記ウェブページコレクションの索引ページを前記キュー内のソースページとして検索し、
(c)前記ソースページで始まる前記キュー内の各ウェブページの各ナビゲーションリンクに関して、
前記ナビゲーションリンクが示すウェブページ及び関心あるウェブページが、同一の前記ウェブページコレクションに存在する場合、
ナビゲーションリンクに対応するアンカーテキストとナビゲーションリンクが示すウェブページのタイトルを、関心あるウェブページのナビゲーションパスに加え、関心あるウェブページが属するウェブページコレクションのキューにナビゲーションリンクが示すウェブページを加え、関心あるウェブページの次のナビゲーションリンクに関してステップ(c)に戻り、
前記ナビゲーションリンクが示すウェブページ及び関心あるウェブページが、同一の前記ウェブページコレクションに存在しない場合、
前記ナビゲーションリンクに対応するアンカーテキストと前記ナビゲーションリンクが示すウェブページのタイトルを、関心あるウェブページのナビゲーションパスに加え、前記ナビゲーションリンクが示すウェブページが属する前記ウェブページコレクションについてキューを作成するためにステップ(b)に戻り、前記ウェブページコレクションの前記索引ページを前記ソースページとして検索して、(c)の処理を繰り返す
ことを特徴とする請求項14に記載のウェブページフィルタリングシステム。
【請求項17】
前記ナビゲーションパス抽出手段が、
(a)取得済みのウェブページからウェブページを選択し、
(b)選択したウェブページが属する前記ウェブページコレクションについてキューの生成し、前記ウェブページコレクションの索引ページを前記キュー内のソースページとして検索し、
(c)前記ソースページで始まる前記キュー内の各ウェブページの各リンクに関して、
前記リンクが示すウェブページ及び関心あるウェブページが、同一の前記ウェブページコレクションに存在する場合、前記リンクが示すウェブページがウェブページコレクションのキューに既に存在するかどうかを判定し、前記リンクが示すウェブページが前記ウェブページコレクションのキューに存在しない場合、前記リンクに対応するアンカーテキストと前記リンクが示すウェブページのタイトルを、関心あるウェブページのナビゲーションパスに加え、前記リンクが示すウェブページが前記ウェブページコレクションのキューに存在する場合、関心あるウェブページの次のリンクに関してステップ(c)に戻り、
前記ナビゲーションリンクが示すウェブページ及び関心あるウェブページが、同一の前記ウェブページコレクションに存在しない場合、前記リンクに対応するアンカーテキストと前記リンクが示すウェブページのタイトルを、関心あるウェブページのナビゲーションパスに加え、前記リンクが示すウェブページが属する前記ウェブページコレクションについてキューを作成するためにステップ(b)に戻り、前記ウェブページコレクションの前記索引ページを前記ソースページとして検索して、(c)の処理を繰り返す
ことを特徴とする請求項12に記載のウェブページフィルタリングシステム。
【請求項18】
前記ウェブページのフィルタリングが、主題関連ウェブページフィルタリングであり、
前記ウェブページフィルタリング手段に接続され、所定の主題を入力する主題入力手段を備え、
前記ウェブページフィルタリング手段が、目的のウェブページを取得するために、前記所定の主題に従い、前記抽出したナビゲーションパス集合に基づいて取得済みウェブページをフィルタリングすることを特徴とする請求項12に記載のウェブページフィルタリングシステム。
【請求項19】
前記ウェブページのフィルタリングが、主題関連ウェブページフィルタリングであり、
前記ウェブページ手段と前記リンク情報収集手段間に接続されたプリフィルタリング手段と、
前記ウェブページフィルタリング手段に接続され、所定の主題を入力する主題入力手段を備え、
前記プリフィルタリング手段が、前記所定の主題に従い、前記取得済みのウェブページについて主題関連ウェブページプリフィルタリングを実行し、前記ナビゲーションパス抽出手段が、前記ウェブページの部分集合についてナビゲーションパス集合を抽出し、前記ウェブページフィルタリング手段が、前記所定の主題に従い、前記抽出したナビゲーションパス集合に基づいてプリフィルタリング済みのウェブページをフィルタリングすることを特徴とする請求項12に記載のウェブページフィルタリングシステム。
【請求項20】
前記ウェブページフィルタリング手段が、
所定の主題に従って主題関連オントロジ用語と主題非関連オントロジ用語を選択し、
各ウェブページについて、
選択した前記主題関連オントロジ用語および主題非関連オントロジ用語に従って、ウェブページが明確な主題関連ページまたは明確な主題非関連ページであるかどうかを判定し、
すべての明確な主題関連ページを目的のウェブページとして保存し、すべての明確な主題非関連ページを拒否し、
明確な主題関連ページでも明確な主題非関連ページでもない他のウェブページについて、
前記ナビゲーションパスを介して、何れかの明確な主題関連ページからウェブページに到達できない場合、前記ウェブページを拒否し、到達できる場合、当該ページを候補ページとみなし、
前記候補ページと前記ナビゲーションパス上の何れかの明確な主題関連ページの間の最短距離が所定のしきい値より短い場合、当該ウェブページを目的のウェブページとして保存し、長い場合、当該ページを保留ページとみなし、
前記ナビゲーションパスを介して、何れかの明確な主題関連ページから前記保留ページに到達できる場合、前記ウェブページを拒否し、到達できない場合、前記ページを候補ページとみなす
ことを特徴とする請求項18又は請求項19に記載のウェブページフィルタリングシステム。
【請求項21】
前記ウェブページコレクションが、ドメイン、サブドメインあるいはディレクトリであることを特徴とする請求項12に記載のウェブページフィルタリングシステム。
【請求項22】
ウェブページのナビゲーションパス集合に基づくウェブページフィルタリングシステムであって、
前記ナビゲーションパスは、トップウェブページからターゲットウェブページに至るパス上のウェブページに関連する、URL、アンカーテキスト、ウェブページタイトルを組み合わせたリストであり、
1つ以上のウェブページコレクションに含まれる全てのウェブページを取得するウェブページ取得手段と、
取得した前記ウェブページからリンク情報を収集するリンク情報収集手段と、
収集したリンクに基づいて、取得済みの各ウェブページのナビゲーションパス集合を抽出するナビゲーションパス抽出手段と、
目的のウェブページを取得するために、抽出したナビゲーションパス集合に基づいて取得済みウェブページをフィルタリングするウェブページフィルタリング手段とを備えることを特徴とするウェブページフィルタリングシステム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate


【公開番号】特開2009−151749(P2009−151749A)
【公開日】平成21年7月9日(2009.7.9)
【国際特許分類】
【外国語出願】
【出願番号】特願2008−243964(P2008−243964)
【出願日】平成20年9月24日(2008.9.24)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.フロッピー
【出願人】(505418870)エヌイーシー(チャイナ)カンパニー, リミテッド (108)
【氏名又は名称原語表記】NEC(China)Co.,Ltd.
【Fターム(参考)】