コミュニティ抽出装置、コミュニティ抽出方法、プログラム、及び記録媒体

【課題】代表語句を直接含んでいなくとも、関連性の高いコンテンツを幅広くコミュニティに取り込み、ユーザに提示することを可能としたコミュニティ抽出技術を提供する。
【解決手段】コミュニティ抽出装置において、コミュニティを代表するシードとなる語句を得る手段と、前記語句を検索条件としてコンテンツ検索を行い第一検索結果を得る手段と、前記第一検索結果から代表語句と関連性の高い関連語句集合を抽出する手段と、前記関連語句集合中の各関連語句を検索条件としてコンテンツ検索を行うことで得られた第二検索結果と、前記第一検索結果との間の関連性の強さを表すスコアを算出する手段と、前記スコアの値に基づいて、前記関連語句をコミュニティを代表する代表語句集合へ結合し、前記第一検索結果と前記第二検索結果とを一つのコミュニティとして結合するか否かを判定する手段とを備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、インターネット上のコンテンツの集合から話題が類似しているコンテンツをコミュニティとして抽出する技術に関する。
【背景技術】
【０００２】
インターネット上のコンテンツからコミュニティを抽出する技術においては、検索アルゴリズムとして提案されたＨＩＴＳアルゴリズムを応用する手法がある（非特許文献１）。
【０００３】
ここで、本明細書及び特許請求の範囲でのコンテンツとは、例えばインターネット上のＷｅｂページ、Ｗｅｂサイト中のＷｅｂページの集合、ｂｌｏｇ記事、ｂｌｏｇサイト中のｂｌｏｇ記事の集合などのことを指す。
【０００４】
ＨＩＴＳはコンテンツ間のハイパーリンクの情報のみを利用し、authorityスコアおよびhubスコアを計算し、スコアの大きさで順位付けを行う。ここで定性的には、authorityスコアはそのコンテンツの重要性の指標であり、hubスコアはリンク先のコンテンツの重要性を表す指標である。また、直感的には、authorityスコアは大きなスコアをもつhubから多くリンクされている程大きくなり、逆に、hubスコアは大きなスコアをもつauthorityを多くリンクしているほど大きくなる。両スコアは繰り返し計算によって求められる。
【０００５】
ＨＩＴＳを応用し関連するページ集合をコミュニティとして抽出する手法は、一例として簡単には次のように述べられる。シードとなる語句から検索されたコンテンツからハイパーリンクにおける近傍の部分グラフ、例えば、深さ２以内にあるコンテンツを含む部分グラフを与え、authorityスコアとhubスコアを計算すると、authorityスコアが大きいコンテンツをシードと関連するコンテンツと考えることができる。したがって、authorityスコアの大きなコンテンツ群をコミュニティとして抽出する。
【０００６】
また、言語処理の分野では情報検索で得られた結果をコンテンツのテキストの類似性を基に、クラスタリングを行い、内容の類似しているコンテンツをグループ化する方法がある。
【０００７】
類似度の計算法としては、一例として、テキストを単語のベクトルとして考え、その内積を類似度として採用する手法などがある。
【０００８】
クラスタリングの手法としては、大きく分類すると階層的手法と、分割最適化手法がある（非特許文献２、非特許文献３）。
【非特許文献１】J.Kleinberg, Authoritative Sources in a Hyperlinked Environment, In Proceedings ACM-SIAM Symposium on Discrete Algorithms, 1998
【非特許文献２】神蔦敏弘、“データマイニング分野のクラスタリング手法（１）−クラスタリングを使ってみよう！−”、人工知能学会誌ｖｏｌ．１８、ｎｏ．１、ｐｐ．５９−６５（２００３）
【非特許文献３】神蔦敏弘“データマイニング分野のクラスタリング手法（２）−大規模データへの挑戦と次元の呪いの克服−”、人工知能学会誌ｖｏｌ．１８、ｎｏ．２、ｐｐ．１７０−１７６（２００３）
【非特許文献４】徳永健伸、“情報検索と言語処理”、ｐｐ２６−２８、東京大学出版会、ＩＳＢＮ４−１３−０６５４０５−５、１９９９
【発明の開示】
【発明が解決しようとする課題】
【０００９】
ＨＩＴＳを応用したハイパーリンクに基づくコミュニティ抽出法においては、シードとなる語句を一度決定すると、抽出されるコミュニティも一意に決定され、最終出力はそのコミュニティのみである。したがって、そのコミュニティとの関連性は強いが、シードの語句とは異なる語句で構成されるコンテンツからなるコミュニティをユーザに提示することはできなかった。また、ハイパーリンクにおける近傍に存在していない関連するコンテンツはコミュニティに取り込むことができない場合もあった。
【００１０】
一方、検索結果に対するクラスタリングにおいては、あくまで検索結果をグループ化するのみであるから、関連する情報について検索結果に含まれていないコンテンツをユーザに提示することはできなかった。
【００１１】
本発明は上記の点に鑑みてなされたものであり、上記の問題点を解決し、関連するコンテンツを幅広くコミュニティに取り込み、ユーザに提示することを可能としたコミュニティ抽出技術を提供することを目的とする。
【課題を解決するための手段】
【００１２】
上記の課題は、ハイパーリンクで接続された多数のコンテンツの中から、お互いに関連するコンテンツを含むコミュニティを抽出するコミュニティ抽出装置において、コミュニティを代表するシードとなる語句を得るための代表語句入手手段と、前記語句を検索条件としてコンテンツ検索を行い第一検索結果を得るコンテンツ検索手段と、前記第一検索結果から代表語句と関連性の高い関連語句集合を抽出する関連語句集合抽出手段と、前記関連語句集合中の各関連語句を検索条件としてコンテンツ検索を行うことで得られた第二検索結果と、前記第一検索結果との間の関連性の強さを表すスコアを算出するスコア算出手段と、前記スコアの値に基づいて、前記関連語句をコミュニティを代表する代表語句集合へ結合し、前記第一検索結果と前記第二検索結果とを一つのコミュニティとして結合するか否かを判定する結合判定手段と、を有することを特徴とするコミュニティ抽出装置により解決される。
【００１３】
前記コミュニティ抽出装置のスコア算出手段は、前記スコアとして前記第一検索結果と前記第二検索結果との間でのハイパーリンクの密度を表す集合間結合度を算出する手段を有し、前記結合判定手段は、前記集合間結合度に基づいて前記第一検索結果と前記第二検索結果とを一つのコミュニティとして結合するかどうかを判定するようにしてもよい。また、スコア算出手段が、前記スコアとして前記第一検索結果と前記第二検索結果との間でのコンテンツの重なりの程度を表す内包度を算出する手段を有し、前記結合判定手段は、前記内包度に基づいて前記第一検索結果と前記第二検索結果とを一つのコミュニティとして結合するかどうかを判定するようにしてもよく、更に前記スコアとして前記第一検索結果と第二検索結果との和集合のハイパーリンクの密度を表す和集合結合度を算出し、前記和集合結合度に基づいて前記第一検索結果と前記第二検索結果とを一つのコミュニティとして結合するかどうかを判定するようにしてもよい。
【００１４】
また、前記コミュニティ抽出装置において、前記スコア算出手段は前記関連語句集合の要素語句間で関連性の強さを表すスコアを算出し、前記コミュニティ抽出装置は、当該スコアを基に関連語句集合内の語句のグループ化を行うグルーピング手段をさらに備えることとしてもよい。
【００１５】
また、前記関連語句集合抽出手段が、前記第一検索結果に対してＴＦ・ＩＤＦ法を行うことで前記関連語句集合を抽出してもよいし、前記第一検索結果中のコンテンツに対してハイパーリンクを持つコンテンツ中の当該ハイパーリンクのアンカーテキスト中での語句に対してＴＦ法もしくはＴＦ・ＩＤＦ法を行うことで前記関連語句集合を抽出してもよい。
【００１６】
また、本発明は、ハイパーリンクで接続された多数のコンテンツの中から、お互いに関連するコンテンツを含むコミュニティを抽出するコミュニティ抽出装置が実行するコミュニティ抽出方法、前記コミュニティ抽出装置の機能をコンピュータに実現させるためのプログラム、及び当該プログラムを記録したコンピュータ読み取り可能な記録媒体として構成することもできる。
【発明の効果】
【００１７】
本発明では、リンク解析と言語処理を組み合わせることで、シードとなる語句と関連性の強い語句集合を発見し、関連語句集合中の各語句を検索語句として用いた場合の検索結果集合を基に必要に応じてグループ化を行い、その検索結果集合とシードとなる語句での検索結果とのリンク密度、内包性、両集合の和集合内のリンク密度のうちのいずれか１つ又は複数を基にコミュニティ抽出を行う。これにより、基となるコンテンツ集合に含まれていないコンテンツを関連情報として提示することができなかったという従来の問題が解決される。
【００１８】
また、得られたコミュニティをシードとなる語句での検索結果と考え、上記の処理をバッチ処理的に数回繰り返し行うことで、コミュニティの綱羅性の向上を図ることができる。
【００１９】
本発明では、関連語句集合も同時に作成されるので、ユーザに対し検索の関心に関連する語句およびコミュニティの提示を行うことができ、ユーザに対する検索支援が可能になる。すなわち、関連語句集合の中から選択的に語句を選ばせることによって、コミュニティの絞込みを行うことが可能になる。
【発明を実施するための最良の形態】
【００２０】
以下、本発明の実施の形態について図面を参照して詳細に説明する。
【００２１】
（装置構成概要）
図１は本発明の実施形態の一例であるコミュニティ抽出装置１０の構成を示す図である。本実施形態のコミュニティ抽出装置１０は、所定のプログラムに基づいて動作する一般的なコンピュータ装置からなり、代表語句入手手段１１と、コンテンツ保持部１２と、コンテンツ検索手段１３と、関連語句集合抽出手段１４と、スコア算出手段１５と、関連語句集合に関するグルーピング手段１６、結合判定手段１７とを有している。図１に示す各種検索結果、語句集合、コミュニティなどの各種データはコミュニティ抽出装置１０を構成するコンピュータ装置の記憶装置に格納される。上記の各手段の機能をコンピュータ装置に実現させるプログラムは、ＣＤ−ＲＯＭ、メモリ等の記録媒体に格納して配布することもできるし、インターネット等のネットワークを介して配布することもできる。
【００２２】
代表語句入手手段１１は、抽出を行うコミュニティの中心となる代表語句を入手するための手段である。
【００２３】
コンテンツ保持部１２は、コンテンツ情報を保持する記憶手段である。図２にコンテンツ保持部１２に保持されるコンテンツ情報の例を示す。図２に示すようにコンテンツ保持部１２は、コンテンツＩＤ、コンテンツのテキスト情報、リンク情報、アンカーテキスト情報を、コンテンツごとに関連付けを行った形でデータとして保持している。ここで、コンテンツＩＤは、文書情報に基づきユニークに得られる識別子であり、例えば識別子としてユニークな数字やＵＲＬ等を用いることができる。コンテンツのテキスト情報は、コンテンツのテキストそのものである。リンク情報は、そのコンテンツがハイパーリンクしているコンテンツのコンテンツＩＤを要素としたべクトルである。アンカーテキスト情報は、上記ハイパーリンクのアンカーテキストを要素としたべクトルである。なお、コミュニティ抽出装置１０がコンテンツ保持部１２を備えることに代えて、コンテンツ保持部１２を、コミュニティ抽出装置１０にネットワーク接続された外部装置に備えることとしてもよい。
【００２４】
コンテンツ検索手段１３は、検索語句に基づきコンテンツ保持部１２に保持されたコンテンツ情報を検索する手段である。
【００２５】
関連語句集合抽出手段１４は、代表語句を検索語句としてコンテンツ検索手段１３によって得られた検索結果１から、検索結果１の内容を代表する特徴的な語句を関連語句集合として抽出する手段である。
【００２６】
スコア算出手段１５は、２つの検索結果の結合度（以降、集合間結合度と呼ぶ）および内包度と、両検索結果の和集合内での結合度（以降、和集合内結合度）の３つのスコアを算出する手段である。
【００２７】
グルーピング手段１６は、スコア算出手段１５を関連語句集合に対する検索結果集合の要素同士に適用することで求められた集合間結合度および内包度を基に、関連語句集合内の語句のクラスタリングを行い、語句のグルーピングを行う手段である。
【００２８】
結合判定手段１７は、スコア算出手段１５によって得られた集合間結合度、和集合内結合度および内包度を基に、検索結果１と、後述する検索結果集合中の各検索結果２とを一つの集合に結合するかどうかを判定し、集合の結合を行った結果をコミュニティとして抽出するための手段である。
【００２９】
上述した各手段の詳細処理内容については後に詳しく説明する。
【００３０】
（動作概要）
コミュニティ抽出装置１０で実行される処理の概要は次の通りである。まず、シードとなる代表語句を検索語句として検索を行って得られた検索結果１から、関連語句集合を抽出する。次に、関連語句集合の各要素語句を検索語句として得られた検索結果の集合において、各検索結果間の結合度および内包性を基に、関連語句集合をグループ化する。さらに、検索結果１と検索結果集合の各検索結果２間の結合度、内包性、および和集合内での結合度を基に、検索結果の結合判定を行い、両検索結果を結合しコミュニティ化する。これを、関連語句集合が空集合になるまで繰り返し行う。
【００３１】
関連語句集合内でグループ化を行うことにより、一例として、シード語句が“スポーツ”の場合などには、語句集合が｛サッカー、Ｊリーグ｝、｛野球、巨人｝のようにグループ化されることで、結果的に複数のコミュニティが得られる。また、得られたコミュニティを処理の前記手順中の検索結果１と置き換え再び関連語句集合の抽出から処理を繰り返し、コミュニティ抽出作業を行うことで、網羅性の向上を図ることもできる。
【００３２】
（動作詳細）
図３にコミュニティ抽出装置１０が実行する処理の手順を示す。以下、この手順に沿って各手段の処理を詳細に説明する。
【００３３】
まず、代表語句入手手段１１が、これから抽出を行うコミュニティの中心となる代表語句を取得する（ステップ１）。また、この時点ではコミュニティの代表語句集合の要素はここで取得した代表語句となる。代表語句の入手方法としては、例えばシステムの利用者が入力した語句を取得する方法や、新聞記事などの文書集合から固有表現抽出を行い、その固有表現のＴＦ・ＩＤＦ値の上位語を採用することで、現在話題になっている人物名や組織名等を代表語句とするなどの方法がある。
ここでＴＦ・ＩＤＦ法とは、文書中での出現頻度が大きい語句で、かつ、その文書に特有な語句を抽出するための手法である（非特許文献４）。また、ここでの固有表現とは、例えば人物名や地名、組織名など、ある実体に特有の表現を持つ語句のことを言う。
【００３４】
次に、コンテンツ検索手段１３が代表語句を用いてコンテンツ検索処理を行う（ステップ２）。ここでの処理を図４を用いて説明する。検索語句を受け取り（ステップ２１）、ステップ１で取得した代表語句を用いてコンテンツ保持部１２中のコンテンツを検索し（ステップ２２）、適合コンテンツリストを検索結果１として取得し、出力する（ステップ２３）。ここで、検索結果として次手段に渡すコンテンツの数は、計算量を削減する為、数十〜数千件程度に制限してもよい。
【００３５】
続いて、関連語句集合抽出手段１４が、ステップ２で得られた検索結果１の内容を代表する特徴的な語句を関連語句集合として抽出する（図３のステップ３）。実際の語句抽出手法としては、例えば、検索結果１中のコンテンツのテキスト情報中に出現する固有表現の中で、出現頻度があらかじめ設定した閾値より大きく、かつ、ＴＦ・ＩＤＦ値の大きいものを関連語句の候補とする。あるいは、検索結果１中のコンテンツに対しリンクをはっているコンテンツをコンテンツ保持部１２より検索し、そのリンクのアンカーテキストの集合から、同様にＴＦ・ＩＤＦ値の高い固有表現を関連語句の候補としてもよい。
【００３６】
コンテンツ検索手段１２での検索結果数と同様に、ここでの関連語句の抽出件数は計算量の問題から数十件程度に制限してもよい。
【００３７】
図３中の処理の流れにおいて、代表語句を入手し、代表語句を検索語句とした検索結果１を得て、その検索結果１より関連語句集合を抽出した時点において、代表語句と関連語句が、図５に示すようなデータ構造で記憶装置に蓄積される。また、この時点では、代表語句とその検索結果１が図６に示すようなデータ構造でコミュニティとして蓄積されている。
【００３８】
図５に示す語句集合は、“語句ＩＤ”、“語句”、“シード？”、“シード”、“グループＩＤ”、“結合判定？”の各情報を含む。語句ＩＤ”は“語句”に対応付けられた識別情報である。“語句”は代表語句、又は関連語句集合の中の語句である。“シード？”はその語句がシードであるかどうかを示すブール値である。“シード”はその語句を抽出する検索結果１の基となった代表語句である。“グループＩＤ”は以降で説明する関連語句集合を語句の関連性でグルーピングを行った際の識別記号である。“結合判定？”は以降で述べる結合判定手段１７における判定の結果を保持するブール値である。
【００３９】
図６に示すコミュニティは、“コミュニティＩＤ”、“コンテンツリスト”、“コミュニティ代表語句”の各情報を含む。“コミュニティＩＤ”はコミュニティを識別するための識別情報である。“コンテンツリスト”はコミュニティを構成するコンテンツのコンテンツＩＤのリストであり、“コミュニティ代表語句”はそのコミュニティを抽出するために用いられた語句集合である。
【００４０】
図３のステップ４において、関連語句集合の要素が存在しなければ処理を終了する。ステップ５において、コンテンツ検索手段１３が関連語句集合中の各語句を検索語句としてコンテンツ保持部１２のコンテンツを検索し、各語句に対応した検索結果の集合を取得する。なお、ここで各検索結果を得る際にも計算量の問題から、検索結果１と同数のコンテンツに出力を制限してもよい。
【００４１】
次に、スコア算出手段１５が、ステップ５で得られた検索結果集合内の検索結果間で集合間結合度、及び内包度を算出する（ステップ６）。集合間結合度および内包度で、検索結果間の関連性の強さをスコアリング化する。関連語句集合内の語句の数をkとすると、_kC₂ 組の検索結果対に対しスコア算出を行うことになる。集合間結合度および内包度の詳細は後述する。
【００４２】
そして、グルーピング手段１６は、ステップ６で求められた集合間結合度および内包度を基に、関連語句集合内の語句のクラスタリングを行うことにより、関連語句集合内で語句をグループ化する（ステップ７）。
【００４３】
実際のクラスタリング手法としては、非特許文献２および非特許文献３に示される階層的クラスタリング手法を用いる。クラスタリングにおける距離Ｄは、集合間結合度をr、内包度をiとすると以下のように定義される。ただし、αはα＞０の実定数であり、結合度の影響力を調整するために用いられるパラメタである。
【００４４】
D = αr+i
一例として、代表語句が“スポーツ”の場合に、関連語句集合として、｛サッカー、Ｊリーグ、セリエＡ、プロ野球、巨人、阪神、…｝のように“サッカー”と“野球”に関する語句が抽出されたとする。この例の場合、図７に示すように、サッカーに関する語句と野球に関する語句での検索結果間の結合度・内包度よりは、サッカーに関する語句同士、もしくは野球に関する語句同士の検索結果の結合度・内包度が大きくなっていると考えられる。ただし、図中ではコミュニティ内の各コンテンツのリンク情報より求めたリンク密度のみを太矢印で示し、コンテンツ間のハイパーリンクは簡単のため図から省略している。
【００４５】
以上より、結果として関連語句集合は｛サッカー、Ｊリーグ、セリェＡ｝、｛プロ野球、巨人、阪神｝のように、２つのグループに分割される。関連語句集合内の語句のグルーピング処理の結果、語句集合は図８に示すようになる。図８では、グルーピング処理前の図５と比較して、関連語句集合の各要素にグルーピング結果に基づくグループＩＤが追加されている。
【００４６】
次に、図３のステップ８において、スコア算出手段１５が、ステップ２で取得した検索結果１と、ステップ５で取得した検索結果集合における各検索結果（以下、検索結果２と呼ぶ）との間で、集合間結合度、和集合内結合度、及び内包度を算出する。集合間結合度および内包度で、検索結果間の関連性の強さをスコアリング化し、また、和集合内結合度で、２つの検索結果を結合してコミュニティ化した際のリンク密度をスコアリング化する。
【００４７】
［スコア算出手段の処理の詳細］
以下、スコア算出手段１５の処理を、検索結果１とある検索結果２との間のスコア算出を例にとって詳細に説明する。スコア算出手段１５は、検索結果の中のコンテンツ情報におけるコンテンツＩＤおよびリンク情報を基に、集合間結合度等のスコアの算出を行う。
【００４８】
集合間結合度の計算には、両集合間のハイパーリンクの本数を用い、両集合間のハイパーリンクの密度が高いほど、結合度が大きくなるような計算式を用いる。
【００４９】
例えば、検索結果１のコンテンツ数をm、検索結果１との結合度を算定する対象となる検索結果２のコンテンツ数をn、両検索結果の積集合のコンテンツ数をc、積集合のコンテンツを除いた状態での検索結果間のハイパーリンクの本数、つまり積集合内のコンテンツ間でのハイパーリンクや積集合内のノードから、もしくはノードへのリンクを除いた状態での検索結果間のハイパーリンクの本数をlとする。積集合を除いた状態での両検索結果間でのハイパーリンクの最大の本数は2・(m-c)・(n-c)であるので、集合間結合度は以下の式により算出する。
【００５０】
【数１】

一例として、検索結果１および対象となる検索結果２が、図９に示されるように積集合を持たない場合、検索結果１のコンテンツ数は６、検索結果２のコンテンツ数は５、積集合のコンテンツ数は０、文書集合間のハイパーリンクの本数は８であるので、結合度は８／（２・６・５）＝０．１３３．．．である。
【００５１】
同様に、図１０に示されるように積集合を持つ場合、検索結果１のコンテンツ数は７、検索結果２のコンテンツ数は６、積集合のコンテンツ数は３、文書集合間のハイパーリンクの本数は３であるので、結合度は３／｛２・（７−３）・（６−３）｝＝０．１２５．．．である。
【００５２】
あるいは、集合間結合度算出の際に、ハイパーリンクの方向性を考慮して、検索結果１から検索結果２へのハイパーリンクのみを考慮することも考えられる。これは、検索結果２が、例えば検索結果１とは特に関係のない商品の宣伝のコミュニティであった場合に、検索結果２から大量に検索結果１ヘハイパーリンクを張ることで、不正に結合度を大きくすることができると考えられるためである。この場合、m、n、cを同様に定義し、1を積集合中のノードと関係のない検索結果１から検索結果２へのハイパーリンクの本数とすると、両コンテンツ集合間のハイパーリンクの最大の本数は(m-c)・(n-c)であるので、集合間結合度は以下の式により算出する。
【００５３】
【数２】

一例として、検索結果１および検索結果２が図９のように示される場合、結合度は５／（６・５）＝０．１６６６．．．である。同様に、検索結果１および検索結果２が図１０のように示される場合、結合度は２／｛（７−３）・（６−３）｝＝０．１６６６．．．である。
【００５４】
別の実施例としては、一つのコンテンツ当たりの接続リンク数、即ち平均リンク数として、集合間結合度の結合度を算出する方法もある。例えば、m、n、c、lを同様に定義したとすると、集合間結合度を以下のように算出する。
【００５５】
【数３】

一例として、図９のような場合には、８／（６＋５−０）＝０．７２７…である。一方、図１０のような場合には、３／（７＋６−２・３）＝０．４２８…である。同様に、リンクの方向性を考慮した場合には、検索結果１からのリンクのみを考慮すればよいので、集合間結合度は以下のように算出してもよい。
【００５６】
【数４】

この場合、図９のような場合には、５／（６−０）＝０．８３３．．．である。一方、図１０のような場合には、２／（７−３）＝０．５００である。
【００５７】
また、上記［数１］〜［数４］まででは、ハイパーリンク一本の重みは全て１として考えているが、リンク自体に重みを付与することで、多くのリンクを張っているコンテンツの影響を考慮することもできる。
【００５８】
具体的には、コンテンツjから出るリンクの重みw(j)は、コンテンツjからのリンクの本数out(j)が多いほどリンク一本あたりの影響度は弱くなると考え、以下のように定義する方法がある。ただし、kはk>0とする重みを調整するためのパラメータであり、例えば１や１／２等を用いる。
【００５９】
【数５】

次に、内包度の算出方法について説明する。検索結果１と検索結果２との間の内包度は、検索結果１と検索結果２との和集合と積集合のコンテンツ数から以下のように算出する。
【００６０】
【数６】

一例として、図１０の場合には、内包度は３／１０＝０．３００である。
【００６１】
和集合内結合度の算出法としては、和集合内のハイパーリンクの本数を用い、和集合内でのハイパーリンクの密度が高いほど、結合度が大きくなるような計算式を用いる。例えば、和集合中のコンテンツ数をu、ハイパーリンクの本数をlとすると、和集合内での最大のハイパーリンクの本数は_uP₂であるので、和集合内結合度は以下の式で表される。
【００６２】
【数７】

一例として、和集合が図１１のように示される場合、コンテンツ数は９、ハイパーリンクの本数は１０であるので、和集合内結合度は１０／９・８＝０．１３９…である。別の実施例としては、平均リンク数として、和集合内結合度を算出する方法もある。この場合、以下のように定義することができる。
【００６３】
【数８】

和集合が図１１のように示される場合、コンテンツ数は９、ハイパーリンクの本数は１０であるので、結合度は１０／９＝１．１１…である。
【００６４】
スコア算出手段１５は、上記のような処理により、集合間結合度、内包度、和集合内結合度を算出する。
【００６５】
図３に戻り、ステップ９において結合判定手段１７は、スコア算出手段１５によって得られた集合間結合度、和集合内結合度および内包度を基に、検索結果１と検索結果集合中の各検索結果２とを一つの集合に結合するかどうかを判定する。そして、集合の結合を行った結果をコミュニティ、語句集合に反映させる（ステップ１０）。
【００６６】
実際の結合判定の方法としては、例えば、３つのスコア（集合間結合度、和集合内結合度および内包度）全てに闘値を設定し、全てのスコアが闘値を超えた場合には両集合を結合するといった方法が考えられる。ここで、闘値設定の方法としては、例えば、あらかじめ３つのスコアに対し闘値を定数として与える方法などがある。
【００６７】
もしくは、r₁₂を集合間結合度、r_1∪2を和集合内結合度、iを内包度とし、α、β(α>0、β>0)を実定数とし、それぞれ、和集合内結合度、内包度の影響力を調整するためのパラメタとすると以下の式の値に基づき判定を行っても良い。つまり、以下の式の値が所定の閾値を超えた場合に両集合を結合すると判定する。
【００６８】
【数９】

ステップ９においては、関連語句集合中の語句のグループに対応を取りながら、検索結果の結合判定を行う。ここで、もし結合判定の結果、結合を行わない場合には、対応する語句は以降で説明する繰り返し処理の際には用いられなくなる。例えば、図８に示される語句集合の中で、“セリエＡ”の検索結果２のみが結合判定の結果、不適と判定された場合には、語句集合は図１２のように示される。一方、抽出されたコミュニティについては図１３のように示される。検索結果１との結合の適すると判定された同じグループに属する語句に対応する検索結果２と検索結果１とが１つのコミュニティとなる。また、代表語句とグループの関連語句とがマージされてコミュニティ代表語句となる。
【００６９】
コミュニティを抽出する際において、検索結果１の中には、抽出を行おうとしているコミュニティとは関係のないコンテンツも含まれていると考えられる。例えば、図１４のように、代表語句として「スポーツ」を選んだ際には、検索結果１中には“サッカー”、“野球”、“バレーボール”などのように様々な種類のスポーツのコンテンツが含まれていると考えられる。関連語句集合中の１グループである、サッカーに関連する語句群によるコミュニティを抽出する際には、検索結果１中に含まれる“野球”や“バレーボール”のコンテンツは、サッカー関連のコミュニティに対する関連性は低いと考えられる。
【００７０】
したがって、結合判定で結合すべきと判定されたコミュニティ（例えばサッカー）をコミュニティ（ここではスポーツ）に統合する際には、サッカーを検索語句とする検索結果２のコンテンツから、ハイパーリンクでの距離k（ただし、kは正数）以内にない検索結果１中のコンテンツ（この例では、野球とバレーボール）をコミュニティから取り除いてもよい。
【００７１】
本実施形態では、上記の処理によって取得した各コミュニティを検索結果１として、繰り返し処理を行なう（ステップ１１）。以下、その手順について説明する。ただし、この繰り返し処理は省略しても良い。
図１３のコミュニティ集合において、上記の処理によって新たに得られた各コミュニティを各検索結果１として、関連語句集合を抽出した結果、語句集合は図１５のようになる。図１５ではコミュニティＩＤが２のコミュニティを検索結果１として抽出された語句が示されている。
【００７２】
なお、繰り返し処理においては、既に語句集合中に含まれている語句が再び語句集合に採用されることのないように処理が行われる。以下、同様にスコア算出手段１５、グルーピング手段１６、結合判定手段１７により処理を行った結果の一例として、語句集合は図１６のように、コミュニティは図１７のように示される。再び繰り返し処理を行う際には、同様に抽出されたコミュニティを検索結果１に置き換えて処理を行う。
【００７３】
上記で示した実施例の外にも様々な実施の形態が考えられる。特に、上記実施例ではコミュニティ結合判定に用いるスコアとして集合間結合度、内包度、和集合結合度の３つのスニアを利用したが、内包度および和集合結合度は利用せず、集合間結合度のみによって代表語句集合およびコミュニティを抽出してもよい。また、関連語句のグルーピングの処理は省略することもできる。
【００７４】
（効果について）
以上説明したように、本実施形態のコミュニティ抽出装置によれば、従来ではテキスト情報およびハイパーリンク情報単独でコミュニティ抽出を行っていた結果、基となるコンテンツ集合に含まれていないコンテンツを関連情報として提示することができなかったが、関連語句集合を抽出しその語句を検索語句とした検索結果のハイパーリンク情報を基にした関連性を調べることで、テキスト情報として関連性があるだけでなく、Ｗｅｂ上におけるハイパーリンク構造に関しても関連性のあるコンテンツをコミュニティとして抽出することができる。
【００７５】
尚、本コミュニティ抽出装置は、計算量が比較的大きいが、バッチ処理により、予め取得した大量のコンテンツに対して、コミュニティおよび代表語句集合を抽出しておくことができる。
【００７６】
そして、本コミュニティ抽出装置をコンテンツの検索システムに適用する場合には、ユーザから入力された検索語句に一致するコミュニティ代表語句を持つコミュニティを図１７に示すコミュニティ情報から検索し、関連する他の代表語句をユーザに提示し、目的とするコミュニティを選択させることで、ユーザの検索支援につなげることができる。つまり、単一の検索語句のみを入れるだけで、関連語句を提示できるので、ユーザは、提示された関連語句の中から目的に合う語句をクリックするだけで目的のコンテンツ集合（コミュニティ）にたどり着くことができる。
【００７７】
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
【図面の簡単な説明】
【００７８】
【図１】本発明の一実施形態であるコミュニティ抽出装置１０の構成図である。
【図２】コンテンツ保持部１２に保持されるコンテンツ情報の例を示す図である。
【図３】コミュニティ抽出装置１０が実行する処理の手順を示すフローチャートである。
【図４】コンテンツ検索手段１３が実行する処理の手順を示すフローチャートである。
【図５】関連語句集合を抽出した時点における語句集合を示す図である。
【図６】検索結果１を抽出した時点におけるコミュニティを示す図である。
【図７】グループ化を説明するための図である。
【図８】グルーピング処理後の語句集合を示す図である。
【図９】検索結果１と検索結果２との間で積集合を持たない場合を示す図である。
【図１０】検索結果１と検索結果２との間で積集合を持つ場合を示す図である。
【図１１】検索結果１と検索結果２の和集合の例を示す図である。
【図１２】結合判定後の語句集合を示す図である。
【図１３】結合判定後に抽出されたコミュニティを示す図である。
【図１４】コミュニティを抽出する際の留意点を説明するための図である。
【図１５】繰り返し処理において関連語句集合を抽出した後の語句集合を示す図である。
【図１６】繰り返し処理がなされた後の語句集合を示す図である。
【図１７】繰り返し処理がなされた後のコミュニティを示す図である。
【符号の説明】
【００７９】
１０コミュニティ抽出装置
１１代表語句入手手段
１２コンテンツ保持部
１３コンテンツ検索手段
１４関連語句集合抽出手段
１５スコア算出手段
１６グルーピング手段
１７結合判定手段

【特許請求の範囲】
【請求項１】
ハイパーリンクで接続された多数のコンテンツの中から、お互いに関連するコンテンツを含むコミュニティを抽出するコミュニティ抽出装置において、
コミュニティを代表するシードとなる語句を得るための代表語句入手手段と、
前記語句を検索条件としてコンテンツ検索を行い第一検索結果を得るコンテンツ検索手段と、
前記第一検索結果から代表語句と関連性の高い関連語句集合を抽出する関連語句集合抽出手段と、
前記関連語句集合中の各関連語句を検索条件としてコンテンツ検索を行うことで得られた第二検索結果と、前記第一検索結果との間の関連性の強さを表すスコアを算出するスコア算出手段と、
前記スコアの値に基づいて、前記関連語句をコミュニティを代表する代表語句集合へ結合し、前記第一検索結果と前記第二検索結果とを一つのコミュニティとして結合するか否かを判定する結合判定手段と、
を有することを特徴とするコミュニティ抽出装置。
【請求項２】
請求項１に記載のコミュニティ抽出装置のスコア算出手段は、
前記スコアとして前記第一検索結果と前記第二検索結果との間でのハイパーリンクの密度を表す集合間結合度を算出する手段を有し、前記結合判定手段は、前記集合間結合度に基づいて前記第一検索結果と前記第二検索結果とを一つのコミュニティとして結合するかどうかを判定する、
ことを特徴とするコミュニティ抽出装置。
【請求項３】
請求項１又は２に記載のコミュニティ抽出装置のスコア算出手段は、
前記スコアとして前記第一検索結果と前記第二検索結果との間でのコンテンツの重なりの程度を表す内包度を算出する手段を有し、前記結合判定手段は、前記内包度に基づいて前記第一検索結果と前記第二検索結果とを一つのコミュニティとして結合するかどうかを判定する、
ことを特徴とするコミュニティ抽出装置。
【請求項４】
請求項１ないし３のうちいずれか１項に記載のコミュニティ抽出装置のスコア算出手段は、
前記スコアとして前記第一検索結果と第二検索結果との和集合のハイパーリンクの密度を表す和集合結合度を算出する手段を有し、前記結合度判定手段は、前記和集合結合度に基づいて前記第一検索結果と前記第二検索結果とを一つのコミュニティとして結合するかどうかを判定する、
ことを特徴とするコミュニティ抽出装置。
【請求項５】
請求項１ないし４のうちいずれか１項に記載のコミュニティ抽出装置において、前記スコア算出手段は前記関連語句集合の要素語句間で関連性の強さを表すスコアを算出し、
前記コミュニティ抽出装置は、当該スコアを基に関連語句集合内の語句のグループ化を行うグルーピング手段をさらに備える、
ことを特徴とするコミュニティ抽出装置。
【請求項６】
請求項１ないし５のうちいずれか１項に記載のコミュニティ抽出装置において、
前記関連語句集合抽出手段は、前記第一検索結果に対し、ＴＦ・ＩＤＦ法を行うことで、前記関連語句集合を抽出する、
ことを特徴とするコミュニティ抽出装置。
【請求項７】
請求項１ないし５のうちいずれか１項に記載のコミュニティ抽出装置において、
前記関連語句集合抽出手段は、前記第一検索結果中のコンテンツに対してハイパーリンクを持つコンテンツ中の当該ハイパーリンクのアンカーテキスト中での語句に対してＴＦ法もしくはＴＦ・ＩＤＦ法を行うことで前記関連語句集合を抽出する、
ことを特徴とするコミュニティ抽出装置。
【請求項８】
ハイパーリンクで接続された多数のコンテンツの中から、お互いに関連するコンテンツを含むコミュニティを抽出するコミュニティ抽出装置が実行するコミュニティ抽出方法であって、
代表語句入手手段が、コミュニティを代表するシードとなる語句を得る代表語句入手ステップと、
コンテンツ検索手段が、前記語句を検索条件としてコンテンツ検索を行い第一検索結果を得るコンテンツ検索ステップと、
関連語句集合抽出手段が、前記第一検索結果から代表語句と関連性の高い関連語句集合を抽出する関連語句集合抽出ステップと、
スコア算出手段が、前記関連語句集合中の各関連語句を検索条件としてコンテンツ検索を行うことで得られた第二検索結果と、前記第一検索結果との間の関連性の強さを表すスコアを算出するスコア算出ステップと、
結合判定手段が、前記スコアの値に基づいて、前記関連語句をコミュニティを代表する代表語句集合へ結合し、前記第一検索結果と前記第二検索結果とを一つのコミュニティとして結合するか否かを判定する結合判定ステップと、
を有することを特徴とするコミュニティ抽出方法。
【請求項９】
ハイパーリンクで接続された多数のコンテンツの中から、お互いに関連するコンテンツを含むコミュニティを抽出するコミュニティ抽出装置の機能をコンピュータに実現させるためのプログラムであって、前記コンピュータを、
コミュニティを代表するシードとなる語句を得るための代表語句入手手段、
前記語句を検索条件としてコンテンツ検索を行い第一検索結果を得るコンテンツ検索手段、
前記第一検索結果から代表語句と関連性の高い関連語句集合を抽出する関連語句集合抽出手段、
前記関連語句集合中の各関連語句を検索条件としてコンテンツ検索を行うことで得られた第二検索結果と、前記第一検索結果との間の関連性の強さを表すスコアを算出するスコア算出手段、
前記スコアの値に基づいて、前記関連語句をコミュニティを代表する代表語句集合へ結合し、前記第一検索結果と前記第二検索結果とを一つのコミュニティとして結合するか否かを判定する結合判定手段、
として機能させるためのプログラム。
【請求項１０】
請求項９に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。

【図１】