説明

関連コンテンツ提示装置及びプログラム

【課題】 関連コンテンツの候補のキーワード分布特性が一致していない場合やテキスト量が少ない場合においても精度の高い関連コンテンツを提示する。
【解決手段】 本発明は、対象文書がWeb文書である場合は主要コンテンツの抽出を行い、文書内のテキストからキーワード候補を抽出し、抽出されたキーワードの重要度をWebIDFやBM25といったアルゴリズムを用いて出現頻度及び、キーワードの形態素の固有名詞の出現頻度、キーワード辞書のリンク構造に基づいて得られた文書のランキング、閲覧された回数、検索エンジンに投入された回数、キーワードが文の先頭に存在するか否か等の要素により重要度を計算し、重要度に基づいてキーワードを選択し、当該キーワードを組み合わせて検索クエリを生成し、検索することにより関連コンテンツを取得する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、関連コンテンツ提示装置及びプログラムに係り、特に、文書中に含まれるテキストからその内容に関連するコンテンツを提示するための関連コンテンツ提示装置及びプログラムに関する。
【背景技術】
【0002】
従来の関連コンテンツ提示方法は、該当するテキストに含まれるキーワードの出現分布と類似するテキストを含むコンテンツを提示していた(例えば、非特許文献1,2参照)。
【0003】
また、従来の重要語抽出技術はキーワードの出現頻度や、複合語を構成する形態素の連接頻度等を用いて抽出する手法が主流であった(例えば、非特許文献3,4参照)。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】別所克人、内山俊郎、内山匡(NTT). αダイバージェンスに基づく単語連想と文書分類への適用.
【非特許文献2】Piotr Indyk(MIT). Near-Optimal Hashing Algorithms for Approximate Near(est) Neighbor Problem.
【非特許文献3】中川裕志,森辰則,湯本紘彰.出現頻度と連接頻度に基づく専門用語抽出.自然言語処理,Vol.10 No.1, pp. 27 - 45, 2003年1月.
【非特許文献4】S.E. Robertson S. Walker Some Simple Effective Approximations to the 2.Poisson Model for Probabilistic Weighted Retrieval 1994年
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら、従来手法では関連コンテンツを提示するために必要な条件として、提示したいコンテンツが関連元のテキストと同程度のテキスト量を保有する必要があり、また提示したいコンテンツと関連元テキストのキーワード分布特性が一致していない場合や、コンテンツに付与されているテキストが少ない場合に提示コンテンツの精度が低くなる問題があった。そのため、あるテキストに関連する動画やクーポン情報を関連コンテンツとして提示したい場合にこの問題が生じる。また、近年動画やクーポン情報が検索APIとして他社が保有するコンテンツが無償で公開されている。しかしながら従来法では、関連コンテンツ候補は自己で保有していなければ出力できないため、関連コンテンツとして出力できない問題がある。
【0006】
本発明は、上記の点に鑑みなされたもので、関連コンテンツの候補のキーワード分布特性が一致していない場合やテキスト量が少ない場合においても精度の高い関連コンテンツを提示することが可能な関連コンテンツ提示装置及びプログラムを提供することを目的とする。
【0007】
さらに、他社が保有し公開する検索API(Application Program Interface)から様々な種類の関連コンテンツを提示することが可能な関連コンテンツ提示装置及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
上記の課題を解決するために、本発明(請求項1)は、Web文書中に含まれるテキストからその内容に関連するWebコンテンツを提示するための関連コンテンツ提示装置であって、
Web文書を取得して該Web文書の特徴量を抽出し、主要コンテンツを抽出する主要コンテンツ抽出手段と、
主要コンテンツから重要キーワード候補を抽出する重要キーワード候補抽出手段と、
重要キーワード候補のうち、Web文書集合における出現確率を、WebIDFアルゴリズム及び、BM25アルゴリズムを用いて算出し、出現頻度の高い上位N件のキーワード候補を抽出する重要度算出手段と、
N件のキーワード候補から検索クエリを生成し、該検索クエリに基づいて検索エンジンを検索して関連コンテンツを取得する関連コンテンツ取得手段と、を有する。
【0009】
また、本発明(請求項2)は、Web文書中に含まれるテキストからその内容に関連するWebコンテンツを提示するための関連コンテンツ提示装置であって、
Web文書を取得して該Web文書の特徴量を抽出し、主要コンテンツを抽出する主要コンテンツ抽出手段と、
主要コンテンツから重要キーワード候補を抽出する重要キーワード候補抽出手段と、
重要キーワード候補のうち、WebIDFアルゴリズム及び、BM25アルゴリズムを用いてWeb文書集合における出現確率を算出し、各キーワードの形態素の固有名詞の出現頻度を算出し、該出現確率と該キーワードの固有名詞の出現頻度を用いて重要度を算出する重要度算出手段と、
重要度算出手段で算出された重要度に基づいて抽出されたN件のキーワード候補から検索クエリを生成し、該検索クエリに基づいて検索エンジンを検索して関連コンテンツを取得する関連コンテンツ取得手段と、を有する。
【0010】
また、本発明(請求項3)は、Web文書中に含まれるテキストからその内容に関連するWebコンテンツを提示するための関連コンテンツ提示装置であって、
オンライン百科辞典に代表される文書集合内において一意の見出し語を持つ文書集合内において引用関係もしくは参照関係のリンク構造を持つ文書集合の見出し語が形態素解析用の辞書として格納されているキーワード辞書と、
Web文書を取得して該Web文書の特徴量を抽出し、主要コンテンツを抽出する主要コンテンツ抽出手段と、
主要コンテンツから重要キーワード候補を抽出する重要キーワード候補抽出手段と、
重要キーワード候補のうち、WebIDFアルゴリズム及び、BM25アルゴリズムを用いてWeb文書集合における出現確率を算出する第1の重要度算出手段と、
キーワード候補のキーワードに基づいてキーワード辞書を参照し、リンク構造に基づいて得られた文書のランキングを該キーワードのキーワード固有重要度とする第2の重要度算出手段と、
第1の重要度算出手段の出現確率及び第2の重要度算出手段のキーワード固有重要度を用いて算出された値に基づいて抽出されたN件のキーワード候補から検索クエリを生成し、該検索クエリに基づいて検索エンジンを検索して関連コンテンツを取得する関連コンテンツ取得手段と、を有する。
【0011】
また、本発明(請求項2)は、Web文書中に含まれるテキストからその内容に関連するWebコンテンツを提示するための関連コンテンツ提示装置であって、
オンライン百科辞典に代表される文書集合内において一意の見出し語を持つ文書集合内において引用関係もしくは参照関係のリンク構造を持つ文書集合の見出し語が形態素解析用の辞書として格納されているキーワード辞書と、
キーワード辞書を参照した閲覧ログを格納した閲覧ログ記憶手段と、
Web文書を取得して該Web文書の特徴量を抽出し、主要コンテンツを抽出する主要コンテンツ抽出手段と、
キーワード辞書を参照して、主要コンテンツから重要キーワード候補を抽出する重要キーワード候補抽出手段と、
重要キーワード候補のうち、WebIDFアルゴリズム及び、BM25アルゴリズムを用いてWeb文書集合における出現確率を算出する第1の重要度算出手段と、
閲覧ログ記憶手段を参照して、閲覧された回数が多いキーワードほど度合いが大きくなる重要度を求める第2の重要度算出手段と、
第1の重要度算出手段の出現確率と、第2の重要度算出手段の重要度を用いて算出された値に基づいて抽出された上位N件のキーワード候補から検索クエリを生成し、該検索クエリに基づいて検索エンジンを検索して関連コンテンツを取得する関連コンテンツ取得手段と、を有する。
【0012】
また、本発明(請求項5)は、Web文書中に含まれるテキストからその内容に関連するWebコンテンツを提示するための関連コンテンツ提示装置であって、
オンライン百科辞典に代表される文書集合内において一意の見出し語を持つ文書集合内において引用関係もしくは参照関係のリンク構造を持つ文書集合の見出し語が形態素解析用の辞書として格納されているキーワード辞書と、
Web文書を取得して該Web文書の特徴量を抽出し、主要コンテンツを抽出する主要コンテンツ抽出手段と、
キーワード辞書を参照して主要コンテンツから重要キーワード候補を抽出する重要キーワード候補抽出手段と、
重要キーワード候補のうち、WebIDFアルゴリズム及び、BM25アルゴリズムを用いてWeb文書集合における出現確率を算出する第1の重要度算出手段と、
キーワード候補が検索エンジンに投入された回数を取得し、検索クエリ投入回数を用いてキーワード固有重要度を算出する第2の重要度算出手段と、
第1の重要度算出手段の出現確率と、第2の重要度算出手段のキーワード固有重要度を用いて算出された値に基づいて抽出された上位N件のキーワード候補から検索クエリを生成し、該検索クエリに基づいて検索エンジンを検索して関連コンテンツを取得する関連コンテンツ取得手段と、を有する。
【0013】
また、本発明(請求項6)は、Web文書中に含まれるテキストからその内容に関連するWebコンテンツを提示するための関連コンテンツ提示装置であって、
オンライン百科辞典に代表される文書集合内において一意の見出し語を持つ文書集合内において引用関係もしくは参照関係のリンク構造を持つ文書集合の見出し語が形態素解析用の辞書として格納されているキーワード辞書と、
Web文書を取得して該Web文書の特徴量を抽出し、主要コンテンツを抽出する主要コンテンツ抽出手段と、
キーワード辞書を参照して主要コンテンツから重要キーワード候補を抽出する重要キーワード候補抽出手段と、
重要キーワード候補のうち、WebIDFアルゴリズム及び、BM25アルゴリズムを用いてWeb文書集合における出現確率を算出する第1の重要度算出手段と、
キーワード候補のWeb文書の文における出現位置を参照し、キーワードが文の先頭にあるほど値が大きくなる重要度を求める第2の重要度算出手段と、
第1の重要度算出手段の出現確率と、第2の重要度算出手段の重要度を用いて算出された値に基づいて抽出された上位N件のキーワード候補から検索クエリを生成し、該検索クエリに基づいて検索エンジンを検索して関連コンテンツを取得する関連コンテンツ取得手段と、を有する。
【0014】
また、本発明(請求項7)は、Web文書中に含まれるテキストからその内容に関連するWebコンテンツを提示するための関連コンテンツ提示装置であって、
オンライン百科辞典に代表される文書集合内において一意の見出し語を持つ文書集合内において引用関係もしくは参照関係のリンク構造を持つ文書集合の見出し語が形態素解析用の辞書として格納されているキーワード辞書と、
Web文書を取得して該Web文書の特徴量を抽出し、主要コンテンツを抽出する主要コンテンツ抽出手段と、
キーワード辞書を参照して主要コンテンツから重要キーワード候補を抽出する重要キーワード候補抽出手段と、
重要キーワード候補のうち、WebIDFアルゴリズム及び、BM25アルゴリズムを用いてWeb文書集合における出現確率を算出する第1の重要度算出手段と、
Web文書から固有表現を有する固有表現キーワードを抽出し、重要キーワード候補と一致した場合に、重みを付与したスコアを求める第2の重要度算出手段と、
第1の重要度算出手段の出現確率と、第2の重要度算出手段のスコアを用いて算出された値に基づいて抽出された上位N件のキーワード候補から検索クエリを生成し、該検索クエリに基づいて検索エンジンを検索して関連コンテンツを取得する関連コンテンツ取得手段と、を有する。
【0015】
また、本発明(請求項8)は、Web文書中に含まれるテキストからその内容に関連するWebコンテンツを提示するための関連コンテンツ提示装置であって、
オンライン百科辞典に代表される文書集合内において一意の見出し語を持つ文書集合内において引用関係もしくは参照関係のリンク構造を持つ文書集合の見出し語が形態素解析用の辞書として格納されているキーワード辞書と、
キーワード辞書を参照した閲覧ログを格納した閲覧ログ記憶手段と
Web文書を取得して該Web文書の特徴量を抽出し、主要コンテンツを抽出する主要コンテンツ抽出手段と、
キーワード辞書を参照して、主要コンテンツから重要キーワード候補を抽出する重要キーワード候補抽出手段と、
重要キーワード候補のうち、WebIDFアルゴリズム及び、BM25アルゴリズムを用いてWeb文書集合における出現確率を算出し、各キーワードの形態素の固有名詞の出現頻度を算出し、該出現確率と該キーワードの固有名詞の出現頻度を用いて第1の重要度を算出する第1の重要度算出手段と、
キーワード候補のキーワードに基づいてキーワード辞書を参照し、リンク構造に基づいて得られた文書のランキングを該キーワードの第2の重要度とする第2の重要度算出手段と、
閲覧ログ記憶手段を参照して、閲覧された回数が多いキーワードほど度合いが大きくなる第3の重要度を求める第3の重要度算出手段と、
キーワード候補が検索エンジンに投入された回数を取得し、検索クエリ投入回数を用いて第4の重要度を算出する第4の重要度算出手段と、
キーワード候補のWeb文書の文における出現位置を参照し、キーワードが文の先頭にあるほど値が大きくなる第5の重要度を求める第5の重要度算出手段と、
第1の重要度算出手段の第1の重要度、第2の重要度算出手段の第2の重要度、第3の重要度算出手段の第3の重要度、第4の重要度算出手段の第4の重要度、第5の重要度算出手段の第5の重要度の少なくともいずれか1つの重要度に基づいて抽出されたN件のキーワード候補から検索クエリを生成し、該検索クエリに基づいて検索エンジンを検索して関連コンテンツを取得する関連コンテンツ取得手段と、を有する。
【0016】
また、本発明(請求項9)は、請求項1乃至8のいずれか1項に記載の関連コンテンツ提示装置を構成する各手段としてコンピュータを機能させるためのプログラムである。
【発明の効果】
【0017】
上記のように、本発明によれば、コンテンツ特性に合わせた重要語(重要キーワード)抽出により、関連コンテンツ候補のキーワード分布特性が一致していない場合やテキスト量が少ない場合においても精度の高い関連コンテンツ提示が可能になる。
【0018】
また、他社が保有し公開する検索APIから様々な種類の関連コンテンツを提示することが可能になり、自社でコンテンツを保有していいなくても他社のコンテンツを関連コンテンツとして提示できる。
【図面の簡単な説明】
【0019】
【図1】本発明の一実施の形態における関連コンテンツ提示処理の概要動作のフローチャートである。
【図2】本発明の一実施の形態における関連コンテンツ提示装置のシステム図である。
【図3】本発明の一実施の形態における関連コンテンツ提示装置の処理の流れを示すフローチャートである。
【図4】本発明の一実施の形態におけるキーワード固有重要度算出式のスコア分布例である。
【図5】本発明の一実施の形態における主要コンテンツ抽出部の構成図である。
【図6】本発明の一実施の形態におけるWeb文書取得・入力部の構成図である。
【図7】本発明の一実施の形態におけるWeb文書分割部の構成図である。
【図8】本発明の一実施の形態における特徴量抽出部の構成図である。
【図9】本発明の一実施の形態における主要コンテンツ判定部の構成図である。
【図10】本発明の一実施の形態における特徴量のパラメータ推定方法のフローチャートである。
【図11】本発明の一実施の形態における主要コンテンツ出力部の構成図である。
【図12】本発明の一実施の形態における主要コンテンツの出力例(その1)である。
【図13】本発明の一実施の形態における主要コンテンツの出力例(その2)である。
【図14】本発明の一実施の形態における関連コンテンツ提示装置の出力例である。
【発明を実施するための形態】
【0020】
以下図面と共に、本発明の実施の形態を説明する。
【0021】
本発明は、文書中における重要キーワードを抽出するシステムである.従来法においては比較的量の多い文書集合を事前に用意する必要があったが、本発明では文書が少ない場合においても精度が落ちにくい手法を提案する。
【0022】
図1は、本発明の一実施の形態における関連コンテンツ提示処理の概要動作のフローチャートである。
【0023】
本装置の主な処理の流れは、以下のようになる.
ステップ1) 入力された対象文書がWeb文書か否かの判定を行う。
【0024】
ステップ2) 対象文書がWeb文書である場合は主要コンテンツの抽出を行う。
【0025】
ステップ3) 文書内のテキストからキーワード候補を抽出する。
【0026】
ステップ4) 抽出されたキーワードの重要度を算出し、順序付けを行う。
【0027】
ステップ5) 抽出されたキーワードをあらかじめ指定した検索APIに送信し、コンテンツ結果を得る。
【0028】
以上が、文書中における重要キーワードを抽出する処理の主な流れである。
【0029】
図2は、本発明の一実施の形態における関連コンテンツ提示装置の構成を示す。
【0030】
同図に示す関連コンテンツ提示装置は、事前計算処理部100、文書入力部200、主要コンテンツ抽出部300、重要キーワード候補抽出部400、出現頻度を用いた重要度算出部500、キーワード重要度算出部600、関連コンテンツ取得・提示部700、関連コンテンツ出力部800から構成される。
【0031】
事前計算処理部100は、重要キーワード候補辞書DB110、重要キーワード候補辞書DB作成部110、Wikipedia(登録商標)データ記憶部120、検索クエリデータ記憶部130、Wikipedia(登録商標)閲覧ログデータ140、キーワード固有重要度算出部160、キーワード固有重要度DB150から構成される。なお、Wikipedia(登録商標)データ記憶部120は、ユーザ参加型オンライン百科事典のWikipedia(登録商標)のデータを格納する。
【0032】
図3は、本発明の一実施の形態における関連コンテンツ提示装置の処理の流れを示すフローチャートである。
【0033】
ステップ110) 事前計算処理部100の重要キーワード候補辞書DB作成部110は、予め重要キーワード候補をとなるである重要キーワード候補を作成し、重要キーワード候補辞書DB110に格納する。
【0034】
ステップ120) 事前計算処理部100のキーワード固有重要度算出部160は、Wikipedia(登録商標)データ記憶部120、検索クエリデータ記憶部1130、Wikipedia(登録商標)閲覧ログデータ記憶部140を参照してキーワード固有の重要度を求め、キーワード固有重要度DB150に格納する。
【0035】
ステップ130) 文書入力部200は、入力文書がWeb文書である場合は、主要コンテンツ抽出部300に当該Web文書を渡し、そうでない場合はファイルをただ読み込むだけのものとする。
【0036】
ステップ140) 主要コンテンツ抽出部300は、入力されたWeb文書から主要コンテンツを抽出する。
【0037】
ステップ150) 重要キーワード候補抽出部400は、事前計算処理部100の重要キーワード候補辞書DB110をWikipedia(登録商標)の見出し語を形態素解析用の辞書として用いて、キーワードを抽出する。なお、Wikipedia(登録商標)の見出し語を用いる理由については後述する。
【0038】
ステップ160) 出現頻度を用いた重要度算出部500は、WebIDFやBM25等の出現頻度を算出するアルゴリズムを用いて重要キーワード候補の重要度を算出し、メモリ(図示せず)に格納する。
【0039】
ステップ170) キーワード重要度算出部600は、事前計算処理部100のキーワード固有重要度DB150を参照して、キーワード候補の重要度を算出し、メモリ(図示せず)に格納する。
【0040】
ステップ180) 関連コンテンツ取得・提示部700は、出現頻度を用いた重要度算出部500のメモリ(図示せず)とキーワード重要度算出部600のメモリ(図示せず)から出現頻度を用いた重要度及びキーワードの重要度を取得して、これらの重要度に基づいてキーワードを選択し、当該キーワードに関連するコンテンツを取得して提示する。
【0041】
以下に、上記の各ステップ毎の動作を詳細に説明する。
【0042】
●ステップ110:重要キーワード候補辞書DB作成部110の処理
事前計算処理部100の重要キーワード候補辞書DB作成部110は、Wikipedia(登録商標)データ記憶部120を参照し、当該Wikipedia(登録商標)の見出し語を抽出して、重要キーワード候補辞書DB110に登録する。
【0043】
重要度候補辞書DB作成部110は、後述する主要コンテンツ抽出部300の特徴量抽出部330の精度向上のための処理として、不要文字列等を除去する手法が有効である。事前計算処理部100において、以下に記述する不要文字列を事前に除去しておくことで、主要コンテンツの判定精度を高める。
【0044】
・ 
・<
・>
・&
・«
・»
これらの文字列は、HTMLタグ等で用いる記号をWebブラウザ上で表示する際に用いる特殊文字である。また、上記で挙げた特殊文字以外のHTML特殊文字も削除の対象とする。
【0045】
特殊文字は実際表示される文字列に対して、文字列の量が少ないため、学習の際のノイズとなりやすい。
●ステップ120:キーワード固有重要度算出部160の処理
事前計算処理部100のキーワード重要度算出部160は、後述するキーワード重要度算出部600により参照されるキーワード固有重要度DB150を生成する。キーワード重要度算出部160は、Wikipedia(登録商標)データ記憶部120、検索クエリデータ記憶部130、Wikipedia(登録商標)閲覧ログデータ140を参照し、キーワードの固有重要度を算出し、キーワード固有重要度DB150に格納する。
【0046】
以下に、キーワード重要度算出部160について詳細に説明する。
【0047】
キーワード重要度算出部160は、キーワードの重要性を考慮したスコアの算出を行う。ここで、「キーワードの重要性」とは、知名度や話題性の高い、内容の深いキーワード程重要であると定義し、このキーワードの重要度を「キーワード固有重要度」と呼ぶ。
【0048】
当該「キーワード固有重要度」を求める方法として、
[1]Wikipedia(登録商標)内のリンク構造を用いた手法;
[2]Wikipedia(登録商標)上の閲覧回数を用いた手法
[3]検索エンジンの検索クエリ投入回数を用いた手法
の3つの方法がある。以下に詳細に説明する。
【0049】
[1] Wikipedia(登録商標)内のリンク構造を用いた手法
本項では、Wikipedia(登録商標)内のリンク構造を用いてキーワード固有重要度を算出する手法について述べる。
【0050】
HITSやPageRankといった一般的なWeb文書のランキング手法は、Webページのリンク構造を用いて、Web文書のランキングを行っている。しかしながら、Wikipedia(登録商標)の文書には、1つの文書につき1つの見出し語(キーワード)がついているため、Wikipedia(登録商標)のリンク構造から得られた文書のランキングをキーワードのランキングとみなすことができる。そのため本装置では、Wikipedia(登録商標)に特化したランキング手法を適用することで、キーワード固有重要度を算出する。ベースとなるアルゴリズムにはHITSアルゴリズムを用いる。
【0051】
HITSアルゴリズムは、すべてのWeb文書をauthority(コンテンツ)とhub(リンク集)の2つから構成されると定義する。そして、良いhubから多数リンクされるauthority程良いauthorityであるという仮説と、良いauthorityに多数リンクしているhub程良いhubであるという二つの仮説を繰り返し実行することでWeb文書のランキングを行う。しかしながら、HITSアルゴリズムはWeb世界におけるWeb文書のリンク構造をモデルにしたアルゴリズムのため、リンク構造が非常に密なWikipediaにそのまま適用した場合、やや難がある。そこで、本装置ではWikipedia(登録商標)の特徴的な構造と密なリンク構造に対応させた手法を提案する。そして、本アルゴリズムから算出したauthorityの値による順位を、本手法が提案する減衰関数に近似させ、最終的なキーワード固有重要度とする。
【0052】
・テキスト量の考慮
Wikipedia(登録商標)の見出し語は、知名度が高く話題性の高い見出し語程、テキストの記述量が多い傾向がある。そこで、authority値の算出の際に、自文書のテキスト量が多ければ多いほどその文書は重要であるといった重み、text(k)を考慮する。
【0053】
・自リンクと被リンクの比率
一般的にWikipedia(登録商標)の見出し語は、有名なキーワード程、自リンクと被リンクの数が多くなっている。しかしながら、地名やジャンル名のような広い概念を持つキーワードは、引用しやすいキーワードのため、自リンク数に比べて圧倒的に被リンクの数が多い傾向がある。通常のHITSアルゴリズムは良いhubから多数リンクされているauthorityは良いauthorityであるといった仮説を用いるが、圧倒的に被リンクが多い場合においては、これらの仮説は成り立たないと予想される。また、その一方で、最近知名度が高くなってきている新人俳優や話題語等の見出し語は、誕生してから日が浅いため引用数は少ないが自リンクは多い傾向にある。そのため少ない被リンク数においても、authorityを高める必要がある。これらの問題を解決するために、authority値の算出の際にflink(k)/blink(k)を考慮する。ここで、flink(k)はキーワードkの文書内に含まれる自リンクの数を表し、blink(k)はキーワードkの文書にリンクしている被リンク数の数を表す。
【0054】
・明らかにauthority算出とならない見出し語の扱い
Wikipedia(登録商標)の見出し語には、「〜年」や「〜一覧」といった明らかにauthorityとならない見出し語が存在する。これらの見出し語は自リンクが非常に多く、被リンクも非常に多い場合があるため、ノイズとなりやすい。そこで、明らかにauthorityとならない見出し語のauthority値は常に変更しないことで、この問題に対処する。
【0055】
・hubの平均的なリンクの質
Wikipedia(登録商標)の文書には、自リンクが多数あるが、hubとして質の悪い文書がある。そこで、リンク先キーワードのauthorityが平均的に高いhubは重要であるといった仮設に変更することで、自リンクは多いがhubとして質の低い文書のhub値を下げる重み
【0056】
【数1】

を考慮する。
【0057】
・リダイレクトの扱い
Wikipedia(登録商標)の文書には、見出し語の異表記を解消するためにredirectが存在する。例えば、「アメリカ合衆国」には、「アメリカ」、「United States of America」のredirectがある。Redirectは異表記のキーワードを一意にまとめる効果だけでなく、キーワードの被リンク構造に大きな影響をもつため、redirectキーワードを親ノードにまとめることで、異表記のキーワード固有重要度を算出し、被リンクの問題も解決する。
【0058】
そして、最終的なWikipedia(登録商標)ランキングアルゴリズムは以下の式(1)で定義される。
【0059】
【数2】

ここで、a(k)はキーワードkのauthority値で、h(k)はhub値である。そして、flink(k)はキーワードkからの自リンク数、blink(k)はキーワードkからの被リンク数である。text(k)は、キーワードkが見出し語になっているWikipedia(登録商標)文書の文字数(アンカーリンク対象の文字列は除く)であり、K´はキーワードkが見出し語になっているWikipedia(登録商標)文書内に含まれるリンクの総数となる。
【0060】
そして、式(1)で算出したauthority値を用いて、降順にキーワードを順位づけする。そして、以下のキーワード固有重要度算出式を用いてスコアの近似を行い、 Wikipedia(登録商標)内のリンク構造を用いたキーワード固有重要度WKIS(k)とする。
【0061】
【数3】

ここで、y1はキーワード固有重要度の上界であり、y0はキーワード固有重要度の下界である。そしてkrはキーワードkのauthorityの値による順位、Kはキーワードの総数、aはスコアの勾配係数で、aの値が大きくなればなるほどスコアの勾配が急になる。y1、y0推奨値は、それぞれ1,0.1で、勾配係数の推奨値は3から7である。
【0062】
次に本関数(スコア)の特徴について述べる。本関数はキーワードの候補数(x軸の要素数)に左右されることなく、また上界と下界を設定でき、またキーワードの候補数の上位10%以内において、最大値と最小値の差が30%〜70%以内に収まる減衰曲線を描き、そしてパラメータ係数にて減衰度合いを整数値を用いることで小数点を考慮した細かい数値設定を考慮することなく容易に設定できる特徴をもつスコア関数である。(勿論、減衰度合いの設定は実数値でも設定可能である。)図4に本関数のスコア分布例を掲載する。
【0063】
Wikipedia(登録商標)内のリンク構造から算出したキーワード固有重要度は、ユーザ参加型オンライン百科事典のWikipedia(登録商標)内においての重要なキーワードが上位に位置づけられるため、一般的に知名度は低いが実際には内容が深く重要なキーワードが上位に位置づけられる。
【0064】
[2] Wikipedia(登録商標)上の閲覧回数を用いた手法
以下では、Wikipedia(登録商標)上において閲覧された回数が多いキーワード程、重要なキーワードであるとみなす手法を説明する。Wikipedia(登録商標)上の閲覧回数を記載されている閲覧ログは以下のサイトから取得できる。
【0065】
http://dammit.lt/wikistats/
この手法もWikipedia(登録商標)内のリンク構造を用いた手法と同じく、式(7)のキーワード固有重要度算出式を用いてスコアの近似を行い、Wikipedia(登録商標)上の閲覧回数を用いたキーワード固有重要度WBKIS(k)とする。
【0066】
【数4】

ここで、y1はキーワード固有重要度の上界であり、yはキーワード固有重要度の下界である。そしてkrはキーワードkの閲覧回数による順位、Kはキーワードの総数、aはスコアの勾配係数で、aの値が大きくなればなるほどスコアの勾配が急になる。
【0067】
集計対象とする閲覧ログの期間は、長ければ長い程良いが最近の6カ月程度のログであれば十分である。
【0068】
また、Wikipedia(登録商標)には見出し語として存在するが、閲覧ログには存在しない場合がある。その場合は、yを該当キーワードのスコアとする。y1、0の推奨値は、それぞれ1、0.1で、勾配係数の推奨値は3から7である。
【0069】
次に本関数の特徴について述べる。本関数はキーワードの候補数(x軸の要素数)に左右されることなく、また上界と下界を設定でき、またキーワードの候補数の上位10%以内において、最大値と最小値の差が30%〜70%以内に収まる減衰曲線を描き、そしてパラメータ係数にて減衰度合いを整数値を用いることで小数点を考慮した細かい数値設定を考慮することなく容易に設定できる特徴をもつスコア関数である。(勿論、減衰度合いの設定は実数値でも設定可能である。)図4に本関数のスコア分布例を掲載する。
【0070】
[3] 検索エンジンの検索クエリ投入回数を用いた手法
この手法は、実際の検索エンジンに投入された回数が多い検索クエリ程、重要なキーワードであるとみなす手法である。検索クエリの投入回数は、ポータルサイト上で投入された検索クエリのような大規模データであることが好ましい。ここで、対象となる検索クエリはWikipedia(登録商標)に存在するキーワードであるとする。この手法もWikipedia(登録商標)内のリンク構造を用いた手法と同じく式(3)のキーワード固有重要度算出式を用いてスコアの近似を行い、検索クエリの投入回数を用いたキーワード固有重要度QKIS(k)とする。
【0071】
【数5】

ここで、y1はキーワード固有重要度の上界であり、y0はキーワード固有重要度の下界である。そしてkrはキーワードkの検索回数による順位、Kはキーワードの総数、aはスコアの勾配係数で、aの値が大きくなればなるほどスコアの勾配が急になる。
【0072】
また、Wikipedia(登録商標)には見出し語として存在するが、検索エンジンの検索クエリには存在しない場合がある。その場合は、y0を該当キーワードのスコアとする。y1、y0の推奨値は、それぞれ1、0.1で、勾配係数の推奨値は3から7である。
【0073】
次に本関数(スコア)の特徴について述べる。本関数はキーワードの候補数(x軸の要素数)に左右されることなく、また上界と下界を設定でき、またキーワードの候補数の上位10%以内において、最大値と最小値の差が30%〜70%以内に収まる減衰曲線を描き、そしてパラメータ係数にて減衰度合いを整数値を用いることで小数点を考慮した細かい数値設定を考慮することなく容易に設定できる特徴をもつスコア関数である。(勿論、減衰度合いの設定は実数値でも設定可能である。)図4に本関数のスコア分布例を掲載する。
【0074】
検索エンジンの種類によって、クエリランキングの特性が異なる問題がある。例えばブログ検索エンジンでは、有名人の名前や趣味等のユーザの嗜好に関する検索クエリが多い。その一方教えてgoo(登録商標)等のQAサイトの検索エンジンでは、悩み相談系の検索クエリが多い。そのため、最終的に提示するコンテンツに合わせた検索クエリログを用いることで、目的に合わせたコンテンツ提示が実現できる。どのクエリログを用いるとよいかはユーザが判断する。
【0075】
検索エンジンの検索クエリ投入回数から算出したキーワード固有重要度は、実際の検索クエリ投入回数によって重要度が決まるため、検索クエリとして投入されやすく、重要なキーワードが上位に来る傾向にある。
【0076】
次に、キーワード固有重要度算出部160の最終的な固有重要度算出について説明する。
【0077】
上記の[1]〜[3]では、Wikipedia(登録商標)内のリンク構造から算出したキーワード固有重要度WKIS(k)と、検索エンジンの検索クエリ投入回数から算出したキーワード固有重要度QKIS(k)について述べた。しかしながら、QKIS(k)は検索クエリデータの収集期間が短い場合、その間にインターネット上でおきた話題に強く影響されてしまう問題があり、さらにインターネットサイト名等の生活的クエリが多く含まれる傾向にある。そのため、WKIS(k)とWBKIS(k)QKIS(k)の線形和を、最終的なキーワード固有重要度とすることで、話題性が高く内容の深く、かつ検索クエリとして投入されやすいキーワードを上位に位置づける重要度を算出する。
【0078】
【数6】

αの値は0.3〜0.5辺りの範囲で調整し、βは0.2〜0.3、γは0.2〜0.3辺りの値を用いるとよい。
【0079】
●ステップ130:文書入力部200の処理
関連コンテンツ提示の対象となる文書を入力する。
【0080】
●ステップ140:主要コンテンツ抽出部300
最初に主要コンテンツ抽出部300の処理について説明する。
【0081】
入力文書がWeb文書である場合、ナビゲーションリンクや広告テキスト等のWeb文書の内容とは関係の無いテキストが存在する。そのため、それら不要テキストを除去する主要コンテンツ部分の抽出を行う必要がある。Web文書か否かの判定は、ファイルの拡張子を用いて行うものとする。
【0082】
図5は、本発明の一実施の形態における主要コンテンツ抽出部の構成を示す。
【0083】
同図に示す主要コンテンツ抽出部300は、Web文書取得・入力部310、Web文書分割部320、特徴量抽出部330、主要コンテンツ判定部340、主要コンテンツ出力部350から構成される。
【0084】
Web文書取得・入力部310は、処理するWeb文書(データ)の入力を行う。図6に、Web文書取得・入力部310の詳細な構成を示す。
【0085】
データ入力部311は、ユーザから入力された主要コンテンツを抽出したいWeb文書のURL、もしくはファイルそのものを取得する。URL入力部313は、入力がURLの場合は、そのURLを取得し、Web文書取得部314にて、当該URLの先のWeb文書を取得する。Web文書ファイル入力部312は、ファイルが直接入力された場合はそのファイルを取得する。文字ノード変換部315は、Web文書の文字コードはUTF-8に変換し統一する。
【0086】
Web文書分割部320は、取得したWeb文書を分割する。図7にWeb文書分割部320の詳細な構成を示す。Web文書分割部320は、取得したWeb文書を分割するもので、広告対象領域抽出部321、ノイズとなるタグや領域除去部322、Web文書の分割部323から構成される。
【0087】
広告対象領域抽出部321は、インターネット広告等のコンテンツタグを含む領域がある場合、その領域を抽出する。インターネット広告とは、google(登録商標)やoverture(登録商標)等の広告会社が広告配信のための主要コンテンツ絞込みに用いるタグである。google(登録商標)の広告の場合、<!-- google_ad_section_start -->から、<!-- google_ad_section_end-->までがその領域に該当する。これらのタグはWeb文書によって文字列が少々異なったり大文字で表記されるので、大文字と小文字を区別しない正規表現を用いたり、ワイルドカードの正規表現を用いる等を行うことで、多少の文字列表記の違いを吸収する処理を行う。以下、正規表現を用いる処理の説明の際には、多少の違いを吸収する処理を行っているものとする。
【0088】
以降の処理は、インターネット広告の領域が存在する場合、上記で述べた領域を抽出する処理を行い、インターネット広告の領域がない場合は、最初に入力されたWeb文書に対して処理を行う。
【0089】
ノイズとなるタグや領域除去部322は、余計なタグや領域、特定の文字列を除去する処理を行う。除去されるタグや領域は、Web文書のHTMLを説明するコメントタグであったり、JavaScriptであったり、formタグであったりする。除去するタグと領域を以下に記載する。
【0090】
・"<!--"で始まり、"-->"で終わるコメントタグ。
【0091】
・"<script>"タグから、"</script>"タグで囲まれる領域。
【0092】
・"<style>"タグから、"</style>"タグで囲まれる領域。
【0093】
・"<select>"タグから、"</select>"タグで囲まれる領域。
【0094】
・"<noscript>"タグから、"</noscript>"タグで囲まれる領域。
【0095】
・"<form>"タグから、"</form>"タグで囲まれる領域。
【0096】
・連続した空白文字列。(単一の空白は除く)
・連続したタブ文字列。(単一のタブは除く)
以上のタグ、領域、文字列を正規表現を用いて除去する。また、タグ内にalt属性やclass属性が存在する場合も考えられるため、その場合はそれらを含めたタグを考慮した正規表現を用いて分割を行う。(例:<style class="hoge&quot>)
Web文書の分割部323は、Web文書の分割を行う。分割の規則は、以下のタグを用いて分割を行う(Web文書の分割部)。
・<div>
・</div>
・<td>
・</td>
タグ内にalt属性やclass属性が存在する場合も考えられるため、その場合は、それらを含めたタグを考慮した正規表現を用いて分割を行う。(例:<div class="hoge&quot>)
以降分割されたWeb文書の一つ一つを「セグメント」と呼び、特徴量抽出と主要コンテンツか否かの判定はセグメント毎に行うものとする。
【0097】
特徴量抽出部330は、以降で述べる特徴量を抽出し、Web文書の主要コンテンツ部分の判定を行う。分割された文書の特徴量を抽出する。
【0098】
図8は、本発明の一実施の形態における特徴量抽出部の構成を示す。同図に示す特徴量抽出部330は、アンカーリンク情報特徴量抽出部331、タグ情報特徴量抽出部332、Web文書で表示される文字列特徴量抽出部333、特徴量正規化部334、特徴量の比率特徴量抽出部335から構成される。
【0099】
特徴量抽出部330では、
[1]Web文書で表示される文字列(Web文書で表示される文字列特徴量抽出部333);
[2]タグ情報(タグ情報特徴量抽出332);
[3]アンカーリング情報(アンカーリンク情報特徴量抽出部331);
[4]特徴量の比率(特徴量の比率特徴量抽出部335);
を抽出する。
【0100】
以下に、[1]〜[4]の各特徴量の抽出の方法を示す。
【0101】
[1]Web文書で表示される文字列 (Web文書で表示される文字列特徴量抽出部333)
当該Web文書で表示される文字列は、Web文書で表示される文字列特徴量抽出部333により抽出される。
【0102】
ここでは、Webブラウザで表示される文字列に関する特徴量について述べる。ここで述べる文字列とは、HTMLタグ等のWebブラウザで表示されない文字列を含まないものとする。
【0103】
[1−1] 文字列の量
一般的にWeb文書の主要コンテンツ部分は、主要コンテンツでない部分と比較すると多くの文字列が含まれている。また、全体的に文字列の少ないWeb文書においても同様のことが言える。そのため、Web文書で表示される文字列特徴量抽出部333において、分割されたWeb文書に含まれる文字列の数を特徴量として抽出する。そして、特徴量正規化部334にて、以下に示す文字列の量を正規化して特徴量とする手法(a)と、文字列の絶対値を用いて特徴量とする手法(b)の二つを実行し、最終的な文字列の量の特徴量とする。
【0104】
(a)文字列の量の正規化を行い特徴量とする手法(特徴量正規化部334)
特徴量正規化部334は、すべてのセグメントにおいて最大の文字列の量をもつセグメントの特徴量を1とする正規化を行う。例えば、すべてのセグメントにおいて最大の文字列の量が200で、あるセグメント内の文字列の量が100だった場合には、そのセグメントの文字列の量の特徴量は0.5となる。このような正規化を行うことで、全体的に文字列の少ないWeb文書においても主要コンテンツの抽出が可能になる。
【0105】
(b)文字列の量の絶対値を用いて特徴量とする手法 (特徴量正規化部334)
上記で述べた正規化を行い特徴量とする手法は、全体的に文字列の少ないWeb文書において有効であったが、正規化を行うことで、全体的に文字列の量が多く、主要コンテンツ部分のセグメント間の文字列の量の差が大きい場合に不都合が生じる。例えば、すべてのセグメントにおいて最大の文字列の量が1000で、あるセグメント内の文字列の量が100だった場合、そのセグメントの文字列の量の特徴量は0.1になる。文字列の量としては多いはずだが、正規化を行うことで、このような弊害が生じる。そこで、文字列の絶対値を用いて特徴量とする手法を行う必要がある。具体的には、ある特定の値を超えた場合にその文字列の特徴量を1とする手法を用いる。例えば、あるセグメント内の文字列の量が100の場合、文字列の量が5以上の場合の特徴量が1となり、文字列の量が10以上の場合の特徴量が1となり,…,文字列の量が105以上の特徴量は0となり,…,文字列の量が200以上の特徴量は0となるように、特徴量を作成する。このように、ある特定の文字列量を超えた場合に特徴量を1とする手法を用いることで、特徴量の最大値は1のままで文字列の量の絶対値を特徴量とすることができる。また、例においての文字列の量の絶対値の特徴量の間隔は5としたが、場合において適切な間隔を用いるのが好ましい。また、8,16,32,64といった2の乗数を用いて特徴量の間隔とする手法も考えられる。文字列の量がx以上の・・・の最大のxも同様に、場合において適切な値に変更する。主要コンテンツ判定における計算量を減らしたい場合にはxの値を小さくすると良いだろう。
【0106】
また、セグメント内に文字列が全くない場合も考えられる。その場合は、以降で説明する特徴量を抽出するまでもなく、主要コンテンツでないと判断できる。そのため、実際の実行時には以下の特徴量抽出は行わず、後述する主要コンテンツ判定部340のテキスト判定部において、該当セグメントを非主要コンテンツとして判別する。この処理は、特徴量の学習を行う際には行わない。
【0107】
[1−2] 句読点の数
Web広告等のノイズとなりやすいセグメントは、文字列の量は多いが句読点の数が少ない傾向にある。そのため、句読点の数を特徴とする。具体的にはセグメント内の文字列に含まれる『、』、『,』、『。』、『.』、『!』、『・』、『?』、『…』の数を特徴量としてカウントする。この特徴量も、文字列の量で述べた正規化による特徴量と、絶対値による特徴量の二通りを算出する。算出方法においては、[1−1]文字列の量で述べた手法と同じものを用いる。
【0108】
[2] タグ情報 (タグ情報特徴量抽出部332)
ここでは、HTMLタグ等のタグ情報に関する特徴量について述べる。
【0109】
[2−1]テキスト系のHTMLタグの数
あるセグメント内において、Web文書で表示される文字列が多い場合、テキストに関するHTMLタグが多く含まれる。また、ブログ等のCGMにおいては、Web文書で表示される文字列は少ないが、ユーザが改行タグを多用する事例が多くみられる。そこで、タグ情報特徴量抽出部332では、テキストに関するHTMLタグの数を特徴量として用いる。この特徴量も、特徴量正規化部334にてWeb文書で表示される文字列で用いた特徴量の正規化を同様に行い、最終的な特徴量とする。例えば、すべてのセグメントにおいて最大のHTMLタグの量が10で、あるセグメント内のHTMLタグの量が5だった場合には、そのセグメントのHTMLタグの量の特徴量は0.5となる。そして、例で使用するテキスト系のHTMLタグは、以下のタグを対象とする。
【0110】
・<p>
・</p>
・<br>
・</br>
・<font>
・</font>
タグ内にsize属性やclass属性が存在する場合も考えられるため、その場合は、それらを含めたタグを考慮した正規表現を用いてカウントを行う。(例:<font size="+1&quot>)
[2−2] テキスト系のHTMLタグの連続出現数
Web文書で表示される文字列が集中して記述してあるセグメントは、テキスト系のタグが多く存在すると同時に、テキスト系のHTMLタグが連続して出現する。ここでいう、連続して出現するというのは、他のアンカーリンク等のHTMLタグが間に出現しないということである。そこで、タグ情報特徴量抽出部332は、[2−1]で述べたテキスト系のHTMLタグの連続出現数を特徴量とする。この特徴量も、特徴量正規化部334にてWeb文書で表示される文字列で用いた特徴量の正規化を同様に行い、最終的な特徴量とする。例えば、すべてのセグメントにおいて最大のHTMLタグの連続量が10で、あるセグメント内のHTMLタグの連続量が5だった場合には、そのセグメントの文字列の量の特徴量は0.5となる。
【0111】
[2−3] リンクリストタグの数
あるセグメント内においてリンクリストタグが多い場合、そのセグメントにはナビゲーションリンク等の多くのアンカーリンクが存在し、そのセグメントは主要コンテンツとならない可能性が高い。そこで、タグ情報特徴量抽出部332は、リンクリストタグの数を特徴量とする。この特徴量も、特徴量正規化部334にてWeb文書で表示される文字列で用いた特徴量の正規化を同様に行い、最終的な特徴量とする。例えば、すべてのセグメントにおいて最大のリンクリストタグの量が10で、あるセグメント内のリンクリストタグの量が5だった場合には、そのセグメントのリンクリストタグの量の特徴量は0.5となる。そして、実施例で使用するリンクリストタグは、以下のタグを対象とする。
【0112】
・<li>
・<ul>
・<dl>
・<dd>
・<ol>
タグ内にalt属性やclass属性が存在する場合も考えられるため、その場合は、それらを含めたタグを考慮した正規表現を用いてカウントを行う。(例:<font class="hoge&quot>)
[2−4] Web文書で表示される文字列を含まない文字列(HTMLタグを含む)の量
あるセグメント内において、Webで表示されない文字列(HTMLタグを含む)が多い場合、そのセグメントは広告等の主要コンテンツでない可能性が高い。そこで、タグ情報特徴量抽出部332は、Web文書で表示される文字列以外の文字列(HTMLタグを含む)量を特徴量とする。この特徴量も、特徴量正規化部334にてWeb文書で表示される文字列で用いた特徴量の正規化を同様に行い、最終的な特徴量とする。例えば、すべてのセグメントにおいて最大のWebで表示されない文字列の量が100で、あるセグメント内のWebで表示されない文字列の量が50だった場合には、そのセグメントのWebで表示されない文字列の量の特徴量は0.5となる。
【0113】
[3] アンカーリンク情報 (アンカーリンク情報特徴量抽出部331)
ここでは、アンカーリンクに関する特徴量の抽出方法について述べる。
【0114】
[3−1] アンカーリンクの数
あるセグメントにおいて、アンカーリンクが多数含まれているセグメントは主要コンテンツでない可能性が高い。そこで、アンカーリンク情報特徴量抽出部331は、アンカーリンクの数を特徴量として用いる。具体的には<a href=…>…</A>タグで表されるアンカーリンクの数を特徴量とする。この特徴量も、特徴量正規化部334にてWeb文書で表示される文字列で用いた特徴量の正規化を同様に行い、最終的な特徴量とする。例えば、すべてのセグメントにおいて最大のアンカーリンクの数が10で、あるセグメント内のアンカーリンクの数が5だった場合には、そのセグメントのアンカーリンクの数の特徴量は0.5となる。アンカーリンクタグには、class属性やalt属性が含まれる場合もあるので、アンカーリンクタグの数は正規表現を用いてカウントする。
【0115】
[3−2] 各アンカーリンクの文字列の平均量
各アンカーリンクの文字列が平均して多い場合、そのセグメントは、関連記事等のナビゲーションリンクである可能性が高い。また、アンカーリンクの文字列が平均して少ない場合、主要コンテンツ内に含まれるキーワード検索リンクである可能性が高い。そこで、アンカーリンク情報特徴量抽出部331は、セグメントに含まれるアンカーリンクの文字列の平均量を特徴量として用いる。アンカーリンクの文字列とは、<a href='…'…>○○○</A>の○○○の部分に該当する。この特徴量も、特徴量正規化部334にてWeb文書で表示される文字列で用いた特徴量の正規化を同様に行い、最終的な特徴量とする。
【0116】
[3−3] すべてのアンカーリンク文字列の合計量
セグメント内に含まれるアンカーリンクの文字列の合計量が多い場合、そのセグメントはナビゲーションリンクである可能性が高い。そこで、アンカーリンク情報特徴量抽出部331は、セグメント内に含まれるアンカーリンクの文字列の合計量を特徴量として用いる。アンカーリンクの文字列とは、<a href='…'>○○○</A>の○○○の部分に該当する。この特徴量も、特徴量正規化部334にてWeb文書で表示される文字列で用いた特徴量の正規化を同様に行い、最終的な特徴量とする。
【0117】
[3−4] 最大文字列のアンカーリンクURLの量
アンカーリンク先のURL文字列が非常に長い場合、そのセグメントは広告である可能性が高い。そこで、アンカーリンク情報特徴量抽出部331は、セグメント内で最大長のアンカーリンク先のURLの文字列を特徴量として用いる。ここで述べるアンカーリンク先のURL文字列とは、<a href='△△△'…>…</A>の△△△の部分に該当する。この特徴量も、特徴量正規化部334にてWeb文書で表示される文字列で用いた特徴量の正規化を同様に行い、最終的な特徴量とする。
【0118】
[3−5] 広告に関するアンカーリンクを含むか
広告に関するURLを含むアンカーリンクは特徴的な文字列を含む可能性が高い。例えば、「adclick」、「adnet」、「banner」等がそれにあたる。そこで、アンカーリンク情報特徴量抽出部331は、このような広告となりやすい文字列を含んだURLを含むアンカーリンクが存在する場合、特徴量を1とし、存在しない場合を0とする特徴量を抽出する。広告になりやすい文字列は、広告除去用のFirefox用アドインであるAdblock plugin等のサイトに記載されているため、それを用いる。
【0119】
[4] 特徴量の比率 (特徴量の比率特徴量抽出部335)
ここでは、[1]から[3]で述べた特徴量間の比率を用いた特徴量について述べる。
【0120】
[4−1] テキスト系のタグ数とテキスト系のタグの連続出現数の比率
テキスト系のタグが多数あり、またテキスト系のタグの連続出現数が多いセグメントは、テキストが密に書かれているため、主要コンテンツである可能性が高い。しかしながら、テキスト系のタグは多数あるが、テキスト系のタグの連続出現数が少ないセグメントは、セグメントのサイズが大きいだけで、主要コンテンツでない可能性が高いと言える。そこで、特徴量の比率特徴量抽出部335は、テキスト系のタグ数とテキスト系のタグの連続出現数の比率を特徴量として用いる。具体的には、テキスト系のタグ数を分母とし、テキスト系のタグの連続出現数を分子とした値を、特徴量として用いる。ここで、テキスト系のタグ数が0の場合は、分母が0となってしまうため、この場合のテキスト系のタグ数とテキスト系のタグの連続出現数の比率の特徴量は0とする。本特徴量も、Web文書で表示される文字列で用いた特徴量の正規化を同様に行い、最終的な特徴量とする。この特徴量が大きければ大きいほど主要コンテンツである可能性が高い。
【0121】
[4−2] Webで表示される文字列とタグの比率
あるセグメント内において、Webで表示される文字列が多い場合は主要コンテンツとなる可能性が高いが、同じセグメント内において、HTMLタグ等のタグが多い場合もある。この場合、[4−1]で述べたようにセグメントのサイズが大きいだけで、主要コンテンツでない可能性がある。そこで、特徴量の比率特徴量抽出部335は、Webで表示される文字列とタグの比率を特徴量として用いることで、このような場合に対処する。
【0122】
具体的には、Webで表示される文字列を分子とし、タグの数を分母とした値を特徴量とする。この特徴量が大きければ大きいほど、主要コンテンツである可能性が高い。本特徴量も、Web文書で表示される文字列で用いた特徴量の正規化を同様に行い、最終的な特徴量とする。タグの数が0の場合は分母が0となってしまうため、特徴量は1とする。
【0123】
[4−3] アンカーリンクの数とリンクリストタグの数の比率
あるセグメント内において、アンカーリンクの数や、リンクリストタグの数が多ければ多いほど、そのセグメントは主要コンテンツでない可能性が高いが、セグメントが広いためにこれらの特徴量が偶然高くなってしまう場合も考えられる。そこで、特徴量の比率特徴量抽出部335は、アンカーリンクの数とリンクリストタグの数の比率を特徴量として用いる。具体的にはアンカーリンクの数を分母とし、リンクリストタグの数を分子とし、特徴量とする。この特徴量が大きければ大きいほど、セグメントの面積に対し密度の高いリンク数が存在することになり、主要コンテンツでない可能性が高い。本特徴量も、Web文書で表示される文字列で用いた特徴量の正規化を同様に行い、最終的な特徴量とする。アンカーリンクの数が0の場合は分母が0となってしまうため、特徴量は0とする。
【0124】
[5] 主要コンテンツの判定 (主要コンテンツ判定部340)
図9は、本発明の一実施の形態における主要コンテンツ判定部の構成を示す。
【0125】
主要コンテンツ判定部340は、特徴量入力部341、テキスト判定部342、主要コンテンツ判定処理部343から構成される。
【0126】
ここでは、特徴量抽出部330で抽出された特徴量を用いて、主要コンテンツか否かの判定を用いて行う手法について述べる。判定にはSupport Vector Machine(SVM)や最大エントロピー法、ナイーブベイズ法等の機械学習アルゴリズムを用いて判定を行う。
【0127】
最初に、人手で主要コンテンツか否かを特徴量を抽出したセグメントごとに判定した訓練データを作成する。ここで、[1−1]の「文字列の量」の項で、Webで表示される文字列が存在しない場合は主要コンテンツとみなさないと記述したが、機械学習を用いた手法においては負例として学習に有効であるため、訓練データにはそのようなデータも採用する。そして、そのセグメントの特徴量を用いて、学習を行い特徴量ごとの重みを算出する。速度を重視する場合は、最大エントロピー法で学習し、精度を重視する場合には、二次の多項式カーネルを用いたSupport Vector Machineを用いて学習を行う。そして、特徴量抽出部330は、これらの学習したパラメータを用いて、セグメントの特徴量を主要コンテンツ判定部340に入力する。
【0128】
特徴量入力部341は、特徴量抽出部330からセグメント特徴量を取得し、テキスト判定部342は、セグメントにテキストが存在する場合は主要コンテンツ判定処理部343にセグメントを渡し、テキストが存在しない場合はセグメントを削除する。主要コンテンツ判定処理部343は、セグメント毎に主要コンテンツか否かを判別し、主要コンテンツと判定されたセグメントのみを出力する。
【0129】
図10に特徴量のパラメータ学習手法の流れを掲載する。
【0130】
主要コンテンツ判定処理部343は、セグメントごとに特徴量を抽出し、ユーザに提示する(ステップ801)。ユーザによりセグメント毎に主要コンテンツか否かが判定され、判定結果を取得する(ステップ802)。主要コンテンツ判定処理部343は、判定結果に基づいて訓練データを作成し(ステップ803)、機械学習記で特徴量ごとのパラメータを推定(学習)し(ステップ804)、学習モデルを生成する(ステップ805)。
【0131】
[6] 主要コンテンツ部分の出力 (主要コンテンツ出力部350)
図11は、本発明の一実施の形態における主要コンテンツ出力部の構成を示す。
【0132】
主要コンテンツ出力部350は、タグ付きテキストを要求された場合に、タグ付テキストを出力するタグ付きテキスト出力部351、タグなしテキストを要求された場合にタグなしテキストを出力するタグなしテキスト出力部352、主要コンテンツと判定されたセグメントを結合して最終出力するとするデータ出力353を有する。
【0133】
主要コンテンツ判定部340にて、[5]で説明した出力した主要コンテンツか否かの判定を行った後に、主要コンテンツ出力部350のデータ出力部353は、学習器によって主要コンテンツと判断されたセグメントのみを、結合して最終出力とする。ここで、情報検索の事前処理として本装置を用いたい場合には、タグ付きテキスト出力部351よりHTMLタグ等のタグを残して出力する。情報推薦等でWeb文書の内容を解析したい場合には、タグなしテキスト出力部352よりHTMLタグ等のタグを削除して出力する。
【0134】
図12、図13に主要コンテンツの例を示す。
【0135】
[7] 実装理由による特徴量の選択
主要コンテンツ抽出手法をユーザPC等に組み込む場合、上記の特徴量抽出部330で抽出されたすべての特徴量を用いて処理することは、処理量的に難しい。そのため、抽出する特徴量を絞り込むことで処理量を削減する。ここで、機械学習による学習モデルは、絞り込んだ特徴量モデルごとに学習モデルを作成する。
【0136】
●ステップ150:重要キーワード候補抽出部400の処理
従来の一般的なキーワード抽出手法は形態素解析や固有表現抽出を用いた手法であったが、形態素解析手法では、複合名詞の抽出に関する問題や重要キーワードの絞込みに関しての問題があり、また固有表現抽出においては人名、組織名、地名といった狭い範囲のキーワード抽出しかできないため、ユーザの興味を網羅するキーワード候補の抽出ができなかった。
【0137】
そこで、本発明ではユーザ参加型オンライン百科事典であるWikipedia(登録商標)の見出し語をキーワード候補として用いることで、これらの解決を試みた。Wikipedia(登録商標)の見出し語は百科事典の見出し語のため、体系的にまとめられており、かつ実世界の事象を一意に表す特徴を持つため、ユーザの興味対象を幅広く網羅した言語資源であるといえる。また、Wikipedia(登録商標)に記載されているキーワードは、重要で内容の深いキーワードのみが登録されているため、重要なキーワードの絞込みが可能となる。
【0138】
事前計算処理部100の重要キーワード候補辞書DB110に、Wikipedia(登録商標)の見出し語を形態素解析用の辞書として登録しておき、重要キーワード候補抽出部400が、その辞書を用いた形態素解析結果からキーワードを抽出する。なお、辞書に登録する際、最も長いキーワードを抽出するよう辞書の重み付けを行う。
【0139】
●ステップ160:出現頻度を用いた重要度算出部500の処理
上記の重要キーワード候補抽出部400では、Wikipedia(登録商標)の見出し語を用いて重要だと思われるキーワード候補の絞込みを実現したが、当該出現頻度を用いた重要度算出部500ではその中からさらに重要なキーワードを上位に位置づけるために出現頻度を用いた重要度算出部500においてキーワードの重要度を算出する手法について述べる。
【0140】
[1] WebIDF
検索エンジンが収集した大規模なWeb文書集合における出現確率を考慮した重みがWebIDFである。具体的には、検索エンジンにキーワードを入力し、その結果得られたWeb文書のヒット数からIDF値を算出し、これをWebIDFとする。Web文書集合中で多数出現するキーワードは一般的なキーワードで特徴的なキーワードではないと判断する重みである。以下に、キーワードkのWebIDF算出式を掲載する。
【0141】
【数7】

ここで、Nはキーワードの閾値で、nkはキーワードkのヒット数である。ここで、キーワードkの検索エンジンのヒット数の閾値Nは、nkを降順にソートし、不必要なキーワードが少なくなってきた辺りのnkの値を用いる。その理由として、nkが高ければ高いほど一般的なキーワードである可能性が高く、また閾値Nを設定すると閾値N以上のnkをもつキーワードkのWebIDF値は常に負となり、常にスコアとして低い値となるためである。なお、Nの推奨値は20000000である。
【0142】
[2] BM25
以下では、文書内の出現頻度と文書集合内での出現分布を用いたキーワード重み付け手法について述べる。これらの重み付けには従来法であるBM25を用いる。
【0143】
【数8】

ここで、dは文書であり、kは文書に含まれるキーワードである。そして、tf(d,k)はd内のキーワードkの出現頻度、dlは文書長、addlは文書集合内における平均文書長、N
は総文書数である。k1とbは自由パラメータで、k1はtf(d,k)に関するパラメータ、bはdlに関するパラメータである。
【0144】
また、文書集合を用意できなく、文書1枚からキーワードを抽出したい場合には、以下の算出式を用いる。
【0145】
【数9】

なお式(8)に関するノーテーションは式(7)と同様である。
【0146】
また、Web文書を対象にBM25をかける場合、サイト毎に(ドメイン毎に)IDF値を取得する手法も考えられる。その場合、サイト内に含まれるWeb文書内でDF値を取得し、IDF値を算出する。その場合、算出式は以下のようになる。
【0147】
【数10】

なお、式(9)に関するノーテーションは式(7)と同様である。
【0148】
[3]タイトルと本文のキーワード重要度の算出
上記の[2]では、BM25を用いた出現頻度による重み付け手法を述べた。
【0149】
以下では、文書のタイトル中での出現頻度と、本文中での出現頻度を用いたキーワード重要度の算出手法について述べる。具体的には、文書のタイトル(もしくはファイル名)から算出したBM25の値と、本文から算出したBM25の値の線形和を用いてスコアを算出する。以下に、算出式を掲載する。
【0150】
【数11】

ここで、BM25allはタイトルと本文の出現頻度を用いたBM25スコアで、BM25titleはタイトルでの出現頻度を用いたBM25スコア、BM25bodyは本文でのBM25スコアとなる。αはパラメータである。αの推奨値は0.7とする。
【0151】
[4] 形態素の固有名詞を用いたキーワード重要度算出
一般的なニュース記事内において、人名や組織名等の固有名詞は最初に正式名称で記述された後に、省略形で記述される場合が多い。例えば、「田中太郎」と最初に書かれた後に「田中」と書かれる場合がそれに該当する。省略形で記述された場合、記事の主題に関するキーワードでも他の重要でないキーワードより出現回数が少ない場合が生じる問題があった。そこで、形態素解析結果を用いて簡易的に省略形に対応する方法を提案する。一般的な形態素解析器は、品詞として、人名(姓、名)、地名、組織名の出力が可能である。そのため、形態素解析結果から得られた形態素の固有名詞を含むキーワード候補の出現頻度を、その形態素の出現頻度と置き換えることで、この問題に対処する。例えば、「麻生太郎」というキーワードが1回出現し、「麻生」という形態素の固有名詞が3回出てきた場合、「麻生太郎」の出現頻度を3回とする。
【0152】
逆に、地名等は省略されずに記述されるため、キーワードの出現回数が大きくなりすぎてしまう問題がある。そのため、形態素解析結果から得られた地名の名詞の出現回数をキーワードの出現回数とするが、係数を乗算することでスコアとして低減させる手法を提案する。以下に、上記の手法の算出式を示す。
【0153】
【数12】

ここで、式(11)のtf(d,k)は、文書dにおける出現頻度によるキーワードkのスコアであり、αperson、αlocation、αorganizationは、それぞれ、人名、地名、組織名に関する係数である。そして、match(d,k,mk)は文書dにおけるキーワードkに含まれる形態素mkの出現頻度である。式(11)で算出したtf(d,k)は[2],[3]で述べた出現頻度を用いたキーワード重要度の算出式で用いる。
【0154】
●ステップ170:キーワード重要度算出部600の処理
キーワード重要度算出部600は、キーワード固有重要度算出部160により生成されたキーワード固有重要度DB150を参照して、キーワード候補の重要度を算出する。
【0155】
キーワード重要度算出部600では、キーワードの文書中での出現位置に基づいてキーワードの重要度を算出する手法と、固有表現抽出結果を用いてキーワードの重要度を算出する手法がある。
【0156】
以下にその2つの方法を説明する。
【0157】
[1]文書中での出現位置におけるキーワード重要度算出
ニュース記事やコラム等の一般的な記述がなされる記事においては、文の先頭に来ればくるほど重要なキーワードが含まれている可能性が高い。そのため、文の先頭にあればあるほど、そのキーワードは重要であるという重要度を算出する。この手法もWikipedia(登録商標)内のリンク構造を用いた手法と同じく式(12)のキーワード固有重要度算出式を用いて、出現位置を用いたキーワード重要度Pos(k)の算出を行う。
【0158】
【数13】

ここで、y1は出現位置を用いたキーワード重要度の上界であり、y0は出現位置を用いたキーワード重要度の下界である。そしてkpはキーワードkの文位置(文の位置は、文の先頭から1文ずつ(句点までを1文とする)数え上げたものを用い、さらにそのキーワードにおいて、最も先頭の位置を用いる)、Pは最後尾の文位置、aはスコアの勾配係数で、aの値が大きくなればなるほどスコアの勾配が急になる。y1、y0の推奨値は、それぞれ1、0.5で、勾配係数の推奨値は1から5である。ブログ記事のような一般的な記述がなされていない文書を多く処理する場合には、y0の値を大きくし、勾配係数の値も小さくするのが良い。
【0159】
次に本関数(スコア)の特徴について述べる。本関数はキーワードの候補数(x軸の要素数)に左右されることなく、また上界と下界を設定でき、またキーワードの候補数の上位10%以内において、最大値と最小値の差が30%〜70%以内に収まる減衰曲線を描き、そしてパラメータ係数にて減衰度合いを整数値を用いることで小数点を考慮した細かい数値設定を考慮することなく容易に設定できる特徴をもつスコア関数である。(勿論、減衰度合いの設定は実数値でも設定可能である。)図4に本関数のスコア分布例を掲載する。
【0160】
また、以下の式を用いて出現位置を用いたキーワード重要度Pos(k)を算出するのも良い。
【0161】
【数14】

式(12)と異なり、勾配係数aを用いなくてもスコア算出が可能である点が、式(13)のメリットである。
【0162】
[2] 固有表現抽出結果を用いたキーワード重要度算出
キーワード重要度算出部600は、固有表現辞書(図示せず)から得られた固有表現キーワード(人名、地名、組織名、固有物名)と重要キーワード候補抽出部400で抽出したキーワード候補が一致した場合に、キーワードの重みづけを行う。また、キーワード候補の抽出で抽出できなかったキーワードについては、指定した重要度を付与する処理を行う。以下に、その詳細を述べる。
【0163】
・抽出したキーワードと固有表現キーワードが一致した場合
【0164】
【数15】

ここで、NE_class_score(c,k)は固有表現クラス別に指定された重みである。
【0165】
・抽出したキーワードと一致する固有表現が無い場合
【0166】
【数16】

・抽出したキーワードに存在しない固有表現が抽出された場合
【0167】
【数17】

上記のような手法で、キーワード重要度を求めた後、キーワード重要度算出部600は、以下の方法で、文書における最終的なキーワードの重要度を求める。
【0168】
文書d内における最終的なキーワード重要度FS(d,k)は、出現頻度を用いた重要度算出部500で求められた重要度と、当該キーワード重要度算出部600において[1]の「文書中での出現位置におけるキーワード重要度算出」、[2]の「固有表現抽出結果を用いたキーワード重要度算出手法」で求められた値を以下の式(17)のように乗算することによって算出する。
【0169】
FS(d,k)が高いほど重要なキーワードとみなされる。
【0170】
【数18】

FS(d,k)はすべてのキーワード候補に対して、キーワード重要度を算出するため、応用アプリケーション等で少数のキーワードしか表示できない場合、上位3〜5位のキーワードをその文書内における重要キーワードとして表示する。
【0171】
また、ストップワードリストがある場合は、リストに存在するキーワードを削除する処理を行う。
【0172】
キーワード重要度算出部600は、決定されたN個の重要キーワードを関連コンテンツ取得・提示部700に出力する。
【0173】
●ステップ180:関連コンテンツ取得・提示部700の処理
関連コンテンツ・取得提示部700は、キーワード重要度算出部600で求められた重要度の高いキーワードを用いて関連コンテンツを取得する。
【0174】
まず、取得したい関連コンテンツのAPIを用意する。動画を取得したい場合、YouTube(登録商標) APIやyahoo(登録商標)の動画API等が挙げられる。グルメのクーポンやブログ記事等を取得したい場合は、その目的に応じたAPIを用意する。使用できるAPIの要件は、検索クエリを入力として受け付けるかである。次に重要度の高いキーワードを高い順に1〜3個取得し、それに基づきスペース区切りで検索クエリを作成する。例えば、
「キーワードA キーワードB キーワードC」
のようにスペース区切りで検索クエリを作成することにより、「キーワードA or キーワードB or キーワードC」といった検索クエリの条件にて関連コンテンツを取得することができる。検索クエリの数に関しては、関連コンテンツAPIの保有するコンテンツ数に応じて変更すればよい。また、or検索だけでなく、and検索等を実行することも考えられる。コンテンツが少ない場合は、多くのキーワードをor検索で実行する。コンテンツが多い場合は少ないキーワードでもコンテンツ結果が取得できる可能性が高いので、関連コンテンツの絞り込みをしたい場合は、少ないキーワードでもよい。APIに投入する例として以下のようなURLを入力し、結果を取得する。
【0175】
入力例)http://○○○.○○○○.com/feeds/api/videos?alt=rss&vq="クエリ"
そして、取得した結果はXML等で記述されているため、XMLパーザ等の既存技術を用いてデータを取得する。そして、取得したデータの一部を関連コンテンツとして提示する。
関連コンテンツ提示装置の出力例を図14に記載する。
【0176】
上記により、本発明は、
(1)入力されたテキストから重要語を抽出し、検索クエリをインターフェースとする様々な外部コンテンツAPIを用いて、動画やブログ、クーポン情報、グルメ情報等の様々な関連コンテンツを提示できる;
(2)従来技術の関連コンテンツ提示手法では、自社サーバが保有している関連コンテンツの提示しかできなかったが、本手法では自社が保有していない外部の関連コンテンツを外部コンテンツAPIを通じて提示できる;
(3)重要語抽出に基づく手法のため、関連コンテンツとして提示した際にテキスト中のこのキーワードが重要語であったため、このコンテンツを提示したという重要語による関連コンテンツの提示理由が表示できる;
(4)関連コンテンツの特性に特化した重要語抽出が可能なため、コンテンツ提示精度が高い;
(5)従来法の類似度に基づく関連コンテンツ提示手法と比較して、計算量的なコストが大変低い;
等の効果を奏する。
【0177】
上記の実施の形態では、図2の構成に基づいて説明したが、図2に示す関連コンテンツ提示装置の構成要素の動作をプログラムとして構築し、関連コンテンツ提示装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
【0178】
また、構築されたプログラムをハードディスクや、フレキシブルディスク、CD-ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
【0179】
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
【符号の説明】
【0180】
100 事前計算処理部
110 重要キーワード候補辞書DB
120 Wikipedia(登録商標)データ記憶部
130 検索クエリデータ記憶部
140 Wikipedia(登録商標)閲覧ログデータ記憶部
150 キーワード固有重要度DB
160 キーワード固有重要度算出部
200 文書入力部
300 主要コンテンツ抽出部
310 Web文書取得・入力部
311 データ入力部
312 Web文書ファイル入力部
313 URL入力部
314 Web文書取得部
315 文字コード変換部
320 Web文書分割部
321 広告対象領域抽出部
322 ノイズとなるタグや領域除去部
323 Web文書の分割部
330 特徴量抽出部
331 アンカーリンク情報特徴量抽出部
332 タグ情報特徴量抽出部
333 Web文書で表示される文字列特徴量抽出部
334 特徴量の正規化部
335 特徴量の比率特徴量抽出部
340 主要コンテンツ判定部
341 特徴量入力部
342 テキスト判定部
343 主要コンテンツ判定処理部
350 主要コンテンツ出力部
351 タグ付きテキスト出力部
352 タグなしテキスト出力部
400 重要キーワード候補抽出部
500 出現頻度を用いた重要度算出部
600 キーワード重要度算出部
700 関連コンテンツ取得・提示部
800 関連コンテンツ出力部

【特許請求の範囲】
【請求項1】
Web文書中に含まれるテキストからその内容に関連するWebコンテンツを提示するための関連コンテンツ提示装置であって、
前記Web文書を取得して該Web文書の特徴量を抽出し、主要コンテンツを抽出する主要コンテンツ抽出手段と、
前記主要コンテンツから重要キーワード候補を抽出する重要キーワード候補抽出手段と、
前記重要キーワード候補のうち、Web文書集合における出現確率を、WebIDFアルゴリズム及びBM25アルゴリズムを用いて算出する重要度算出手段と、
出現頻度の高い上位N件のキーワード候補を抽出し、前記N件のキーワード候補から検索クエリを生成し、該検索クエリに基づいて検索エンジンを検索して関連コンテンツを取得する関連コンテンツ取得手段と、
を有することを特徴とする関連コンテンツ提示装置。
【請求項2】
Web文書中に含まれるテキストからその内容に関連するWebコンテンツを提示するための関連コンテンツ提示装置であって、
前記Web文書を取得して該Web文書の特徴量を抽出し、主要コンテンツを抽出する主要コンテンツ抽出手段と、
前記主要コンテンツから重要キーワード候補を抽出する重要キーワード候補抽出手段と、
前記重要キーワード候補のうち、WebIDFアルゴリズム及びBM25アルゴリズムを用いてWeb文書集合における出現確率を算出し、各キーワードの形態素の固有名詞の出現頻度を算出し、該出現確率と該キーワードの固有名詞の出現頻度を用いて重要度を算出する重要度算出手段と、
前記重要度算出手段で算出された前記重要度に基づいて抽出されたN件のキーワード候補から検索クエリを生成し、該検索クエリに基づいて検索エンジンを検索して関連コンテンツを取得する関連コンテンツ取得手段と、
を有することを特徴とする関連コンテンツ提示装置。
【請求項3】
Web文書中に含まれるテキストからその内容に関連するWebコンテンツを提示するための関連コンテンツ提示装置であって、
オンライン百科辞典に代表される文書集合内において一意の見出し語を持つ文書集合内において引用関係もしくは参照関係のリンク構造を持つ文書集合の見出し語が形態素解析用の辞書として格納されているキーワード辞書と、
前記Web文書を取得して該Web文書の特徴量を抽出し、主要コンテンツを抽出する主要コンテンツ抽出手段と、
前記主要コンテンツから重要キーワード候補を抽出する重要キーワード候補抽出手段と、
前記重要キーワード候補のうち、WebIDFアルゴリズム及びBM25アルゴリズムを用いてWeb文書集合における出現確率を算出する第1の重要度算出手段と、
前記キーワード候補のキーワードに基づいて前記キーワード辞書を参照し、前記リンク構造に基づいて得られた文書のランキングを該キーワードのキーワード固有重要度とする第2の重要度算出手段と、
前記第1の重要度算出手段の前記出現確率及び前記第2の重要度算出手段の前記キーワード固有重要度を用いて算出された値に基づいて抽出されたN件のキーワード候補から検索クエリを生成し、該検索クエリに基づいて検索エンジンを検索して関連コンテンツを取得する関連コンテンツ取得手段と、
を有することを特徴とする関連コンテンツ提示装置。
【請求項4】
Web文書中に含まれるテキストからその内容に関連するWebコンテンツを提示するための関連コンテンツ提示装置であって、
オンライン百科辞典に代表される文書集合内において一意の見出し語を持つ文書集合内において引用関係もしくは参照関係のリンク構造を持つ文書集合の見出し語が形態素解析用の辞書として格納されているキーワード辞書と、
前記キーワード辞書を参照した閲覧ログを格納した閲覧ログ記憶手段と、
前記Web文書を取得して該Web文書の特徴量を抽出し、主要コンテンツを抽出する主要コンテンツ抽出手段と、
前記キーワード辞書を参照して、前記主要コンテンツから重要キーワード候補を抽出する重要キーワード候補抽出手段と、
前記重要キーワード候補のうち、WebIDFアルゴリズム及び、BM25アルゴリズムを用いてWeb文書集合における出現確率を算出する第1の重要度算出手段と、
前記閲覧ログ記憶手段を参照して、閲覧された回数が多いキーワードほど度合いが大きくなる重要度を求める第2の重要度算出手段と、
前記第1の重要度算出手段の前記出現確率と、前記第2の重要度算出手段の前記重要度を用いて算出された値に基づいて抽出された上位N件のキーワード候補から検索クエリを生成し、該検索クエリに基づいて検索エンジンを検索して関連コンテンツを取得する関連コンテンツ取得手段と、
を有することを特徴とする関連コンテンツ提示装置。
【請求項5】
Web文書中に含まれるテキストからその内容に関連するWebコンテンツを提示するための関連コンテンツ提示装置であって、
オンライン百科辞典に代表される文書集合内において一意の見出し語を持つ文書集合内において引用関係もしくは参照関係のリンク構造を持つ文書集合の見出し語が形態素解析用の辞書として格納されているキーワード辞書と、
前記Web文書を取得して該Web文書の特徴量を抽出し、主要コンテンツを抽出する主要コンテンツ抽出手段と、
前記キーワード辞書を参照して前記主要コンテンツから重要キーワード候補を抽出する重要キーワード候補抽出手段と、
前記重要キーワード候補のうち、WebIDFアルゴリズム及び、BM25アルゴリズムを用いてWeb文書集合における出現確率を算出する第1の重要度算出手段と、
前記キーワード候補が検索エンジンに投入された回数を取得し、検索クエリ投入回数を用いてキーワード固有重要度を算出する第2の重要度算出手段と、
前記第1の重要度算出手段の前記出現確率と、前記第2の重要度算出手段の前記キーワード固有重要度を用いて算出された値に基づいて抽出された上位N件のキーワード候補から検索クエリを生成し、該検索クエリに基づいて検索エンジンを検索して関連コンテンツを取得する関連コンテンツ取得手段と、
を有することを特徴とする関連コンテンツ提示装置。
【請求項6】
Web文書中に含まれるテキストからその内容に関連するWebコンテンツを提示するための関連コンテンツ提示装置であって、
オンライン百科辞典に代表される文書集合内において一意の見出し語を持つ文書集合内において引用関係もしくは参照関係のリンク構造を持つ文書集合の見出し語が形態素解析用の辞書として格納されているキーワード辞書と、
前記Web文書を取得して該Web文書の特徴量を抽出し、主要コンテンツを抽出する主要コンテンツ抽出手段と、
前記キーワード辞書を参照して前記主要コンテンツから重要キーワード候補を抽出する重要キーワード候補抽出手段と、
前記重要キーワード候補のうち、WebIDFアルゴリズム及び、BM25アルゴリズムを用いてWeb文書集合における出現確率を算出する第1の重要度算出手段と、
前記キーワード候補の前記Web文書の文における出現位置を参照し、キーワードが文の先頭にあるほど値が大きくなる重要度を求める第2の重要度算出手段と、
前記第1の重要度算出手段の前記出現確率と、前記第2の重要度算出手段の前記重要度を用いて算出された値に基づいて抽出された上位N件のキーワード候補から検索クエリを生成し、該検索クエリに基づいて検索エンジンを検索して関連コンテンツを取得する関連コンテンツ取得手段と、
を有することを特徴とする関連コンテンツ提示装置。
【請求項7】
Web文書中に含まれるテキストからその内容に関連するWebコンテンツを提示するための関連コンテンツ提示装置であって、
オンライン百科辞典に代表される文書集合内において一意の見出し語を持つ文書集合内において引用関係もしくは参照関係のリンク構造を持つ文書集合の見出し語が形態素解析用の辞書として格納されているキーワード辞書と、
前記Web文書を取得して該Web文書の特徴量を抽出し、主要コンテンツを抽出する主要コンテンツ抽出手段と、
前記キーワード辞書を参照して前記主要コンテンツから重要キーワード候補を抽出する重要キーワード候補抽出手段と、
前記重要キーワード候補のうち、WebIDFアルゴリズム及び、BM25アルゴリズムを用いてWeb文書集合における出現確率を算出する第1の重要度算出手段と、
前記Web文書から固有表現を有する固有表現キーワードを抽出し、前記重要キーワード候補と一致した場合に、重みを付与したスコアを求める第2の重要度算出手段と、
前記第1の重要度算出手段の前記出現確率と、前記第2の重要度算出手段の前記スコアを用いて算出された値に基づいて抽出された上位N件のキーワード候補から検索クエリを生成し、該検索クエリに基づいて検索エンジンを検索して関連コンテンツを取得する関連コンテンツ取得手段と、
を有することを特徴とする関連コンテンツ提示装置。
【請求項8】
Web文書中に含まれるテキストからその内容に関連するWebコンテンツを提示するための関連コンテンツ提示装置であって、
オンライン百科辞典に代表される文書集合内において一意の見出し語を持つ文書集合内において引用関係もしくは参照関係のリンク構造を持つ文書集合の見出し語が形態素解析用の辞書として格納されているキーワード辞書と、
前記キーワード辞書を参照した閲覧ログを格納した閲覧ログ記憶手段と
前記Web文書を取得して該Web文書の特徴量を抽出し、主要コンテンツを抽出する主要コンテンツ抽出手段と、
前記キーワード辞書を参照して、前記主要コンテンツから重要キーワード候補を抽出する重要キーワード候補抽出手段と、
前記重要キーワード候補のうち、WebIDFアルゴリズム及び、BM25アルゴリズムを用いてWeb文書集合における出現確率を算出し、各キーワードの形態素の固有名詞の出現頻度を算出し、該出現確率と該キーワードの固有名詞の出現頻度を用いて第1の重要度を算出する第1の重要度算出手段と、
前記キーワード候補のキーワードに基づいて前記キーワード辞書を参照し、前記リンク構造に基づいて得られた文書のランキングを該キーワードの第2の重要度とする第2の重要度算出手段と、
前記閲覧ログ記憶手段を参照して、閲覧された回数が多いキーワードほど度合いが大きくなる第3の重要度を求める第3の重要度算出手段と、
前記キーワード候補が検索エンジンに投入された回数を取得し、検索クエリ投入回数を用いて第4の重要度を算出する第4の重要度算出手段と、
前記キーワード候補の前記Web文書の文における出現位置を参照し、キーワードが文の先頭にあるほど値が大きくなる第5の重要度を求める第5の重要度算出手段と、
前記第1の重要度算出手段の前記第1の重要度、前記第2の重要度算出手段の前記第2の重要度、前記第3の重要度算出手段の前記第3の重要度、前記第4の重要度算出手段の前記第4の重要度、前記第5の重要度算出手段の前記第5の重要度の少なくとも1いずれか1つの重要度に基づいて抽出されたN件のキーワード候補から検索クエリを生成し、該検索クエリに基づいて前記検索エンジンを検索して関連コンテンツを取得する関連コンテンツ取得手段と、
を有することを特徴とする関連コンテンツ提示装置。
【請求項9】
請求項1乃至8のいずれか1項に記載の関連コンテンツ提示装置を構成する各手段としてコンピュータを機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate


【公開番号】特開2011−253256(P2011−253256A)
【公開日】平成23年12月15日(2011.12.15)
【国際特許分類】
【出願番号】特願2010−125270(P2010−125270)
【出願日】平成22年5月31日(2010.5.31)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 平成22年2月25日 社団法人電子情報通信学会発行の「電子情報通信学会技術研究報告 信学技報 Vol.109 No.450」に発表
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】