説明

Webページの話題判定装置、Webページの話題判定方法、Webページの話題判定プログラム

【課題】WebページのURLから主要閲覧者が利用する言語を考慮した特徴を構築し、該言語に特化した適切な話題判定を行う。
【解決手段】Webページの話題判定装置1の入力部10には、判定対象のWebページのURLが入力される。言語判定部11は、入力部10に入力されたURL中のホスト名からホスト利用国を特定し、該利用国における主要言語を判定する。特徴量抽出部12は、URLを記号等で区切ったトークンの文字列から主要言語に応じた特徴量を抽出する。話題判定部13は、特定の話題に属するか否かを学習した判定器を用いて前記特徴量からWebページの話題を判定する。この判定結果は出力部14を通じて出力される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、例えばHTML(Hyper Text Markup Language)などのハイパーテキスト記述言語でよって記述されるWebページの話題を判定する技術に関する。
【背景技術】
【0002】
Webページに限らず、電子化された文書の話題を抽出する技術としては、特許文献1のトピック抽出方法が知られている。ここでは電子文書に含まれるテキストから名詞を特徴語として抽出し、抽出された特徴語を検索語としてウェブ検索を実行し、得られた検索結果に共通に出現する語句を話題とする。
【0003】
ところが、特定の話題だけを含むWebページ集合を収集する検索エンジンのクローラプログラム(スパイダー、ロボット)は、Webページ中のハイパーリンクの情報に基づき自動的に繰り返しリンクを辿りWebページを収集することから、話題の判定に特許文献1を適用しようとした場合にはリンク先のWebページにアクセスする前に、該ページのテキスト情報を得ることができず、特定の話題に関するWebページのみを収集したいといった場合には、収集効率に問題があった。
【0004】
そこで、リンク先のWebページにアクセスする前に利用可能なURLを情報源として利用し、話題を判定する技術が非特許文献1に提案されている。ここではURLを記号等で処理単位の文字列(以下、トークン「token」と呼ぶ)に区切り、さらにトークンの部分文字列を特徴量として抽出する。この特徴量に対して、訓練事例によって機械的な学習を済ませた該当の話題か否かを判定器で判定する。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2009−15796
【非特許文献】
【0006】
【非特許文献1】Eda Baykan,Monika Henzinger,Ludmila Marian,Ingmar Weber ”Purely URL-based Topic Classification” Proceedings of the 18th international conference on World wide web(WWW'09).pp1109-1110
【非特許文献2】”Web便利ツール/URLエンコード・デコードフォーム−TAG index Webサイト”、「online」、「平成23年11月10日検索」、インターネット<URL:http://www.tagindex.com/tool/url.html
【発明の概要】
【発明が解決しようとする課題】
【0007】
Webページの話題を判定するにあたって事前に収集済みの正解集合を学習データに用いる機械学習を採用する場合、話題の判定精度は正解集合の質およびWebページの特徴に何を利用するかに帰着する。特に、判定の情報源としてWebページのURLのみしか利用できない状況においてはURLからどの様な特徴を作り出すかが重要となる。
【0008】
非特許文献1では、前述のように判定可能なWebページを最大化するためにURLから得られたトークンの部分文字列を特徴として利用している。しかしながら、トークンがWebページの主要閲覧者の利用言語における単語をURLの規約によって表現した文字列であった場合には、該言語としては望ましくない区切りの部分文字列が特徴とされ、話題判定の精度に悪影響を与えるおそれがあった。
【0009】
例えば、URL「http://example.co.jp/suitouchou/」のWebページについてみれば該URLのトークンの一つ「suitouchou」は日本語では「出納帳」に該当する。ところが、非特許文献1では、利用言語を考慮せずにアルファベットのままトークンの部分文字列を取得するため、「suit」のような部分文字列も特徴として利用されるおそれがある。これでは英語で紳士服のスーツを表す単語と同一表記となるため、処理対象のWebページの本来的な話題と異なるファッション関連の話題と判定されてしまう。
【0010】
本発明は、上述のような従来技術の問題点を解決するためになされたものであり、WebページのURLから主要閲覧者が利用する言語を考慮した特徴を構築し、該言語に特化した適切な話題判定を行うことを解決課題としている。
【課題を解決するための手段】
【0011】
そこで、本発明は、URLの文字構成からWebページの主要閲覧者が利用する言語を特定するため、URL中のホスト名からホスト利用国を特定し、該利用国における主要言語を判定する。例えば事前に作成された公用語辞書などを用いて主要言語を特定することができる。
【0012】
また、URLを任意単位に分解した各文字列から主要言語に応じた特徴量を抽出する。例えば前記各文字列が前記主要言語の言語特徴に応じた文字列に変換可能であれば該変換された各文字列を特徴候補として抽出する。この各特徴候補から部分文字列を取得し、取得した部分文字列の出現頻度を特徴量として抽出することができる。
【0013】
ここで抽出された特徴量を話題判定に用いることにより、Webページの主要閲覧者の利用言語を考慮した話題判定が可能となる。すなわち、Webページで利用されている言語において言葉として不適切な特徴量の抽出を抑制し、誤った話題判定を防止することができる。話題判定の手法としては、特定の話題に属するか否かを学習した判定器を用いて前記特徴量からWebページの話題を判定すればよい。
【発明の効果】
【0014】
本発明によれば、WebページのURLから主要閲覧者が利用する言語を考慮した特徴が構築でき、該言語に特化した適切な話題判定が可能となる。
【図面の簡単な説明】
【0015】
【図1】本発明の実施形態に係るWebページの話題判定装置の構成図。
【図2】同 言語判定部の処理フロー図。
【図3】同 特徴量抽出部の処理フロー図。
【図4】図3の処理フローの処理例。
【発明を実施するための形態】
【0016】
以下、本発明の実施形態に係るWebページの話題判定装置を説明する。この話題判定装置は、URLの文字構成から主要閲覧者が利用する言語を特定し、判定された利用言語に応じた特徴量を抽出する。ここで抽出された特徴量を用いてWebページの話題を判定する。
【0017】
≪構成例≫
図1に基づき前記話題判定装置の構成例を説明する。ここでは前記話題判定装置1は、特定の話題を含むWebページ集合を収集する検索エンジンのクローラプログラム(スパイダー、ロボットなど)に利用される。
【0018】
具体的には前記話題判定装置1は、検索エンジンのサーバ群に構成され、通常のコンピュータのハードウェアリソース、例えばCPU.メモリ(RAM)やハードディスクドライブ装置などの記憶装置を備える。このハードウェアリソースとソフトウェアリソース(OS.アプリケーションなど)との協働の結果、前記話題判定装置1は、入力部10.言語判定部11.特徴量抽出部12.話題判定部13.出力部14を実装する。
【0019】
この入力部10には話題判定対象のWebページ、即ちクローラプログラムで収集された各WebページのURLが入力される。ここで入力されたURLは言語判定部11に出力され、該URLのみを材料とするWebページの話題判定が開始される。
【0020】
すなわち、言語判定部11は、入力部10からの出力情報を入力とし、該URL中のホスト名から該ホスト名の利用国を特定し、さらに該ホスト名の利用国における主要言語を判定する。この主要言語をWebページで利用される言語、即ちWebページの主要閲覧者の利用言語と推定する。この主要言語およびURLは特徴量抽出部12に出力される。
【0021】
特徴量抽出部12は、言語判定部11からの出力情報を入力とし、主要言語の言語特性を考慮してURLから特徴量を抽出する。ここではURLを処理単位の文字列に分解し、各文字列から主要言語に応じた特徴量を抽出する。このとき主要言語の言語特徴に応じた文字列に変換可能であれば、変換された各文字列の出現頻度を特徴量として抽出する。例えば主要言語として日本語が特定されれば、ローマ字かな変換・漢字かな変換などを行って特徴量を抽出することができる。抽出された特徴量は話題判定部13に出力される。
【0022】
話題判定部13は、特徴量抽出部12からの出力情報を入力とし、前記特徴量に基づきWebページの話題を判定する。ここでは事前に特定の話題に属するか否かを学習した判定器を利用する。この判定器に入力された前記特徴量が事前学習した話題を有するか否かでWebページの話題を判定する。この判定結果は、出力部14を通じて検索エンジンなどに出力される。以下、前記各部11〜13の処理内容を詳述する。
【0023】
≪言語判定部11の処理内容≫
図2に基づき言語判定部11の処理内容を詳述する。ここでは言語判定部11は、入力されたWebページのURL中におけるホスト名(サイト名)を取得する。この取得後に図2の処理を開始するものとする。この処理はURL毎に行われるものとする。
【0024】
S01:前記ホスト名に国別コードトップレベルドメインが含まれているか否かを判定する。判定の結果、該ドメインが含まれていなければS02に進む一方、該ドメインが含まれていれば国別コードに基づき前記ホスト名の利用国を特定する。ここで特定された前記ホスト名の利用国をWebページの対象国と決定し、S03に進む。例えば、前記ホスト名に「.jp」などが含まれていれば日本国をWebページの対象国と決定する。
【0025】
S02:前記ホスト名(より正確にはホスト名中のドメイン名)に対してwhois(フーイズ)システム、即ちインターネット上でのドメイン名の所有者を検索するプロトコルを利用することで前記ホスト名の利用国が特定できるか否か確認する。確認の結果、前記ホスト名の利用国が特定できれば該利用国をWebページの対象国に決定してS03に進む一方、特定できなければ処理を終了する。
【0026】
S03:S01.S02で決定されたWebページの対象国における主要言語を事前に作成された公用語辞書を用いて判定し、処理を終了する。この公用語辞書には国別に主要言語が掲載されていればよい。この主要言語に複数言語が掲載されていれば、該各言語を前記対象国の主要言語と判定できるものとする。
【0027】
≪特徴量抽出部12の処理内容≫
図3に基づき特徴量抽出部12の処理内容を詳述する。ここでは言語判定部11において主要言語として日本語が特定された場合の処理内容を説明する。この特徴量抽出部12の処理もURL毎に行われるものとする。
【0028】
S11:入力されたURLを記号「.」「-」「/」などの区切り文字によって複数個のトークン、即ち処理対象の各文字列に分解する。このトークン毎にS12以降の処理が実行される。
【0029】
S12:S11で分解された各トークンが、パーセントエンコード(Percent−Encode)、即ち文字コードを16進数で表して「%xx」(xxは16進数)の形に変換するエンコード方式が施されているか否かを判定する。
【0030】
ここでURLの規則を定めるRFC3986によれば、URL中のASCII以外の文字およびASCIIの予約文字は「%xx」に変換される。例えば「SHIFT_JIS」で書かれた文字「あ」であれば「%82%a0」の形に変換され、文字「い」であれば「%82%a2」の形に変換される。このような変換表記に基づき前記トークンにパーセントエンコードが施されているか否か判定する。
【0031】
S13.S14:S11の判定の結果、パーセントエンコードが施されたトークンに対してはデコードを実行する。このデコード結果の文字列にカタカナや漢字が含まれていれば、ひらがな変換を行ったうえで変換後の文字列を取得する(S13)。ここで取得した文字列を図示省略のリストに特徴候補として登録する(S14)。
【0032】
なお、前記デコードには、例えば非特許文献2のような汎用ツールを用いることができ、また前記の漢字ひらがな変換は事前に用意された漢和辞書を用いればよい。
【0033】
S15.S16:S11の判定の結果、パーセントエンコードが施されていないトークン(非パーセントエンコードのトークン)に対しては、トークンの文字列にローマ字かな変換を行う。ここではトークンの文字列がひらがな文字列に変換可能か否か、即ち完全に平仮名で表現可能か否かを確認する(S15)。
【0034】
確認の結果、トークンの文字列が完全にひらがなで表現可能な場合は、変換後のひらがな文字列を前記リストに特徴候補として登録する(S16)。例えばトークンの文字列が「suitouchou」であれば、ひらがな文字列「すいとうちょう」を特徴候補として登録する。一方、ひらがなに変換できない文字列は、ローマ字かな変換により完全に平仮名で表現できないため、アルファベット文字列のまま前記リストに特徴候補として登録する(S16)。
【0035】
S17:S14又はS16で前記リストに登録されたすべての特徴候補から部分文字列を抽出した部分文字列集合を取得する。ここでは各部分文字列の前記集合内における出現頻度(出現回数)をカウントし、カウント結果の数量を特徴量として抽出する。この抽出後に特徴量を話題判定部13に出力し、処理を終了する。この出力後に前記リストが初期化され、次のURLの処理が開始される。
【0036】
なお、S15.S16では、非パーセントエンコードのトークンの文字列に対して、ローマ字かな変換でひらがな文字列に変換可能か否かを判定し、ひらがな文字列とアルファベット文字列とを排他的に利用する方式を示しているが、ひらがな文字列に変換可能な場合には、本来のアルファベット文字とひらがな文字列の双方を特徴候補として利用する方式としてもよい。
【0037】
また、S13では、パーセントエンコードが施されたトークンに対して、デコード後の文字列に漢字やカタカナが含まれている場合にひらがなに変換する方式を示しているが、デコード語の文字列をそのまま特徴候補として登録する方式としてもよい。
【0038】
さらに、特徴候補や特徴候補の部分文字列に対して文字列の長さの制約を設けてもよく、出現頻度があまりにも大きすぎる文字列をストップ文字列として事前に除外する方式を採用することもできる。
【0039】
≪特徴量抽出部12の処理例≫
以下、図4に基づき特徴量抽出部12の処理例を説明する。ここではURL「http://www.example.co.jp/ichirei.html?category=%e3%82%b5%e3%83%b3%e3%83%97%e3%83%ab」が入力部10に入力され,言語判定部11で日本語が主要言語と判定されているものとする。また、特徴候補および特徴候補の部分文字列には文字列長「3〜8」の制約が設定され、ストップ文字列として「www」.「html」が事前に設定されているものとする。
【0040】
まず、特徴量抽出部12に前記URLおよび前記主要言語が入力されると、S11において前記URLに対するトークン化が実行される。このトークン化の結果、前記URLは、「www」.「example」.「co」.「jp」.「ichirei」.「html」.「category」.「%e3%82%b5%e3%83%b3%e3%83%97%e3%83%ab」のトークンに分解される。
【0041】
つぎにトークン「example」.「category」.「ichirei」は、S12で非パーセントエンコードと判定され、S15に進む。ここでトークン「example」.「category」は、ローマ字かな変換でひらがな変換できないため、S16ではアルファベット文字のまま特徴候補として登録される。一方、トークン「ichirei」は、ローマ字かな変換により「いちれい」と表現できるため、S16では「いちれい」のひらがな文字列が特徴候補として登録される。
【0042】
また、トークン「%e3%82%b5%e3%83%b3%e3%83%97%e3%83%ab」は、S12でパーセントエンコードが施されていると判定される。この判定後にS13で「サンプル」にデコードされ、さらに「さんぷる」にひらがな変換される。この変換後にS14で「さんぷる」のひらがな文字列が特徴候補として登録される。なお、トークン「www」.「html」は、ストップ文字列に該当するため、S12〜S16の処理から除外される。さらにトークン「co」.「jp」も、文字列長の制約から同様に除外される。
【0043】
このS11〜S16の処理の結果、「example」.「いちれい」.「category」.「さんぷる」の文字列が特徴候補として登録される。そして、S17において各特徴候補の文字列から長さ「3〜8」の範囲内で部分文字列を取得し、各部分文字列の出現頻度をカウントしてURLの特徴量、例えば「exa:1」.「xam:1」.「amp:1」などを抽出する。この特徴量の「1」は部分文字列集合内の出現回数を示している。
【0044】
≪話題判定部13の処理内容≫
以下、話題判定部13の処理内容を詳述する。具体的には話題判定部13は、特徴量抽出部12から出力された特徴量を入力とし、Webページの話題を判定した結果を出力する。この話題判定部13では、事前に判定対象の話題に対して機械学習を利用した判定器の学習を行う必要がある。ここでは一例として「政治」を判定対象の話題とする場合を説明する。
【0045】
この学習にあたっては、あらかじめ「政治」に関連したWebページ集合と、「政治」に関連しないWebページ集合とを準備する必要がある。すなわち、「政治」に関連するWebページ集合のURL群から得られた特徴量を、特徴量抽出部12によって得られた特徴量の2値判定における正例として判定器の学習事例に利用する。同様に「政治」に関連しないWebページ集合のURL群から得られた特徴量を、特徴量抽出部12によって得られた特徴量の2値判定における負例として利用する。
【0046】
この正例・負例を学習済みの判定器に特徴量抽出部12によって得られた特徴量を入力として与えることにより、処理対象のWebページが「政治」に関連した話題を有するか否かを判定する。
【0047】
この判定結果は、出力部14を通じて検索エンジンに出力され、全文索引を構築するための分類アルゴリズムなどに利用される。このとき前記話題判定装置1によれば、S11〜S17の処理を通じて主要言語の特徴を考慮した特徴量が抽出されることから、Webページの主要閲覧者の利用言語として望ましくない部分文字列における特徴量の抽出が防止され、該利用言語に特化した適切な話題判定を行うことができる。
【0048】
例えばURL「http://example.co.jp/suitouchou/」についてみれば、URLに国別コードトップレベルドメイン「.jp」を含むため、日本語が主要言語と判定される。このURLを分解したトークン「suitouchou」は、S15のローマ字かな変換により「すいとうちょう」と表現可能なため、S16において「すいとうちょう」の文字列が特徴候補として登録される。
【0049】
したがって、非特許文献1のように「suit」の部分文字列が特徴量として抽出されることはなく、Webページの言語(ここでは日本語)の言葉としては不適切な特徴量の抽出が抑制され、誤った話題判定を防止することができる。
【0050】
なお、本発明は、上記実施形態に限定されるものではなく、各請求項に記載された範囲内で適宜変形して実施することができる。例えば言語判定部11で日本語が特定された場合のみならず、他の外国語が特定された場合にも適用することができる。この場合にはS13.S15を特定された外国語に応じた変換にすればよい。
【0051】
また、話題判定部13の処理内容では「政治」に関連するか否かという2値判定を示したが、あらかじめ複数の判定対象の話題(例えばスポーツやファッションなど)に関するWebページ集合を準備し、それぞれの話題に応じた2値判定器を用意することによって、判定器から得られる分類の確信度の最も高い話題を話題判定対象のWebページが有する話題として判定する方式を採用することもできる。さらに話題を一意に定めずに確信度が一定値以上の話題を処理対象のWebページに対するメタデータとして付与する方式を採用してもよい。
【0052】
≪プログラムなど≫
本発明は、前記話題判定装置1の各部10〜14の一部もしくは全部として、コンピュータを機能させるWebページの話題判定プログラムとして構成することもできる。このプログラムによれば、S01〜S03.S11〜S17の一部あるいは全部をコンピュータに実行させることが可能となる。
【0053】
前記プログラムは、Webサイトや電子メールなどネットワークを通じて提供することができる。また、前記プログラムは、CD−ROM,DVD−ROM,CD−R,CD−RW,DVD−R,DVD−RW,MO,HDD,BD−ROM,BD−R,BD−REなどの記録媒体に記録して、保存・配布することも可能である。この記録媒体は、記録媒体駆動装置を利用して読み出され、そのプログラムコード自体が前記実施形態の処理を実現するので、該記録媒体も本発明を構成する。
【符号の説明】
【0054】
1…Webページの話題判定装置
10…入力部
11…言語判定部(言語判定手段)
12…特徴量抽出部(特徴量抽出手段)
13…話題判定部(話題判定手段)
14…出力部

【特許請求の範囲】
【請求項1】
Webページの言及する話題をURLに基づき判定するWebページの話題判定装置であって、
URL中のホスト名からホスト利用国を特定し、該利用国における主要言語を判定する言語判定手段と、
URLを任意の単位に分解した各文字列から言語判定手段で特定された主要言語に応じた特徴量を抽出する特徴量抽出手段と、
特定の話題に属するか否かを学習した判定器を用いて特徴量抽出手段の抽出した特徴量からWebページの話題を判定する話題判定手段と、
を備えることを特徴とするWebページの話題判定装置。
【請求項2】
言語判定手段は、あらかじめ作成された公用語辞書に基づき前記利用国の主要言語を判定する一方、
特徴量抽出手段は、前記各文字列が主要言語の言語特徴に応じた文字列に変換可能であれば該変換された各文字列を特徴候補として抽出し、
該各特徴候補から部分文字列を取得し、該各部分文字列の出現頻度を特徴量として抽出する
ことを特徴とする請求項1に記載されたWebページの話題判定装置。
【請求項3】
Webページの言及する話題をURLに基づき判定する装置の実行するWebページの話題判定方法であって、
URL中のホスト名からホスト利用国を特定し、該利用国における主要言語を判定する言語判定ステップと、
URLを任意の単位に分解した各文字列から言語判定手段で特定された主要言語に応じた特徴量を抽出する特徴量抽出ステップと、
特定の話題に属するか否かを学習した判定器を用いて特徴量抽出手段の抽出した特徴量からWebページの話題を判定する話題判定ステップと、
を有することを特徴とするWebページの話題判定方法。
【請求項4】
言語判定ステップは、あらかじめ作成された公用語辞書に基づき前記利用国の主要言語を特定する一方、
特徴量抽出ステップは、前記各文字列が主要言語の言語特徴に応じた文字列に変換可能であれば該変換された各文字列を特徴候補として抽出するステップと、
該各特徴候補から部分文字列を取得し、該各部分文字列の出現頻度を特徴量として抽出するステップと、
を有することを特徴とする請求項3に記載されたWebページの話題判定方法。
【請求項5】
請求項1または2のいずれか1項に記載されたWebページの話題判定装置としてコンピュータを機能させるWebページの話題判定プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2013−109709(P2013−109709A)
【公開日】平成25年6月6日(2013.6.6)
【国際特許分類】
【出願番号】特願2011−256179(P2011−256179)
【出願日】平成23年11月24日(2011.11.24)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】