説明

文書情報の文章的特徴及び外形的特徴に基づく文書分類プログラム、サーバ及び方法

【課題】Web文書情報について、特定カテゴリ(例えば違法・有害性)に基づく判定精度を高めることができる文書分類プログラム等を提供する。
【解決手段】文書情報は、文章情報及びマークアップ言語によって記述されている。文書分類プログラムは、解析対象となる対象文書情報を、文章情報とマークアップ言語情報とに分離する文書情報分離手段と、文章情報及びマークアップ言語情報それぞれについて、予め登録された文字列の出現回数を計数し、文字列要素毎の出現回数を表す多次元ベクトルの特徴量を生成する特徴量生成手段と、対象文書情報の対象特徴量が、特定カテゴリに含まれる多数の学習文書情報から得られた学習特徴量の所定範囲内に属するか否かを判定する特徴量判定手段と、特徴量判定手段によって真と判定された対象文書情報は、特定カテゴリに含まれるとして分類するカテゴリ分類手段としてコンピュータを機能させる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、特定カテゴリに文書情報を分類する技術に関する。特に、インターネット上で、違法・有害サイトによって公開されている文書情報を検出する技術に関する。
【背景技術】
【0002】
インターネットの普及により、ブログ、掲示板又はクチコミコメントを公開するWebサイトを通じた一般ユーザによる情報発信は増加傾向にある。このようなWebサイトの増加に伴い、いわゆる違法・有害サイトも増加している。「違法・有害サイト」とは、例えば、犯罪予告や薬物の売買のような法規範に反する行為を助長する情報を含むサイトや、猥褻、残虐及び暴力的な情報を含むサイト、不当な勧誘目的のサイトを意味する。このような違法・有害サイトには、インターネットを介して、一般のユーザが容易にアクセスすることができる。近年、違法・有害サイトによる、犯罪の助長、犯罪者との接触による被害、個人情報の流出及び青少年の健全な育成の妨げといったことが社会問題となっている。現状では、このような違法・有害サイトの監視は、目視によるものが主流となっているが、サイトの内容は逐次更新されていくため、監視負担が大きい。
【0003】
従来、違法・有害サイトであると判断してのアクセスを制御するフィルタリングの技術がある(例えば特許文献1参照)。この技術によれば、予めキーワードやURL(Uniform Resource Locator)を予め登録しておき、そのキーワードやURLが含まれているWebサイトに対する端末からのアクセスが拒否される。しかし、予め登録しておくキーワードやURLを常に更新する必要があり、時間とコストを要する。
【0004】
これに対して、キーワードやURLを自動的に抽出し、フィルタリングする技術がある(例えば特許文献2参照)。この技術によれば、漏れのないキーワード・フィルタリングによって違法・有害サイトを検出することができると共に、人手を介さないためにコストを低減することができる。
【0005】
また、教師画像を用いた学習モデルに基づいて、画像の特徴量を抽出し、違法・有害サイトを検出する技術がある(例えば特許文献3参照)。この技術によれば、画像の色や輪郭といった特徴量に基づくクラスタリングにより、撮影条件や採光条件に影響されることなく、高度に違法・有害サイトを検出することができる。
【0006】
更に、Webページの更新日時やリンク先の情報の差分を定期的に観測することによって、Webページの改ざんやスパムコメントの登録のような異常を検出する技術がある(例えば特許文献4参照)。この技術によれば、Webページを目視によって監視する必要がなく、監視負担を軽減できる。
【0007】
更に、学習用文書情報を用いて、有害な文書情報に偏って出現する有害キーワードを統計的に抽出した後、判定対象の文書情報にそれら有害キーワードが含まれているか否かを検出する技術がある(例えば非特許文献1参照)。
【0008】
更に、Webページの外形的特徴(例えば画像数やリンク数など)を判定に利用する技術もある(例えば非特許文献2参照)。
【先行技術文献】
【特許文献】
【0009】
【特許文献1】特開2007−128119号公報
【特許文献2】特開2009−037420号公報
【特許文献3】特開2009−211388号公報
【特許文献4】特開2009−230663号公報
【非特許文献】
【0010】
【非特許文献1】柳原正、松本一則、小野智弘、滝嶋康弘、「トピック判定におけるn-gramの組み合わせ手法の検討」、第7回情報科学技術フォーラム(FIT2008)論文集
【非特許文献2】本田崇智、山本雅人、川村秀憲、大内東、「Webサイトの自動分類に向けた特徴分析とキーワード抽出に関する研究」、情報処理学会研究報告ICS,no. 78,pp.1-4,2005、[online]、[平成22年7月17日検索]、インターネット<URL:http://ci.nii.ac.jp/naid/110002702285>
【非特許文献3】長岡技術科学大学、自然言語処理研究室、「C4.5」、[online]、[平成22年7月17日検索]、インターネット<URL:http://nlp.nagaokaut.ac.jp/C4%EF%BC%8E5>
【非特許文献4】吉田光男、山本幹雄、「教師情報を必要としないニュースページ群からのコンテンツ自動抽出」、日本データベース学会論文誌、vol.8, no.1, pp.29-34, 2009、[online]、[平成22年7月17日検索]、インターネット<URL:http://www.dbsj.org/Japanese/DBSJLetters/vol8/no1/dbsj-journal-08-01-029.pdf>
【非特許文献5】鈴木義一郎、「情報量基準による統計解析入門」、講談社サイエンティフィク、pp.80-96、講談社、東京、1995
【非特許文献6】K.Matsumoto and K.Hashimoto, "Schema Design for Causal LawMining from Incomplete Database," Proc. of Discovery Science: SecondInternational Conference (DS'99), pp.91-102, 1999、[online]、[平成22年7月17日検索]、インターネット<URL:http://www.springerlink.com/content/21wxy3nvjtw194vg/>
【発明の概要】
【発明が解決しようとする課題】
【0011】
特許文献2に記載された技術によれば、キーワードの抽出及びマッチングのような言語解析に、多くの処理時間及び処理負荷を要する。同様に、特許文献3に記載された技術によれば、画像のダウンロード及び画像解析に、多くの処理時間及び処理負荷を要する。また、特許文献4に記載された技術によれば、Webページの差分に基づいて、Webページの異常を検出することはできるが、違法・有害か否かを判定することはできない。
【0012】
非特許文献1に記載された技術によれば、Webページによっては、文章的特徴を有する文章情報が少なかったり、文章情報の内容自体は無害であるが、画像やリンク先のような外形的特徴が有害である場合には、正しく判定することができない。
【0013】
非特許文献2に記載された技術によれば、人手によって違法・有害サイトを観測する必要があり、抽出可能な特徴が、観測者の主観や閲覧したWebサイトに大きく依存する。そのために、違法・有害サイトの検出に、十分な判定性能を得ることが難しい。
【0014】
そこで、本発明は、Web文書情報について、特定カテゴリ(例えば違法・有害性)に基づく判定精度を高めることができる文書分類プログラム、サーバ及び方法を提供することを目的とする。
【課題を解決するための手段】
【0015】
本発明によれば、文章情報及びマークアップ言語(Markup Language)によって記述された文書情報が、特定カテゴリに含まれるか否かを判定するようにコンピュータを機能させる文書分類プログラムであって、
解析対象となる対象文書情報を、文章情報とマークアップ言語情報とに分離する文書情報分離手段と、
文章情報及びマークアップ言語情報それぞれについて、予め登録された文字列の出現回数を計数し、文字列要素毎の出現回数を表す多次元ベクトルの特徴量を生成する特徴量生成手段と、
対象文書情報の対象特徴量が、特定カテゴリに含まれる多数の学習文書情報から得られた学習特徴量の所定範囲内に属するか否かを判定する特徴量判定手段と、
特徴量判定手段によって真と判定された対象文書情報は、特定カテゴリに含まれるものとして分類するカテゴリ分類手段と
してコンピュータを機能させることを特徴とする。
【0016】
本発明の文書分類プログラムにおける他の実施形態によれば、特徴量生成手段は、
文章情報及びマークアップ言語情報それぞれから、文字列を抽出する文字列抽出手段と、
学習文書情報に基づく文字列を登録する学習文字列登録手段と、
文章情報及びマークアップ言語情報それぞれについて、学習文字列登録手段に登録された文字列の出現回数を計数する出現回数計数手段と、
文章情報及びマークアップ言語情報それぞれについて、文字列要素毎の出現回数を表す多次元ベクトルの文字列特徴量を生成する特徴量生成手段と
してコンピュータを更に機能させることも好ましい。
【0017】
本発明の文書分類プログラムにおける他の実施形態によれば、
特定カテゴリに属する複数の学習文書情報を入力し、
文書情報分離手段は、更に、学習文書情報を、文章情報とマークアップ言語情報とに分離し、
特徴量生成手段は、学習文書情報の文章情報及びマークアップ言語情報それぞれについて、文字列抽出手段と、出現回数計数手段と、特徴量生成手段とを実行することによって、当該学習特徴量を特徴量判定手段へ出力すると共に、多数の文字列から特定カテゴリに基づく特定文字列を統計的に検出する学習文字列検出手段を更に有し、
学習文字列登録手段は、学習文字列検出手段によって検出された文字列を登録する
ようにコンピュータを更に機能させることも好ましい。
【0018】
本発明の文書分類プログラムにおける他の実施形態によれば、
特徴量判定手段は、サポートベクタマシン(Support Vector Machine)の識別エンジンであり、
サポートベクタマシンの識別エンジンは、複数の学習特徴量を教師データとして学習し、対象特徴量が、特定カテゴリの学習特徴量に属するか否かを判定する
ようにコンピュータを更に機能させることも好ましい。
【0019】
本発明の文書分類プログラムにおける他の実施形態によれば、
特徴量判定手段は、ルールベースの識別エンジンであり、
ルールベースの識別エンジンから出力される特定カテゴリの学習特徴量は、多次元ベクトルにおける変数値の範囲によって表され、
特徴量判定手段は、対象特徴量の多次元ベクトルの変数値が、特定カテゴリの学習特徴量の多次元ベクトルにおける変数値の所定範囲内に属するか否かを判定する
ようにコンピュータを更に機能させることも好ましい。
【0020】
本発明の文書分類プログラムにおける他の実施形態によれば、特徴量判定手段は、
文章情報及びマークアップ言語情報それぞれについて、識別エンジンを用いて、学習特徴量に対する対象特徴量の類似割合に基づくスコア値を導出するスコア値導出手段と、
文章情報スコア値及びマークアップ言語情報スコア値を論理式に基づいて組み合わせた総合スコア値を導出し、該総合スコア値が所定閾値以上となる場合、当該対象文書情報を真と判定する総合スコア値導出手段と
してコンピュータを更に機能させることも好ましい。
【0021】
本発明の文書分類プログラムにおける他の実施形態によれば、特徴量判定手段の総合スコア値導出手段は、文章情報スコア値が第1の閾値以上か否か、及び(論理積)/又は(論理和)、マークアップ言語情報スコア値が第2の閾値以上か否かに基づいて、当該対象文書情報を真と判定するようにコンピュータを更に機能させることも好ましい。
【0022】
本発明の文書分類プログラムにおける他の実施形態によれば、
文書情報は、SGML(Standard Generalized Markup Language)、HTML(HyperText Markup Language)、XML(eXtensible Markup Language)、XHTML(eXtensible HyperText Markup Language)又はTexによって記述されており、
文章情報は、文書情報からタグ要素を除く、文章的特徴を有するテキストであり、
マークアップ言語情報は、文書情報のタグ要素に含まれ、外形的特徴を有するテキストであり、
タグ要素は、画像、音声及び文章のコンテンツ要素に対する囲み文字列であって、マークアップ言語における文章構造及び修飾情報を指定するものである
ようにコンピュータを更に機能させることも好ましい。
【0023】
本発明の文書分類プログラムにおける他の実施形態によれば、学習文書情報は、違法・有害と判断された多数の文書情報、又は、ユーザによって特定カテゴリとして収集された多数の文書情報であるようにコンピュータを更に機能させることも好ましい。
【0024】
本発明によれば、文章情報及びマークアップ言語によって記述された文書情報を、他の公開サーバからネットワークを介して取得し、当該文書情報が特定カテゴリに含まれるか否かを判定する文書解析サーバであって、
解析対象となる対象文書情報を、文章情報とマークアップ言語情報とに分離する文書情報分離手段と、
文章情報及びマークアップ言語情報それぞれについて、予め登録された文字列の出現回数を計数し、文字列要素毎の出現回数を表す多次元ベクトルの特徴量を生成する特徴量生成手段と、
対象文書情報の対象特徴量が、特定カテゴリに含まれる多数の学習文書情報から得られた学習特徴量の所定範囲内に属するか否かを判定する特徴量判定手段と、
特徴量判定手段によって真と判定された対象文書情報は、特定カテゴリに含まれるものとして分類するカテゴリ分類手段と
を有することを特徴とする。
【0025】
本発明によれば、文章情報及びマークアップ言語によって記述された文書情報が、特定カテゴリに含まれるか否かを判定する装置における文書分類方法であって、
解析対象となる対象文書情報を、文章情報とマークアップ言語情報とに分離する第1のステップと、
文章情報及びマークアップ言語情報それぞれについて、予め登録された文字列の出現回数を計数し、文字列要素毎の出現回数を表す多次元ベクトルの特徴量を生成する第2のステップと、
対象文書情報の対象特徴量が、特定カテゴリに含まれる多数の学習文書情報から得られた学習特徴量の所定範囲内に属するか否かを判定する第3のステップと、
特徴量判定手段によって真と判定された対象文書情報は、特定カテゴリに含まれるものとして分類する第4のステップと
を有することを特徴とする。
【発明の効果】
【0026】
本発明の文書分類プログラム、サーバ及び方法によれば、Web文書情報における文章的特徴及び外形的特徴を組み合わせて、特定カテゴリ(例えば違法・有害性)に属するか否かを判定することによって、その判定精度を高めることができる。
【図面の簡単な説明】
【0027】
【図1】文書情報の概観説明図である。
【図2】本発明における文書分類プログラムの機能構成図である。
【図3】文書情報の分離を表す説明図である。
【図4】図2の特徴量判定部における他の実施形態に基づく機能構成図である。
【図5】本発明における文書解析サーバのシステム構成図である。
【図6】本発明におけるシステムのシーケンス図である。
【図7】本発明の効果を表すグラフである。
【発明を実施するための形態】
【0028】
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
【0029】
本発明における文書分類プログラムは、文章情報及びマークアップ言語(Markup Language)によって記述された文書情報が、特定カテゴリに含まれるか否かを判定するようにコンピュータを機能させる。「特定カテゴリ」とは、例えば違法・有害性であってもよいし、ユーザによって特定カテゴリと判断されたものであってもよい。
【0030】
「文章情報」とは、文書情報からタグ要素を除く、文章的特徴を有するテキストである。
【0031】
「マークアップ言語」は、コンピュータ言語の一種で、フォントサイズや文字の色のような外形的特徴に関する指定をテキストとして記述する言語である。外形的特徴の指定は、マークアップ(markup)と称される。Web文書情報の外形的特徴となるタグ要素として、例えば、例えば、背景色、フォントサイズ、画像数、リンク数、画像リンク数、リンク先のURL(Uniform Resource Locator)、フレーム数、javascript(登録商標)の利用回数、表の要素数がある。タグ要素は、画像、音声及び文章のコンテンツ要素に対する囲み文字列であって、マークアップ言語における文章構造及び修飾情報を指定するものである
【0032】
マークアップ言語には、例えば、SGML、HTML、XML、XHTML又はTexがある。
【0033】
図1は、文書情報の概観説明図である。
【0034】
図1(a)によれば、文章情報として「著作権なんが無視して、ダウンロードしましょう!」となっており、文章的特徴に違法・有害性はない。一方で、外形的特徴に違法・有害性がある。図1(b)によれば、文章情報として「ようこそ、皆さんの老後の幸せをかなえるサイトです!」となっており、文章的特徴に違法・有害性がある。一方で、外形的特徴に違法・有害性はない。
【0035】
本発明によれば、図1(a)及び(b)のような、文章的特徴若しくは外形的特徴の一方に違法・有害性があるか、又は、文章的特徴及び外形的特徴の両方に有害性があるかを判定することによって、違法・有害性の判定精度を高めることができる。
【0036】
図1(c)には、図1(b)に基づくソースコードが表されている。図1(c)によれば、文章、画像及び音声のようなコンテンツ要素と共に、文章構造及び修飾情報を指定するタグ要素を含む。タグ要素について、背景色は、「bgcolor=」という表現で定義される。「bgcolor=」の値を参照することで、背景色の値(色)を取得できる。同様に、フォントは「font face=」、リンクは「a href=」、画像は「img src=」又はフレームは「FRAME」という表現で定義される。
【0037】
図1(d)によれば、タグ設定例が表されている。同じタグ要素を設定する場合でも、複数の設定方法がある。例えば、背景色を設定する場合、「background-color:***;」のようにページの背景色のみを設定するものであってもよいし、「<body bgcolor=””text=””link=””alink=””vlink=””>」のようにページの背景色と共にテキスト色を指定するものであってもよい。
【0038】
尚、後述の中で、「文字列」との用語は、文章情報における形態素分析された語を意味すると共に、マークアップ言語情報における区切り文字(例えば、\t , . / ! ” = % & { } [ ] _ 等)を除く英文字(例えば、bgcolor、a hrefや、URL自体)も意味する。
【0039】
図2は、本発明における文書分類プログラムの機能構成図である。図3は、文書情報の分離を表す説明図である。
【0040】
図2によれば、文書情報分離部11と、文字列特徴量生成部12と、特徴量判定部13と、カテゴリ分類部14とを有する。これら機能部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現できる。また、これら機能構成部の処理の流れは、装置における文書分類方法としても理解される。
【0041】
文書情報分離部11は、解析対象となる対象文書情報と、特定カテゴリに属する複数の学習文書情報とをそれぞれ、入力する。特定カテゴリに属する複数の学習文書情報を蓄積する学習文書蓄積部を備えていることも好ましい。特定カテゴリに属する学習文書情報は、違法・有害と判断された文書情報、又は、ユーザによって特定カテゴリとして収集された文書情報である。そして、文書情報分離部11は、対象文書情報及び学習文書情報それぞれについて、文章情報とマークアップ言語情報とに分離する(図3(a)、(b)、(c)参照)。全てテキストベースで、分離される。
【0042】
文字列特徴量生成部12は、文書情報分離部11から文章情報及びマークアップ言語情報それぞれを入力する。そして、文字列特徴量生成部12は、文章情報及びマークアップ言語情報それぞれについて、予め登録された文字列の出現回数を計数し、文字列要素毎の出現回数を表す多次元ベクトルの特徴量を生成する。
【0043】
文字列特徴量生成部12は、文字列抽出部121と、出現回数計数部122と、特徴量生成部123と、学習文字列検出部124と、学習文字列登録部125とを有する。
【0044】
文字列抽出部121は、文章情報及びマークアップ言語情報それぞれから、文字列を抽出する(図3(d)(e)参照)。文字列の抽出には、例えばオープンソースの形態素解析エンジン「MeCab」を用いることができる。
【0045】
出現回数計数部122は、文章情報及びマークアップ言語情報それぞれについて、学習文字列登録部125に登録された文字列の出現回数を計数する。
【0046】
特徴量生成部123は、文章情報及びマークアップ言語情報それぞれについて、文字列要素毎の出現回数を表す多次元ベクトルの文字列特徴量を生成する。特徴量は、以下のように表される。
多次元ベクトル:(s1, s2,・・・・,s100, s101,・・・)
(文字列要素):「著作権」「老後」 「black」「face.gif」
(出現回数) : 10 2 15 8
生成された文字列特徴量は、特徴量判定部13へ出力される。
【0047】
学習文字列検出部124は、多数の文字列から特定カテゴリに基づく特定文字列を統計的に検出する(例えば非特許文献1参照)。非特許文献1によれば、キーワードリスト生成方法の技術が開示されている。この技術は、人手によって違法・有害/無害のラベルが付与された学習用文書を形態素解析によって単語分割し、違法・有害な文書情報に偏って出現する単語をキーワードリストに登録する。ある単語wが違法・有害な文書に偏って出現する度合いを表す指標E(w)は、AIC(赤池情報基準)を用いて算出する(例えば非特許文献5参照)。以下の表1のように4つの値を、学習文書に出現した全ての単語について導出する。
N(w) :単語wが出現する回数
N( ̄w):単語wが出現しない回数
( ̄:not)
11(w):ある単語wが出現する文書が違法・有害である場合の数
12(w):ある単語wが出現する文書が無害である場合の数
21(w):ある単語wが出現しない文書が違法・有害である場合の数
22(w):ある単語wが出現しない文書が無害である場合の数
【0048】
【表1】

【0049】
非特許文献1によれば、単語wが違法・有害な文書に偏って出現する度合E(w)を、非特許文献6に基づいて、AICの独立モデルに対する値AIC_IM及び従属モデルに対する値AIC_DMを用いて、以下のように定義している。
11(w)/N(w)>N12(w)/N( ̄w)のとき、
E(w)=AIC_IM(w)−AIC_DM(w)
11(w)/N(w)≦N12(w)/N( ̄w)のとき、
E(w)=AIC_DM(w)−AIC_IM(w)
ここで、AIC_IM(w)、AIC_DM(w)はそれぞれ、非特許文献5の記載に基づいて、以下のように算出される。
AIC_IM(w)=-2×MLL_IM+2×2
MLL_IM=Np(w)logNp(w)+N(w)logN(w)+Nn(w)logNn(w)
+N( ̄w)logN( ̄w)−2NlogN
AIC_DM(w)=-2×MLL_DM+2×3
MLL_DM=N11(w)logN11(w)+N12(w)logN12=(w)+N21(w)logN21(w)
+N22(w)logN22(w)−NlogN
この計算によって得られた違法・有害性の高いキーワードリストの一部を、以下の表に表す。
【表2】

【0050】
学習文書として、Webサイト22万ページ(違法・有害11万ページ、無害11万ページ)に対して、人手によって違法・有害/無害のラベルを付与したものを利用した。ここでは、キーワードは、違法・有害性の高さを表すE(w)値が高い順にランキングされている。しかしながら、このキーワードリストだけでは、上位のランクであっても、無害文書が検出されるキーワードが含まれている。
【0051】
学習文字列登録部125は、学習文字列検出部124によって検出された文字列を登録する。
【0052】
特徴量判定部13は、対象文書情報の対象特徴量が、特定カテゴリに含まれる複数の学習文書情報から得られた学習特徴量の所定範囲内に属するか否かを判定する。特徴量判定部13の識別エンジンは、サポートベクタマシン(Support Vector Machine)の識別エンジンであってもよいし、ルールベースの識別エンジンであってもよいし(例えばC4.5、非特許文献3参照)。
【0053】
ルールベースの識別エンジンによれば、対象特徴量の多次元ベクトルの変数値が、特定カテゴリの学習特徴量の多次元ベクトルにおける変数値の所定範囲内に属するか否かを判定するルールベースの識別エンジンによれば、学習文書情報から明確なルールを生成した後、対象文書情報のカテゴリを分類する。
【0054】
「C4.5」とは、クラス分類に用いるための決定木を生成するアルゴリズムであって、統計学的クラス分類器である。これは、情報エントロピの概念を用いて、教師データのセットから決定木を生成する。教師データは、既にクラス分類されたサンプルである。各サンプルは、属性や特徴を表す多次元ベクトル(x1,x2,...,xn)によって表される。
【0055】
一方で、サポートベクタマシンの識別エンジンによれば、明確なルールを生成せず、外見上ブラックボックスであるが、特定カテゴリ毎の学習特徴量をサポートベクトルとして生成する。従って、特徴量判定部13は、外見上ブラックボックス的な既存の学習識別器を用いて実現することができる。
【0056】
「サポートベクタマシン」とは、教師有り学習を用いる識別アルゴリズムであって、パターン認識に適用される。サポートベクタマシンは、線形入力素子を用いて2クラスのパターン識別器を構成するものであって、学習サンプルから、各特徴値との距離を算出することによって、線形入力素子のパラメータを学習する。サポートベクタマシンの識別エンジンは、抽出された複数の学習特徴量を教師データとして学習し、対象特徴量が、特定カテゴリの学習特徴量に属するか否かを判定する。
【0057】
カテゴリ分類部14は、特徴量判定部13によって真と判定された対象文書情報は、特定カテゴリに含まれるものとして分類する。
【0058】
図4は、図2の特徴量判定部における他の実施形態に基づく機能構成図である。
【0059】
図4によれば、特徴量判定部13は、文章スコア値導出部131と、ML(Markup Language)スコア値導出部132と、総合スコア値導出部133とを有する。
【0060】
文章スコア値導出部131は、文章情報について、識別エンジンを用いて、学習文章特徴量に対する対象文章特徴量の類似割合(有害割合)に基づく文章スコア値を導出する。
【0061】
ML文章スコア値導出部132は、マークアップ言語情報について、識別エンジンを用いて、学習ML特徴量に対する対象ML特徴量の類似割合に基づくMLスコア値を導出する。
【0062】
ここで、文章スコア値導出部131及びML文章スコア値導出部132はそれぞれ、サポートベクタマシン又はルールベースのような識別エンジンを有する。これによって、識別エンジンに一度に入力する特徴量数を減らすことができ、処理の高速化が期待できる。
【0063】
総合スコア値導出部133は、文章スコア値及びMLスコア値を論理式に基づいて組み合わせた総合スコア値を導出する。その総合スコア値が所定閾値以上となる場合、当該対象文書情報を真と判定する。例えば、以下のような実施形態がある。
【0064】
第1の論理式の組み合わせた総合スコア値は、以下のように導出される。
if(TH>SH and TD>SD):適合率の向上(論理積)
if(TH>SH or TD>SD) :再現率の向上(論理和)
SD:有害割合を表す文章スコア値
SH:有害割合を表すMLスコア値
TD:文章スコア値について有害と判定する第1の閾値
TH:MLスコア値について有害と判定する第2の閾値
TH>SH:真/偽
TD>SD:真/偽
【0065】
第2の論理式の組み合わせた総合スコア値は、以下のように導出される。
if(Score>Threshold):真/偽
Score=α・SH×β・SD:適合率(論理積)
Score=α・SH+β・SD:再現率(論理和)
Threshold:所定閾値
【0066】
図5は、本発明における文書解析サーバのシステム構成図である。
【0067】
図5によれば、文書解析サーバ10は、前述した文書分類プログラムをプロセッサで実行することによって文書分類機能を実現する。文書解析サーバ10は、インターネットを介して、Webサーバ2と通信する。また、そのWebサーバ2は、端末3から送信された対象文書情報としてのWeb文書情報を蓄積し且つ公開している。文書解析サーバ10の解析対象文書入力部は、通信インタフェース部を介して、多数のWebサーバ2から対象文書情報を受信する。その対象文書情報は、文書分類機能へ出力される。文書分類機能は、学習文章情報の学習特徴量に基づいて、その対象文書情報を特定カテゴリに分類する。例えば、Webサーバ2から受信した対象文書情報を、違法・有害サイトのカテゴリに分類することができる。
【0068】
図6は、本発明におけるシステムのシーケンス図である。
【0069】
(S601)文書分類機能は、学習文書情報を、文章情報とマークアップ言語情報とに分離する。図2の文章情報分離部11と同様に機能する。また、文書分類機能は、学習文書情報の文章情報及びマークアップ言語情報それぞれから文字列を抽出し、それら文字列を登録する。図2の学習文字列検出部124及び学習文字列登録部125と同様に機能する。
(S602)学習文書情報の文章情報及びマークアップ言語情報それぞれについて、予め登録された文字列の出現回数を計数し、文字列要素毎の出現回数を表す多次元ベクトルの特徴量を生成する。図2の文字列特徴量生成部12と同様に機能する。
【0070】
(S611)端末3は、利用者の操作に応じて、対象文書情報であるWeb文書情報を、Webサーバ2へ送信する。
(S612)文書解析サーバ10は、Webサーバ2から対象文書情報を受信する。
【0071】
(S613)文書分類機能は、対象文書情報を、文章情報とマークアップ言語情報とに分離する。図2の文章情報分離部11と同様に機能する。
(S614)対象文書情報の文章情報及びマークアップ言語情報それぞれについて、予め登録された文字列の出現回数を計数し、文字列要素毎の出現回数を表す多次元ベクトルの特徴量を生成する。図2の文字列特徴量生成部12と同様に機能する。
【0072】
(S615)対象文書情報の対象特徴量が、特定カテゴリに含まれる多数の学習文書情報から得られた学習特徴量の所定範囲内に属するか否かを判定する。図2の特徴量判定部13と同様に機能する。
(S616)そして、S615によって真と判定された対象文書情報は、特定カテゴリに含まれるものとして分類する。図2のカテゴリ分類部14と同様に機能する。
【0073】
以上、詳細に説明したように、本発明の文書分類プログラム、サーバ及び方法によれば、Web文書情報における文章的特徴及び外形的特徴を組み合わせて、特定カテゴリ(例えば違法・有害性)に属するか否かを判定することによって、その判定精度を高めることができる。本発明によれば、文章的特徴によって違法・有害性を判定すると共に、文章や画像の解析が困難な文書情報であっても、外形的特徴によって更に違法・有害性を判定することができる。
【0074】
図7は、有害と判定する割当を表すグラフである。
【0075】
図7によれば、10,000Webページについて、人手によって違法・有害/無害を判定して予備実験の結果が表されている。このグラフによれば、文章的特徴に基づく違法・有害性の判定と、外形的特徴に基づく違法・有害性の判定とが、必ずしも一致しないことが理解できる。
【0076】
図7のグラフによれば、縦軸に、再現率(Recall)が30%〜90%で表されており、横軸に、各再現率における違法・有害性の判定割合を表す。
(1)文章的特徴(文章情報)の場合でのみ違法・有害と判定されたWebページの割合
(2)外形的特徴(マークアップ言語情報)の場合でのみ違法・有害と判定されたWebページの割合
(3)文章的特徴及び外形的特徴の両方の場合で違法・有害と判定されたWebページの割合
【0077】
図7のグラフによれば、再現率が高いほど、(1)(2)の割合よりも、(3)の割合が高い。ここで、再現率90%であっても、(1)(2)の割合が存在することが理解できる。この結果から、文章的特徴及び外形的特徴の両方を組み合わせて、違法・有害性を判定することは有効であること考えられる。
【0078】
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
【符号の説明】
【0079】
1 文書分類プログラム
10 文書解析サーバ
11 文書情報分離部
12 文字列特徴量生成部
121 文字列抽出部
122 出現回数計数部
123 特徴量生成部
124 学習文字列検出部
125 学習文字列登録部
13 特徴量判定部
131 文章スコア値導出部
132 MLスコア値導出部
133 総合スコア値導出部
14 カテゴリ分類部
2 Webサーバ
3 端末

【特許請求の範囲】
【請求項1】
文章情報及びマークアップ言語(Markup Language)によって記述された文書情報が、特定カテゴリに含まれるか否かを判定するようにコンピュータを機能させる文書分類プログラムであって、
解析対象となる対象文書情報を、前記文章情報と前記マークアップ言語情報とに分離する文書情報分離手段と、
前記文章情報及び前記マークアップ言語情報それぞれについて、予め登録された文字列の出現回数を計数し、文字列要素毎の出現回数を表す多次元ベクトルの特徴量を生成する特徴量生成手段と、
前記対象文書情報の対象特徴量が、前記特定カテゴリに含まれる多数の学習文書情報から得られた学習特徴量の所定範囲内に属するか否かを判定する特徴量判定手段と、
前記特徴量判定手段によって真と判定された前記対象文書情報は、前記特定カテゴリに含まれるものとして分類するカテゴリ分類手段と
してコンピュータを機能させることを特徴とする文書分類プログラム。
【請求項2】
前記特徴量生成手段は、
前記文章情報及びマークアップ言語情報それぞれから、文字列を抽出する文字列抽出手段と、
学習文書情報に基づく文字列を登録する学習文字列登録手段と、
前記文章情報及びマークアップ言語情報それぞれについて、前記学習文字列登録手段に登録された文字列の出現回数を計数する出現回数計数手段と、
前記文章情報及びマークアップ言語情報それぞれについて、文字列要素毎の出現回数を表す多次元ベクトルの文字列特徴量を生成する特徴量生成手段と
してコンピュータを更に機能させることを特徴とする請求項1に記載の文書分類プログラム。
【請求項3】
前記特定カテゴリに属する複数の学習文書情報を入力し、
前記文書情報分離手段は、更に、前記学習文書情報を、文章情報とマークアップ言語情報とに分離し、
前記特徴量生成手段は、前記学習文書情報の文章情報及びマークアップ言語情報それぞれについて、前記文字列抽出手段と、前記出現回数計数手段と、前記特徴量生成手段とを実行することによって、当該学習特徴量を前記特徴量判定手段へ出力すると共に、多数の前記文字列から前記特定カテゴリに基づく特定文字列を統計的に検出する学習文字列検出手段を更に有し、
前記学習文字列登録手段は、前記学習文字列検出手段によって検出された文字列を登録する
ようにコンピュータを更に機能させることを特徴とする請求項2に記載の文書分類プログラム。
【請求項4】
前記特徴量判定手段は、サポートベクタマシン(Support Vector Machine)の識別エンジンであり、
前記サポートベクタマシンの識別エンジンは、複数の前記学習特徴量を教師データとして学習し、前記対象特徴量が、前記特定カテゴリの学習特徴量に属するか否かを判定する
ようにコンピュータを更に機能させることを特徴とする請求項1から3のいずれか1項に記載の文書分類プログラム。
【請求項5】
前記特徴量判定手段は、ルールベースの識別エンジンであり、
前記ルールベースの識別エンジンから出力される前記特定カテゴリの学習特徴量は、前記多次元ベクトルにおける変数値の範囲によって表され、
前記特徴量判定手段は、前記対象特徴量の多次元ベクトルの変数値が、前記特定カテゴリの学習特徴量の前記多次元ベクトルにおける変数値の所定範囲内に属するか否かを判定するようにコンピュータを更に機能させることを特徴とする請求項1から3のいずれか1項に記載の文書分類プログラム。
【請求項6】
前記特徴量判定手段は、
前記文章情報及び前記マークアップ言語情報それぞれについて、前記識別エンジンを用いて、前記学習特徴量に対する前記対象特徴量の類似割合に基づくスコア値を導出するスコア値導出手段と、
前記文章情報スコア値及び前記マークアップ言語情報スコア値を論理式に基づいて組み合わせた総合スコア値を導出し、該総合スコア値が所定閾値以上となる場合、当該対象文書情報を真と判定する総合スコア値導出手段と
してコンピュータを更に機能させることを特徴とする請求項1から3のいずれか1項に記載の文書分類プログラム。
【請求項7】
前記特徴量判定手段の前記総合スコア値導出手段は、前記文章情報スコア値が第1の閾値以上か否か、及び(論理積)/又は(論理和)、前記マークアップ言語情報スコア値が第2の閾値以上か否かに基づいて、当該対象文書情報を真と判定するようにコンピュータを機能させることを特徴とする請求項6に記載の文書分類プログラム。
【請求項8】
前記文書情報は、SGML(Standard Generalized Markup Language)、HTML(HyperText Markup Language)、XML(eXtensible Markup Language)、XHTML(eXtensible HyperText Markup Language)又はTexによって記述されており、
前記文章情報は、前記文書情報からタグ要素を除く、文章的特徴を有するテキストであり、
前記マークアップ言語情報は、前記文書情報のタグ要素に含まれ、外形的特徴を有するテキストであり、
前記タグ要素は、画像、音声及び文章のコンテンツ要素に対する囲み文字列であって、前記マークアップ言語における文章構造及び修飾情報を指定するものである
ようにコンピュータを機能させることを特徴とする請求項1から7のいずれか1項に記載の文書分類プログラム。
【請求項9】
前記学習文書情報は、違法・有害と判断された多数の文書情報、又は、ユーザによって特定カテゴリとして収集された多数の文書情報であるようにコンピュータを機能させることを特徴とする請求項1から8のいずれか1項に記載の文書分類プログラム。
【請求項10】
文章情報及びマークアップ言語によって記述された文書情報を、他の公開サーバからネットワークを介して取得し、当該文書情報が特定カテゴリに含まれるか否かを判定する文書解析サーバであって、
解析対象となる対象文書情報を、前記文章情報と前記マークアップ言語情報とに分離する文書情報分離手段と、
前記文章情報及び前記マークアップ言語情報それぞれについて、予め登録された文字列の出現回数を計数し、文字列要素毎の出現回数を表す多次元ベクトルの特徴量を生成する特徴量生成手段と、
前記対象文書情報の対象特徴量が、前記特定カテゴリに含まれる多数の学習文書情報から得られた学習特徴量の所定範囲内に属するか否かを判定する特徴量判定手段と、
前記特徴量判定手段によって真と判定された前記対象文書情報は、前記特定カテゴリに含まれるものとして分類するカテゴリ分類手段と
を有することを特徴とする文書解析サーバ。
【請求項11】
文章情報及びマークアップ言語によって記述された文書情報が、特定カテゴリに含まれるか否かを判定する装置における文書分類方法であって、
解析対象となる対象文書情報を、前記文章情報と前記マークアップ言語情報とに分離する第1のステップと、
前記文章情報及び前記マークアップ言語情報それぞれについて、予め登録された文字列の出現回数を計数し、文字列要素毎の出現回数を表す多次元ベクトルの特徴量を生成する第2のステップと、
前記対象文書情報の対象特徴量が、前記特定カテゴリに含まれる多数の学習文書情報から得られた学習特徴量の所定範囲内に属するか否かを判定する第3のステップと、
前記特徴量判定手段によって真と判定された前記対象文書情報は、前記特定カテゴリに含まれるものとして分類する第4のステップと
を有することを特徴とする文書分類方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2012−43285(P2012−43285A)
【公開日】平成24年3月1日(2012.3.1)
【国際特許分類】
【出願番号】特願2010−185321(P2010−185321)
【出願日】平成22年8月20日(2010.8.20)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 平成22年3月2日 社団法人 電子情報通信学会発行の「EIC 電子情報通信学会 2010年総合大会講演論文集(DVD−ROM)」に発表
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成22年度、独立行政法人情報通信研究機構「高度通信・放送研究開発委託研究/インターネット上の違法・有害情報の検出技術の研究開発」、産業技術力強化法第19条の適用を受ける特許出願
【出願人】(000208891)KDDI株式会社 (2,700)
【Fターム(参考)】