説明

文書評価付与方法、プログラム及び装置

【課題】テキスト文章の評価において、大幅な労力・時間の削減による効率性の向上と、統計情報による文脈に基づくテキスト文章の評価により、評価の妥当性を確保する。
【解決手段】本発明の文章評価付与装置は、訓練例データベース1、正例のデータベース2、負例のデータベース3、解析する対象となる文章4、形態素解析を行う形態素解析部5、共起統計情報を解析し共起統計情報データベースを作成する部分6、共起統計情報データベース7、文脈によって評価が異なるグレーワードのリストであるグレーワードリスト8、NG単語のリストであるブラックワードリスト9、評価計算演算式格納部10、評価付与部11、解析する対象となる文章に付与された評価12から構成されている。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、単語の共起情報に基づいて、テキスト文章に評価を付与する文書評価付与方法、プログラム及び装置に関する。
【背景技術】
【0002】
有害文章の自動フィルタリング、情報漏洩を防ぐための社内文章自動フィルタリングなど、テキスト文章を自動的に評価するニーズが大変高まっている。
【0003】
ソーシャルネットワークサービス(SNS)や掲示板のようなユーザが自由にテキスト文章をアップロードすることができるサイトが多くなっている.このようなサイトでは、有害なテキスト文章が書き込まれることが多い。有害なテキスト文章とは、例えば、未成年が読むのにふさわしくないテキスト文章、ある企業にとって外部への漏洩を防ぎたいテキスト文章、あるサイト内の情報としてはふさわしくないテキスト文章、などである。多くのサイトではそうした書き込みに対処を行っていない。対処をしているサイトもほとんどは、人手により対処している。人手による対処では,コストや対処までの時間が大きくなってしまう。
【0004】
例えば、様々なツールや方法が開発されているが、多くはあらかじめ与えられた単語リスト(ブラックワードリストと呼ばれる)に含まれる単語をマッチングし、その単語の色を変更し表示するのみ、という単純なものが多い。
【0005】
ブラックワードリストのみを用意する場合、文脈によって意味の変わる単語を正しく検出し、文章全体を自動的に評価することが非常に困難である。すなわち、同じ単語でも、アダルトな文章で用いられることもあるし、そうでない文章で用いられることも多く、ブラックワードリストだけでは対応できない。
【0006】
また、ブラックワードリストのみを用意する場合、時間経過とともにブラックワードリストを更新する必要もある。
【0007】
例えば、特許文献1のようにメールのスパムフィルタも商用のものが多くあるが、スパムフィルタの多くは、送り先、送り主、サブジェクトなど、メールの特性を利用しており、基本的にはブラックワードリストに含まれる単語を一致処理判断するのみである。テキスト文章そのものを評価しているわけではない。
【0008】
特許文献2では、検索にヒットしたウェブサイトについて登録NGワードやURLなどとの単純な一致処理判断を行い、有害なウェブサイトと判断されたものは検索結果に含めないといった処理を行っている。
【0009】
しかし上記登録NGワードやURLを利用するフィルタリング技術では、NGワードやURLの登録を随時行う必要がある。特ににURLの登録では、ウェブサイトの数が爆発的に増えている現状を考えると、そのスピードにURL登録件数が追いついていない。
【0010】
特許文献3では、比較対照のモデルとなる有害Webサイトを予め用意しておき、そのWebサイトの内容と、クローラが収集するWebサイトの内容との類似度を、「両Web文書の形態素解析の結果得られる単語の出現頻度の加重結果」を利用して総合的に判断している。
【0011】
しかし上記有害ウェブサイトを予め用意する方法では、有害ウェブサイトを人手で集める必要があり、コストが高い。また、単語の出現頻度の加重結果のみでは、上であげたような文脈による単語の意味の違いによる間違えがおこる。
【0012】
例えば、特許文献2、特許文献3、特許文献4、特許文献5、及び特許文献6では、テキスト文章を、文章中の単語の数によって評価しており、文脈によって意味のことなる単語を正しく評価することはできない。
【0013】
例えば、特許文献10では、文章に含まれる単語の距離などの特徴からコンテキストを抽出することで、2つ以上の文章同士の類似度を求めている。しかし本手法では、2つ以上の文章の類似度を求めるのであり、ある一つの文章評価やスコアリングに用いることはできない。
【先行技術文献】
【特許文献】
【0014】
【特許文献1】特開2009−289000号公報
【特許文献2】特開2007−128119号広報
【特許文献3】特許公開2009−277156号広報
【特許文献4】特許公開2008−269430号広報
【特許文献5】特許公開2008−097544号広報
【特許文献6】特許公開2007−233947号広報
【特許文献7】特許公開2006−301718号広報
【特許文献8】特許公開2009−245041号広報
【特許文献9】特許公開2009−093297号広報
【特許文献10】特許公開2009−93297号広報
【発明の概要】
【発明が解決しようとする課題】
【0015】
テキスト文章の評価において、大幅な労力・時間の削減による効率性の向上と、統計情報による文脈に基づくテキスト文章の評価により、評価の妥当性を確保する。
【0016】
上記登録NGワードのブラックワードリストのみを利用する文書評価では、NGワードさえ一致していれば未知の文章であってもそのフィルタリングの対象とすることができる。しかし、例えば登録単語(ワード)レベルでの一致である場合、例えば「酒」という単語を含む文章であっても、実は未成年の飲酒による悪影響を啓発するサイトである可能性もある。したがって結果的に健全な文章もNG(良くない文章)と判断してしまっている可能性がある、という課題がある。
【課題を解決するための手段】
【0017】
以上の課題を解決するために、以下の特徴を有することで、単語の共起に関する統計情報により文脈を推定する機能を備え、未知の文章であっても、単純なNGワードの比較による評価よりもさらに妥当性の高い評価を行うことができる文章評価付与方法、文章評価付与プログラム、および文書評価付与装置を提供する。
【0018】
すなわち、NGワードリストとしてのブラックワードリストの他に、文脈によって判定が異なる単語(グレーワードと呼ぶ)を集めたグレーワードリストを用意する。また、人間が予め判定した良い文書(正例と呼ぶ)と悪い文書(負例と呼ぶ)を用意し、それぞれのグレーワードと正例の中のそれぞれの単語との共起の統計情報、および、それぞれのグレーワードと負例の中のそれぞれの単語との共起の統計情報を、共起統計情報データベースとして用意する。そして、入力されたテキスト文書に関して、ブラックワードリスト、グレーワードリスト、及び、共起統計情報データベースに基づいて文脈を推定し、テキスト文書の評価を付与する文章評価付与方法、文章評価付与プログラム、および文書評価付与装置を提供する。
【0019】
そして上記特徴的な機能を実現するため、本発明の文章評価付与方法、文章評価付与プログラム、および文書評価付与装置は、具体的に以下の構成、すなわち訓練例として正例と負例を集めた訓練例データベースと、最低の評価と判断されるNGワードを持つブラックワードリスト保持部と、文脈によって評価が異なるグレーワードを持つグレーワードリスト保持部と、グレーワードと正例の中のそれぞれの単語との共起の統計情報、および、それぞれのグレーワードと負例の中のそれぞれの単語との共起の統計情報を保持する共起統計情報データベースと、文章を形態素解析処理する形態素解析処理部と、形態素解析処理により得られた単語に共起統計情報データベースに基づいて、演算式格納部にある演算式によって評価を計算し付与する評価付与部と、を有する。
【0020】
またソーシャルネットワークサービスや掲示板システムなどユーザがテキスト文章をアップロードする際に、アップロードするテキスト文章などに対して上記処理を行うことで、実効的なテキスト文書フィルタリングを行う機能をさらに備えた文章評価付与プログラムおよび文書評価付与装置を提供する。具体的に、その文章評価付与プログラムおよび文書評価付与装置は、上記構成に加えて、解析対象文書入力部と評価出力部と、をさらに有する。
【発明の効果】
【0021】
以上のような構成を備える本発明によって、予めブラックワードリスト、グレーワードリスト、及び共起統計情報データベースを用意しておけば、文章の評価を文脈に基づいて付与することを自動的に行うことができる。単純な登録単語の直接比較ではなく、共起情報によって文脈を推定するので、より実効性の高い文章評価を実現することができる。
【図面の簡単な説明】
【0022】
【図1】本発明による「請求項1」の文書評価付与方法、プログラム及び装置の基本構成を示す図である。
【図2】本発明による「請求項1」の文書評価付与のフローチャートである。
【図3】本発明による「請求項2」「請求項6」の2単語間の共起統計情報に基づく文書評価付与の例である。
【図4】本発明による「請求項3」「請求項6」の3単語間の共起統計情報に基づく文書評価付与の例である。
【図5】本発明による「請求項1」の訓練例からの共起統計情報の作成の例である。
【図6】本発明による「請求項4」「請求項5」の訓練例からの共起統計情報の作成の例であり、単語間距離を2とした例である。
【図7】本発明による「請求項7」の文書評価付与のフローチャートである。
【発明を実施するための形態】
【0023】
以下に、図1から図7を用いて本発明の一実施形態を説明する。なお、本発明はこれら実施の形態に何ら限定されるものではなく、その要旨を逸脱しない範囲において、種々なる態様で実施しうる。
【0024】
図1に、本発明の文章評価付与装置の基本構成を示す。本装置は、訓練例データベース1、正例のデータベース2、負例のデータベース3、解析する対象となる文章4、形態素解析を行う形態素解析部5、共起統計情報を解析し共起統計情報データベースを作成する部分6、共起統計情報データベース7、文脈によって評価が異なるグレーワードのリストであるグレーワードリスト8、NG単語のリストであるブラックワードリスト9、評価計算演算式格納部10、評価付与部11、解析する対象となる文章に付与された評価12から構成されている。
【0025】
図2に図1に図示した文章評価付与装置の評価付与部11における処理手順の一例をフローチャートで示す。
【0026】
開始し、文章の入力(ステップ201)後、形態素解析により単語に分割する(ステップ202)。各単語がブラックワードリストにあるブラックワードを含んでいるか否かを、評価1(ステップ203)で判定する。ブラックワードを含んでいたら、評価値は最低点の0とし付与する。ブラックワードを含んでいなかったら、評価2(ステップ204)でグレーワードを含んでいるかどうかを判定する。グレーワードを含んでいたら、評価値を計算し評価値を付与する。グレーワードを含んでいなかったら、評価値は最高点の100とする。ここでは、一例として、点数の範囲を0から100とするが、応用によって点数の範囲を変更することも可能である。
【0027】
図3に、図2で示した図1の評価付与部11における処理手順の一例のフローチャートにおける、解析対象文の評価値の付与の方法の一例として、2単語間の共起統計情報に基づく評価付与方法を示す。
【0028】
解析対象文章301として「彼はついに試合についての胸の内を明かした」が入力されたとする。
【0029】
2単語間の共起統計情報データベース302では、グレーワード303、共起語304、正例カウント305、負例カウント306、および正の確率307が格納されている。例えば、1行目には、グレーワード303として具体的に「胸」という単語と、「明かす」という共起語があり、正例のカウント305が8、負例のカウント306が2となっている。正例のカウント305は、そのグレーワード303と共起語304が正例データの全文章中で、共起して出現している文章の数を表している。同様に、負例カウント306は、そのグレーワード303と共起語304が負例データの全文章中で共起して出現している文章の数を表している。
【0030】
解析対象文章301の中に、「胸」と「明かした」という単語が共起しているため、2単語間共起統計情報データベース301の1行目より、解析対象文章301が、正の文章である確率は0.8であると推定する。その他に「胸」と「ついに」という単語が共起しており、「胸」と「彼」という単語が共起しているので、それぞれ、0.78および1.0という確率で推定される。それぞれの単語の文章が有害である確率を表すHR値を、HRの計算例308のように、共起の確率の平均を計算することを算出する。結果として、HRの値から判定した例309のように、例えば、HR値は0.918となり、有害でない(Harmless)と判定される。
【0031】
図4に図2で示した図1の評価付与部11における処理手順の一例のフローチャートにおける、解析対象文の評価値の付与の方法の一例として、多単語間の共起統計情報として、特に3単語間の共起統計情報に基づく評価付与方法を示す。
【0032】
解析対象文章401として「彼はついに試合についての胸の内を明かした」が入力されたとする。
【0033】
3単語間の共起統計情報データベース402では、グレーワード403、共起語1404、共起語2405、正例カウント406、負例カウント407、および正の確率408が格納されている。例えば、1行目には、グレーワード403として具体的に「胸」という単語と、「明かす」という共起語があり、正例のカウント406が11、負例のカウント407が3となっている。正例のカウント406は、そのグレーワード403と共起語1404と共起語2405が正例データの全文章中で、共起して出現している文章の数を表している。同様に、負例カウント407は、そのグレーワード403と共起語1404と共起語2405が負例データの全文章中で共起して出現している文章の数を表している。
【0034】
解析対象文章401の中に、「胸」と「明かす」と「彼」という単語が共起しているため、3単語間共起統計情報データベース402の1行目より、解析対象文章401はが、正の文章である確率は0.8であると推定する。その他に「胸」と「明かす」と「ついに」という単語が共起しており、「胸」と「彼」と「試合」という単語が共起しているので、それぞれ、0.78、0.92、および1.0という確率で推定される。それぞれの単語の文章が有害である確率を表すHR値を、HRの計算例409のように、共起の確率の平均を計算することを算出する。結果として、HRの値から判定した例410のように、例えば、HR値は0.928となり、有害でない(Harmless)と判定される。
【0035】
図5に、図1の共起統計情報データベースの作成方法を示す。図5は特に2単語間の共起に基づく共起統計情報データベースの作成方法を示す。
【0036】
正例の文章の一例501とこの正例から生成された共起統計情報データベースの例502である。ここではグレーワードを「酒」としている。文章501を形態素分析により単語に分割する。「酒」という単語とその他のすべての単語がこの文章中で何回出現しているかをカウントしたものを、共起カウントとする。例えば、「エチルアルコール」は2度出現しているので、この文章501では、酒とエチルアルコールの共起カウントは2となる。同様にすべての単語についてグレーワードとの共起の数を数え、共起統計情報データベースの例502のように格納する。
【0037】
図6に、図1の共起統計情報データベースの作成方法を示す。図6は特に単語間の距離を限定した共起に基づいているという点で特徴を持つ、共起統計情報データベースの作成方法を示す。
【0038】
正例の文章の一例601とこの正例から生成された共起統計情報データベースの例602である。ここではグレーワードを「酒」としている。文章601を形態素分析により単語に分割する。ここで、単語間の距離とは、元の文章の並びのままの単語の並びでの、ある単語からある単語までの総単語数である。例えば、「酒」と「エチルアルコール」の距離は1で、「酒」と「含む」の距離は2である。ここでの手法の特徴は、一定の距離の中での共起のみを対象として共起する単語数を数えることにより、プログラムの計算量を減らす点にある。
【0039】
図7に、本発明による「請求項7」の文書評価付与のフローチャートを示す。
【0040】
開始し、文章の入力(ステップ701)後、形態素解析により単語に分割する(ステップ702)。各単語がブラックワードリストにあるブラックワードを含んでいるか否かを、評価1(ステップ703)で判定する。ブラックワードを含んでいたら、評価値は最低点の0とし付与し、管理者に表示する。ブラックワードを含んでいなかったら、評価2(ステップ704)でグレーワードを含んでいるかどうかを判定する。グレーワードを含んでいたら、評価値を計算し評価値を計算し付与し管理者に表示する。グレーワードを含んでいなかったら、評価値は最高点の100とし、「良い文章」として管理者に表示する。ここでは、一例として、点数の範囲を0から100とするが、応用によって点数の範囲を変更することも可能である。
【符号の説明】
【0041】
101 訓練例データベース
102 正例のデータベース
103 負例のデータベース
104 解析する対象となる文章
105 形態素解析を行う形態素解析部
106 共起統計情報を解析し共起統計情報データベースを作成する部分
107 共起統計情報データベース
108 文脈によって評価が異なるグレーワードのリストであるグレーワードリスト
109 NG単語のリストであるブラックワードリスト
110 評価を計算する演算式を格納する部分
111 評価を付与する部分
112 解析する対象となる文章に付与された評価
201 解析する対象となる文章の入力
202 形態素解析
203 ブラックワードを含んでいるか否かの評価
204 グレーワードを含んでいるか否かの評価
301 解析する対象となる文章
302 2単語間の共起統計情報データベース
303 グレーワード
304 共起語
305 正例の中に「胸」と「明かす」が共起した数としての正例カウント
306 負例の中に「胸」と「明かす」が共起した数としての負例カウント
307 正例カウントと負例カウントから「胸」と「明かす」が正例にある確率
308 HRの計算例
309 HRの値から判定した例
401 解析する対象となる文章
402 3単語間の共起統計情報データベース
403 グレーワード
404 1つ目の共起語
405 2つ目の共起語
406 正例の中に「胸」と「明かす」「彼」が共起した数としての正例カウント
407 負例の中に「胸」と「明かす」「彼」が共起した数としての負例カウント
408 正例カウントと負例カウントから「胸」「明かす」及び「彼」が同時に正例に存在する確率
409 HRの計算例
410 HRの値から判定した例
501 正例の一例
502 501の正例から生成された共起統計情報データベースの例
601 正例の一例
602 601の正例から距離2で生成された共起統計情報データベースの例
701 解析する対象となる文章の入力
702 形態素解析
703 ブラックワードを含んでいるか否かの評価
704 グレーワードを含んでいるか否かの評価


【特許請求の範囲】
【請求項1】
訓練例として正例と負例を集めた訓練例データベースと、最低の評価と判断されるNGワードを持つブラックワードリスト保持部と、文脈によって評価が異なるグレーワードを持つグレーワードリスト保持部と、グレーワードと正例の中のそれぞれの単語との共起の統計情報、および、それぞれのグレーワードと負例の中のそれぞれの単語との共起の統計情報を保持する共起統計情報データベースと、文章を形態素解析処理する形態素解析処理部と、形態素解析処理により得られた単語に共起統計情報データベースに基づいて、演算式格納部にある演算式によって評価を計算し付与する評価付与部と、を有する文書評価付与方法、プログラム及び装置。
【請求項2】
請求項1の文書評価付与方法、プログラム及び装置であって、共起統計情報データにおける統計情報が、グレーワード1単語と正例の中のそれぞれの1単語の、2単語間の共起統計情報、および、グレーワード1単語と負例の中のそれぞれの1単語の、2単語間の共起情報に基づいている共起統計情報データベースを有する文書評価付与方法、プログラム及び装置。
【請求項3】
請求項1の文書評価付与方法、プログラム及び装置であって、共起統計情報データにおける統計情報が、グレーワード1単語と正例の中のいくつかの単語との、多単語間の共起統計情報、および、グレーワード1単語と負例の中のいくつかの単語との、多単語間の共起情報に基づいている共起統計情報データベースを有する文書評価付与方法、プログラム及び装置。
【請求項4】
請求項2の文書評価付与方法、プログラム及び装置であって、共起統計情報データにおける統計情報が、グレーワード1単語と正例の中のある一定の距離内の1単語の、2単語間の共起統計情報、および、グレーワード1単語と負例の中のある一定の距離内の1単語の、2単語間の共起情報に基づいている共起統計情報データベースを有する文書評価付与方法、プログラム及び装置。
【請求項5】
請求項3の文書評価付与方法、プログラム及び装置であって、共起統計情報データにおける統計情報が、グレーワード1単語と正例の中のある一定の距離内のいくつかの単語との、多単語間の共起統計情報、および、グレーワード1単語と負例の中のある一定の距離内のいくつかの単語との、多単語間の共起情報に基づいている共起統計情報データベースを有する文書評価付与方法、プログラム及び装置。
【請求項6】
演算式格納部に格納されている式が下記数1の式である請求項1から5のいずれか一に記載の文書評価付与方法、プログラム及び装置。
【数1】

S:解析対象文章
g:グレーワード
W:S中の単語の集合
P(g,W):gとWがすべての正例中で共起した数
N(g,W):gとWがすべての負例中で共起した数
【請求項7】
請求項1の文書評価付与方法、プログラム及び装置であって、ユーザが文章を入力する文章入力部と、入力された文章に評価を付与し表示する評価表示部と、文章が良いか悪いかを判定する閾値表示部と、管理者が文書に対して操作を行う管理部をさらに有する文書評価付与方法、プログラム及び装置。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2011−186762(P2011−186762A)
【公開日】平成23年9月22日(2011.9.22)
【国際特許分類】
【出願番号】特願2010−51087(P2010−51087)
【出願日】平成22年3月8日(2010.3.8)
【出願人】(510064495)アーチエス株式会社 (1)
【出願人】(304021277)国立大学法人 名古屋工業大学 (784)
【Fターム(参考)】