説明

類似文書判定方法、類似文書判定装置及び類似文書判定プログラム

【課題】被判定文書が比較対象の文書を改変したものであるか否かを判定する。
【解決手段】比較対象文書の判定処理用データを予め判定処理用データ蓄積部13に蓄積しておき、被判定文書を前処理部11へ入力して被判定文書の判定処理用データを生成し、類似判定処理部12が判定処理用データ蓄積部13から比較対象文書の判定処理用データを一つずつ読み出して被判定文書の判定処理用データと比較し、類似判定処理部12が保持する判定処理基準に基づいて類似判定処理を行う。これにより、被判定文書が比較対象文書を改変したものであるか否かを判定することができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、テキスト文書の改変を検出する技術に関する。
【背景技術】
【0002】
今後普及が見込まれている電子書籍提供サービスにおいて、サービス実施企業が、提供する電子書籍の内容が既存の他の著作物と同一であるか否かを判定することが重要となる。例えば、他人の著作物を、悪意をもって、その著作物とは異なるように見せかける処理を施すことによって、不正な利益を得ることを防ぐ作業が必要である。
【0003】
一方、文書を検索する技術としては、映像中の字幕(テロップ)や、プログラムのソースコードの一部など、少ない単語や単語群を用い、コンテンツ全体(字幕ならば映像、プログラムの一部なら全部)を入手することを目的とする技術や、限られた文字をキーワードとして入力し、文書のインデクスと照合することによって目的とする文書を抽出する技術が存在する。また、文書を検索するシステムの一つとして特許検索システムも存在する。
【0004】
さらに、非特許文献1のように、統計情報を用いて作者の真贋性を判定する技術も知られている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2003−296305号公報
【非特許文献】
【0006】
【非特許文献1】金、「計量文体学から見たテキストマインニング」、ESTRELA、統計情報研究開発センター、2007年5月、No.158、p.2−7
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、従来の文書を検索する技術は、少ない情報を入力することによって、所望の文書を入手することが目的であり、手元にある文書と類似している別の文書を見つけ出すことを目的とするものではない。これは、手元には既に文書が存在しているので検索して入手する必要がないためである。
【0008】
特許検索システムは、類似する文書(特許文書)を検索して入手することが目的であるが、全く同一の文書を抽出するものではなく、意味的に類似する部分が多い文書を抽出することを目的とするものであった。
【0009】
統計情報を用いて作者の真贋性を判定する技術は、文書の統計的情報の傾向から著者を推定するものであり、処理時間を要して判定することを前提としていた。また、これも手元の文書と同一の文書がないかどうかを抽出することを目的とするものではない。
【0010】
このように、いずれの技術も、悪意をもって改変された文書を対象として、改変される前の同一の文書を抽出する目的には適切とは言えない。
【0011】
本発明は、上記に鑑みてなされたものであり、被判定文書が比較対象の文書を改変したものであるか否かを判定することを目的とする。
【課題を解決するための手段】
【0012】
第1の類似文書判定方法は、文書を入力して当該文書を統計処理し、判定処理用データを得るステップと、比較対象文書を統計処理して得られた比較対象文書の判定処理用データを蓄積する蓄積手段から読み出した前記比較対象文書の判定処理用データと判定対象文書を統計処理して得られた判定対象文書の判定処理用データとを判定基準に基づいて比較し、前記比較対象文書と前記判定対象文書が類似しているか否か判定するステップと、を有することを特徴とする。
【0013】
上記類似文書判定方法において、前記判定処理用データは、前記文書中に現れる各自立語の出現頻度であり、前記判定するステップは、前記比較対象文書と前記判定対象文書の自立語の出現頻度の順位毎の出現頻度の比の積が所定の範囲内である場合は、前記比較対象文書と前記判定対象文書が類似していると判定することを特徴とする。
【0014】
上記類似文書判定方法において、前記判定処理用データは、前記文書の段落数、文の数であり、前記判定するステップは、前記比較対象文書と前記判定対象文書の段落数、文の数が同じである場合は、前記比較対象文書と前記判定対象文書が類似していると判定することを特徴とする。
【0015】
第2の本発明に係る類似文書判定装置は、文書を入力して当該文書を統計処理し、判定処理用データを得る統計処理手段と、前記統計処理手段により比較対象文書を統計処理して得られた比較対象文書の判定処理用データを蓄積する蓄積手段と、前記統計処理手段により判定対象文書を統計処理して得られた判定対象文書の判定処理用データと前記蓄積手段から読み出した前記比較対象文書の判定処理用データとを判定基準に基づいて比較し、前記比較対象文書と前記判定対象文書が類似しているか否か判定する類似判定手段と、を有することを特徴とする。
【0016】
上記類似文書判定装置において、前記判定処理用データは、前記文書中に現れる各自立語の出現頻度であり、前記類似判定手段は、前記比較対象文書と前記判定対象文書の自立語の出現頻度の順位毎の出現頻度の比の積が所定の範囲内である場合は、前記比較対象文書と前記判定対象文書が類似していると判定することを特徴とする。
【0017】
上記類似文書判定装置において、前記判定処理用データは、前記文書の段落数、文の数であり、前記類似判定手段は、前記比較対象文書と前記判定対象文書の段落数、文の数が同じである場合は、前記比較対象文書と前記判定対象文書が類似していると判定することを特徴とする。
【0018】
第3の本発明に係る類似文書判定プログラムは、上記類似文書判定方法をコンピュータに実行させることを特徴とする。
【発明の効果】
【0019】
本発明によれば、被判定文書が比較対象の文書を改変したものであるか否かを判定することができる。
【図面の簡単な説明】
【0020】
【図1】本実施の形態における類似文書判定装置の構成を示す機能ブロック図である。
【図2】本実施の形態における類似文書判定装置の処理の流れを示す説明図である。
【図3】文書中に出現する単語の数を出現回数の多い順に並べたヒストグラムである。
【発明を実施するための形態】
【0021】
以下、本発明の実施の形態について図面を用いて説明する。
【0022】
図1は、本実施の形態における類似文書判定装置の構成を示す機能ブロック図である。同図に示す類似文書判定装置1は、前処理部11、類似判定処理部12、判定処理用データ蓄積部13および出力部14を備える。類似文書判定装置1が備える各部は、演算処理装置、記憶装置等を備えたコンピュータにより構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムは類似文書判定装置1が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。
【0023】
前処理部11は、文書を入力してその文書を統計処理し、文書中の単語出現頻度、段落数、文の数などの判定処理用データを得る。比較対象文書を前処理して得られた判定処理用データは、判定処理用データ蓄積部13に蓄積される。判定処理用データ蓄積部13には、複数の比較対象文書の判定処理用データを予め蓄積させておく。比較対象文書と類似判定しなければならない被判定文書を前処理して得られた判定処理用データは、類似判定処理部12へ送られる。
【0024】
類似判定処理部12は、前処理部11から被判定文書の判定処理データを受け取り、判定処理用データ蓄積部13から比較対象文書の判定処理データを読み出して、類似判定処理部12が保持する類似判定基準に基づいて類似判定処理を行う。判定処理用データ、類似判定基準、類似判定処理の詳細については後述する。
【0025】
出力部14は、類似判定処理部12の類似判定結果を表示する。
【0026】
次に、類似文書判定装置1の処理の流れについて説明する。
【0027】
図2は、本実施の形態における類似文書判定装置の処理の流れを示す説明図である。
【0028】
予め、比較対象文書を前処理部11へ入力し、比較対象文書の判定処理用データを判定処理用データ蓄積部13に蓄積させておく(ステップS11)。
【0029】
続いて、被判定文書が前処理部11へ入力されると、被判定文書を前処理して被判定文書の判定処理用データを類似判定処理部12へ送信する(ステップS12)。
【0030】
類似判定処理部12は、被判定文書の判定処理用データを受信すると、判定処理用データ蓄積部13から比較対象文書の判定処理用データを一つずつ読み出し、類似判定処理部12が保持する判定処理基準に基づき、被判定文書の判定処理用データと読み出した比較対象文書の判定処理用データを用いて類似判定処理を行う(ステップS13)。
【0031】
そして、出力部14が類似判定処理部の類似判定結果を表示する(ステップS14)。判定処理基準を満たす比較対象文書が存在した場合、つまり、被判定文書と同じ文書の可能性がある比較対象文書が存在する場合にその旨を出力する。
【0032】
次に、判定処理用データ、類似判定基準、類似判定処理について説明する。
【0033】
本実施の形態では、判定処理用データとして文書中の単語出現頻度を用いる。
【0034】
図3は、文書中に出現する単語の数を出現回数の多い順に並べたものである。単語は、前処理部11が形態素解析処理を行って抽出する。また、語尾や助動詞など、特定の文書のみに出現する傾向が少ないものについては除外するなどの付帯処理を行ってもよいし、出現回数が少ないものについては、判定処理用データから除外する付帯処理を行ってもよい。本実施の形態では、出現回数が1番多いものから、I番目のものまでを用いて判定処理を行う。もちろん、任意のp番目からq番目のデータを用いてもよいし、その組み合わせ(例えばp〜q,r〜s番目)とすることも可能である。これらp,q、もしくは、r,s等の情報を関係者間の機密情報とすることで、判定のしくみ自体が公のものとなった場合でも対処できる。また、これらp,q,r,s等の情報が露見した場合でも、再度、異なるそれらの情報を設定することで対処できる。
【0035】
判定処理用データとして単語出現頻度を用いた場合、以下のように類似判定処理を行う。
【0036】
被判定文書(d)の単語出現ベクトルNd、一つの比較対象文書(s)の単語出現ベクトルNsそれぞれを次式(1),(2)と定義する。
【0037】
d={ndi|i=1,...,I} ・・・(1)
s={nsi|i=1,...,I} ・・・(2)
次式(3)で表されるrdsが閾値th+,th-を用いた次式(4)を満たすとき、被判定文書(d)と比較対象文書(s)が同じ文書である可能性があると判定する。
【0038】
ds=Π(nsi/ndi),(i=1,...,I) ・・・(3)
1−th- ≦ rds < 1+th+ ・・・(4)
閾値th+,th-は、類似判定基準として類似判定処理部12に格納しておく。
【0039】
別の判定処理用データとして、文書中の段落数、文の数を用いることも可能である。この場合、比較対象文書から段落数、文の数を求めて判定処理用データとして判定処理用データ蓄積部13に蓄積しておき。被判定文書から段落数、文の数を求め、判定処理用データ蓄積部13に段落数、文の数が一致するものが存在するか否かを判定する。段落数、文の数が一致する比較対象文書が同じ文書である可能性があると判定する。
【0040】
もちろん、複数の判定処理を組み合わせて類似判定してもよい。
【0041】
以上説明したように、本実施の形態によれば、比較対象文書の判定処理用データを予め判定処理用データ蓄積部13に蓄積しておき、被判定文書を前処理部11へ入力して被判定文書の判定処理用データを生成し、類似判定処理部12が判定処理用データ蓄積部13から比較対象文書の判定処理用データを一つずつ読み出して被判定文書の判定処理用データと比較し、類似判定処理部12が保持する判定処理基準に基づいて類似判定処理を行うことにより、被判定文書が比較対象文書を改変したものであるか否かを判定することができる。判定処理用データとして文書中に現れる自立語のヒストグラムを用い、被判定文書と比較対象文書の単語出現回数の比の積が所定の範囲内である場合には、被判定文書と比較対象文書は類似すると判定する。あるいは、判定処理用データとして段落数、文の数を用い、これらの数が同一である場合には、被判定文書と比較対象文書は類似すると判定する。
【0042】
本実施の形態における類似書類判定装置は、特に、元の文書中の特定の固有名詞を一括置換するなどの安易な改変をした被判定文書を発見する場合に有効である。
【符号の説明】
【0043】
1…類似文書判定装置
11…前処理部
12…類似判定処理部
13…判定処理用データ蓄積部
14…出力部

【特許請求の範囲】
【請求項1】
文書を入力して当該文書を統計処理し、判定処理用データを得るステップと、
比較対象文書を統計処理して得られた比較対象文書の判定処理用データを蓄積する蓄積手段から読み出した前記比較対象文書の判定処理用データと判定対象文書を統計処理して得られた判定対象文書の判定処理用データとを判定基準に基づいて比較し、前記比較対象文書と前記判定対象文書が類似しているか否か判定するステップと、
を有することを特徴とする類似文書判定方法。
【請求項2】
前記判定処理用データは、前記文書中に現れる各自立語の出現頻度であり、
前記判定するステップは、前記比較対象文書と前記判定対象文書の自立語の出現頻度の順位毎の出現頻度の比の積が所定の範囲内である場合は、前記比較対象文書と前記判定対象文書が類似していると判定することを特徴とする請求項1記載の類似文書判定方法。
【請求項3】
前記判定処理用データは、前記文書の段落数、文の数であり、
前記判定するステップは、前記比較対象文書と前記判定対象文書の段落数、文の数が同じである場合は、前記比較対象文書と前記判定対象文書が類似していると判定することを特徴とする請求項1又は2に記載の類似文書判定方法。
【請求項4】
文書を入力して当該文書を統計処理し、判定処理用データを得る統計処理手段と、
前記統計処理手段により比較対象文書を統計処理して得られた比較対象文書の判定処理用データを蓄積する蓄積手段と、
前記統計処理手段により判定対象文書を統計処理して得られた判定対象文書の判定処理用データと前記蓄積手段から読み出した前記比較対象文書の判定処理用データとを判定基準に基づいて比較し、前記比較対象文書と前記判定対象文書が類似しているか否か判定する類似判定手段と、
を有することを特徴とする類似文書判定装置。
【請求項5】
前記判定処理用データは、前記文書中に現れる各自立語の出現頻度であり、
前記類似判定手段は、前記比較対象文書と前記判定対象文書の自立語の出現頻度の順位毎の出現頻度の比の積が所定の範囲内である場合は、前記比較対象文書と前記判定対象文書が類似していると判定することを特徴とする請求項4記載の類似文書判定装置。
【請求項6】
前記判定処理用データは、前記文書の段落数、文の数であり、
前記類似判定手段は、前記比較対象文書と前記判定対象文書の段落数、文の数が同じである場合は、前記比較対象文書と前記判定対象文書が類似していると判定することを特徴とする請求項4又は5に記載の類似文書判定装置。
【請求項7】
請求項1乃至3のいずれかに記載の類似文書判定方法をコンピュータに実行させることを特徴とする類似文書判定プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2012−164193(P2012−164193A)
【公開日】平成24年8月30日(2012.8.30)
【国際特許分類】
【出願番号】特願2011−24940(P2011−24940)
【出願日】平成23年2月8日(2011.2.8)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】