説明

非センシティブ節データベースを用いたカットアンドペースト攻撃検出システム

【課題】非センシティブ節しか含まない文書が含む文書として判別されないようにする。
【解決手段】センシティブ節を検出するためまず文書を受信して(500)その文書を複数の節に分解する(502)。次いで、その節が既知の非センシティブ節に該当するか否かを節毎に(504)且つ非センシティブ節データベースの検索(506)を通じ判別する(508)。該当すると判別された節には非センシティブとのマークを付与し(510)、それ以外の節についてはカットアンドペースト攻撃と覚しき節か否かを判別する(516)。該当する節をアドミニストレータに提出して(520)その節が非センシティブか否かの判断を仰ぎ(522)、アドミニストレータが非センシティブと判断した節を非センシティブ節データベースに登録する(524)。

【発明の詳細な説明】
【技術分野】
【0001】
本発明はコンテンツ検出システム、特に非センシティブ節データベース(non-sensitive passage database)の確立で性能を向上させたカットアンドペースト攻撃検出システム(cut-and-paste attack detection system)に関する。
【背景技術】
【0002】
トレードシークレット、非公開の有価証券報告書等の情報はその企業にとりセンシティブな(即ち機密又はそれに類する)情報である。そうしたセンシティブ情報を保護するため、企業内電子メールアカウントからの電子メール送信を監視し、カットアンドペースト攻撃を検出する自動システムが用いられることがある。カットアンドペースト攻撃とは、文書中のセンシティブな要素を「カット」し、別の文書に「ペースト」して持ち出すという攻撃である。不注意であれ故意であれ、送信されようとしている電子メールにセンシティブ要素が含まれている場合、カットアンドペースト攻撃検出システムではそのセンシティブ要素を認識することができ、またその旨を示すフラグをその送信メールに付すことができる。
【0003】
こうしたカットアンドペースト攻撃検出システムを適正に稼働させるためには、予め、センシティブ要素を認識できるようそのシステムを教育しておく必要がある。その教育に際しては、その企業でカットアンドペースト攻撃検出の責を負っている人物、例えばシステムアドミニストレータの手で、そのシステムに対し多数のセンシティブな文書を教師文書として供給する。システム側では、そのセンシティブ文書にハッシュ値生成等の手段でフィンガープリントを付与し、その文書フィンガープリントを保存する。教師文書のどの部分がセンシティブか、なぜセンシティブなのかについては何も情報が示されないため、このフィンガープリント付与は教師文書丸ごとに対し、或いは全ての段落又は文章に対し行われる。
【発明の概要】
【発明が解決しようとする課題】
【0004】
実稼働時には、このシステムは、送信メールのフィンガープリントを保存済の文書フィンガープリントと比較することによって、その送信メールにセンシティブ要素が含まれているか否かを判別する。教師文書内のどの節もセンシティブなものとして扱われるため、教師文書として使用されたセンシティブ文書から送信メールへとペーストされた段落なら、このやり方で漏れなく且つ効率的に検出することができる。同じコンテンツ又はトピックスが別々の語又は句、即ちある長さを有する別の節で表現されていても構わない。反面、このやり方には幾つかの問題点がある。例えば、自社のロゴ、自社のウェブサイトURL、自社が私企業であることを示す法律的難解定型句等といった定型表現を含む文書が、教師文書として使用されていた場合、送信メール中の定型表現に基づきカットアンドペースト攻撃検出が起動され、そのメールにフラグが付与されることとなる。このフラグ付与は不必要なばかりかその企業のリソースを大量に費消しかねないものである。フラグが付与された電子メールを送信しても安全性が損なわれないか否かを、システムアドミニストレータがマニュアルでチェックすることになりがちだからである。更に、教師文書中のどの部分がセンシティブであるかを知らされていないので、このシステムでは、それ以外の潜在的にセンシティブな文書や段落を察知することができない。従って、センシティブ文書内のセンシティブ節と非センシティブ節(例えば定型表現)を正確に弁別することができ、ひいては非センシティブ節しか含まない電子メールへの不要なフラグ付与を避けうるシステムが、いま求められているといえよう。
【課題を解決するための手段】
【0005】
ここに、本発明の一実施形態はセンシティブ節を検出するシステム乃至方法である。本実施形態では、その実稼働中に文書を受信して複数の節に分解し、次の諸動作をその節毎に実行する。即ち、その節が既知の非センシティブ節に該当するか否かを非センシティブ節データベースの検索を通じて判別し、該当すると判別された節に非センシティブとのマークを付与する一方、該当しないと判別された節についてはカットアンドペースト攻撃と覚しき節か否かを判別し、カットアンドペースト攻撃と覚しき節をアドミニストレータに提出してその節が非センシティブか否かの判断を仰ぎ、そしてアドミニストレータが非センシティブと判断した節を非センシティブ節データベースに登録する。
【0006】
本実施形態は、また、
・ アドミニストレータがセンシティブと判断した節をセンシティブ節データベースに登録する
・ 互いに組み合わせたときにセンシティブになる非センシティブ節の対を検出し、その対の非センシティブ節のうち一方が既にリリースされている場合に他方のリリースをブロックする
・ 対をなす非センシティブ節に基づきコーパスを検索することにより、その対についてのヒット数及びその対をなしている非センシティブ節それぞれについてのヒット数を調べた上で、それらの非センシティブ節を互いに組み合わせたときにセンシティブになるか否かを、その対についてのヒット数及びその対をなしている非センシティブ節それぞれについてのヒット数に基づき判別し、互いに組み合わせたときにセンシティブになると判別された対に係る非センシティブ節のうち一方が既にリリースされている場合に他方のリリースをブロックする
・ カットアンドペースト攻撃と覚しき諸節が非センシティブと判断された文書をリリースする
・ 非センシティブ節データベースがパブリックドメインにあるコンテンツを含む
・ 非センシティブ節データベースが、パブリックドメインにありその企業に関連する外部のウェブページ、マーケットブローチャ及びニュースレポートを含む
・ 既知の非センシティブ節に該当しないと判別された節にフィンガープリントを付与し、そのフィンガープリントを保存済の教師文書(群)のフィンガープリント(群)と比較することにより、その節がカットアンドペースト攻撃と覚しき節か否かを判別する
等の構成にすることができる。
【図面の簡単な説明】
【0007】
【図1】本発明の一実施形態に係るカットアンドペースト攻撃検出システムを稼働させうる情報処理環境の一例構成を示す図である。
【図2】カットアンドペースト攻撃検出システムを教育する手順を示すフローチャートである。
【図3】従来のカットアンドペースト攻撃検出システムにおけるカットアンドペースト攻撃検出手順を示すフローチャートである。
【図4】本発明の一実施形態に係るカットアンドペースト攻撃検出システムの構成を示すブロック図である。
【図5】本発明の一実施形態に係るカットアンドペースト攻撃検出手順を示すフローチャートである。
【図6】本発明の一実施形態に従い文書からカットアンドペースト攻撃を検出するのに使用可能な情報処理通信システムの一例を示す図である。
【発明を実施するための形態】
【0008】
本発明は、非センシティブ節データベースの検索でセンシティブ節を検出するカットアンドペースト攻撃検出システム又は方法として実施することができる。それらの実施形態では、実稼働中に文書を受信し、その文書内の個々の節を非センシティブ節データベースのコンテンツと比較する。次いで、その比較で“該当”と判別された個々の節にその旨のマークを付与する一方、同じ文書中の残りの節にフィンガープリントを付与する。更に、フィンガープリントが付与された節について、カットアンドペースト攻撃と覚しき節か否かを判別し、該当する節をアドミニストレータに提出して本当に非センシティブか否かの判断を仰ぐ。そして、アドミニストレータが非センシティブと判断した節を、非センシティブ節データベースに登録する。従って、非センシティブ節データベースには時間がたつにつれゆっくりとコンテンツが蓄積されていき、カットアンドペースト攻撃に係る誤警報が順調に少なくなっていく。即ち、これらの実施形態では、非センシティブ節データベースの維持、使用により、高いセンシティブ要素検出効率を実現することができる。
【0009】
図1に、本発明の一実施形態に係るカットアンドペースト攻撃検出サーバ102と連携する情報処理環境の例100を示す。この環境100にはカットアンドペースト攻撃検出サーバ102、ネットワーク104、複数個のユーザ端末106〜110、システムアドミニストレータ端末112、非センシティブ節データベース114及びセンシティブ節データベース118(図示せず)があり、そのネットワーク104はインターネット等、任意種類の有線又は無線通信チャネルで構成されている。
【0010】
カットアンドペースト攻撃検出サーバ102は、その稼働中に、個々のユーザ端末106〜110からネットワーク104上に送信される文書を受信し、その文書に含まれる個々の節を事前取得済の教師文書、非センシティブ節データベース114のコンテンツ並びにセンシティブ節データベース118のコンテンツと比較することにより、カットアンドペースト攻撃と覚しき節を検出する。サーバ102は、カットアンドペースト攻撃と覚しき節(多くの場合センシティブ節)にフラグを付与し、システムアドミニストレータ端末112に送信する。システムアドミニストレータ116は、送られてきたフラグ付の節を調べ、非センシティブと判断した場合はその節を非センシティブ節データベース114に、またセンシティブと判断した場合はセンシティブ節データベース118に登録させる。
【0011】
ユーザ端末106〜110は情報処理能力を有するノードであり、ネットワーク104を介したカットアンドペースト攻撃検出サーバ102との通信に使用できる通信機構を備えている限り、どのような構成でも構わない。例えば、パーソナルコンピュータ(PC)、ノートPC(laptop computer)、ワークステーション等、ネットワーク接続機能のある電子情報処理デバイスを使用するとよい。更に、ユーザ端末106〜110・ネットワーク104間の接続は有線接続でも無線接続でも構わない。
【0012】
同様に、カットアンドペースト攻撃検出サーバ102として機能するノードは、ユーザ端末106〜110に発するカットアンドペースト攻撃を検出する機能、例えば端末106発の送信メールからカットアンドペースト攻撃と覚しき要素を検出する機能を備えている限り、どのような構成でもよい。このサーバ102は、コンピュータのクラスタでもスタンドアロンのサーバでも構わない。
【0013】
システムアドミニストレータ端末112は、カットアンドペースト攻撃検出サーバ102にアクセスする際システムアドミニストレータ116が使用する端末である。アドミニストレータ116はサーバ102の維持及び教育に責任を負っており、その端末112は例えばサーバ102上に据わっている。
【0014】
非センシティブ節データベース114及びセンシティブ節データベース118は、揮発性又は不揮発性のストレージにデータを格納することができる限り、どのような種類のシステムでもよい。例えば、磁気方式、光方式、光磁気方式、フラッシュメモリ方式、バッテリバックアップメモリ方式等のシステムを使用することができる。また、これらのデータベース114,118は、スタンドアロンのデータベースとすることも、或いはカットアンドペースト攻撃検出サーバ102の一部とすることもできる。
【0015】
図2に、従来のカットアンドペースト攻撃検出システムにおける教育手順の流れを示す。この教育手順では、教師文書として使用するセンシティブ文書を受信し(動作200)、その文書を段落乃至所定長の節に分解する(動作202)。次いで、それらの段落乃至節に基づきその文書にフィンガープリントを付与する(動作204)。付与するフィンガープリントは例えば節に基づくハッシュ値計算で生成する。そして、そのフィンガープリントを保存して(動作206)次の教師文書を受信する(動作200)。
【0016】
図3に、従来のカットアンドペースト攻撃検出システムにおけるカットアンドペースト攻撃検出手順の流れを示す。この検出手順では、文書を受信し(動作300)、その文書を段落乃至所定長の節に分解する(動作302)。次いで、それらの段落乃至節に基づきその文書にフィンガープリントを付与し(動作304)、そのフィンガープリントを教師文書から取得・保存済のフィンガープリントと比較する(動作306)。そして、それら新規取得のフィンガープリントと保存されているフィンガープリントとの間に重複があるか否かを判別する(動作308)。重複がある場合はセンシティブ要素を含む旨のフラグをその文書に付与し(動作310)、そうでなければその文書をリリースする(動作312)。
【0017】
図2及び図3から読み取れるように、定型表現を含め教師文書内の全節にフィンガープリントを付与するのでは、受信した文書にセンシティブ要素が全く含まれていない場合でも、その受信文書と教師文書との間にフィンガープリントの重複が発生する可能性がある。例えば、教師文書として使用したセンシティブ文書に自社ウェブサイトのURLが含まれていた場合、送信する電子メールにそのURLが記されていると、そのメールによってカットアンドペースト攻撃検出システムによるフラグ付与が引き起こされることがある。そのため、このシステムでは、攻撃ではないものが攻撃として多量に検出される現象が頻発する可能性がある。
【0018】
こうした不要なフラグ付けを回避し、システムのカットアンドペースト攻撃検出能力を確保するため、本発明では、例えば、非センシティブ節データベースを確立してそこに既知の非センシティブ節を登録する。受信した文書をそのデータベース上の既知非センシティブ節と比較することで、不要なフラグ付けを減らすことができる。なお、本願では「データベース」なる語を広義に使用している。非センシティブ節データベースは非センシティブであることがはっきりしている節のリストであり、その格納先はどのような種類のメモリ乃至ストレージデバイスでも構わない。その非センシティブ節リストは索引付でも索引無しでもよい。また、本願では、「節」なる語を、数字、文字(列)、語、句、ハイパーリンク、文章、段落、図、写真等、様々な文書構成要素を包含する意味で使用している。
【0019】
図4に、本発明の一実施形態に係るカットアンドペースト攻撃検出システム400のブロック構成を示す。このシステム400は文書受信機構404、分解機構406、検索機構408、非センシティブ節データベース410、マーク機構412、フィンガープリント機構414、検出機構416及び提出機構418を有している。実稼働中、文書受信機構404は文書402を受信して分解機構406に供給し、分解機構406はコンテキスト情報に基づきその文書402を複数個の節に分解する。検索機構408は、データベース410の検索を通じ、その文書402に含まれる個々の節とデータベース410のコンテンツとの間に重複があるか否かを調べる。その重複が見つかった場合、マーク機構412は、その文書402内の該当する節に非センシティブとのマークを付与する。フィンガープリント機構414はその文書402内の非マーク部分にフィンガープリントを付与して検出機構416に供給し、検出機構416はカットアンドペースト攻撃と覚しき節の検出を試みる。該当する節が検出された場合、提出機構418はその節をシステムアドミニストレータ420に提出し、アドミニストレータ420はその節を調べセンシティブかそれとも非センシティブかを判断する。提出された節のうちアドミニストレータ420が非センシティブと判断したものはデータベース410に登録される。
【0020】
図5に、本発明の一実施形態に係るカットアンドペースト攻撃検出手順の流れを示す。実稼働中、本手順では、文書を受信して(動作500)複数の節に分解する(動作502)。文書をどの程度の長さの節に分解するかは任意であり、例えば複数の段落に分解する、複数の文章に分解する等々、任意の細かさで分解することができる。本手順では、続いて、節毎に(動作504)動作508〜512を実行する。即ち、その節に基づき非センシティブ節データベースを検索し(動作506)、そのデータベース上に該当する節が見つかった節に(動作508)非センシティブとのマークを付与する(動作510)、という動作を、その文書の最後の節に至ったと判別されるまで繰り返す(動作512)。
【0021】
この判別によって全節検索終了と判明した後、本手順では、文書中の非マーク部分にフィンガープリントを付与し(動作514)、カットアンドペースト攻撃と覚しき節か否かを判別する(動作516)。この判別には、図3に示したカットアンドペースト攻撃検出方式又はそれに類する方式を使用することができる。カットアンドペースト攻撃と覚しき節が見つからなかった場合はその文書をリリースする(動作518)。リリースとは、その文書(送信メール)の配信を認める、その文書(記事)を自社の公衆向けウェブサイトに掲載することを認める、等といったことである。逆に、カットアンドペースト攻撃と覚しき節が見つかった場合、その節又はその節を含む文書全体をシステムアドミニストレータに提出する(動作520)。システムアドミニストレータは、多くの場合、その企業でセンシティブ情報の防衛に責任を負っている人物のことである。
【0022】
システムアドミニストレータは、カットアンドペースト攻撃と覚しき節であるとのフラグが付いた節が提出された場合(動作520)、その節が確かにセンシティブであるか否かを判断する(動作522)。システムアドミニストレータによってさほどセンシティブではないと判断された場合、その節を非センシティブ節データベースに登録する(動作524)。従って、カットアンドペースト攻撃と覚しき節が定型表現内の節等である場合、システムアドミニストレータによる判断を経てその節が難なく非センシティブ節データベースに登録されるため、その節による誤警報の発生をその時点以降は回避することができる。また、節のセンシティブさは時間と共に変化するものである。例えば企業の有価証券報告書は、公表前は大抵はセンシティブであり、その報告書から直にコンテンツをカットアンドペーストすることは従って攻撃に該当するが、一旦公表されてしまったらもはやセンシティブとはいえなくなる。こうした公表済報告書のコンテンツによる誤警報を防ぐ手段としては、もはやセンシティブといえなくなった情報をシステムアドミニストレータが適切なタイミングで非センシティブ節データベースに登録する、という手段を執ることができる。非センシティブ節データベースへの節の登録は、システムアドミニストレータによるマニュアル操作で行うこともできる。いずれ非センシティブになるであろう節に相応の索引を付しておき、時季が来たらその節を非センシティブ節データベースに自動登録することでも、それを行うことができる。非センシティブ節データベースに非センシティブ節を登録する際には、その登録を認めたアドミニストレータの名前とその登録の日付を、その節と共にそのデータベースに登録しておくとよい。
【0023】
逆に、そのフラグ付の節が確かにセンシティブであるとシステムアドミニストレータが判断した場合、その文書をブロックして(動作526)該当する節をセンシティブ節データベースに登録する(動作530;図示せず)。このとき、その企業のポリシーに基づき、必要なセキュリティ強化策を講ずることができる。例えば、セキュリティ侵害であることを示すためその電子メールを送信元に返送してもよい。或いは、その電子メールを送信元への通知抜きで破棄してしまってもよい。そして、システムアドミニストレータは、そのフラグ付の節が判断対象となる最後の節であるか否かを判別する(動作532;図示せず)。そうでない場合、フラグの付いている次の節を対象とした判断に移行する(動作522)。
【0024】
こうした手順では、そのコンテンツが時間を追って増えていくため、非センシティブ節データベースが最初は空であっても構わない。初期的に何らかの節を非センシティブ節データベースに登録したければ、その企業に関する公開素材に含まれる非センシティブ節を抽出して登録すればよい。使用できる公開素材としては、例えばその企業の公衆向けウェブサイト、マーケットブローチャ、その企業に関するニュースレポート等に掲載されている素材がある。常用される法律的文言等、既知の定型表現も非センシティブ節データベースに初期登録することができる。いずれにせよ、最初のうちは非センシティブ節データベースが空に近いため、システム上で多数の誤警報が発生する可能性がある。しかし、その誤警報を引き起こした節が、逐次、その非センシティブ節データベースに登録されていくため、同じ節による誤警報が再び生じることはない。こうして非センシティブ節データベースのコンテンツが充実するにつれ、誤警報(ファルスポジティブ)の頻度は低下していく。
【0025】
システム上で保持するのが望ましいデータベースとしては、こうした非センシティブ節データベースのほかにセンシティブ節データベースがある。例えば、カットアンドペースト攻撃と覚しきものと判別された節のうち、システムアドミニストレータがセンシティブであると判断したものを、そのセンシティブ節データベースに登録する。カットアンドペースト攻撃検出システムに既知センシティブ節のリストと既知非センシティブ節のリストを共に保持させることで、誤警報を多々発生させることなく効率的に攻撃を検出することができる。更に、保持されている既知センシティブ節リストに基づき、センシティブである可能性のある別の企業内文書を識別することもできる。例えば、その既知センシティブ節と全く同じ節を含む企業内文書や、その既知センシティブ節と同じセンシティブキーワードを共有する企業内文書である。センシティブキーワードはTF−IDF(term frequency・inverse document frequency)やウェブ利用推論によって判別することができる。これについては米国特許出願第12/208091号(名称:文書内センシティブコンテンツ検出方法及び装置(Method and Apparatus for Detecting Sensitive Content in a Document),発明者:Jessica N. Staddon,出願日:2008年9月10日,この参照を以て本願に繰り入れることとする)の記載も参照されたい。この識別で見つかった文書、即ちセンシティブな文書と意味的な連関がありやはりセンシティブでありそうな別の文書は、例えば、システムアドミニストレータに提出し、その文書をそのシステムによるカットアンドペースト攻撃検出対象文書群に含めるべきか否かの判断を仰ぐ。
【0026】
また、本発明に係るシステムは、非センシティブ節に関する知識をトピックスの検出結果と併用し、センシティブさに対するリリース履歴の影響を踏まえユーザに警告してコンテンツ監視精度を向上させる構成とすることもできる。例えば、トピックス(又は節)Aとトピックス(又は節)Bが共に非センシティブであると判っているものとする。この場合に、それらトピックスA,Bの組合せに基づきウェブ等の大規模コーパスを検索してその組合せがセンシティブであるか否かを判別する構成である。この構成では、トピックスAについての文書をリリースしようとしているときに、トピックスBについての文書が既にリリースされているか否かをシステム側で判別し、後者が既にリリースされれている場合に前者のリリースをブロック(阻止)することができる。また、トピックスA,Bの組合せがセンシティブであるか否かの判別は、トピックスA単独での検索、トピックスB単独での検索、並びにトピックスA,Bの組合せでの検索をシステム側で行い、それら三通りの検索におけるヒット数を相互比較することで行うことができる。例えば、組合せでのヒット数がトピックスA又はB単独でのヒット数に比べて顕著に少ない場合(例えばその比が所定のしきい値未満である場合)に、トピックスA,Bの組合せがセンシティブであると判別する。
【0027】
更に、非センシティブ節と判明した節及びセンシティブ節と判明した節を徐々に蓄積していくことは、カットアンドペースト攻撃検出システムの性能向上をもたらすだけではない。その蓄積を利用し他のセンシティブ情報検出システムの性能を向上させることもできる。例えば、非センシティブ節と判明した節及びセンシティブ節と判明した節を多数のセンシティブ文書と併用することで、他のセンシティブ情報検出システムに対し、より正確な教師情報を提供することができる。センシティブ情報検出アルゴリズムの多くは大規模名詞群の解析を伴っているので、非センシティブ節にしか関係しない名詞群をその教師情報に従い無視させることで、そのアルゴリズムの性能を大きく向上させることができる。
【0028】
図6に、本発明の一実施形態に従いカットアンドペースト攻撃を検出するのに使用可能な情報処理通信システムの例600を示す。このシステム600はプロセッサ602、メモリ604及びストレージデバイス606を備えている。そのストレージデバイス606上には、カットアンドペースト攻撃検出アプリケーション608がほかのアプリケーション610,612等と共に格納されている。稼働時には、そのカットアンドペースト攻撃検出アプリケーション608をストレージデバイス606からメモリ604へとロードし、メモリ604上のアプリケーション608をプロセッサ602で実行する。そのプログラムを実行している間、プロセッサ602は上掲の諸機能を発揮する。このシステム600には、更に、ディスプレイ614、キーボード616及びポインティングデバイス618を接続することができる。
【符号の説明】
【0029】
100 情報処理環境、102 カットアンドペースト攻撃検出サーバ、104 ネットワーク、106〜110 ユーザ端末、112 システムアドミニストレータ端末、114,410 非センシティブ節データベース、116,420 システムアドミニストレータ、200〜206,300〜312,500〜526 動作、400 カットアンドペースト攻撃検出システム、402 文書、404 文書受信機構、406 分解機構、408 検索機構、412 マーク機構、414 フィンガープリント機構、416 検出機構、418 提出機構、600 情報処理通信システム、602 プロセッサ、604 メモリ、606 ストレージデバイス、608 カットアンドペースト攻撃検出アプリケーション、610,612 アプリケーション、614 ディスプレイ、616 キーボード、618 ポインティングデバイス。

【特許請求の範囲】
【請求項1】
センシティブ節を検出する方法であって、
文書を受信するステップと、
その文書を複数の節に分解するステップと、
その節が既知の非センシティブ節に該当するか否かを節毎に且つ非センシティブ節データベースの検索を通じ判別するステップと、
既知の非センシティブ節に該当すると判別された節に非センシティブとのマークを付与するステップと、
既知の非センシティブ節に該当しないと判別された節のうちカットアンドペースト攻撃と覚しきものを判別するステップと、
カットアンドペースト攻撃と覚しきものと判別された節をアドミニストレータに提出してその節が非センシティブか否かの判断を仰ぐステップと、
アドミニストレータが非センシティブと判断した節を非センシティブ節データベースに登録するステップと、
を有し、コンピュータ上で実行可能な方法。
【請求項2】
請求項1記載の方法であって、更に、アドミニストレータがセンシティブと判断した節をセンシティブ節データベースに登録するステップを有する方法。
【請求項3】
請求項1記載の方法であって、更に、
互いに組み合わせたときにセンシティブになる非センシティブ節の対を検出するステップと、
その対の非センシティブ節のうち一方が既にリリースされている場合に他方のリリースをブロックするステップと、
を有する方法。
【請求項4】
請求項3記載の方法であって、互いに組み合わせたときにセンシティブになる非センシティブ節の対を検出するステップが、
その対の非センシティブ節に基づきコーパスを検索することにより、その対についてのヒット数及びその対をなしている非センシティブ節それぞれについてのヒット数を調べるステップと、
それらの非センシティブ節を互いに組み合わせたときにセンシティブになるか否かを、その対についてのヒット数及びその対をなしている非センシティブ節それぞれについてのヒット数に基づき判別するステップと、
を含む方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2011−44141(P2011−44141A)
【公開日】平成23年3月3日(2011.3.3)
【国際特許分類】
【出願番号】特願2010−182010(P2010−182010)
【出願日】平成22年8月17日(2010.8.17)
【出願人】(502096543)パロ・アルト・リサーチ・センター・インコーポレーテッド (393)
【氏名又は名称原語表記】Palo Alto Research Center Incorporated
【Fターム(参考)】