説明

情報漏洩予測方法

【課題】電子メールによる情報漏洩リスクを具体的に予測し、リスクの高い従業員若しくは部署を特定することができる情報漏洩予測方法を提供する。
【解決手段】ローカルエリアネットワーク内からサンプルデータを抽出して現状分析処理が実行され(ステップS1)、この現状分析処理における多変量解析により判定式が得られる(ステップS2)。予測処理を行うタイミングである場合(ステップS4でYES)、ローカルエリアネットワーク内から判定用データを取得し、データ解析により説明変数値を取得し、前記判定式に説明変数を適用して予測処理が実行される(ステップS5)。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、例えば企業の機密情報が、電子メールを通して外部に漏洩することを未然に防止できるようにするための情報漏洩予測方法に関する。
【背景技術】
【0002】
企業等においては、電子メールを介して機密情報が外部に漏洩してしまうことを未然に防止できる有効な対策を取る必要がある。電子メールによる機密情報漏洩は、意図的に為されることは極めて稀であり、むしろ従業員等の不注意で偶発的に生じることが多い。企業情報、顧客情報或いは従業員の個人情報、ノウハウなどが、不用意に発信された電子メールから漏洩してしまうケースが少なくない。セキュリティ教育を従業員に定期的に実施したとしても、全従業員にセキュリティ意識を常時高いレベルに維持させるのは困難である。
【0003】
このような情報漏洩の防止策としては、メール送信時におけるデータの暗号化や送信ログの管理が一般的である。データの暗号化は、電子メールの添付ファイルを暗号化する手法であるが、メール本文については暗号化できないという問題がある。送信ログの管理は、情報流出経路の特定には寄与するが、事後対応策にすぎず、偶発的な情報漏洩の未然防止にはさほど寄与しない。
【0004】
この他、電子メールの送信内容を機械的にチェックする手法も提案されている(例えば特許文献1)。この手法は、電子メールの送信文の中に機密情報に関連する用語が含まれているか否かを、社内ネットワークシステムにおいてチェックし、そのような機密用語が含まれている場合にはシステム側でメール送信を留保するというものである。しかしながら、そもそも全ての機密用語を網羅し、システム側でチェックすること自体が大きな困難性を伴う。また、システム側のチェック任せの体制にすることで、従業員のセキュリティ意識が低下するという懸念もある。
【特許文献1】特開2007−200276号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
上述したように、電子メールによる偶発的な機密情報漏洩は、メール送信時のシステム面での対策やセキュリティ教育だけでは充分に抑止することができない。
【0006】
本発明は、この問題に鑑みてなされたもので、個々の従業員(プレイヤ)、乃至は従業員が所属する部署単位で、情報漏洩リスクを具体的に予測し、リスクの高い従業員若しくは部署を特定することができる情報漏洩予測方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明の一の局面に係る情報漏洩予測方法は、多数のプレイヤが所属するローカルエリア内で運営されている第1ネットワーク内の端末機から、電子メールにて前記ローカルエリア外の第2ネットワークへ機密情報を漏洩させる危険性の高いプレイヤ又はプレイヤグループを予測する方法であって、前記第1ネットワーク内で生成された各種データの中から所定数のサンプルデータを抽出し、前記サンプルデータを解析して所定の第1解析データを抽出し、該第1解析データに基づいて数量化された複数の変数からなる第1変数群を導出し、前記第1変数群を用いて多変量解析を行うことで、機密情報漏洩の危険性を数値判定するための判定式を求め、前記第1ネットワーク内で生成された各種データの中から、プレイヤ毎又はプレイヤグループ毎に解析対象となる判定用データを抽出し、前記判定用データを解析して所定の第2解析データを抽出し、該第2解析データに基づいて数量化された複数の変数からなる第2変数群を導出し、前記第2変数群を前記判定式に適用することで、プレイヤ毎又はプレイヤグループ毎に電子メールによる機密情報漏洩の危険度を数値的に予測することを特徴とする(請求項1)。
【0008】
この方法によれば、サンプルデータを解析して得られた第1変数群を用いて多変量解析を行うことで、機密情報漏洩の危険性を数値判定するための判定式が導出される。以降、プレイヤ毎又はプレイヤグループ毎に判定用データを適時抽出して第2変数群を導出し、これを前記判定式に適用することで、プレイヤ毎又はプレイヤグループ毎に機密情報漏洩の危険度を数値的に求めることができる。すなわち、情報漏洩リスクをプレイヤ毎又はプレイヤグループ毎に具体的に予測することができる。
【0009】
上記構成において、情報漏洩に連関する原因事象となると想定される定義を予め定めておき、前記多変量解析は、目的変数と説明変数との間に前記判定式を当て嵌める解析であって、前記第1解析データ中における前記定義に合致するデータの件数を前記目的変数として行い、前記第2変数群は前記説明変数であって、該説明変数を前記判定式に適用して得られる目的変数が、前記危険度の予測数値とされることが望ましい(請求項2)。
【0010】
この方法によれば、サンプルデータの解析によって目的変数と説明変数とを定めて判定式が導出されるが、この際、前記目的変数は情報漏洩に連関する原因事象となると想定される定義に合致するデータの件数とされる。つまり、情報漏洩に繋がり易い因子を含むデータの件数が目的変数とされる。従って、判定用データを解析して説明変数を導出し、これを前記判定式に適用することで、情報漏洩の危険度をプレイヤ毎又はプレイヤグループ毎に目的変数として算出することができる。
【0011】
この場合、所定の時間長さを有する期間を第1の期間とし、前記第1の期間よりも時間的に前の期間を第2の期間とする場合において、前記第2の期間の後、第1の期間の開始前に、前記第1の期間内において生成された前記判定用データから得られた前記第2変数群を、前記判定式に適用して得られた前記予測数値と、前記第2の期間内において生成された前記判定用データから得られた前記第2解析データのうち、前記定義に合致するデータの件数である実績値と、を求め、前記予測数値と前記実績値との差異に基づいて、前記第1の期間内における前記危険度を評価することが望ましい(請求項3)。
【0012】
この方法によれば、例えば1日、1週間又は1月の単位期間(第2の期間)で実績値を求めると共に、その翌日、翌週又は翌月(第1の期間)の予測数値を求め、この予測数値と前記実績値との差分がどの程度であるかによって、翌日、翌週又は翌月の危険度を評価することができる。
【0013】
上記いずれかの方法において、前記サンプルデータは、前記プレイヤの電子メールデータ、前記端末機の使用履歴データ、前記第2ネットワークを介した外部サーバへのアクセスデータ及び勤務データを含むことが望ましい(請求項4)。
【発明の効果】
【0014】
本発明の情報漏洩予測方法によれば、プレイヤ毎又はプレイヤグループ毎に機密情報漏洩の危険度を数値的に求め、予測することができる。従って、この予測結果に基づきプレイヤ又はプレイヤグループ或いはその管理者に注意喚起(危険予知)することで、不注意による偶発的な情報漏洩メールの発信を未然に抑止することが可能となる。
【発明を実施するための最良の形態】
【0015】
以下、図面に基づいて、本発明の実施形態につき説明する。図1は、本発明に係る情報漏洩予測方法を実施するためのネットワークシステムSのハードウェア構成を概略的に示す構成図である。このネットワークシステムSは、例えば一つの企業内又は事業所内といったローカルエリア内で運営されているネットワーク(第1ネットワーク)に組み込まれるシステムである。インターネットINを介して、ネットワークシステムSは外部ネットワーク(第2ネットワーク)とデータ通信可能に接続されている。
【0016】
ネットワークシステムSは、管理サーバ10と、解析処理装置20と、端末機P1、P2、P3、P4、P5、P6、P7・・・とを含む。管理サーバ10は、ローカルエリア内で生成される各種データの処理並びに管理を行うためのサーバである。解析処理装置20は、端末機P1〜P7から電子メールにて外部ネットワークへ機密情報を漏洩させる危険性を予測するための各種の処理を行う。この解析処理装置20は、この予測処理等を行うCPU(中央演算処理装置)を備えたコンピュータ装置である。
【0017】
端末機P1〜P7は、例えば管理サーバ10に接続されたパーソナルコンピュータであり、企業内又は事業所内の従業員等(プレイヤ)に割り当てられた端末機である。これら端末機P1〜P7は、管理サーバ10及びインターネットINを介して、外部ネットワークに接続されている端末機と電子メールの送受信が可能とされている。本実施形態では、端末機P1、P2、P3が第1部署PG1(プレイヤグループ)に所属し、端末機P4、P5、P6が第2部署PG2に所属しているものとする。
【0018】
管理サーバ10には各種データを保管するためのファイルサーバ100が接続されている(或いは記憶領域が備えられている)。ここでは、ファイルサーバ100に格納されるデータとして、メールデータ11、PC履歴データ12、Webアクセスデータ13、オフィスデータ14及び研修受講データ15が備えられている例を示している。
【0019】
メールデータ11は、端末機P1〜P7から発信された電子メールに関連するデータであって、例えばタイトル及びメール本文の文書データ、添付ファイルの文書データ、送信元アドレス、送信先アドレスなどの書式データ等が含まれる。PC履歴データ12は、端末機P1〜P7の各々が使用された時間帯、アプリケーションの使用時間帯、それら端末機の機械番号などの、使用履歴に関連するデータである。Webアクセスデータ13は、各種サイトへのアクセス数、社内規則等でアクセスが禁止されている禁止サイトへのアクセス数などのデータである。
【0020】
オフィスデータ14は、従業員各々の属性データや勤務データであり、例えば従業員番号、所属コード、役職コード、年齢、勤続年数、現職場勤務月数、日帰り出張回数、宿泊出張回数、旅費精算額、休暇残日数、時間外数などのデータである。研修受講データ15は、情報セキュリティ教育の受講状況に関連したデータであって、例えばセキュリティ研修の受講時間、セキュリティ研修におけるテスト結果及びその従業員番号などのデータである。
【0021】
続いて、解析処理装置20について詳述する。図2は、解析処理装置20の機能構成を示す機能ブロック図である。前記CPU等は、機密情報漏洩の危険度を予測するべくプログラミングされたソフトウェアが実行されることで、図2に示す機能部を具備するように動作する。解析処理装置20は、機能的に、データ抽出部21、データ集約部22、データ解析部23、解析データ統合部24、ファイル作成部25、多変量解析部26、リスク判定部27及び表示・出力部28を備えている。また、解析処理装置20は複数の記憶領域を備えており、これら記憶領域には用語テーブル291、ワークファイル292、多変量解析部ファイル293、判定式データ294及びリスク判定用ファイル295が格納されている。
【0022】
解析処理装置20は、大別して次の2つの処理を行う。第1に、ネットワークシステムSで過去に生成された各種データの中から所定数のサンプルデータを抽出し、該サンプルデータを解析して変数群(第1変数群)を導出し、この第1変数群を用いて多変量解析を行うことで、機密情報漏洩の危険性を数値判定するための判定式を求める処理を行う(以下、「現状分析処理」という)。第2に、ネットワークシステムSで日々生成される各種データの中から、従業員毎又は部署毎(端末機P1〜P7・・・毎又は部署PG1、PG2・・・毎)に解析対象となる判定用データを抽出し、該判定用データを解析して変数群(第2変数群)を導出し、この第2変数群を前記現状分析処理で得られた判定式に適用することで、従業員毎又は部署毎にプレイヤ毎に、電子メールによる機密情報漏洩の危険度を数値的に予測する処理を行う(以下、「予測処理」という)。前記現状分析処理は、危険度予測のための準備的な一時処理である。一方、前記予測処理は、例えば、日、週或いは月単位で行われる恒常処理である。
【0023】
データ抽出部21は、ネットワークシステムS内から、現状分析処理に際しては多変量解析に必要なサンプルデータを抽出し、予測処理に際しては判定用データを抽出する。サンプルデータ数は、多変量解析で有意な結果が得られるように可及的に多人数分を抽出することが望ましい。判定用データは、危険度予測の対象となる全従業員分が抽出されることになる。
【0024】
本実施形態では、データ抽出部21は、ファイルサーバ100(図1参照)から、メールデータ11、PC履歴データ12、Webアクセスデータ13、オフィスデータ14及び研修受講データ15を抽出する。ここで抽出されるデータ11〜15は、各々の本データのフォーマットと同一のレイアウトの状態である。
【0025】
データ集約部22は、データ抽出部21で抽出された各種のデータ11〜15を、所定の集約単位で集約する処理を行う。データ11〜15は、日々発生する都度、ファイルサーバ100に記録されるため、同一従業員のレコードや同一端末機のレコードが同一ファイル内に複数散在している。データ集約部22は、このような散在したデータを、例えば従業員単位或いは端末機P1〜P7単位で集約する。
【0026】
データ解析部23は、データ抽出部21で抽出された各種のデータ11〜15を解析する処理を行うもので、第1データ解析部231と、第2データ解析部232とを含む。第1データ解析部231は、上記現状分析処理に際して、取得されたサンプルデータを解析して数値化可能なデータ(第1解析データ)を抽出する。第2データ解析部232は、上記予測処理に際して、取得された判定用データを解析して数値化可能なデータ(第2解析データ)を抽出する。説明の都合上、第2データ解析部232については後記で説明するものとする。
【0027】
第1データ解析部231は、メールデータ11に含まれるメール本文の文書データ及びメール添付ファイルの文書データに対しては、形態素解析を実施して文書を単語単位に分割する処理を行うと共に、用語テーブル291を参照して登録されている単語の出現頻度を算出する。なお、形態素解析を正常に行い得るようにするために、文書データから解析に不要な文字、記号等を削除すると共に、全角・半角文字の統一等を行う正規化処理が実行される。
【0028】
用語テーブル291には、予め作成された各種の用語テーブルが格納されている。これらの用語テーブルは、情報漏洩に繋がる危険性を帯びた用語群からなるテーブルである。企業等で実際に発生した情報漏洩メールの件数は非常に少なく、統計的に有意な解析を行うサンプル数を収集することは実質的に不可能である。そこで、情報漏洩メールの一歩手前の危険な記載内容(単語)を含む電子メール(以下、準情報漏洩メール)の発生件数を予測するものとし、そのような単語を特定するために用語テーブル291が備えられている。用語テーブル291としては、例えば、機密を表す用語群からなる「機密用語テーブル」、個人情報に関連する用語群からなる「個人情報関連用語テーブル」、金額に関連する用語群からなる「金銭用語テーブル」、プライベートな事象等の業務とおよそ無関係な用語群からなる「業務外用語テーブル」などを例示することができる。
【0029】
図3は、「準情報漏洩」の定義(情報漏洩に連関する原因事象の定義)の一例を示す表形式の図である。ここでは、社外向けに発信された電子メールの送信アドレス数、並びに、メール本文の文書データ及び該メールに添付され暗号化処理が施されていない添付ファイルの文書データに、「機密を表す単語」、「個人情報に関する記述」、「金額に関する記述」が含まれているか否かを要素として、パターン1〜15からなる15の準情報漏洩メールのパターンを類型化している例を示している。
【0030】
「機密を表す単語」は、上記「機密用語テーブル」に記録されている単語であり、例えば「社外秘」「秘文書」という類の単語である。図3では、この種の「機密を表す単語」が、メール本文又は添付ファイルに1つ以上記述されている場合を、「○」と扱っている。「個人情報に関する記述」は、上記「個人情報関連用語テーブル」を参照して特定されるものであって、具体的には「個人情報に関する単語」、「個人名」である。前者は、例えば「お客様情報」「営業情報」などの単語であり、後者は個人の苗字と類推される単語である。ここでは、「個人情報に関する単語」がメール本文又は添付ファイルに1つ以上記述されている場合を「○」と扱い、「個人名」については15個以上記述されている場合を「○」と扱っている。
【0031】
「金額に関する記述」は、上記「金銭用語テーブル」を参照して特定されるものであって、具体的には「金額に関する単語」、「金額」である。前者は、「契約金額」「営業情報」「請求書」などの単語であり、後者は「円」「¥」「ドル」「$」等の金額単位の単語である。ここでは、「金額に関する単語」、「金額」がメール本文又は添付ファイルに1つ以上記述されている場合を「○」と扱っている。なお、送信アドレス数については、10アドレス以上の宛先を持つ電子メールを「○」と扱っている。
【0032】
例えば準情報漏洩メールのパターン1は、送信アドレス数が10以上であり、「機密を表す単語」及び「個人情報に関する単語」が1つ以上記述され、苗字と類推される単語が15個以上含まれているメールである。パターン2〜14は、パターン1と選択している項目が各々異なるパターンであり、それぞれ「○」が付されている条件を全て満たすメールである。パターン15は、全項目に該当するメールである。第1データ解析部231は、パターン1〜15に各々当て嵌まる準情報漏洩メールを特定し、従業員の属性情報(従業員番号や所属コード)に関連付けてワークファイル292に記録する。この準情報漏洩メールの件数データは、後段で行われる多変量解析処理の際の目的変数として用いられる。
【0033】
この他、第1データ解析部231は、準情報漏洩メールの発生に影響を与えると一応考えられる数値データを抽出する。例えば、メールデータ11から図3の例で示した送信先アドレス数、PC履歴データ12から端末機P1〜P7の利用時間帯、Webアクセスデータ13から禁止サイトへのアクセス数、オフィスデータ14から現職場勤務月数や時間外数などの数値データを抽出する。
【0034】
送信先アドレス数(一斉送信数)が多い程、一般に情報漏洩リスクが高いということができる。人目の少ない深夜や休日に端末機の利用機会が多い従業員、禁止サイトへのアクセス数が多い従業員も、一般に情報漏洩リスクが高いといえる。さらに、同じ職場へ長く勤務していることや時間外数が多いこともまた、情報漏洩リスクに何らかの因果関係があり得ると想定される。このような想定に鑑み、上記の数値データが選ばれている。なお、これら数値データは、情報漏洩リスクとの因果関係が検証されている必要はなく、一応の連関性が予測される程度の数値データで良い。このような数値データも、従業員の属性情報に関連付けてワークファイル292に記録される。かかる数値データは、多変量解析処理の際の説明変数として用いられる。
【0035】
解析データ統合部24は、現状分析処理において、ワークファイル292に記録された各種のデータを、従業員の属性情報を用いて従業員毎に統合する処理を行う。これにより、従業員毎に、上記パターン1〜15に各々当て嵌まる準情報漏洩メールの件数データを目的変数群(第1変数群)として、前記数値データの累積値等を説明変数群(第2変数群)として導出できるようになる。
【0036】
ファイル作成部25は、現状分析処理において、解析データ統合部24にて従業員毎に統合された目的変数群及び説明変数群を用いて、多変量解析のためのファイルを作成する。図4は、多変量解析用ファイルのレイアウト例を示す表形式の図である。ここでは、従業員番号が「603」、所属コードが「10221」の従業員について、目的変数として、図3に示したパターン1〜15に該当する電子メールの発信件数が記述され、前記数値データの累積値等からなる複数の説明変数がA〜J・・・欄に記述されている例を示している。このようにして作成されたデータファイルは、多変量解析用ファイル293として解析処理装置20の記憶領域に記録される。なお、実際の多変量解析において、パターン1〜15のうち、どれを準情報漏洩メールのパターンとして採用するかは任意である。
【0037】
多変量解析部26は、多変量解析用ファイル293に含まれる変数群を用いて多変量解析を行うことで、従業員毎又は部署毎に、準情報漏洩メールの発生(機密情報漏洩の危険性)を数値的に予測する判定式を求める。この際、目的変数と説明変数の組み合わせの相関式の中から、多重共線性等が発生しない有意な相関式の中で、最も自由度修正済み決定係数等が高い、つまり最も精度が高い相関式が求められる。なお、多変量解析の手法としては、例えば重回帰分析、判別分析、数量化I類、数量化II類などを採用することができる。求められた判定式は、判定式データ294として解析処理装置20の記憶領域に記録される。以上が、現状分析処理における解析処理装置20の機能構成である。
【0038】
次いで、予測処理における解析処理装置20の機能構成について説明する。この予測処理では、データ解析部23の第2データ解析部232が機能する。本実施形態では、第2データ解析部232は次の2種のデータを作成する。第1のデータは、準情報漏洩メールの発生件数の予測のためのデータであり、第2のデータは、実際に発生した準情報漏洩メールの件数データである。
【0039】
予測処理では、多変量解析部26で求められた前記判定式を用いて、準情報漏洩メールの発生件数、つまり図4で例示している目的変数を予測する。この予測のためには、説明変数値が必要となる。従って、前記第1のデータを取得するために第2データ解析部232は、データ抽出部21により抽出されるデータのうち、PC履歴データ12から端末機P1〜P7の利用時間帯、Webアクセスデータ13から禁止サイトへのアクセス数、オフィスデータ14から現職場勤務月数や時間外数などの数値データ等を専ら抽出する。これら数値データは、ワークファイル292に記録され、さらに解析データ統合部24によって前記数値データの累積値等が説明変数値として導出される。
【0040】
そして、この説明変数値を用いて、ファイル作成部25によりリスク判定用ファイルが作成される。かかるリスク判定用ファイルは、図4に例示するファイルレイアウトと同様であるが、目的変数が空欄のファイルである。ここで、リスク判定用ファイルに記述される説明変数値も、実績値に鑑みて設定される予想値となる。この説明変数予想値は、一定期間の説明変数実績値の平均値とすることが望ましい。
【0041】
例えば、来月1ヶ月間(第1の期間)に発生する準情報漏洩メール件数を予測する場合には、その来月の説明変数予想値を、過去6ヶ月間の説明変数値の月間平均値(第2の期間)とすれば良い。同様に、来週1週間に発生する準情報漏洩メール件数を予測する場合には、その来週の説明変数予想値を、例えば過去10週間の説明変数値の週間平均値とし、翌日1日間に発生する準情報漏洩メール件数を予測する場合には、その翌日の説明変数予想値を、例えば過去10日間の説明変数値の日平均値とすれば良い。このようにして作成されたデータファイルは、リスク判定用ファイル295として解析処理装置20の記憶領域に記録される。
【0042】
次に、前記第2のデータを取得するために、第2データ解析部232は、上記の説明変数予想値のスパンに合わせて、過去1ヶ月、1週間又は1日の間に現に社外発信された電子メール本文及び添付ファイルの文書データに対して形態素解析を実施する。そして、用語テーブル291を参照して登録単語の出現頻度を算出し、例えば図3に例示した準情報漏洩の定義を用いて準情報漏洩メールを特定し、その発生件数を求める。この発生件数データも、従業員の属性情報に関連付けて、リスク判定用ファイル295に書き込まれる。
【0043】
リスク判定部27は、判定式データ294として記録されている判定式と、第2データ解析部232により求められた前記第1のデータ及び第2のデータとを用いて、準情報漏洩メールの発生リスクを数値的に予測する処理を行う。表示・出力部28は、リスク判定部27により判定されたリスク判定結果を、画像表示又はプリント出力する。
【0044】
図5は、従業員別のリスク判定結果の出力例を、図6は部署別のリスク判定結果の出力例をそれぞれ示す表形式の図である。図5では、従業員毎に、翌日、翌週、翌月の準情報漏洩メールの発生予想件数と、前日、前週、前月の実際の準情報漏洩メール発生件数とがリストアップされている例を示している。図6では、図5と同じリストアップが、部署別に行われている例を示している。
【0045】
図5、図6に示すリスク判定結果によれば、先ず準情報漏洩メールの発生予想件数の多少に基づいて、情報漏洩を惹起してしまう可能性の高い従業員若しくは部署を特定することができる。また、前日、前週又は前月の実績値と、翌日、翌週又は翌月の予測値との差に基づいて、翌日、翌週又は翌月のリスクをある程度想定することができる。すなわち、実績値よりも予測値の方が小さいマイナス値であれば、比較的リスクは小さいと言える。しかし、実績値よりも予測値の方が大きいプラス値であれば、特にそのプラス値が大きな値であれば、リスクが大きいということになる。
【0046】
このようなリスク判定結果に基づいて、情報漏洩メールの発生予防措置を取ることが可能となる。例えば、情報漏洩の危険性が高いと予測された従業員、或いはその所属長に注意喚起するなどの措置を取ることで、あってはならない情報漏洩メールの発生を未然に防止することができる。
【0047】
以上説明した解析処理装置20の動作を、図7〜図9に示すフローチャートに基づいて説明する。図7は、解析処理装置20の大略的な動作を示すフローチャートである。上述の通り、解析処理装置20は、大別して危険度予測のための準備的な一時処理である現状分析処理と、日、週或いは月単位で行われる恒常処理である予測処理とを実行する。
【0048】
予測処理を行うにあたり、初回の現状分析処理が実行され(ステップS1)、この現状分析処理における多変量解析により得られた判定式が判定式データ294として記録される(ステップS2)。次いで、この判定式を更新するか否かが確認される(ステップS3)。判定式の更新タイミングは、概ね6ヶ月〜1年程度とすればよい。
【0049】
ステップS2で記録された判定式をそのまま用いる場合(ステップS3でNO)、予測処理を行うか否かが確認される(ステップS4)。予測処理を行うタイミングである場合(ステップS4でYES)、解析処理装置20により予測処理が実行される(ステップS5)。予測処理を行うタイミングでない場合(ステップS4でNO)、ステップS3に戻って処理が繰り返される。また、判定式を更新するタイミングである場合(ステップS3でYES)、ステップS1に戻り、次回の現状分析処理が実行される。
【0050】
図8は、上記ステップS1の現状分析処理の詳細な動作を示すフローチャートである。処理が開始されると、データ抽出部21により、ネットワークシステムS内から、多変量解析に必要なサンプルデータが抽出され(ステップS11)、データ集約部22により抽出されたサンプルデータが、例えば従業員単位或いは端末機P1〜P7単位で集約される(ステップS12)。
【0051】
第1データ解析部231は、サンプルデータのうちメールデータ11に含まれるメール本文の文書データ及びメール添付ファイルの文書データに対しては、形態素解析を実施して文書を単語単位に分割する処理を行うと共に、準情報漏洩に関連深い単語の出現頻度を、用語テーブル291を参照して算出する。また、第1データ解析部231は、メールデータ11から送信先アドレス数、PC履歴データ12から端末機P1〜P7の利用時間帯、Webアクセスデータ13から禁止サイトへのアクセス数、オフィスデータ14から現職場勤務月数や時間外数などの数値データを抽出する(ステップS13)。これら出現頻度データ及び数値データは、ワークファイル292に記録される(ステップS14)。
【0052】
その後、解析データ統合部24により、ワークファイル292に記録された各種のデータが、従業員毎に統合される(ステップS15)。さらに、準情報漏洩メールの件数データが目的変数群として、前記数値データの累積値等が説明変数群として導出される(ステップS16)。続いて、ファイル作成部25により、従業員毎に統合された目的変数群及び説明変数群を用いて、多変量解析のためのファイルが作成される(ステップS17)。このデータファイルは、多変量解析用ファイル293として記憶される。
【0053】
かかる多変量解析用ファイル293を用いて、多変量解析部26により多変量解析が実行される(ステップS18)。これにより、準情報漏洩メールの発生を数値的に予測する判定式が求められる(ステップS19)。求められた判定式は、判定式データ294として解析処理装置20の記憶領域に記録される(ステップS20)。以上で、現状分析処理が完了する。
【0054】
図9は、図7に示すステップS5の予測処理の詳細な動作を示すフローチャートである。処理が開始されると、データ抽出部21により、ネットワークシステムS内から、準情報漏洩メールの発生予測のための判定用データが抽出され(ステップS21)、データ集約部22により抽出された判定用データが、例えば従業員単位或いは端末機P1〜P7単位で集約される(ステップS22)。
【0055】
次に、第2データ解析部232は、データ抽出部21により抽出されるデータのうち、PC履歴データ12から端末機P1〜P7の利用時間帯、Webアクセスデータ13から禁止サイトへのアクセス数、オフィスデータ14から現職場勤務月数や時間外数などの、説明変数用の数値データを抽出する(ステップS23)。さらに第2データ解析部232は、電子メール本文及び添付ファイルの文書データに対して形態素解析を実施し、過去に発生した準情報漏洩の定義に合致するメールの実績発生件数を算出する(ステップS24)。
【0056】
前記説明変数用の数値データ及び発生件数データは、従業員の属性情報に関連付けて、リスク判定用ファイル295に書き込まれ(ステップS25)、従業員毎にリスク判定用ファイル295が統合される(ステップS26)。これにより、従業員毎に説明変数が導出される(ステップS27)。
【0057】
ひき続き、リスク判定部27により、判定式データ294として記録されている判定式に、第2データ解析部232により求められた説明変数用の数値データ及び発生件数データが投入され(ステップS28)、準情報漏洩メールの発生リスクを数値的に予測する演算処理が行なわれる(ステップS29)。そして、そのリスク判定結果は、表示・出力部28により画像表示又はプリント出力される。以上で予測処理が完了する。
【0058】
以上、本発明の具体的実施形態につき説明したが、これらは本発明の一例であり、発明の趣旨を逸脱しない範囲において上記実施形態とは異なる態様で実施することができる。例えば、上記実施形態では、予測処理において、準情報漏洩メールの発生実績件数と予測件数とを比較する態様を例示したが、実績件数は算出せず、準情報漏洩メールの発生予想だけを行う態様としても良い。また、ローカルエリアネットワークとして企業内ネットワークを例示したが、これに限らず、研究施設、学校、病院、公的機関などのネットワークにも本発明を適用することができる。
【図面の簡単な説明】
【0059】
【図1】本発明に係る情報漏洩予測方法を実施するためのネットワークシステムSのハードウェア構成を概略的に示す構成図である。
【図2】解析処理装置の機能構成を示す機能ブロック図である。
【図3】「準情報漏洩」の定義の一例を示す表形式の図である。
【図4】多変量解析用ファイルのレイアウト例を示す表形式の図である。
【図5】従業員別のリスク判定結果の出力例を示す表形式の図である。
【図6】部署別のリスク判定結果の出力例を示す表形式の図である。
【図7】解析処理装置の大略的な動作を示すフローチャートである。
【図8】図7に示すステップS1の現状分析処理の詳細な動作を示すフローチャートである。
【図9】図7に示すステップS5の予測処理の詳細な動作を示すフローチャートである。
【符号の説明】
【0060】
S ネットワークシステム(第1ネットワーク)
P1、P2、P3、P4、P5、P6、P7 端末機
10 管理サーバ
100 ファイルサーバ
20 解析処理装置
21 データ抽出部
22 データ集約部
23 データ解析部
24 解析データ統合部
25 ファイル作成部
26 多変量解析部
27 リスク判定部
28 表示・出力部28

【特許請求の範囲】
【請求項1】
多数のプレイヤが所属するローカルエリア内で運営されている第1ネットワーク内の端末機から、電子メールにて前記ローカルエリア外の第2ネットワークへ機密情報を漏洩させる危険性の高いプレイヤ又はプレイヤグループを予測する方法であって、
前記第1ネットワーク内で生成された各種データの中から所定数のサンプルデータを抽出し、
前記サンプルデータを解析して所定の第1解析データを抽出し、該第1解析データに基づいて数量化された複数の変数からなる第1変数群を導出し、
前記第1変数群を用いて多変量解析を行うことで、機密情報漏洩の危険性を数値判定するための判定式を求め、
前記第1ネットワーク内で生成された各種データの中から、プレイヤ毎又はプレイヤグループ毎に解析対象となる判定用データを抽出し、
前記判定用データを解析して所定の第2解析データを抽出し、該第2解析データに基づいて数量化された複数の変数からなる第2変数群を導出し、
前記第2変数群を前記判定式に適用することで、プレイヤ毎又はプレイヤグループ毎に電子メールによる機密情報漏洩の危険度を数値的に予測することを特徴とする情報漏洩予測方法。
【請求項2】
情報漏洩に連関する原因事象となると想定される定義を予め定めておき、
前記多変量解析は、目的変数と説明変数との間に前記判定式を当て嵌める解析であって、前記第1解析データ中における前記定義に合致するデータの件数を前記目的変数として行い、
前記第2変数群は前記説明変数であって、該説明変数を前記判定式に適用して得られる目的変数が、前記危険度の予測数値とされることを特徴とする請求項1に記載の情報漏洩予測方法。
【請求項3】
所定の時間長さを有する期間を第1の期間とし、前記第1の期間よりも時間的に前の期間を第2の期間とする場合において、
前記第2の期間の後、第1の期間の開始前に、
前記第1の期間内において生成された前記判定用データから得られた前記第2変数群を、前記判定式に適用して得られた前記予測数値と、
前記第2の期間内において生成された前記判定用データから得られた前記第2解析データのうち、前記定義に合致するデータの件数である実績値と、を求め、
前記予測数値と前記実績値との差異に基づいて、前記第1の期間内における前記危険度を評価することを特徴とする請求項2に記載の情報漏洩予測方法。
【請求項4】
前記サンプルデータは、前記プレイヤの電子メールデータ、前記端末機の使用履歴データ、前記第2ネットワークを介した外部サーバへのアクセスデータ及び勤務データを含むことを特徴とする請求項1〜3のいずれかに記載の情報漏洩予測方法。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate