説明

文書作成装置、文書作成プログラム、文書作成方法及び文書作成装置を用いた漏洩元特定システム

【課題】文書の漏洩元特定の可能性を高めるための文書を作成する。
【解決手段】電子文書中の文字列を異なる文字列により置換した置換文書を配布数分作成する文書作成装置は、電子文書中の、文字列を異なる文字列に置換可能な箇所である置換可能箇所を、前記電子文書中で検索の対象となる検索文字列と置換文字列とが対応付けられて記憶されたデータベースを参照することで特定する置換可能箇所特定手段と、前記置換可能箇所の中から実際に置換を行う所定数の置換箇所を、置換文書内の置換箇所の組み合わせが他の置換文書の置換箇所の組み合わせと一致しないように選択し、選択された前記置換箇所の文字列を当該文字列と一致する検索文字列と対応する置換文字列により置換することで前記置換文書を作成する置換手段と、を備えた。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書の漏洩元特定の可能性を高めるための文書を作成する文書作成装置、文書作成プログラム、文書作成方法及び文書作成装置を用いた漏洩元特定システムに関する。
【背景技術】
【0002】
近年、企業、官公庁、学校、病院等の内部の機密情報(電子文書等)が外部に漏れてしまう情報漏洩が問題となっている。そのため、情報漏洩を防止すること及び情報漏洩を行った情報漏洩元を特定することが、ますます重要とされている。この情報漏洩の問題に対処する技術としては、電子文書にIDを付加することや電子透かしを用いる技術が知られている。また、その他の技術として、文書の特徴を捕捉することや文書間の類似度を算出することで、ある文書が他の文書を無断で引用しているか否か等を判断する技術が知られている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2009−205674号公報
【特許文献2】特開2009−211703号公報
【特許文献3】特開2010−9621号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、電子文書に付加されたIDが削除された場合や電子透かしが用いられた電子文書の書写が行われた場合等のように、電子文書が電子文書に含まれるテキスト(文章)が抽出され、あるいは編集された後に、当該電子文書を漏洩されると情報漏洩元の特定が困難になる。また、文章の特徴を捕捉することや文書間の類似度を算出することにより、文章が流出されたものであると判断できた場合であっても、予め当該漏洩された文書の所有者を把握していないと当該文章の漏洩元を特定することは困難である。
【0005】
そこで、本発明は、文書の漏洩元特定の可能性を高めるための文書を作成することを目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するための本発明の第1の態様は、次のような文書作成装置として例示できる。この文書作成装置は、電子文書中の文字列を異なる文字列により置換した置換文書を配布数分作成する文書作成装置であって、電子文書中の、文字列を異なる文字列に置換可能な箇所である置換可能箇所を、前記電子文書中で検索の対象となる検索文字列と置換文字列とが対応付けられて記憶されたデータベースを参照することで特定する置換可能箇所特定手段と、前記置換可能箇所の中から実際に置換を行う所定数の置換箇所を、置換文書内の置換箇所の組み合わせが他の置換文書の置換箇所の組み合わせと一致しないように選択し、選択された前記置換箇所の文字列を当該文字列と一致する検索文字列と対応する置換文字列により置換することで前記置換文書を作成する置換手段とを備える。
【0007】
かかる第1の態様では、置換可能箇所の中から置換箇所を、置換箇所の組み合わせが他の置換文書の置換箇所の組み合わせと一致しないように選択することで、配布先毎に置換箇所の組み合わせが異なる置換文書を作成することが可能となる。すなわち、電子文書の
文字列を意図的に異なる文字列に置換(変換)することで、配布先毎に、異なる文章の置換文書を配布することが可能となる。これによって、当該電子文書が漏洩されたときに、漏洩文書と置換文書とを比較し漏洩文書がどの置換文書と類似するかを確認することで、漏洩文書がどの配布先の人物から漏洩したか(漏洩元)の特定の可能性を高めることが可能となる。
【0008】
また、配布先毎に異なる文章の置換文書を配布することが可能であるため、元文書である電子文書の文章のみが漏洩した場合や、人の手により書写された後に漏洩された場合においても、置換文書及び漏洩文書の文章の比較により、漏洩元の特定の可能性を高めることが可能となる。
【0009】
また、置換可能箇所を、検索文字列と置換文字列が対応付けられて記憶されたデータベースを参照することで特定するため、データベースに記憶された検索文字列及び置換文字列の数を増やすことで、置換可能箇所の数を増やすことが可能となる。すなわち、置換のパターン(数)を増やすことが可能となり、電子文書の配布先毎に異なる置換文書を数多く作成することが可能となる。
【0010】
本発明の第2の態様は、第1の態様に記載する文書作成装置において、前記データベースは、置換方法の種類毎に、検索文字列と置換文字列が対応付けられて記憶されたデータベースであり、前記置換可能箇所特定手段は、前記置換方法の種類のうちユーザにより選択された置換方法の種類毎に前記置換可能箇所を特定し、前記置換手段は、前記選択された各置換方法の種類について、前記選択された置換方法の種類毎に前記特定された前記置換可能箇所の中から実際に置換を行う所定数の置換箇所を選択することを特徴とする。
【0011】
かかる第2の態様では、ユーザにより選択された置換方法の種類毎に、検索文字列と置換文字列が対応付けられて記憶されたデータベースを参照し、置換箇所を選択することで、ユーザが置換に使用したい置換方法の種類についての置換を行うことが可能となる。
【0012】
本発明の第3の態様は、第2の態様に記載する文書作成装置において、ユーザにより前記置換方法の種類が選択されたときに、前記選択された前記置換方法の種類毎に、前記置換方法の種類毎の前記置換箇所の数の初期値と前記置換の種類毎の重み付け値を乗算し、さらに、各置換方法の種類について前記乗算された値を加算することで、置換による前記電子文書の変更度合を示す置換ノイズ値を算出する置換ノイズ算出手段であって、前記置換ノイズ値がユーザにより変更されたときに、変更後の置換ノイズ値及び前記置換方法の種類毎の重み付け値に基づき、前記置換方法の種類毎の置換箇所の数を算出する置換ノイズ算出手段を備え、前記置換手段は、前記置換ノイズ値がユーザにより変更されたときに算出された前記置換方法の種類毎の置換箇所の数分置換箇所を選択することを特徴とする。
【0013】
かかる第3の態様では、置換による電子文書の変更度合を示す置換ノイズ値がユーザにより変更されたときに、変更後の置換ノイズ値に基づき置換箇所の数を算出することで、ユーザにより選択された元文書からの変更度合いに応じた置換文書を作成することが可能となる。
【0014】
本発明の第4の態様は、第2又は第3の態様に記載する文書作成装置において、前記置換方法の種類は、常用漢字又は常用漢字以外の漢字を用いた置換、送り仮名を変更することによる置換、類義語を用いた置換、言葉の誤使用による置換、誤字を用いた置換及び脱字を用いた置換の少なくとも1つを含むことを特徴とする。
【0015】
かかる第4の態様では、置換方法の種類を常用漢字又は常用漢字以外の漢字を用いた置
換、送り仮名を変更することによる置換、類義語を用いた置換、言葉の誤使用による置換、誤字を用いた置換及び脱字を用いた置換とすることにより、様々な文字列による置換を行うことが可能となる。また、文章量が少ない場合であっても、当該文章に含まれる文字列に対して上記複数種類の置換を行うことにより、置換のパターン(数)を増やすことが可能となる。すなわち、電子文書の配布先毎に異なる置換文書を数多く作成することが可能となる。
【0016】
また、ユーザが公文書について置換文書を作成するとき等は、公文書に誤字、脱字を含むことを避けるために、置換方法の種類として、誤字を用いた置換及び脱字を用いた置換以外の置換方法の種類を選択することが可能となる。すなわち、複数種類の置換方法の中から、ユーザの意向や元文書の内容及び属性に基づいた置換方法の種類による置換を行うこと(置換文書を作成すること)が可能となる。
【0017】
本発明の第5の態様は、次のような文書作成プログラムとして例示できる。この文書作成プログラムは、コンピュータに、電子文書中の文字列を異なる文字列により置換した置換文書を配布数分作成させるための文書作成プログラムであって、電子文書中の、文字列を異なる文字列に置換可能な箇所である置換可能箇所を、前記電子文書中で検索の対象となる検索文字列と置換文字列とが対応付けられて記憶されたデータベースを参照することで特定し、前記置換可能箇所の中から実際に置換を行う所定数の置換箇所を、置換文書内の置換箇所の組み合わせが他の置換文書の置換箇所の組み合わせと一致しないように選択し、選択された前記置換箇所の文字列を当該文字列と一致する検索文字列と対応する置換文字列により置換することで前記置換文書を作成する処理をコンピュータに行わせる。
【0018】
かかる第5の態様では、置換可能箇所の中から置換箇所を、置換箇所の組み合わせが他の置換文書の置換箇所の組み合わせと一致しないように選択することで、配布先毎に置換箇所の組み合わせが異なる置換文書を作成することが可能となる。すなわち、電子文書の文字列を意図的に異なる文字列に置換(変換)することで、配布先毎に、異なる文章の置換文書を配布することが可能となる。これによって、当該電子文書が漏洩されたときに、漏洩文書と置換文書とを比較し漏洩文書がどの置換文書と類似するかを確認することで、漏洩文書がどの配布先の人物から漏洩したか(漏洩元)の特定の可能性を高めることが可能となる。
【0019】
また、配布先毎に異なる文章の置換文書を配布することが可能であるため、元文書である電子文書の文章のみが漏洩した場合や、人の手により書写された後に漏洩された場合においても、置換文書及び漏洩文書の文章の比較により、漏洩元の特定の可能性を高めることが可能となる。
【0020】
また、置換可能箇所を、検索文字列と置換文字列が対応付けられて記憶されたデータベースを参照することで特定するため、データベースに記憶された検索文字列及び置換文字列の数を増やすことで、置換可能箇所の数を増やすことが可能となる。すなわち、置換のパターン(数)を増やすことが可能となり、電子文書の配布先毎に異なる置換文書を数多く作成することが可能となる。
【0021】
本発明の第6態様は、次のような文書作成方法として例示できる。この文書作成方法は、電子文書中の文字列を異なる文字列により置換した置換文書を配布数分作成することが可能なコンピュータを用いた文書作成方法であって、電子文書中の、文字列を異なる文字列に置換可能な箇所である置換可能箇所を、前記電子文書中で検索の対象となる検索文字列と置換文字列とが対応付けられて記憶されたデータベースを参照することで特定し、前記置換可能箇所の中から実際に置換を行う所定数の置換箇所を、置換文書内の置換箇所の組み合わせが他の置換文書の置換箇所の組み合わせと一致しないように選択し、選択され
た前記置換箇所の文字列を当該文字列と一致する検索文字列と対応する置換文字列により置換することで前記置換文書を作成する。
【0022】
かかる第6の態様では、置換可能箇所の中から置換箇所を、置換箇所の組み合わせが他の置換文書の置換箇所の組み合わせと一致しないように選択することで、配布先毎に置換箇所の組み合わせが異なる置換文書を作成することが可能となる。すなわち、電子文書の文字列を意図的に異なる文字列に置換(変換)することで、配布先毎に、異なる文章の置換文書を配布することが可能となる。これによって、当該電子文書が漏洩されたときに、漏洩文書と置換文書とを比較し漏洩文書がどの置換文書と類似するかを確認することで、漏洩文書がどの配布先の人物から漏洩したか(漏洩元)の特定の可能性を高めることが可能となる。
【0023】
また、配布先毎に異なる文章の置換文書を配布することが可能であるため、元文書である電子文書の文章のみが漏洩した場合や、人の手により書写された後に漏洩された場合においても、置換文書及び漏洩文書の文章の比較により、漏洩元の特定の可能性を高めることが可能となる。
【0024】
また、置換可能箇所を、検索文字列と置換文字列が対応付けられて記憶されたデータベースを参照することで特定するため、データベースに記憶された検索文字列及び置換文字列の数を増やすことで、置換可能箇所の数を増やすことが可能となる。すなわち、置換のパターン(数)を増やすことが可能となり、電子文書の配布先毎に異なる置換文書を数多く作成することが可能となる。
【0025】
本発明の第7態様は、次のような文書作成システムとして例示できる。この文書作成システムは、電子文書中の文字列を異なる文字列により置換した置換文書を配布数分作成する文書作成装置と類似文書チェック装置を備える漏洩元特定システムであって、文書作成装置が、電子文書中の、文字列を異なる文字列に置換可能な箇所である置換可能箇所を、前記電子文書中で検索の対象となる検索文字列と置換文字列とが対応付けられて記憶されたデータベースを参照することで特定する置換可能箇所特定手段と、前記置換可能箇所の中から実際に置換を行う所定数の置換箇所を、置換文書内の置換箇所の組み合わせが他の置換文書の置換箇所の組み合わせと一致しないように選択し、選択された前記置換箇所の文字列を当該文字列と一致する検索文字列と対応する置換文字列により置換することで前記置換文書を作成する置換手段と、を備え、類似文書チェック装置が、前記作成された前記置換文書と漏洩された文書である漏洩文書との文章の類似度を算出する類似度算出手段と、を備える。
【0026】
かかる第7の態様では、置換可能箇所の中から置換箇所を、置換箇所の組み合わせが他の置換文書の置換箇所の組み合わせと一致しないように選択することで、配布先毎に置換箇所の組み合わせが異なる置換文書を作成することが可能となる。すなわち、電子文書の文字列を意図的に異なる文字列に置換(変換)することで、配布先毎に、異なる文章の置換文書を配布することが可能となる。これによって、当該電子文書が漏洩されたときに、漏洩文書と置換文書とを比較し漏洩文書がどの置換文書と類似するかを確認することで、漏洩文書がどの配布先の人物から漏洩したか(漏洩元)の特定の可能性を高めることが可能となる。
【0027】
また、配布先毎に異なる文章の置換文書を配布することが可能であるため、元文書である電子文書の文章のみが漏洩した場合や、人の手により書写された後に漏洩された場合においても、置換文書及び漏洩文書の文章の比較により、漏洩元の特定の可能性を高めることが可能となる。
【0028】
また、置換可能箇所を、検索文字列と置換文字列が対応付けられて記憶されたデータベースを参照することで特定するため、データベースに記憶された検索文字列及び置換文字列の数を増やすことで、置換可能箇所の数を増やすことが可能となる。すなわち、置換のパターン(数)を増やすことが可能となり、電子文書の配布先毎に異なる置換文書を数多く作成することが可能となる。
【0029】
また、類似文書チェック装置が、作成された置換文書と漏洩文書との文章の類似度を算出することにより、各類似文書がどの程度元文書である電子文書と類似しているかを正確に判断することが可能となる。
【発明の効果】
【0030】
本発明によれば、文書の漏洩元特定の可能性を高めるための文書を作成することが可能となる。
【図面の簡単な説明】
【0031】
【図1】図1は実施形態1に係る文書作成装置を含む文書の漏洩元の特定を行う漏洩元特定システムの概略を示す概略構成図である。
【図2】図2は実施形態1に係る文書作成装置のハードウェアの一例を示す構成図である。
【図3】図3は実施形態1に係る文書作成装置の機能構成の一例を示す機能ブロック図である。
【図4】図4は実施形態1に係る常用漢字DBのデータ構成例を示す図である。
【図5】図5は実施形態1に係る送り仮名DBのデータ構成例を示す図である。
【図6】図6は実施形態1に係る類義語DBのデータ構成例を示す図である。
【図7】図7は実施形態1に係る誤使用DBのデータ構成例を示す図である。
【図8】図8は実施形態1に係る誤字DBのデータ構成例を示す図である。
【図9】図9は実施形態1に係る脱字DBのデータ構成例を示す図である。
【図10】図10は実施形態1に係る置換ノイズ重み付けDBのデータ構成例を示す図である。
【図11】図11は実施形態1に係る文書作成装置の電子文書置換全体フローを示す図である。
【図12】図12は実施形態1に係る文書作成装置の元文書登録処理フローを示す図である。
【図13】図13は実施形態1に係る元文書登録画面の一例を示す図である。
【図14】図14は実施形態1に係る元文書の一例を示す図である。
【図15A】図15Aは実施形態1に係る文書作成装置の元文書置換処理フローを示す図である。
【図15B】図15Bは実施形態1に係る文書作成装置の置換設定変更処理フローを示す図である。
【図16】図16は実施形態1に係る置換画面の一例を示す図である。
【図17】図17は実施形態1に係る置換画面の一例を示す図である。
【図18】図18は実施形態1に係る置換画面の一例を示す図である。
【図19】図19は実施形態1に係る置換可能箇所データベースのデータ構成例を示す図である。
【図20】図20は実施形態1に係る置換文書の例を示す図である。
【図21】図21は実施形態1に係る文書作成装置の置換文書登録処理フローを示す図である。
【図22】図22は実施形態1に係る置換文書登録画面の一例を示す図である。
【図23】図23は実施形態1に係る置換結果の結果確認画面の一例を示す図である。
【図24】図24は実施形態1に係る文書作成装置の漏洩文書特定フローを示す図である。
【図25】図25は実施形態1に係る文書作成装置の漏洩文書登録処理フローを示す図である。
【図26】図26は実施形態1に係る漏洩文書登録画面の一例を示す図である。
【図27】図27は実施形態1に係る漏洩文書の一例を示す図である。
【図28】図28は実施形態1に係る漏洩元確認結果画面の一例を示す図である。
【図29】図29は実施形態2に係る文書作成装置の電子文書置換全体フローを示す図である。
【図30】図30は実施形態3に係る文書作成装置の電子文書置換全体フローを示す図である。
【発明を実施するための形態】
【0032】
以下、本発明を実施するための最良の形態について説明する。なお、以下の各実施形態の構成は例示であり、本発明は以下の構成に限定されない。
【0033】
<実施形態1>
[概略構成]
図1は、本発明の実施形態1に係る文書作成装置を含む文書の漏洩元の特定を行う漏洩元特定システムの概略構成図である。図示するように、本実施形態1の漏洩元特定システムは、文書作成装置1とファイルサーバ20と、類似文書チェック装置30を有する。文書作成装置1は、ネットワークN1を介して、ファイルサーバ20及び類似文書チェック装置30と通信可能となるように接続されている。
【0034】
文書作成装置1は、本発明に係る「文書作成装置」の一例である。文書作成装置1は、用語データベース18を備えている。以下、データベースを「DB」と呼ぶ。用語DB19は、文書内の文字列を、後述する「置換文字列」である他の文字列で置換するために用いられるDBである。用語DB19は、常用漢字DB191、送り仮名DB192、類義語DB193、誤使用DB194、誤字DB195、脱字DB196を備える。これらのDBには、上述した文字列の置換を行なうための置換文字列である置換ワード等が格納されている。
【0035】
文書作成装置1は、用語DB19に基づいて、元文書である電子文書に置換文字列を含めた置換文書を作成する。文書作成装置1は、元文書である電子文書及び前記置換文書等を、ネットワークN1を介して、ファイルサーバ20に送信する。
【0036】
ファイルサーバ20は、従来のファイルサーバと同様の構成を含む。そのため、ファイルサーバ20の構成についての詳細説明は省略する。ファイルサーバ20は、ネットワークN1を介して、文書作成装置1及び類似文書チェック装置30と通信可能となるよう接続されている。ファイルサーバ20は、ネットワークN1を介して、文書作成装置1から元文書である電子文書及び置換文書等を受信する。
【0037】
類似文書チェック装置30は、ネットワークN1を介して文書作成装置1及びファイルサーバ20と接続する。類似文書チェック装置30は、置換文書と漏洩された文書(漏洩文書)の文章間の類似度を算出する。
【0038】
ネットワークN1は、例えば、無線LAN(Local Area Network)、WAN(Wide Area Network)、WiMAX(Worldwide Interoperability for Microwave Access)等の有線及び無線ネットワーク等のいずれか、またはいずれか2以上の組み合わせで例示される。
【0039】
[文書作成装置のハードウェア構成]
図2は、本実施形態1に係る文書作成装置1のハードウェアの構成例を示すハードウェア構成図である。図示するように、文書作成装置1は、CPU(Central Processing Unit)2、主記憶装置3、外部記憶装置4、通信IF(Interface)5、通信バス6、入力装置7、表示装置8を備えている。なお、類似文書チェック装置30についても、図2に示す文書作成装置1と同様のハードウェア構成を備える。
【0040】
CPU2は、文書作成装置1全体の制御を行い、具体的には、主記憶装置3に実行可能に展開されたプログラムを実行し、文書作成装置1の機能を提供する。CPU2は、通信バス6を介して、文書作成装置1の各装置と接続される。
【0041】
主記憶装置3は、処理対象のデータ、例えば、元文書である電子文書や電子文書に置換文字列を含めた置換文書等のデータ、あるいは、CPU2が実行するプログラムを保持する。主記憶装置3としては、ROM(Read Only Memory)及びRAM(Random Access Memory)が例示される。
【0042】
外部記憶装置4は、主記憶装置3に格納されるデータやプログラム等を保存する。例えば、外部記憶装置4は、元文書である電子文書や電子文書に置換文字列を含めた置換文書等のデータを含むようにしてもよい。外部記憶装置4としては、HDD(Hard disk drive)、CD(Compact Disc)、DVD(Digital Versatile Disk)、フロッピー(登録商
標)ディスク(floppy disk、以下、FDと言う)、MO(Magneto-Optical disk)、U
SB(Universal Serial Bus)フラッシュメモリが例示される。CD、DVD、FD、MO、USBフラッシュメモリ等は着脱可能記憶媒体ともいう。
【0043】
通信IF5は、ファイルサーバ20及び類似文書チェック装置30と情報の送受信を行うインタフェースである。例えば、通信IF5は、元文書である電子文書や電子文書に置換文字列を含めた置換文書等のデータを、ネットワークN1を介してファイルサーバ20に送信する。また、例えば、通信IF5は、類似文書ユーザ装置30から、後述する文書間の類似度などの情報を、ネットワークN1を介して受信する。
【0044】
なお、CPU2が実行するプログラムは、例えば、通信IF5を通じた文書作成装置1外のコンピュータとの通信によりインストールできる。インストールとは、例えば、実行可能なプログラムを外部記憶装置4に展開すること、又は、主記憶装置3に展開することをいう。但し、着脱可能な記憶媒体を通じてプログラムをインストールしてもよい。
【0045】
入力装置7は、キーボード、マウス、タッチパネルによって例示される。入力装置7は、ユーザからの入力を受け付ける装置である。マウス、タッチパネルはポインティングデバイスとも呼ばれる。入力装置7は、例えば、文書作成装置1を使用するユーザにより、ユーザID(Identification)、パスワード等のユーザ情報や文書を配布する数である配布数等の入力を受け付ける。
【0046】
表示装置8は、例えば、CRT(Cathode Ray Tube)、液晶表示パネル(LCD:Liquid Crystal Display)、エレクトロルミネッセンス(EL:Electro- Luminescence)パ
ネル等で例示されるディスプレイであって、各種画面を表示する。表示装置8は、例えば、元文書である電子文書に置換文字列を含めた置換文書を作成するための置換画面等を表示する。
【0047】
[文書作成装置の機能構成]
図3は、本実施形態1に係る文書作成装置1の機能構成を示す機能ブロック図である。
図示するように、文書作成装置1は、置換可能箇所数算出部10、配布可能数算出部11、置換ノイズ算出部12、文書置換部13、送信部14、受信部15、入力部16、表示部17、記憶部18、用語DB19、置換ノイズ重み付けDB1A、ユーザ情報DB1B、置換可能箇所記録DB1C、読み出し部1D、置換箇所記録DB1Eを備えている。CPU2が主記憶装置3などに保持されたプログラムを呼び出して実行することにより、図3の各部の機能が提供される。
【0048】
また、用語DB19は、常用漢字DB191、送り仮名DB192、類義語DB193、誤使用DB194、誤字DB195、脱字DB196を備える。
【0049】
図4は、常用漢字DB191の構成例を示した図である。図示するように、常用漢字DB191の各行には、No(番号)、分類コード、検索ワード(word)、置換ワードの項目が含まれている。また、図4の各行は、置換前のワードである検索ワードと置換後のワードである置換ワードとの対応付けを示す情報1レコードを表している。
【0050】
図4のNo(番号)は、常用漢字DB191の各行のレコードを識別する情報、例えば、行番号、又は常用漢字DB191が含まれるファイルのレコード番号、主記憶装置3のアドレス等である。図4の分類コードは、置換方法の種類を識別する識別情報であり、例えば、置換方法の種類別に割り当てられた番号や英字と番号の組み合わせによるもの等が例示される。
【0051】
実施形態1において「置換方法」とは、文書内の文字列をどのように置換を行うかその方法をいう。「置換方法」としては、常用漢字又は常用漢字以外の漢字を用いて置換を行う方法、送り仮名を変更することで置換を行う方法、類義語を用いて置換を行う方法、言葉の誤使用により置換を行う方法、誤字を用いて置換を行う方法、あるいは脱字を用いて置換を行う方法が例示される。
【0052】
実施形態1において「文字列」とは、文字が1つ以上連続したものをいい、漢字、ひらがな、カタカナ、記号、数字などのうちいずれか1つによるもの、又は2つ以上の組み合わせによるものを含む概念である。
【0053】
「常用漢字又は常用漢字以外の漢字を用いて置換を行う方法」は、常用漢字又は常用漢字以外の漢字を用いた文字列を、これらの漢字の読み仮名であるひらがなを用いた文字列で置換する方法、又は常用漢字の読み仮名であるひらがなを用いた文字列を、常用漢字を用いた文字列で置換する方法をいう。
【0054】
「送り仮名を変更することで置換を行う方法」は、文字列を、当該文字列の送り仮名を変更した文字列により置換を行う方法をいう。
【0055】
「類義語を用いて置換を行う方法」は、文字列を、当該文字列の類義語である文字列により置換を行う方法をいう。
【0056】
「言葉の誤使用により置換を行う方法」は、正しく使用された言葉(文字列)を、当該言葉について誤使用した言葉(文字列)により置換を行う方法をいう。
【0057】
「誤字を用いて置換を行う方法」は、誤字のない文字列を、当該文字列に誤字を含ませた文字列により置換を行う方法をいう。
【0058】
「脱字を用いて置換を行う方法」は、脱字のない文字列を、当該文字列に脱字を含ませた文字列により置換を行う方法をいう。
【0059】
また、実施形態1において、「置換方法の種類」とは、文字列の置換を行う方法(置換方法)の種類をいう。「置換方法の種類」としては、「常用漢字又は常用漢字以外の漢字を用いた置換」、「送り仮名を変更することによる置換」、「類義語を用いた置換」、「言葉の誤使用による置換」、「誤字を用いた置換」、あるいは「脱字を用いた置換」等が例示される。以下、これらの「置換方法の種類」をそれぞれ、「常用漢字」、「送り仮名」、「類義語」、「誤使用」、「誤字」、「脱字」と呼ぶ。
【0060】
図4の検索ワードは、常用漢字以外の漢字を含む文字列である。検索ワードは、「検索文字列」の一例である。実施形態1において「検索文字列」とは、他の文字列により置換される文字列をいい、当該検索文字列により、電子文書の文章のどの箇所が、他の文字列により置換可能な箇所であるかを特定することが可能となる。
【0061】
図4の置換ワードは、常用漢字以外の漢字を含む文字列(検索ワード)を置換するための文字列(置換後のワード)である。置換ワードは、「置換文字列」の一例である。実施形態1において「置換文字列」とは、文字列を置換するための文字列をいい、検索ワードである常用漢字以外の漢字文字列の読み仮名が例示される。検索ワードと置換ワードの組み合わせとしては、「噂」と「うわさ」や、「叩く」と「たたく」等が例示される。意図的に文書内の文字列を置換文字列に変換(置換)することで、当該文書が漏洩された際に漏洩元を特定する可能性を高めることが可能となる。
【0062】
なお、図4の検索ワードは、常用漢字以外の漢字を含む文字列に限らず、常用漢字を含む文字列であってもよい。また、図4の検索ワードは、常用漢字の読み仮名であってもよい。この場合は、図4の置換ワードが当該常用漢字の読み仮名に対応する常用漢字を用いた文字列となる。
【0063】
図5〜図9はそれぞれ、送り仮名DB192、類義語DB193、誤使用DB194、誤字DB195、脱字DB196の構成例を示した図である。図5〜9に示すように、図4の常用漢字DBと同様、送り仮名DB192、類義語DB193、誤使用DB194、誤字DB195、脱字DB196の各行には、No(番号)、分類コード、検索ワード、置換ワードの項目が含まれている。また、図5〜図9の各行は、置換前のワードである検索ワードと置換後のワードである置換ワードとの対応付けを示す情報1レコードを表している。
【0064】
図5〜図9のNo(番号)は、各DBの各行のレコードを識別する情報、例えば、行番号、又は各DBが含まれるファイルのレコード番号、主記憶装置3のアドレス等である。図5〜図9の分類コードは、図4の分類コードと同様に、置換の法方法の種類を識別する情報をいい、例えば、置換の方法の種類別に割り当てられた番号や、番号と特定の英字の組み合わせ等が例示される。
【0065】
図5の送り仮名DB192の検索ワードは、異なる送り仮名を用いることができる文字列である。図5の置換ワードは、検索ワードである文字列について異なる送り仮名を用いた文字列(置換後のワード)である。検索ワードと置換ワードの組み合わせとしては、「行う」と「行なう」や、「組合せ」と「組み合わせ」等が例示される。
【0066】
図6の類義語DB193の検索ワードは、類義語を有する文字列である。図6の置換ワードは、検索ワードである文字列の類義語(置換後のワード)である。検索ワードと置換ワードの組み合わせとしては、「ベンダー」と「ベンダ」や、「ディスカウント」と「値引き」等が例示される。
【0067】
図7の誤使用DB194の検索ワードは、日本語として正しく使用されている言葉である文字列である。図7の置換ワードは、検索ワードである文字列について日本語として誤って使用された文字列(置換後のワード)である。検索ワードと置換ワードの組み合わせとしては、「見られる」と「見れる」や、「自分」と「ご自分」等が例示される。
【0068】
図8の誤字DB195の検索ワードは、誤字のない文字列である。図8の置換ワードは、検索ワードである文字列について誤字を含めた文字列(置換後のワード)である。検索ワードと置換ワードの組み合わせとしては、「弊社」と「幣社」や、「自転車」と「自転者」等が例示される。
【0069】
図9の脱字DB196の検索ワードは、脱字のない文字列である。図9の置換ワードは、検索ワードである文字列について脱字を含めた文字列(置換後のワード)である。検索ワードと置換ワードの組み合わせとしては、「送ります」と「送ます」や、「されていて」と「されてて」等が例示される。
【0070】
図10は、置換ノイズ重み付けDB1Aの例を示した図である。図示するように、置換ノイズ重み付けDB1Aの各行には、分類、分類コード、置換ノイズ重み付け値の項目が含まれている。また、図10の各行は、分類、分類コード及び置換ノイズ重み付け値の対応付けを示す情報1レコードを表している。
【0071】
図10の分類とは、実施形態1の「置換方法の種類」をいい、上述した、常用漢字、送り仮名、類義語、誤使用、誤字、脱字等が例示される。図10の分類コードは、図4〜9の分類コードと同様に、置換方法の種類を識別する識別情報をいい、例えば、置換方法の種類別に割り当てられた番号等が例示される。
【0072】
図10の置換ノイズ重み付け値は、「置換方法の種類」である分類毎の置換ノイズ値に対する重み付けを行なう値である。実施形態1において「置換ノイズ値」とは、電子文書内の文字列を他の文字列により置換することにより生じる元文書からの変更度合い(ノイズ)の大きさを表す値をいう。
【0073】
図10の場合では、例えば、分類「常用漢字」については重み付け値が「1」であり、分類「誤字」については重み付け値が「10」である。この場合、分類が「常用漢字」である場合は、置換文字列により文字列が置換された場合の置換ノイズ値は「1」となる。また、分類が「誤字」である場合は、置換文字列により文字列が置換された場合の置換ノイズ値は「10」となる。すなわち、分類が「誤字」である置換文字列により文字列を置換した場合、分類が「常用漢字」である置換文字列により置換した場合より、元文書からの変更度合い(ノイズ)は大きいことを示す。
【0074】
上記DB191〜196を備える用語DB19及び置換ノイズ重み付けDB1Aは、あらかじめ主記憶装置3や外部記憶装置4に格納される。また、用語DB19及び置換ノイズ重み付けDB1Aは、例えば、通信IF5を通じた文書作成装置1外のコンピュータとの通信によりインストール可能である。そのため、用語DB19及び置換ノイズ重み付けDB1Aは、例えば、ファイルサーバ20に格納されていてもよい。また、着脱可能な記憶媒体を通じて用語DB19及び置換ノイズ重み付けDB1Aをインストールしてもよい。
【0075】
なお、図4〜9に、各DBの検索ワード及び置換ワードを例示しているが、実施形態1の漏洩元特定システムでは、図4〜9に例示されている検索ワード及び置換ワードに限るものではなく、さらに複数の検索ワード及び置換ワードを格納する。また、必要に応じて、検索ワードや置換ワードを変更、削除、追加することが可能である。
【0076】
また、図10では、置換ノイズ重み付け値の数値が「1」、「2」、「5」、「10」と設定されているが、実施形態1ではこれらの数値に限るものではなく、任意で設定可能な値である。また、置換ノイズ重み付け値は、必要に応じて、変更可能である。
【0077】
ユーザ情報DB1Bには、文書作成装置1へのアクセスが許可されたユーザの、ユーザを一意に特定するユーザ情報が記憶(登録)される。ユーザ情報としては、ユーザの電話番号や、ユーザID、パスワードなどが例示される。なお、ユーザ情報データベース1Bはファイルサーバ20へのアクセスが許可されたユーザについてのユーザ情報が記憶されるようにしてもよい。
【0078】
置換可能箇所記録DB1Cは、文書内の置換可能箇所を一意に特定する情報を記録(格納)するDBである。実施形態1において「置換可能箇所」とは、文書内の、他の文字列(置換文字列)により置換可能な文字列(検索文字列)が存在する箇所をいう。置換可能箇所を特定する情報としては、置換可能箇所が存在する頁番号、行番号、行の先頭文字からの当該箇所までの文字数などの組み合わせによるものや、文章の先頭文字からの当該箇所までの文字数などが例示される。
【0079】
置換可能箇所記録DB1Cには、置換可能箇所を特定する情報及び当該置換可能箇所に存在する文字列(検索ワード)などが対応付けて記憶される。なお、置換可能箇所記録DB1Cには、さらに、置換ワード、分類、分類コード、置換可能箇所数、置換ノイズ値などの情報が記憶されてもよい。
【0080】
置換箇所記録DB1Eは、置換箇所を一意に特定する情報を記録(格納)するデータベースである。実施形態1において「置換箇所」とは、文書内で実際に置換を行う箇所をいう。置換箇所を特定する情報としては、置換箇所が存在する頁番号、行番号、行の先頭文字からの当該箇所までの文字数などの組み合わせによるものや、文章の先頭文字からの当該箇所までの文字数などが例示される。
【0081】
置換箇所記録DB1Eには、置換文書毎に、置換箇所を特定する情報及び当該置換箇所に存在する文字列(検索ワード)に加え、置換文書を識別する情報である置換文書の識別情報などが対応付けて記憶される。置換文書の識別情報としては、置換文書毎に定められた番号や、置換文書に一時的に設定されたファイル名などが例示される。なお、置換箇所記録DB1Eには、さらに、置換ワード、分類、分類コード、置換箇所数、置換ノイズ値などの情報が記憶されてもよい。
【0082】
置換可能箇所数算出部10は、用語DB19に基づき、置換を行なう対象(元文書)である電子文書の中で、置換ワードによる置換が可能な箇所である置換可能箇所の数(置換可能箇所数)を算出する。具体的には、用語DB19が備えるDB191〜196に含まれている全検索ワード(検索文字列)について、各検索ワードと同じ文字列が電子文書内に何箇所存在するか、すなわち置換可能箇所数をカウント(算出)する。そして、各検索ワードについての置換可能箇所数の算出結果を、置換方法の種類である分類毎に加算(合計)する。これにより、置換方法の種類(分類)毎に、電子文書内の置換可能箇所数を求めることが可能となる。
【0083】
なお、同一の検索ワードについて、当該検索ワードと同じ文字列が電子文書内に複数箇所存在する場合、当該検索ワードについての置換可能箇所数は1とせず、当該複数箇所分の数とする。なお、上記では、置換可能箇所数算出部10は、用語DB19が備える全てのDB191〜196に含まれている検索ワードについて置換可能箇所数を算出することとした。しかしながら、実施形態1の漏洩特定システムの処理はこれに限るものではなく
、置換可能箇所数算出部10は、選択された分類に対応するDBに含まれている検索ワードについてのみ置換可能箇所数を算出するようにしてもよい。
【0084】
さらに、置換可能箇所数算出部10は、電子文書内の置換可能箇所を特定する情報を、各置換可能箇所の文字列(検索ワード)などと対応付けて、置換可能箇所記録DB1Cに記憶する。なお、置換可能箇所DB1Cには、さらに、置換ワード、分類、分類コード、置換可能箇所数、置換ノイズ値などの情報が記憶されてもよい。
【0085】
配布可能数算出部11は、置換可能箇所数算出部10が算出した分類毎の置換可能箇所数と分類毎の置換箇所の数(置換箇所数)に基づき、全ての置換箇所の組み合わせ(パターン)数である配布可能数を算出する。配布可能数とは、文書の配布先に同一の文章(置換箇所が同一である文章)の文書を渡さないことを前提とし、選択された分類の置換ワードによって、置換箇所の組み合わせが異なる文章を、幾つ作成可能かを示す数値である。すなわち、配布可能数算出部11は、分類毎の置換可能箇所の中から置換箇所数分の置換箇所を選択する組合せの数を算出する。
【0086】
置換ノイズ算出部12は、置換ノイズ重み付けDB1Aを参照することで、置換ノイズ重み付け値に基づき、置換ノイズ値を算出する。具体的には、置換ノイズ重み付けDB1Aにおいて、ユーザに選択された分類毎に対応付けられている置換ノイズ重み付け値と分類毎の置換数を乗算し、この分類毎に乗算された置換数を加算したものを置換ノイズ値とする。
【0087】
例えば、分類「常用漢字」と分類「類義語」がユーザにより選択された場合、各分類の置換数は初期値(例えば、1)に設定される。置換ノイズ重み付けDB1Aにおいて分類「常用漢字」及び「類義語」はそれぞれ、置換ノイズ重み付け値が“1”、“2”と対応付けられている。この場合の置換ノイズ値は、3(=1×1+2×1)となる。
【0088】
文書置換部13は、置換を行なう対象(元文書)である電子文書内の置換箇所について、置換ワード(置換文字列)による置換を行なう。例えば、電子文書内の、分類「送り仮名」のDBに含まれる検索ワード「行う」が存在する箇所について置換が行なわれる場合、当該箇所の「行う」を、送り仮名DB192において検索ワード「行う」に対応付けられた置換ワード「行なう」により置換を行なう。
【0089】
また、文書置換部13は、電子文書内の置換箇所を特定する情報を、各置換箇所の文字列(検索ワード)などと対応付けて、置換箇所記録DB1Eに記憶する。なお、置換箇所記録DB1Eには、さらに、置換ワード、分類、分類コード、置換箇所数、置換ノイズ値などの情報が記憶されてもよい。
【0090】
送信部14は、電子文書などのデータを外部の装置やサーバへ送信(登録)させる。送信部14は、例えば、置換を行う対象となる元文書である電子文書や置換が行われた置換文書をファイルサーバ20へ送信(登録)する。また、送信部14は、例えば、漏洩された文書である漏洩文書を類似文書チェック装置30へ送信(登録)する。
【0091】
受信部15は、他の装置やサーバが各種データを受信する。受信部15は、例えば、類似文書チェック装置30から、漏洩文書と類似文書の類似度等を受信する。
【0092】
入力部16は、入力装置7から、ユーザによる操作入力により発生するイベントを受け付ける。入力部16は、例えば、ユーザからのユーザ情報の入力や分類などの選択操作により発生するイベント等を受け付ける。
【0093】
表示部17は、表示装置8に各種画面を表示させる。表示部17は、元文書登録画面表示部171、置換画面表示部172、置換文書登録画面表示部173、結果確認画面表示部174、漏洩文書登録画面表示部175、漏洩元確認結果画面表示部176を備える。
【0094】
元文書登録画面表示部171は、置換を行なう対象(元文書)である電子文書をユーザに選択させ、さらに配布数を入力させるための画面であるファイル登録画面を表示させる。実施形態1において「配布数」とは、置換文書が配布される数であり、例えば配布先の数をいう。
【0095】
置換画面表示部172は、どの置換方法の種類(分類)の置換ワードにより置換を行なうかをユーザに選択させ、また、置換可能箇所数や置換ノイズ値等を視認させるための画面であるファイル置換画面を表示させる。また、置換画面表示部172において、各種設定が行なわれることで、電子文書内の文字列について置換ワードによる置換が行なわれる。
【0096】
置換文書登録画面表示部173は、置換文書、置換文書の配布先名などを対応付けて保存するための画面であるファイル登録画面を表示する。
【0097】
結果確認画面表示部174は、元文書や置換文書の内容を視認可能とするプレビュー(preview)画面であるファイル置換結果確認画面を表示する。
【0098】
漏洩文書登録画面表示部175は、漏洩された文書である漏洩文書をユーザに選択させるための画面である漏洩文書登録画面を表示させる。
【0099】
漏洩元確認結果画面表示部176は、漏洩文書と類似する類似文書の配布先名や漏洩文書と当該類似文の文章間の類似度を視認可能とする画面である漏洩元確認結果画面を表示させる。
【0100】
記憶部18は、各種データを主記憶装置3及び外部記憶装置4に記憶する。記憶部18は、例えば、置換文書や置換箇所等を主記憶装置3及び外部記憶装置4に記憶する。
【0101】
読み出し部1Dは、主記憶装置3及び外部記憶装置4から、これらの記憶装置に格納されている各種データを読み出す。読み出し部1Dは、例えば、主記憶装置3又は外部記憶装置4に格納されている元文書や漏洩文書などを読み出す。
【0102】
(動作フローの説明:電子文書置換全体フロー)
図11は、実施形態1に係る文書作成装置1の電子文書置換全体フローである。図11を用いて、文書作成装置1の電子文書置換についての全体フローについて説明する。文書作成装置1のCPU2は、主記憶装置3のコンピュータプログラムにより、図11の処理を実行する。
【0103】
ユーザが入力装置7を介して所定の方法で置換文書作成処理のためのプログラムの実行を指示すると、まず初めに、ユーザ情報入力画面(図示しない)が表示部17によって表示装置8に表示される。入力部16は、ユーザ情報入力画面において、ユーザからのユーザ情報の入力を受けたか否かを判断する(S101)。ユーザ情報の入力を受けていない場合(S101;No)、再度ステップ101の処理に戻る。入力部16は、ユーザ情報の入力を受けた場合(S101;Yes)、このユーザ情報とユーザ情報DB1Bとの照合を行う(S102)。
【0104】
入力部16は、ユーザにより入力されたユーザ情報がユーザ情報DB1Bに登録されて
いるか否かを判断し(S103)、入力されたユーザ情報がユーザ情報DB1Bに登録されていない場合(S103;No)、再度ステップ101の処理に戻る。入力されたユーザ情報がユーザ情報DB1Bに登録されている場合(S103;Yes)、ステップ104の処理に進む。
【0105】
ステップ104では、元文書である電子文書をファイルサーバに送信(登録)する処理(元文書登録処理)が行われる。元文書登録処理では、ユーザが入力装置7を介して、元文書登録画面にて置換を行いたい電子文書(元文書)を選択すると、読み出し部1Dは当該元文書を主記憶装置3又は外部記憶装置4から読み出す。読みされた元文書は、送信部14によってファイルサーバ20へ送信(登録)される。送信部14がファイルサーバへ元文書を送信すると、ステップ105(S105)の処理に進む。
【0106】
ステップ105では、元文書である電子文書内の文字列を置換ワード(置換文字列)によって置換を行う処理(元文書置換処理)が行われる。元文書置換処理では、ユーザが入力装置7を介して、置換画面にて置換の実行を指示すると、文書置換部13が元文書内の文字列を置換ワードにより置換する。文書置換部13が元文書の置換を行うと、ステップ106の処理に進む。
【0107】
ステップ106では、ステップ106により置換が行われた置換文書と当該置換文書を配布する宛名である配布先名を対応付けて、ファイルサーバ20へ送信(登録)する処理(置換文書登録処理)が行われる。置換文書登録処理では、ユーザが入力装置7を介して、置換文書登録画面にて配布先名の入力を行い保存の実行を指示すると、送信部14が置換文書と配布先名を対応付けてファイルサーバ20へ送信(登録)する。置換文書等をファイルサーバ20へ送信すると、ステップ107に進む。
【0108】
記憶部18は、ファイルサーバ20へ送信した置換文書等を主記憶装置3又は外部記憶装置4に記憶する(S107)。
【0109】
ステップ107で、置換文書等が主記憶装置3又は外部記憶装置4に記憶されると、文書作成装置1は、本文書作成装置の電子文書置換全体フローを終了する。
【0110】
(動作フローの説明:元文書登録処理)
図12は、実施形態1に係る文書作成装置1の元文書登録処理フローである。図12を用いて、文書作成装置1の元文書登録処理について説明する。文書作成装置1のCPU2は、主記憶装置3のコンピュータプログラムにより、図12の処理を実行する。
【0111】
ステップ103で、入力されたユーザ情報がユーザ情報DB1Bに登録されている場合(S103;Yes)、元文書登録画面表示部171は、元文書登録画面を表示させる(S1041)。
【0112】
図13は、元文書登録画面の一例を示す図である。図示するように、元文書登録画面には、「参照」ボタン、「次へ」ボタン、ファイル名が表示されるテキストボックス、及び配布数が入力されるテキストボックスが用意される。この元文書登録画面で、「参照」ボタンがクリックされると、電子文書を参照(選択)可能な参照画面(図示しない)が表示される。表示された参照画面で電子文書が選択された場合、選択された電子文書のファイル名が、テキストボックスに表示される。なお、ファイル名が表示されるテキストボックスには、ファイル名ではなく、当該ファイルのファイルパスが表示されるようにしてもよい。
【0113】
ユーザにより元文書登録画面上で「参照」ボタンがクリックされ電子文書が選択される
と、入力部16はそのイベントを受信し、読み出し部1Dが、選択された電子文書を主記憶装置3又は外部記憶装置4から読み出す(S1042)。また、同時に、元文書登録画面表示部171が、元文書登録画面のテキストボックスに、選択された電子文書のファイル名を表示する。
【0114】
図14は、元文書の一例として、図13で元文書として選択された「ご案内.txt」の内容を示す図である。本実施形態1では、元文書をこの「ご案内.txt」として、以下説明を行う。
【0115】
ユーザにより元文書登録画面のテキストボックスに配布数が入力されると、入力部16は入力された配布数を受け付ける(取得する)(S1043)。
【0116】
上記のとおり、ユーザによる、元文書登録画面上での電子文書の選択及び配布数の入力が行われた後に、本画面上で「次へ」ボタンがクリックされると、入力部16はそのイベントを受信する。これによって、送信部14が、元文書である電子文書及び元文書の作成者の識別情報などをファイルサーバ20へ送信(登録)する(S1044)。
【0117】
元文書の作成者の識別情報とは、作成者を一意に特定するための情報であり、作成者の氏名や作成者のIDなどが例示される。作成者の識別情報は、例えば、ステップ101でユーザにより入力されたユーザIDとしてもよい。また、作成者の識別情報は、例えば、元文書登録画面に作成者の識別情報を入力するテキストボックス(図示しない)を用意することで、ユーザに入力させるようにしてもよい。また、作成者の識別情報は、例えば、元文書である電子文書のプロパティに含まれる作成者名を抽出することで取得するようにしてもよい。
【0118】
送信部14は、元文書及び元文書の作成者の識別情報に加え、日時情報をファイルサーバ20へ送信するようにしてもよい。日時情報とは、日時を一意に特定するものであり、日にちのみの情報や日にち及び時間を組み合わせた情報などを含む概念である。日時情報としては、例えば、元文書等をファイルサーバ20に送信する日時や元文書の作成日時などが例示される。
【0119】
送信部14が、元文書をファイルサーバ20へ送信すると、文書作成装置1は、本元文書登録処理フローを終了する。
【0120】
(動作フローの説明:元文書置換処理)
図15Aは、実施形態1に係る文書作成装置1の元文書置換処理フローである。図15Aを用いて、文書作成装置1の元文書置換処理について説明する。文書作成装置1のCPU2は、主記憶装置3のコンピュータプログラムにより、図15Aの処理を実行する。
【0121】
置換可能箇所数算出部10は、元文書登録画面にて選択された電子文書内の置換可能箇所数を算出する(S1051)。置換可能箇所数算出部10は、例えば、DB191〜196毎に、DBに含まれる検索ワードをキーとして電子文書内の文章を走査することで、DB(分類)毎の置換可能箇所数を算出可能となる。
【0122】
また、ステップ1051では、置換可能箇所数算出部10は、上記で特定された置換可能箇所を、当該置換可能箇所の文字列(検索ワード)などと対応付けて、置換可能箇所記録DB1Cに記憶する。
【0123】
ここで、図14の元文書「ご案内.txt」を例に、置換可能箇所数算出部10の算出方法を説明する。置換可能箇所数算出部10は、用語DBが備えるDB191〜196毎に、
「ご案内.txt」の文章の中に、DBに含まれる各検索ワードが何箇所存在するかを算出する。
【0124】
図19は、置換可能箇所記録データベース1Cのデータ構成例を示す図である。図19には、図14の元文書「ご案内.txt」について、分類毎の置換可能箇所数が算出された結果が示されている。図示するように、置換可能箇所記録データベース1Cの各行には、分類、検索ワード、位置情報、置換ワード、置換可能箇所数の項目が含まれるようにしてもよい。なお、置換可能箇所記録データベース1Cの項目は、これらの項目に加え、分類コードや置換ノイズ値を含むこととしてもよい。
【0125】
図19では、「位置情報」として、“1行目, 11文字目”などの、置換可能箇所が存在する行番号と行の先頭文字から当該箇所までの文字数の組み合わせによるものが例示されている。
【0126】
図14及び図19に示すように、元文書「ご案内.txt」には、検索ワード「炒める」、「嘘」、「行う」、「組合せ」、「ベンダー」、「闇市場」、「程度」、「ディスカウント」、「ユーザ」、「自分」、「あるとのこと」が含まれる。これより、置換可能箇所数算出部10は、各分類「常用漢字」、「送り仮名」、「類義語」、「誤使用」、「誤字」、「脱字」についての置換可能箇所数を、それぞれ、“2”、“2”、“5”、“1”、“0”、“1”と算出することができる。
【0127】
なお、図19に示した置換可能箇所記録DB1Cに記憶されたデータは、置換画面表示部172により表示装置8に表示されるようにしてもよい。例えば、置換画面に「置換可能箇所表示」ボタンを用意し、ユーザがこのボタンをクリックすることで、図19に示された表が表示されるようにしてもよい。
【0128】
置換可能箇所数算出部10により、分類毎の置換可能箇所数が算出されると、ステップ1052に進む。置換画面表示部172は、置換画面を表示させる(S1052)。
【0129】
図16は、置換画面の初期画面の一例を示す図である。図示するように、置換画面には、元文書のファイル名(又はファイルパス)である元文書名及び配布数を表示させるテキストボックスが用意される。また、置換画面には、適用チェックボックスが用意され、その他表示項目として分類、ノイズレベル、置換可能箇所数、置換数が用意される。また、置換画面には、置換ノイズの表示項目に加え、置換ノイズ値の大きさを視覚的に表示させるスライドバーが用意されている。さらに、置換画面には、配布可能数を表示させるテキストボックス及び「置換」ボタンが用意されている。
【0130】
適用チェックボックスには、ユーザが入力装置7(例えば、マウス)を介して選択することで、チェック印が表示される。チェック印としては、“〆”や“レ”などが例示される。分類の欄には、「常用漢字」、「送り仮名」、「類義語」、「誤使用」、「誤字」、「脱字」等、置換方法の種類(分類)が表示される。ノイズレベルの欄には、各分類に対応する置換ノイズ重み付け値が表示される。
【0131】
置換可能箇所数の欄には、分類毎の置換可能箇所数が表示される。置換数の欄には、置換箇所の数である置換箇所数が分類毎に表示される。置換数の欄に表示される置換数の数値は、後述するスライドバーのポイントを左右に移動させると置換ノイズ値が増減するのに伴い、変動する。また、ユーザが直接、置換数の欄に置換数を入力するようにしてもよい。置換数のスライドバーのポイントを移動させた場合の処理については、以下、図18で詳細を説明する。
【0132】
置換ノイズの欄には、置換画面上でユーザにより選択された分類毎の置換箇所について、置換ワードによる置換が行われた場合の置換文書の置換ノイズ値が表示される。
【0133】
スライドバーは、置換画面上でユーザにより選択された分類毎の置換箇所について、置換ワードによる置換が行われた場合の置換文書の置換ノイズ値の大きさを視認可能とする。スライドバーは、前記置換ノイズ値の取り得る範囲を示すものであり、ユーザによりこのスライドバーのポイント(図26の白丸に相当)を移動させることで、置換ノイズ値を選択(変更)可能とする。例えば、ユーザは、このスライドバーを左にスライドすることで、置換文書が含む置換ノイズ値を下げることが可能となる。
【0134】
スライドバーには、図16のように、置換ノイズ値の取り得る最小値と最大値を表示するようにしてもよい。ここで、スライドバーの最小値は、例えば、原文(元文書)の場合の置換ノイズ値“0”である。これは、元文書の電子文書は置換が行われていないため、置換ノイズを含まないことを意味する。また、スライドバーの最大値は、例えば、選択された分類の置換ワードにより置換を行った置換文書が、最大限含むことが可能である置換ノイズの値(最大置換ノイズ値)である。そのため、分類が選択されていない状態(初期状態)では、図16で示すように、最大置換ノイズ値は“---”や空白などの表示として
もよい。
【0135】
配布可能数のテキストボックスには、置換可能箇所から置換数分の置換箇所を選択する組み合わせ(パターン)数である配布可能数が表示される。
【0136】
「置換」ボタンは、元文書を置換ワードにより置換するためのボタンである。ユーザが入力装置7(例えば、マウス)を介して「置換」ボタンをクリックすることで、入力部16はそのイベントを受信する。これによって、文書置換部13が、元文書である電子文書内の文字列を置換ワードにより置換を行う。
【0137】
置換画面表示部17は、置換画面に、元文書登録画面で選択された元文書のファイル名である元文書名及び同画面で入力された配布数を表示させる(ステップ1052)。読み出し部1Dは、置換ノイズ重み付けDB1Aに分類毎に対応付けて記憶された置換ノイズ重み付け値を読み出す。これによって、置換画面表示部17は、置換ノイズ重み付け値を、置換画面の各分類に対応する「(ノイズレベル)」欄に表示させる(ステップ1052)。また、置換画面表示部17は、ステップ1051で算出された分類毎の置換可能箇所数を、各分類に対応する置換可能箇所数の欄に表示させる(ステップ1052)。
【0138】
なお、図16に示すように、置換画面表示部17は、置換画面の初期画面の、適用ボックス、置換数の欄、及び配布可能数の欄を空白表示としてもよい。また、同図に示すように、置換画面表示部17は、置換ノイズの欄には“0”と表示し、それに伴いスライドバーについても最小ノイズ値である“0”にポイントするように表示してもよい。
【0139】
ここで、ステップ1051とステップ1052は順不同である。そのため、置換画面(初期画面)の表示が行われた後に、置換可能箇所数の算出が行われるようにしてもよい。この場合、置換画面表示部17は、置換画面の初期画面において、置換可能箇所数を表示しない、又は全て“0”と表示するようにしてもよい。このようにすると、置換可能箇所数の表示は、初期画面が表示され置換可能箇所数が算出された後に、置換画面表示部17によって行われることとなる。
【0140】
ステップ1052で置換画面が表示されると、ステップ1053の処理に進む。
【0141】
ステップ1053では、まず、ユーザにより、置換画面上で各分類についての適用チェ
ックボックスがクリックされると、入力部16はそのイベントを受信し、選択された分類を受け付ける。これによって、置換画面表示部172が、選択チェックボックスにチェック印(例えば“〆”)を表示させる。また、置換画面表示部172は、選択された「適用」チェックボックスに対応する分類の置換数の欄に、読み出し部1Dにより主記憶装置3等から読み出された置換数の初期値を表示する。
【0142】
図17は、ユーザによって各分類に対応する適用チェックボックスが選択された場合の置換画面の一例を示す図である。図17に表示される項目については、図16の表示項目と同じであるため、図17の表示項目についての説明は省略する。
【0143】
図17では、ユーザにより、分類「常用漢字」、「送り仮名」、「類義語」についての適用チェックボックスが選択されている。また、分類「常用漢字」、「送り仮名」、「類義語」の置換数の欄にはそれぞれ、初期値である“1置換”が表示される。図17の例では、選択チェックボックスが選択された場合の置換数の初期値が“1”に設定されているが、実施形態1ではこれに限るものではなく、任意に設定可能である。
【0144】
ステップ1053で、「分類」が選択されると、ステップ1054の処理に進む。
【0145】
置換ノイズ算出部12は、選択された分類の置換数の初期値とノイズレベル(置換ノイズ重み付け値)に基づき、最小置換ノイズ値を算出する(ステップ1054)。具体的には、置換ノイズ算出部12は、分類毎の最小置換ノイズ値Aiminを、Aimin=(分類毎の)置換数の初期値×(分類毎の)ノイズレベルにより算出する。置換ノイズ算出部12は、この分類毎の置換ノイズ値Aiminを加算する、すなわち、ΣAiminを算出することで、置換文書に含まれる置換ノイズの取り得る最小値である最小置換ノイズ値を算出する。
【0146】
図17の例では、分類「常用漢字」については、ノイズレベル“1”、置換数の初期値“1”であるため、置換ノイズ値は、“1”となる。分類「送り仮名」については、ノイズレベル“1”、置換数の初期値“1”であるため、置換ノイズ値は、“1”となる。分類「類義語」については、ノイズレベル“2”、置換数の初期値“1”であるため、最小置換ノイズ値は、“2”となる。これより、置換文書に含まれる置換ノイズ値は4(=1+1+2)となる。
【0147】
置換画面表示部172は、置換ノイズ算出部12により算出された置換文書の最小置換ノイズ値を、置換画面に表示する。図17の例では、「置換ノイズ」の欄に“4”が表示されている。
【0148】
また、置換ノイズ算出部12は、置換ノイズ最大値を求めるようにしてもよい。置換ノイズ最大値は、分類毎のノイズレベル及び置換可能箇所数に基づき算出可能である。具体的には、置換ノイズ算出部12は、分類毎に置換ノイズ最大値Aimaxを、Aimax=(分類毎の)置換可能箇所数×(分類毎の)ノイズレベルにより算出する。置換ノイズ算出部12は、この分類毎の最大置換ノイズ値Aimaxを加算する、すなわち、ΣAimaxを算出することで、置換文書が含むことが可能な最大の置換ノイズ値(最大置換ノイズ値)を算出する。
【0149】
図17の例では、分類「常用漢字」については、ノイズレベル“1”、置換可能箇所数“2箇所”であるため、最大置換ノイズ値は、“2”となる。分類「送り仮名」については、ノイズレベル“1”、置換可能箇所数“2箇所”であるため、最大置換ノイズ値は、“2”となる。分類「類義語」については、ノイズレベル“2”、置換可能箇所数“5置換”であるため、置換ノイズ値は、“10”となる。これより、置換文書の置換ノイズ値は14(=2+2+10)となる。
【0150】
置換画面表示部172は、置換ノイズ算出部12により算出された置換文書の最大置換ノイズ値を、置換画面のスライドバーの右側下部に表示するようにしてもよい。図17の例では、最大置換ノイズ値として“14”が表示されている。
【0151】
また、置換画面表示部172は、スライドバーのポイントが、置換ノイズ算出部12により算出された最小置換ノイズ値(図17の場合“4”)を示すように、表示する。
【0152】
ステップ1054で最小置換ノイズ値の算出が行われると、ステップ1055の処理に進む。
【0153】
配布可能数算出部11は、ユーザにより選択された分類の置換可能箇所数及び置換数に基づき、配布可能数を算出する(ステップ1055)。具体的には、配布可能数算出部11は、分類毎に配布可能数を、(分類毎の)置換可能箇所(数)から置換箇所(置換数)を選ぶ組み合わせの総数により算出する。すなわち、配布可能数算出部11は、分類毎の置換可能箇所数をn、分類毎の置換数をmとすると、分類毎の配布可能数を、配布可能数
(分類毎)=nmにより算出する。配布可能数算出部11は、この分類毎の配布可能数を掛け合わせることで、置換文書の配布可能数を算出する。
【0154】
図17の例では、分類「常用漢字」については、置換可能箇所数“2箇所”、置換数“1置換”であるため、配布可能数は、“2(=21)”となる。分類「送り仮名」については、置換可能箇所数 “2箇所”、置換数“1置換”であるため、配布可能数は、“2
(=21)”となる。分類「類義語」については、置換可能箇所数“5箇所”、置換数“1置換”であるため、置換ノイズ値は、“5(=51)”となる。これより、置換文書の配布可能数は20(=21×21×51=2×2×5)となる。
【0155】
置換画面表示部172は、配布可能数算出部11により算出された置換文書の配布可能数を置換画面に表示する。図17の例では、配布可能数として“20”が表示されている。
【0156】
なお、ステップ1054とステップ1055は順不同である。そのため、配布可能数の算出が行われた後に、置換ノイズの算出が行われるようにしてもよい。
【0157】
ステップ1055で配布可能数の算出が行われると、ステップ1056の処理に進む。
【0158】
入力部16は、置換画面において、ユーザにより、新たに適用チェックボックスをクリックされたか否か(置換に適用する分類が変更されたか否か)、スライドバーのポイントを移動されたか否か(置換ノイズ値が変更されたか否か)、又は置換数を変更されたか否かを判断する(S1056)。これらユーザにより新たに操作が行われたことを入力部16が受け付けると(S1056;Yes)、ステップ1058の処理に進む。これらユーザによる操作が行われていない場合(S1056;No)、ステップ1057の処理に進む。
【0159】
ユーザにより新たに操作が行われる理由としては、例えば、算出された配布可能数が、ユーザの入力した配布数より少ないことより、配布先毎に異なる置換文書を配布することができないため、ユーザにより適用する分類の数を増やされることが考えられる。
【0160】
また、ある文書について、漏洩された場合に確実に漏洩元を特定したいとユーザが希望する場合は、置換ノイズ値、すなわち、元文書から変更度合(変更箇所)、を増やすことが考えられる。
【0161】
ユーザによる操作が行われたことを入力部16が受け付けた場合(S1056;Yes)、ステップ1058の処理(置換設定変更処理)に進む。ユーザにより上記操作が行われた場合、すなわち、ユーザにより分類、置換ノイズ値、置換数の変更がなされた場合の、置換を行うための設定変更を行う処理について、図15Bにより説明する。
【0162】
(動作フローの説明:置換設定変更処理)
図15Bは、本実施形態1に係る文書作成装置1の置換設定変更処理フローである。図15Bを用いて、文書作成装置1の置換設定変更処理について説明する。文書作成装置1のCPU2は、主記憶装置3のコンピュータプログラムにより、図15Bの処理を実行する。
【0163】
入力部16は、ユーザによる操作により変更された内容を判断する(S1058A)。入力部16が判断した結果、ユーザによる操作により変更された内容が「置換数」である場合(S1058A;置換数)、置換ノイズ算出部12は、置換ノイズ値の算出を行う(S1058B)。
【0164】
ステップ1058Bで置換算出部12が行う置換ノイズ値の算出方法は、図15Aのステップ1054の最小置換ノイズ値の算出方法と基本的には同様である。但し、ステップ1058Bでは、ステップ1054と違い、置換ノイズ値の算出に用いる置換数を初期値に限らない。例えば、ユーザにより変更された後の置換数が初期値と異なる場合(例えば、初期値“1”でなく、“2”や“3”などの場合)は、当該変更された後の置換数を用いて、置換ノイズ値の算出を行う。
【0165】
入力部16が判断した結果、ユーザによる操作により変更された内容が「分類」である場合(S1058A;分類)、置換ノイズ算出部12は、まず、分類の選択を受け付ける(S1058C)。
【0166】
ステップ1058Cで行われる分類の選択の受け付け方法は、図15Aのステップ1053の分類の選択の受け付け方法と基本的には同様であるため、詳細説明は省略する。なお、ユーザの操作により、ある分類が除外されたときは、置換画面表示部172は、当該分類の選択チェックボックスからチェック印を削除して表示させる。また、置換画面表示部172は、当該分類に対応する置換数の欄から置換数を削除し、空白や“---”などを
表示させる。
【0167】
ステップ1058Cの分類の選択の受け付けが終了すると、置換ノイズ算出部12は、置換ノイズ値を算出する(S1058D)。
【0168】
ステップ1058Dで置換算出部12が行う置換ノイズ値の算出方法は、図15Aのステップ1054の最小置換ノイズ値の算出方法と基本的には同様であるため、詳細説明は省略する。但し、ステップ1058Dでは、ステップ1054と違い、置換ノイズ値の算出に用いる置換数を初期値に限らない。例えば、ユーザにより「置換数」や「置換ノイズ値」が変更された後に、さらに、「分類」が変更されたときは、置換数が初期値と異なる値である場合が考えられるため、この場合は当該初期値と異なる値である置換数を用いて、置換ノイズ値の算出を行う。
【0169】
入力部16が判断した結果、ユーザによる操作により変更された内容が「置換ノイズ値」である場合(S1058A;置換ノイズ値)、置換ノイズ算出部12は、分類毎の置換数を算出する(S1058E)。
【0170】
ステップ1058Eでは、置換ノイズ算出部12は、変更された後の置換ノイズ値に基づき、分類毎の置換数を算出する。ここで、分類毎の置換ノイズ値Aiは、Ai=(分類毎の)置換数×(分類毎の)ノイズレベルにより算出される。また、置換文書に含まれる置換ノイズ値Aは、A=ΣAi=Σ{(分類毎の)置換数×(分類毎の)ノイズレベル}に
より算出される。
【0171】
これより、上記置換ノイズ値Aの算出式を使用することで、分類毎の置換数を算出する。この際、上記置換ノイズ値Aの算出式における「置換ノイズ値A」を、変更された後の置換ノイズ値とする。また、上述のとおり、「(分類毎の)ノイズレベル」は、置換ノイズ重み付けDB1Aに記憶された分類毎の置換重み付け値とする。
【0172】
なお、分類毎の置換数を算出(変更)する際、置換可能箇所数が2箇所以下の分類についての置換数は“1置換”から変更しないこととする。これは、置換可能箇所数が2箇所である分類についての置換数を、“1置換”から“2置換”にしてしまうと、配布可能数が減少してしまうことを防ぐためである。具体的には、置換可能箇所数が2箇所の場合に置換数を“1置換”とすると、2通り(パターン)の置換文書が作成可能となる。しかし、置換数を“2置換”とすると、2箇所のうち2箇所とも置換を行う1つの置換文書しか作成されないこととなるからである。
【0173】
なお、置換画面において、ユーザが置換数を変更する操作を行う場合は、上記のような、置換可能箇所数が2箇所以下の場合の置換数の制限はないものとしてもよい。
【0174】
ここで、図18を用いて、置換ノイズ算出部12による分類毎の置換数の算出方法を例示する。
【0175】
図18は、図17の置換画面において、ユーザの操作により置換ノイズ値を増加する変更がなされた場合の置換画面の一例を示す図である。図18に表示される項目については、図16の表示項目と同じであるため、図18の表示項目についての説明は省略する。
【0176】
図18では、ユーザによるスライドバーの操作により、置換ノイズ値が“4”から“10”に変更されている。なお、図18では、ユーザにより選択された分類は3つ(常用漢字、送り仮名、類義語)である。
【0177】
ここで、図18の場合には、これらの分類の置換文字列により置換された置換文書に含まれる置換ノイズ値Aは、以下の式により算出される。
(式)A=置換数(常用漢字)×ノイズレベル(常用漢字)+置換数(送り仮名)×ノイズレベル(送り仮名)+置換数(類義語)×ノイズレベル(類義語)
【0178】
図18の場合、置換ノイズ値Aは、変更後の置換ノイズ値である“8”である。また、ノイズレベル(常用漢字)、ノイズレベル(送り仮名)、ノイズレベル(類義語)はそれぞれ、置換ノイズ重み付けDB1Aに記憶された置換ノイズ重み付け値“1”、“1”、“2”である。
【0179】
上記より、置換ノイズ算出部12は、以下の式を満たすような、分類毎の置換数を算出する。
(式)8=置換数(常用漢字)+置換数(送り仮名)+置換数(類義語)×2
【0180】
なお、上述のとおり、分類「常用漢字」、「送り仮名」の置換可能箇所数はいずれも2箇所であるため、置換ノイズ算出部12は、これらの分類の置換数は増加させないこととする。すなわち、置換数(常用漢字)及び置換数(送り仮名)はそれぞれ“1”とする。
よって、上記式より、置換ノイズ算出部12は、置換数(類義語)を“3”と算出できる。
【0181】
ここで、上記置換ノイズAの算出式を満たす、分類毎の置換数の組み合わせが複数ある場合、置換ノイズ算出部12は、複数の組み合わせからランダムに1つの組み合わせを選択するようにしてもよい。また、置換ノイズ算出部12は、複数の組み合わせから1つの組み合わせを選択する際に優先順位を持たせる等の一定のルールを設定するようにしてもよい。
【0182】
なお、ステップ1058Eでは、置換画面表示部172が、変更された後の置換ノイズ値を置換ノイズの欄に表示する。また、置換画面表示部172は、算出された分類毎の置換数を、置換画面の置換数の欄に表示する。
【0183】
上述したステップ1058B、1058D、1058Eでの処理が終了すると、ステップ1058Fの処理(配布可能数の算出処理)へ進む。
【0184】
ステップ1058Fで配布可能数算出部11が行う配布可能数の算出方法は、図15Aのステップ1055と基本的には同様であるため、詳細説明を省略する。図18の置換画面の例では、配置可能数算出部11が算出した配置可能数は、“40(=21×21×5
3=2×2×10)”となる。
【0185】
なお、ステップ1058Bとステップ1058Fは順不同である。また、ステップ1058Dとステップ1058Fも順不同である。
【0186】
ステップ1058Fで配布可能数の算出が行われると、文書作成装置1は、本置換設定変更処理フローを終了し、再度ステップ1056の処理へ進む。
【0187】
図16のステップ1057の説明に戻る。ステップ1057では、まず、ユーザが入力装置7(例えば、マウス)を介して「置換」ボタンをクリックすることで、入力部16はそのイベントを受信する。これによって、文書置換部13が、元文書である電子文書内の文字列を置換ワードにより置換を行うことで、元文書登録画面で入力された配布数分の置換文書を作成する。
【0188】
具体的には、文書置換部13は、選択された分類毎に、置換可能箇所の中から置換箇所数(置換数)分の箇所(置換箇所)をランダムに選択する。すなわち、文書置換部13は、図19に示した置換可能箇所記録データベース1Cに記憶された置換可能箇所からランダムに、置換箇所数分の箇所(置換箇所)を選択する。但し、文書置換部13は、置換箇所の組み合わせが全く同一である置換文書は作成しないこととする。これより、各配布先に異なる内容(文章)の置換文書を配布することが可能となる。
【0189】
文書置換部13は、選択した箇所(置換箇所)に存在する文字列(検索ワード)を、当該検索ワードに対応付けられて用語DB19に記憶された置換ワードにより置換を行う。
【0190】
図17の例では、同図で示された置換画面において、「置換」ボタンが押下された場合、ユーザにより選択された分類「常用漢字」、「送り仮名」、「類義語」について、それぞれ1箇所の置換箇所について文字列の置換が行われる。
【0191】
図20は、図17の置換画面で「置換」ボタンが選択され、文書置換部13により置換が行われた置換文書の例を示す図である。図20の置換文書例1では、元文書内に存在した「行う」、「ベンダー」、「嘘」の文字列(検索ワードと一致)がそれぞれ、置換文字
列(置換ワード)である「行なう」、「ベンダ」、「うそ」により置換されている。「行う」は分類「送り仮名」に、「ベンダー」は分類「類義語」に、「嘘」は分類「常用漢字」に属している。これより、分類毎に1箇所のみ置換が行われていることがわかる。
【0192】
また、図20の置換文書例2では、元文書内に存在した「ディスカウント」、「嘘」、「組合せ」の文字列(検索ワードと一致)がそれぞれ、置換文字列(置換ワード)である「値引き」、「うそ」、「組み合わせ」により置換されている。「ディスカウント」は分類「類義語」に、「嘘」は分類「常用漢字」に、「組合せ」は分類「送り仮名」に属している。
【0193】
なお、ステップ1057では、元文書に対して置換が行われると、記憶部18は、実際に置換を行った箇所である置換箇所を特定する情報を、置換文書毎に、検索ワードと対応付けて置換箇所記録DB1Eに記憶する。
【0194】
ステップ1057で、文書置換部13が、元文書である電子文書を置換ワードにより置換を行うと、文書作成装置1は、本元文書置換処理フローを終了する。
【0195】
(動作フローの説明:置換文書登録処理)
図21は、実施形態1に係る文書作成装置1の置換文書登録処理フローである。図21を用いて、文書作成装置1の置換文書登録処理について説明する。文書作成装置1のCPU2は、主記憶装置3のコンピュータプログラムにより、図21の処理を実行する。
【0196】
ステップ105で、元文書が置換文字列により置換された場合、置換文書登録画面表示部173は、置換文書登録画面を表示装置8に表示させる(S1061)。
【0197】
図22は、置換文書登録画面の一例を示す図である。図示するように、置換文書登録画面には、元文書のファイル名である元文書名、元文書の作成者を一意に特定する識別情報及び元文書のプレビューを表示させるプレビューボタンが用意される。
【0198】
また、置換文書登録画面には、番号の表示項目に加え、配布先名を入力させるテキストボックスが用意される。なお、本実施形態では置換文書が5つ作成されるため、配布先名を入力させるテキストボックスは5つ用意される。また、置換文書登録画面には、置換文書のプレビュー画面である結果確認画面を表示させるプレビューボタン及び置換文書を保存するための保存ボタンが用意される。
【0199】
なお、配布先名を予め登録したCSV(Comma Separated Values)ファイルを読み込むことで、配布先名を自動入力するようにしてもよい。この場合、図22の置換文書登録画面には、CSVファイルを呼び出すボタン等を用意する必要がある。
【0200】
また置換文書登録画面には、画面を閉じるための「終了」ボタンが用意される。
【0201】
置換文書登録画面の番号は、各置換文書を一意に特定する識別情報であり、行番号、置換文書毎に定められた番号や、置換文書に一時的に設定されたファイル名などが例示される。置換文書登録画面表示部173は、置換文書登録画面に、元文書登録画面で選択された元文書のファイル名である元文書名を表示させる(ステップ1061)。また、置換文書登録画面表示部17は、置換文書登録画面に、元文書の作成者の識別情報を表示させる(ステップ1061)。元文書の作成者の識別情報としては、作成者の氏名やIDなどが例示される。なお、この作成者の識別情報は、元文書登録画面にて入力された識別情報であってもよいし、ステップ101で受け付けたユーザのIDであってもよい。
【0202】
置換文書登録画面上で元文書のプレビューボタンが選択されると、入力部16がこのイベントを受信し、結果確認画面表示部174によって、元文書の結果確認画面(図示しない)が表示される。これより、ユーザは元文書の内容を視認することが可能となる。
【0203】
置換文書登録画面上で置換文書のプレビューボタンが選択されると、入力部16がこのイベントを受信し、結果確認画面表示部174によって、図23のような置換結果確認画面が表示される。
【0204】
図23は、置換結果の結果確認画面の一例を示す図である。置換結果の結果確認画面には、元文書名、作成者の識別情報、置換文書を一意に特定する識別情報(番号)、配布先名などが表示される。また、本結果確認画面には、元文書のプレビューを表示させるためのプレビューボタンを用意するようにしてもよい。また、本結果確認画面には、置換文書の内容が表示されるテキストボックスが用意される。これより、ユーザは各置換文書の内容を視認することが可能となる。また、図23に示すように、太字や下線などの表示方法により、置換された箇所(文字列)を視認可能とするようにしてもよい。
【0205】
置換文書登録画面のテキストボックスに配布先名が入力されると、入力部16は入力された配布先名を受け付ける(取得する)(S1062)。「配布先名」は、置換文書の配布先を一意に特定する識別情報であり、配布先の人物の氏名、当該人物のID、電話番号などが例示される。
【0206】
上記のとおり、ユーザによる、置換文書登録画面上での配布先名の入力が行われた後に、本画面上で「保存」ボタンがクリックされると、入力部16はそのイベントを受信する。これによって、送信部14が、各置換文書と配布先名を対応付けて、ファイルサーバ20へ送信(登録)する(S1063)。
【0207】
送信部14は、置換文書及び配布先名に加え、日時情報をファイルサーバ20へ送信するようにしてもよい。日時情報としては、例えば、置換文書及び配布先名をファイルサーバ20に送信する日時や置換文書の作成日時(置換を実施した日時)などが例示される。
【0208】
なお、ステップ1063でファイルサーバ20へ置換文書と配布先名を送信すると、ファイルサーバ20は、元文書と当該元文書から作成された置換文書との対応関係がわかるように、置換文書及び配布先名を記憶(保存)する。なお、ファイルサーバ20は、置換文書毎に異なるファイル名を設定し、当該ファイル名により置換文書を記憶(保存)する。「ファイル名」は、“元文書名_配布先名.txt”や“置換日_元文書名_配布先名.txt”
など、任意に設定されるものであってよい。
【0209】
なお、ファイルサーバ20では、各置換文書について、置換文書の「ファイル名」と「配布先名」を対応付けた、ファイル名対応付けDB(図示しない)を備えるようにしてもよい。なお、「ファイル名」と「配布先名」に加えて、当該置換文書へのリンク情報、例えば、ファイルパス名などを対応付けるようにしてもよい。
【0210】
ファイルサーバ20で置換文書が保存(格納)されると、受信部15は、ファイルサーバ20から各置換文書に割り当てられたファイル名を受信するようにしてもよい。この場合、文書作成装置1において、上述したファイル名対応付けDBを備えるようにしてもよい。なお、受信された「ファイル名」は、置換文書登録画面上で視認可能としてもよい。
【0211】
送信部14が、置換文書及び配布先名をファイルサーバ20へ送信し、「終了」ボタンが選択されると、文書作成装置1は、本置換文書登録処理フローを終了する。
【0212】
なお、上述のとおり、受信部15が、ファイルサーバ20からファイル名を受信した場合、図11のステップ107で、記憶部18が、各置換文書を受信したファイル名で記憶(保存)するようにしてもよい。
【0213】
(動作フローの説明:漏洩元特定処理)
図24は、実施形態1に係る文書作成装置1の漏洩文書特定フローである。図24を用いて、文書作成装置1の漏洩元特定フローについて説明する。文書作成装置1のCPU2は、主記憶装置3のコンピュータプログラムにより、図24の処理を実行する。
【0214】
ユーザが入力装置7を介して所定の方法で漏洩元特定に係る漏洩元特定処理プログラムの実行を指示すると、まず初めに、ユーザ情報入力画面(図示しない)が表示部17によって表示装置8に表示される。入力部16は、ユーザ情報入力画面において、ユーザからのユーザ情報の入力を受けたか否かを判断する(SA101)。ユーザ情報の入力を受けていない場合(SA101;No)、再度ステップA101の処理に戻る。入力部16は、ユーザ情報の入力を受けた場合(SA101;Yes)、このユーザ情報とユーザ情報DB1Bとの照合を行う(SA102)。
【0215】
入力部16は、ユーザにより入力されたユーザ情報がユーザ情報DB1Bに登録されているか否かを判断し(SA103)、入力されたユーザ情報がユーザ情報DB1Bに登録されていない場合(SA103;No)、再度ステップA101の処理に戻る。入力されたユーザ情報がユーザ情報DB1Bに登録されている場合(SA103;Yes)、ステップA104の処理に進む。
【0216】
ステップA104では、漏洩文書である電子文書を類似文書チェック装置30に送信(登録)する処理(漏洩文書登録処理)が行われる。漏洩文書登録処理では、ユーザが入力装置7を介して、漏洩文書登録画面にて漏洩元の特定を行いたい電子文書(漏洩文書)を選択すると、読み出し部1Dは当該漏洩文書を主記憶装置3又は外部記憶装置4から読み出す。読みされた漏洩文書は、送信部14によって類似文書チェック装置30へ送信(登録)される。送信部14が類似文書チェック装置30へ漏洩文書を送信すると、ステップA105(SA105)の処理に進む。
【0217】
受信部15は、類似文書チェック装置30から、漏洩文書と漏洩文書に類似すると判断された置換文書である類似文書との文章間の類似の度合いである類似度を受信(取得)する(SA105)。またこの際、受信部15は、類似度と共に、当該類似度が算出された類似文書(置換文書)のファイル名を受信(取得)する(SA105)。また、この際、受信部15は、類似度及び類似文書のファイル名と共に、類似文書を受信してもよい。
【0218】
ここで、類似文書チェック装置30は、汎用的な類似度算出などの判定アルゴリズムを用いて、特定の文書と他の文書とを比較し、両文書の文章間の類似度を算出する。
【0219】
本実施形態1に係る類似文書チェック装置30は、ファイルサーバ20に格納された上述の複数の置換文書を読み出すことで、これら複数の置換文書とステップA104により送信された漏洩文書とを比較し、両者の文章間の類似度を算出する。例えば、類似文書チェック装置30は、比較を行う全ての文書について形態素解析を行うことにより、文書内の要素を抽出する。類似文書チェック装置30は、比較を行う文書間で共通して出現する要素(単語)の数をカウントし、類似度を算出することが可能である。また、類似文書チェック装置30は、例えば、特開2000−311173号公報で開示されるような、ベクトル空間法を用いた類似度算出を行うことが可能である。また、類似文書チェック装置30は、例えば、特開2009−205674号公報で開示された技術を用いてもよい。
【0220】
ステップA105で、受信部15が、類似度及び類似文書のファイル名を取得すると、読み出し部1Dは、当該類似文書のファイル名に基づき、ファイルサーバ20から当該ファイル名と対応付けて記憶された配布先名を取得する(SA106)。具体的には、読み出し部1Dは、当該類似文書のファイル名をキーとしてファイルサーバ20のファイル名対応付けDBを参照することで、ファイル名に対応する配布先名を取得する。
【0221】
なお、類似文書のファイル名すなわち、置換文書のファイル名と当該置換文書の配布先名を対応付けたファイル名対応付けDBが文書作成装置1に格納されている場合は、受信部16が、当該DBを参照することで配布先名を取得するようにしてもよい。
【0222】
ステップA106で配布先名を受信すると、漏洩元確認結果画面表示部176は、漏洩元確認結果画面を表示させる(SA107)。また、漏洩元確認結果画面表示部176は、漏洩元確認結果画面に、類似度及び当該類似度の算出を行った類似文書の配布先名を表示させる(SA107)。これより、ユーザは、漏洩された文書(漏洩文書)と類似する置換文書及び当該置換文書の配布先名を視認(特定)可能となり、また、漏洩された文書と当該置換文書との類似度についても視認可能となる。これより、ユーザは、例えば、当該漏洩文書は、漏洩文書との類似度が最も高い置換文書が漏洩されたものである可能性が高いと判断することが可能である。また、ユーザは、当該漏洩文書の漏洩元(漏洩させた人物)は、漏洩文書との類似度が最も高い置換文書の配布先名で示された人物である可能性が高いと判断することが可能である。
【0223】
図28は、漏洩元確認結果画面の一例を示す図である。図示するように、漏洩元確認結果画面には、漏洩文書のファイル名である漏洩文書名が表示されるテキストボックスが用意される。また、漏洩元確認結果画面には、番号、漏洩確率(類似度)の表示項目に加え、類似文書の配布先名が表示されるテキストボックスが用意される。また、漏洩元確認結果画面には、類似文書のプレビューを表示させるプレビューボタン及び漏洩元確認結果画面を閉じるための「終了」ボタンが用意される。
【0224】
漏洩元確認結果画面の番号は、各類似文書を識別する情報であり、例えば、類似文書毎に定められた番号や、類似文書のファイル名などが例示される。漏洩元確認結果画面表示部176は、漏洩元確認結果画面に、漏洩文書登録画面で選択された漏洩文書のファイル名(漏洩文書名)を表示させる(SA107)。また、漏洩元確認結果画面表示部176は、漏洩元確認結果画面に、取得した類似度と、類似文書の配布先名を表示させる(SA107)。
【0225】
類似文書(ファイル)のプレビューボタンが選択されると、入力部16がこのイベントを受信し、読み出し部1Dが当該類似文書を読み出し、結果確認画面表示部174によって、類似文書確認画面(図示しない)が表示される。これより、ユーザは類似文書の内容を視認することが可能となる。なお、読み出し部1Dは、文書作成装置1に格納された類似文書である置換文書を読み出すようにしてもよいし、類似文書チェック装置30又はファイルサーバ20から類似文書を読み出すようにしてもよい。これより、結果確認画面表示部174は、類似文書確認画面に類似文書を表示させる。
【0226】
なお、漏洩文書は電子文書であり、WORD(Microsoft Office Word)などの文書作
成ソフトウェアにより作成された電子文書に限らず、紙上に印刷された文書などをOCR(Optical Character Reader)により電子化された電子文書などを含む。
【0227】
漏洩元確認結果画面表示部176が、漏洩元確認結果画面に、類似度や類似文書(置換文書)の配布先名を表示し、同画面上で「終了」ボタンが選択されると、文書作成装置1は、本漏洩文書特定フローを終了する。
【0228】
(動作フローの説明:漏洩文書登録処理)
図25は、実施形態1に係る文書作成装置1の漏洩文書登録処理フローである。図25を用いて、文書作成装置1の漏洩文書登録処理について説明する。文書作成装置1のCPU2は、主記憶装置3のコンピュータプログラムにより、図25の処理を実行する。
【0229】
ステップA103で、入力されたユーザ情報がユーザ情報DB1Bに登録されている場合(SA103;Yes)、漏洩文書登録画面表示部175は、漏洩文書登録画面を表示させる(SA1041)。
【0230】
図26は、漏洩文書登録画面の一例を示す図である。図示するように、漏洩文書登録画面には、「参照」ボタン、「次へ」ボタン及びファイル名が表示されるテキストボックスが用意される。この漏洩文書登録画面で、「参照」ボタンがクリックされると、電子文書を参照(選択)可能な参照画面(図示しない)が表示される。表示された参照画面で電子文書が選択された場合、選択された電子文書のファイル名が、テキストボックスに表示される。なお、ファイル名が表示されるテキストボックスには、ファイル名ではなく、当該ファイルのファイルパスが表示されるようにしてもよい。
【0231】
漏洩文書登録画面上で「参照」ボタンがクリックされ電子文書が選択されると、入力部16はそのイベントを受信し、読み出し部1Dが、選択された電子文書を主記憶装置3又は外部記憶装置4から読み出す(SA1042)。また、同時に、漏洩文書登録画面表示部175が、漏洩文書登録画面のテキストボックスに、選択された電子文書のファイル名を表示する。
【0232】
図27は、図26で漏洩文書として選択された「ご案内_20110101.txt」の内容の一例
である。
【0233】
上記のとおり、ユーザによる、漏洩文書登録画面上での電子文書の選択が行われた後に、本画面上で「次へ」ボタンがクリックされると、入力部16はそのイベントを受信する。これによって、送信部14が、漏洩文書である電子文書を類似文書チェック装置30へ送信(登録)する(SA1043)。送信部14が、漏洩文書を類似文書チェック装置30へ送信すると、文書作成装置1は、本漏洩文書登録処理フローを終了する。
【0234】
以上に説明したように、文書作成装置1は、置換可能箇所の中から置換箇所を、置換箇所の組み合わせが他の置換文書の置換箇所の組み合わせと一致しないように選択することで、配布先毎に置換箇所の組み合わせが異なる置換文書を作成することが可能となる。すなわち、電子文書の文字列を意図的に異なる文字列に置換(変換)することで、配布先毎に、異なる文章の置換文書を配布することが可能となる。これによって、当該電子文書が漏洩されたときに、漏洩文書と置換文書とを比較し漏洩文書がどの置換文書と類似するかを確認することで、漏洩文書がどの配布先の人物から漏洩したか(漏洩元)の特定の可能性を高めることが可能となる。
【0235】
また、文書作成装置1は、配布先毎に異なる文章の置換文書を配布することが可能であるため、元文書である電子文書の文章のみが漏洩した場合や、人の手により書写された後に漏洩された場合においても、置換文書及び漏洩文書の文章の比較により、漏洩元の特定の可能性を高めることが可能となる。
【0236】
また、文書作成装置1は、置換可能箇所を、検索文字列と置換文字列が対応付けられて記憶されたデータベースを参照することで特定するため、データベースに記憶された検索文字列及び置換文字列の数を増やすことで、置換可能箇所の数を増やすことが可能となる
。すなわち、置換のパターン(数)を増やすことが可能となり、電子文書の配布先毎に異なる置換文書を数多く作成することが可能となる。
【0237】
また、文書作成装置1は、ユーザにより選択された置換方法の種類毎に、検索文字列と置換文字列が対応付けられて記憶されたデータベースを参照し、置換箇所を選択することで、ユーザが置換に使用したい置換方法の種類についての置換を行うことが可能となる。
【0238】
また、文書作成装置1は、置換ノイズ値がユーザにより変更されたときに、変更後の置換ノイズ値に基づき置換箇所の数を算出することで、ユーザにより選択された元文書からの変更度合いに応じた置換文書を作成することが可能となる。
【0239】
また、文書作成装置1は、置換方法の種類を常用漢字又は常用漢字以外の漢字を用いた置換、送り仮名を変更することによる置換、類義語を用いた置換、言葉の誤使用による置換、誤字を用いた置換及び脱字を用いた置換とすることにより、様々な文字列による置換を行うことが可能となる。また、文章量が少ない場合であっても、当該文章に含まれる文字列に対して上記複数種類の置換を行うことにより、置換のパターン(数)を増やすことが可能となる。すなわち、電子文書の配布先毎に異なる置換文書を数多く作成することが可能となる。
【0240】
さらに、文書作成装置1は、ユーザが公文書について置換文書を作成するとき等は、公文書に誤字、脱字を含むことを避けるために、置換方法の種類として、誤字を用いた置換及び脱字を用いた置換以外の置換方法の種類を選択することが可能となる。すなわち、複数種類の置換方法の中から、ユーザの意向や元文書の内容及び属性に基づいた置換方法の種類による置換を行うこと(置換文書を作成すること)が可能となる。
【0241】
<変形例1>
本実施形態1では、文書作成装置1において、図11(電子文書置換全体フロー)のステップ102及び図24(漏洩文書特定フロー)のステップA102で照合するユーザ情報DBは同一のものとした。しかしながら、本発明はこれに限るものではなく、ステップ102及びステップA102で照合するユーザ情報DBは別のDBとしてもよい。この場合、例えば、ステップ102で照合するユーザ情報DBは、電子文書の置換を行うことが許可されているユーザについてのユーザ情報が記憶されるようにしてもよい。また、例えば、ステップA102で照合するユーザ情報DBは、漏洩文書の特定処理を行うことが許可されたユーザについてのユーザ情報が記憶されるようにしてもよい。
【0242】
<変形例2>
本実施形態1では、文書作成装置1において、置換文書の作成(図)及び漏洩元特定(類似度の表示等)を行うこととしたが、置換文書の作成及び漏洩元特定は異なる装置において実行されるようにしてもよい。例えば、文書作成装置1では置換文書の作成を行い、他の装置において漏洩元特定処理を行うようにしてもよい。この場合、少なくとも、図3に示した、漏洩文書登録画面表示部175及び漏洩元確認結果画面表示部176は上記他の装置が備えるものとする。また、この場合、漏洩元特定を行う他の装置は、当該他の装置にアクセス可能なユーザ情報を記憶したユーザ情報DB(図示しない)を備えるようにする。
【0243】
<変形例3>
本実施形態1では、類似度の算出を行う類似文書チェック装置30を文書作成装置1とは別の装置として説明したが、本発明はこれに限るものではない。例えば、類似度の算出を行うプログラムが文書作成装置1にインストールされることで、文書作成装置1において類似度の算出等を行うようにしてもよい。
【0244】
<変形例4>
本実施形態1では、置換可能箇所記録DB1Cと置換箇所記録DB1Eは別のデータベースとして説明したが、これらのDB1C及びDB1Eを統合させて、1つのデータベースとしてもよい。この場合、統合されたデータベースには、例えば、上述したこれらのDBに含まれる項目に加え、各置換可能箇所について実際に置換が行われたか否かの情報を記憶する「置換有無」の項目が含まれるようにしてもよい。
【0245】
<変形例5>
本実施形態1では、ステップ1044で元文書をファイルサーバ20へ送信し、ステップ1063で置換文書をファイルサーバ20へ送信するようにしたが、元文書と置換文書を同時に送信するようにしてもよい。例えば、ステップ1044では元文書はファイルサーバ20へ送信されず、図21のステップ1063で置換文書と併せて元文書が送信されるようにしてもよい。
【0246】
<変形例6>
本実施形態1では、類似文書チェック装置30は、文書作成装置1に対して、類似度及びファイル名を送信するようにしたが、本発明はこれに限るものではない。類似文書チェック装置30は、例えば、ファイルサーバ20に格納されたファイル名対応付けDBを参照することにより、類似度及びファイル名と共に配布先名を文書作成装置1に送信するようにしてもよい。これによって、文書作成装置1は、ステップ1062でファイルサーバ20から配布先名を受信せずとも、配布先名を取得することが可能となる。
【0247】
<変形例7>
本実施形態1では、文書作成装置1において、ステップ1051で全ての分類についての置換可能箇所数が算出されるようにしたが、ステップ1053により分類が選択された後に、選択された分類についてのみ置換可能箇所数が算出されるようにしてもよい。
【0248】
<その他の実施形態>
上述の実施形態1では、Web(World Wide Web)画面である各種画面により置換文書の作成及び保存が行われるようにしたが、本発明では置換文書の作成及び保存のみを行う文書作成装置(プログラム)に限るものではない。本発明に係る文書作成装置(プログラム)は、例えば、メールシステム(メーラー)やプリンタドライバを利用した漏洩元特定システムに応用できる。
【0249】
<実施形態2:メールシステムを利用した場合>
本発明に係る文書作成装置(プログラム)は、メールシステムを利用した漏洩元特定システムに応用できる。本メールシステムを利用した漏洩元特定システムでは、置換文書の作成及び保存を行い、メールシステムを利用して置換文書を配布先に送信可能とする。
【0250】
図29は、実施形態2に係るメールシステムを利用した漏洩元特定システムの漏洩元特定全体フローである。図11の実施形態1に係る漏洩元特定全体フローと同様の処理については、図11と同様のステップ番号を付す。
【0251】
但し、図29のステップ106で入力される「配布先名」としては、上述した、配布先の人物の氏名、当該人物のID、電話番号などに加え、「送信先メールアドレス」が例示される。また、送信先のメールアドレスが格納されたCSVファイルを読み込むことで、配布先名の入力を行うようにしてもよい。
【0252】
また、図29のステップ107Aでは、メールシステムの送信者情報登録画面(図示し
ない)において、送信者の名前や送信者のメールアドレスを入力し、「送信」ボタンがユーザにより押下されることで、置換文書を添付したメールが配布先へ送信されるようにする。
【0253】
実施形態2に係る文書作成装置(プログラム)は、例えば、メールシステムを起動させることで、上記で示した漏洩元特定全体フロー(置換文書の作成等)が開始されるように設定されてもよい。また、例えば、Web画面で各種設定を行い、「送信」ボタンが押下されることで、メールシステムが起動し、メールが送信されるようにしてもよい。
【0254】
これにより、メールシステムを利用した、本発明に係る文書作成プログラム(装置)により、メールシステムで個別に各送信先メールアドレス及び置換文書を設定することなく、配布先へ置換文書をメール送信することが可能となる。
【0255】
<実施形態3:プリンタドライバを利用した場合>
本発明に係る文書作成プログラムは、プリンタドライバを利用した漏洩元特定システムに応用できる。本プリンタドライバを利用した漏洩元特定システムでは、置換文書の作成及び保存を行い、プリンタドライバを利用して置換文書を印刷可能とする。
【0256】
図30は、実施形態3に係るプリンタドライバを利用した漏洩元特定システムの漏洩元特定全体フローである。図11の実施形態1に係る漏洩元特定全体フローと同様の処理については、図11と同様のステップ番号を付す。
【0257】
図30のステップ103Bでは、ユーザが文書作成ソフトウェア等の画面から「印刷ボタン」を押下し、プリンタドライバを選択すると、入力部16はこのイベントを受信する。これによって、印刷画面表示部(図示しない)が印刷画面を表示させる。
【0258】
実施形態1では、表示部17が各種画面を表示させることにより、置換文書の作成等を行うようにしたが、本実施形態3のステップ104以降の処理は、この印刷画面上で行うものとする。印刷画面は、上述した各種画面における設定項目を具備するものであり、例えば、ユーザは印刷画面上で、配布数の入力や分類等を選択可能とする。
【0259】
また、図30のステップ107Bでは、プリンタドライバの印刷画面において、「印刷」ボタンがユーザにより押下されることで、配布先毎の置換文書がプリンタから出力(印刷)される。この際、印刷された置換文書の紙のヘッダ部分や本文の中に、配布先名が表示されるようにしてもよい。
【0260】
これにより、プリンタドライバを利用した、本発明に係る文書作成プログラム(装置)により、元文書である電子文書を開いた状態で、プリンタドライバの印刷画面上において各種設定を行うことにより、簡単に、置換文書の作成及び配布先毎の置換文書の印刷を、一括して行うことが可能となる。
【符号の説明】
【0261】
1 文書作成装置
2 CPU
3 主記憶装置
4 外部記憶装置
5 通信IF
6 通信バス
7 入力装置
8 表示装置
10 置換可能箇所数算出部
11 配布可能数算出部
12 置換ノイズ算出部
13 文書置換部
14 送信部
15 受信部
16 入力部
17 表示部
171 元文書登録画面表示部
172 置換画面表示部
173 置換文書登録画面表示部
174 結果確認画面表示部
175 漏洩文書登録画面表示部
176 漏洩元確認結果画面表示部
18 記憶部
19 用語データベース
191 常用漢字データベース
192 送り仮名データベース
193 類義語データベース
194 誤使用データベース
195 誤字データベース
196 脱字データベース
1A 置換ノイズ重み付けデータベース
1B ユーザ情報データベース
1C 置換可能箇所記録データベース
1D 読み出し部
1E 置換箇所記録データベース
20 ファイルサーバ
30 類似文書チェック装置
N1 ネットワーク

【特許請求の範囲】
【請求項1】
電子文書中の文字列を異なる文字列により置換した置換文書を配布数分作成する文書作成装置であって、
電子文書中の、文字列を異なる文字列に置換可能な箇所である置換可能箇所を、前記電子文書中で検索の対象となる検索文字列と置換文字列とが対応付けられて記憶されたデータベースを参照することで特定する置換可能箇所特定手段と、
前記置換可能箇所の中から実際に置換を行う所定数の置換箇所を、置換文書内の置換箇所の組み合わせが他の置換文書の置換箇所の組み合わせと一致しないように選択し、選択された前記置換箇所の文字列を当該文字列と一致する検索文字列と対応する置換文字列により置換することで前記置換文書を作成する置換手段と、
を備える文書作成装置。
【請求項2】
前記データベースは、置換方法の種類毎に、検索文字列と置換文字列が対応付けられて記憶されたデータベースであり、
前記置換可能箇所特定手段は、前記置換方法の種類のうちユーザにより選択された置換方法の種類毎に前記置換可能箇所を特定し、
前記置換手段は、前記選択された各置換方法の種類について、前記選択された置換方法の種類毎に前記特定された前記置換可能箇所の中から実際に置換を行う所定数の置換箇所を選択することを特徴とする請求項1に記載の文書作成装置。
【請求項3】
ユーザにより前記置換方法の種類が選択されたときに、前記選択された前記置換方法の種類毎に、前記置換方法の種類毎の前記置換箇所の数の初期値と前記置換の種類毎の重み付け値を乗算し、さらに、各置換方法の種類について前記乗算された値を加算することで、置換による前記電子文書の変更度合を示す置換ノイズ値を算出する置換ノイズ算出手段であって、前記置換ノイズ値がユーザにより変更されたときに、変更後の置換ノイズ値及び前記置換方法の種類毎の重み付け値に基づき、前記置換方法の種類毎の置換箇所の数を算出する置換ノイズ算出手段を備え、
前記置換手段は、前記置換ノイズ値がユーザにより変更されたときに算出された前記置換方法の種類毎の置換箇所の数分置換箇所を選択する
ことを特徴とする請求項2に記載の文書作成装置。
【請求項4】
前記置換方法の種類は、常用漢字又は常用漢字以外の漢字を用いた置換、送り仮名を変更することによる置換、類義語を用いた置換、言葉の誤使用による置換、誤字を用いた置換及び脱字を用いた置換の少なくとも1つを含むことを特徴とする請求項2又は3に記載の文書作成装置。
【請求項5】
コンピュータに、電子文書中の文字列を異なる文字列により置換した置換文書を配布数分作成させるための文書作成プログラムであって、
電子文書中の、文字列を異なる文字列に置換可能な箇所である置換可能箇所を、前記電子文書中で検索の対象となる検索文字列と置換文字列とが対応付けられて記憶されたデータベースを参照することで特定し、
前記置換可能箇所の中から実際に置換を行う所定数の置換箇所を、置換文書内の置換箇所の組み合わせが他の置換文書の置換箇所の組み合わせと一致しないように選択し、選択された前記置換箇所の文字列を当該文字列と一致する検索文字列と対応する置換文字列により置換することで前記置換文書を作成する処理をコンピュータに行わせるための文書作成プログラム。
【請求項6】
電子文書中の文字列を異なる文字列により置換した置換文書を配布数分作成することが可能なコンピュータを用いた文書作成方法であって、
電子文書中の、文字列を異なる文字列に置換可能な箇所である置換可能箇所を、前記電子文書中で検索の対象となる検索文字列と置換文字列とが対応付けられて記憶されたデータベースを参照することで特定し、
前記置換可能箇所の中から実際に置換を行う所定数の置換箇所を、置換文書内の置換箇所の組み合わせが他の置換文書の置換箇所の組み合わせと一致しないように選択し、選択された前記置換箇所の文字列を当該文字列と一致する検索文字列と対応する置換文字列により置換することで前記置換文書を作成する文書作成方法。
【請求項7】
電子文書中の文字列を異なる文字列により置換した置換文書を配布数分作成する文書作成装置と類似文書チェック装置を備える漏洩元特定システムであって、
文書作成装置が、
電子文書中の、文字列を異なる文字列に置換可能な箇所である置換可能箇所を、前記電子文書中で検索の対象となる検索文字列と置換文字列とが対応付けられて記憶されたデータベースを参照することで特定する置換可能箇所特定手段と、
前記置換可能箇所の中から実際に置換を行う所定数の置換箇所を、置換文書内の置換箇所の組み合わせが他の置換文書の置換箇所の組み合わせと一致しないように選択し、選択された前記置換箇所の文字列を当該文字列と一致する検索文字列と対応する置換文字列により置換することで前記置換文書を作成する置換手段と、
を備え、
類似文書チェック装置が、
前記作成された前記置換文書と漏洩された文書である漏洩文書との文章の類似度を算出する類似度算出手段と、
を備えることを特徴とする漏洩元特定システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15A】
image rotate

【図15B】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate

【図25】
image rotate

【図26】
image rotate

【図27】
image rotate

【図28】
image rotate

【図29】
image rotate

【図30】
image rotate