文書管理装置

【課題】文書データをその組織内のデータベースへ格納する前段階で事前チェックするのに役立つ技術を提供する。
【解決手段】ＮＧワードを格納するＮＧ判定用辞書記憶手段と、検閲対象となる文書データを所定の端末から受信する対象文書受信手段と、受信した文書データの文書を形態素解析して単語を抽出する形態素解析手段と、ＮＧ判断手段と、を備えた文書管理装置とする。ＮＧ判断手段は、形態素解析手段が抽出した単語が前記ＮＧ判定用辞書記憶手段を参照して前記ＮＧワードであるか否かを判断し、ＮＧワードが存在すると判断した場合には当該ＮＧワードを起点として修正候補であるか否かを判断する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、組織内における文書管理をする際に、不適切な表現を含む文書が保存されることを未然に防止する技術に関する。
【背景技術】
【０００２】
情報処理技術の進展に伴って、法人でも個人でも、保有作成する書類に関してはペーパーレス化が進展し、書類が電子化されて保存され管理されるようになった。特に、組織内での情報共有や情報検索において、効率的な管理運営に寄与している。
【０００３】
さて、米国の訴訟制度において、訴訟の被告となった場合に必要な証拠文書を相手方に提示しなければならない「ディスカバリー」と呼ばれる制度がある。たとえば、Ｘ社が製造販売している製品ＡがＹ社の保有する特許権Ｂを侵害している、と訴訟を起こされた場合を想定する。Ｘ社が特許権Ｂの存在をいつくらいから認識していたのか、製品Ａの製造販売に際して特許権Ｂの侵害とならない（あるいは、なる）といつ判断したのか、といったことが、損害額の認定などにおいて争われることがある。そうした場合に、裁判所が必要と認めた場合に、Ｘ社は関連する社内の書類提出を命じられることがある。
ディスカバリー制度は、前述した知的財産関連の訴訟の他、金融税金といった事件における訴訟において用いられる制度である。
【０００４】
近年のディスカバリー制度では、書類の電子化の進展に伴い、電子化された文書が保存された記録媒体の提出が命じられることとなる。旧来の「ディスカバリー制度」と区別するために「イー・ディスカバリー（e-Discovery）」と呼ばれることもある。
電子化された書類は、タイムスタンプといった認証技術を併用しない限り、作成日時や改訂日時を変更することは容易であるものの、作成日時や改訂日時を改ざん等したことが発覚したとすれば、裁判において不利な状況に追い込まれる可能性がある。したがって、「イー・ディスカバリー（e-Discovery）」を意識した適切な書類管理が、多くの企業で求められる。
【０００５】
企業における情報管理システムは、オーダーメイドされることも少なくないが、導入コストや納期の面で導入が容易な情報管理システムも望まれている。
たとえば、特許文献1に開示された技術では、各企業における機密文書を、それら企業と契約を締結した外部の事業者が管理するサーバ装置を用いることによって一括して保管するシステムが提案されている。
【０００６】
また、特許文献１に開示された技術に内在する問題点を見いだし、企業における一般的なセキュリティポリシーに反している等の点を解決した技術として、特許文献２に開示された情報管理システムも提案されている。
【先行技術文献】
【特許文献】
【０００７】
【特許文献１】特開２００１−２２２５２５号公報
【特許文献２】特開２００９−９５５１号公報
【発明の概要】
【発明が解決しようとする課題】
【０００８】
「イー・ディスカバリー（e-Discovery）」においては、膨大な書類が開示対象となり、中には例えば担当者の誤解に基づく記録で後に訂正されたにもかかわらずその訂正の記録が脱落した文章のように、不要な誤解を招くような記録（すなわち開示要求を受けた組織にとって不都合な記録）が含まれる場合もある。
開示要求があってから当該組織にとってこのような不都合な文書ファイルを削除したり改訂したりすれば、裁判において不利になる可能性がある。不都合な文書ファイルの削除はその証跡が残る可能性がある。改訂した文書ファイルに改訂の日時データが残り、その日時データが裁判準備の開始後であれば、改訂前の文書ファイルを破棄したことに等しい。そうした事実が裁判上で明らかになれば、関係者の心証は悪くなり、裁判が不利に進行する可能性がある。
【０００９】
以上のような課題を回避するためには、その組織において文書ファイルを保管する前の段階で当組織にとって誤解を招くような不都合な文書ファイルが存在していないか事前チェックすることが望ましい、ということになる。
しかし、出願人が先行技術調査のため、民間の特許情報サービスを使用してキーワード検索などを試みたが、文書ファイルを組織で利用するサーバやデータベースへ格納する前段階で事前チェックするシステムは見あたらなかった。
【００１０】
本発明が解決しようとする課題は、文書ファイルを組織で利用するサーバやデータベースへ格納する前段階で事前チェックする際に役立つ技術を提供することにある。
【課題を解決するための手段】
【００１１】
（第一の発明）
第一の発明は、ＮＧワードを格納するＮＧ判定用辞書記憶手段と、検閲対象となる文書データを所定の端末から受信する対象文書受信手段と、その対象文書受信手段が受信した文書データの文書を形態素解析して単語を抽出する形態素解析手段と、その形態素解析手段が抽出した単語が前記ＮＧ判定用辞書記憶手段を参照して前記ＮＧワードであるか否かを判断し、ＮＧワードが存在すると判断した場合には当該ＮＧワードを起点として修正候補であるか否かを判断するＮＧ判断手段と、を備えた文書管理装置に係る。
【００１２】
「検閲対象」が「文書データ」であるとしているのは、文書ファイルのほか、文書ファイル中の所定の文書データや、電子メールの中の一文、といった場合もあるからである。
【００１３】
「ＮＧワード」とは、本願に係る文書管理装置を導入する組織において文書中に用いる単語として相応しくない、と判断すべきワードである。たとえば、公序良俗を害するような言葉、差別用語、などである。ＮＧワードは、同一組織内であっても部署が異なればＮＧワードに該当したりしなかったりする場合もあるので、部署毎にＮＧワードを区別するようにしてもよい。
公共放送における禁止用語集などを用いることで、ＮＧ判定用辞書記憶手段への入力の手間を軽減してもよい。
【００１４】
（作用）
ＮＧ判定用辞書記憶手段には、ＮＧワードを予め格納する。
検閲対象となる文書データを、所定の端末から対象文書受信手段が受信する。その受信した文書データに対して形態素解析手段が形態素解析をし、当該文書データを単語ごとに分割する。
ＮＧ判断手段は、形態素解析手段が抽出した単語が前記ＮＧ判定用辞書記憶手段を参照して前記ＮＧワードであるか否かを判断する。そして、ＮＧワードが存在すると判断した場合には当該ＮＧワードを起点として修正候補であるか否かを判断する。
【００１５】
（第一の発明のバリエーション１）
第一の発明に係る文書管理装置は、以下のように形成してもよい。
すなわち、前記ＮＧ判定用辞書記憶手段は、格納されるＮＧワード毎にランクデータを含み、前記ＮＧ判断手段は、検閲対象となる文書データの文書においてＮＧワードが存在すると判断した場合は当該ＮＧワードを起点として当該起点のランクによって修正候補であるか否かを判断することとしてもよい。
【００１６】
「ランクデータ」とは、たとえば、どんな文書にも使ってはいけない言葉、場合によっては使うことが許される言葉、といった危険度のランクである。たとえば、どんな文書にも使ってはいけない言葉が「５」、場合によっては使うことが許される言葉が「４」、という具合に危険度のランク情報を設定すればよい。このように、ランクデータは危険度を数値で記述することが好ましい。処理が容易となるからである。しかし、数値の記述のみならず、文字（例えば「使用禁止」「場合によって使用可」「警告表示」等）情報や色などで記述するようにしてもよい。一方、チェック結果を表示する出力の際には危険度のランクを数値ではなく、色や文字の太さで表現すると直感的な認識が可能となって好ましい。
他の請求項にて特定する「処理結果出力手段」においては、修正候補に対してランク表示を実行する。ここで「ランク表示」とは、ＮＧワードとして抽出された際に、そのＮＧワードの危険度を赤や黄の色で着色表現される表示、ハイライトの色や濃さ、網掛けの種類や濃さ、下線の種類や太さ、イタリックの角度、フォントの変更、文字の大小、文字の太さ、で表現される表示、当該ランクがカーソルを当てると吹き出しなどで危険度が表現される表示、あるいはこれらを組み合わせた表示である。
なお、ＮＧワードの登録時にランクデータが入力されていない場合には、後に入力することとしてもよい。また、入力されていたランクデータがふさわしくない場合には、改訂して入力し直してもよい。
【００１７】
（作用）
ＮＧ判定用辞書記憶手段は、格納されるＮＧワード毎にランクデータを含んで登録されている。
ＮＧ判断手段は、検閲対象となる文書データの文書においてＮＧワードが存在すると判断した場合は、当該ＮＧワードを起点として当該起点のランクによって修正候補であるか否かを判断する。
修正候補を出力された作業者は、ランクデータを意識しながら修正作業が行える。
【００１８】
（第一の発明のバリエーション２）
第一の発明に係る文書管理装置は、以下のように形成してもよい。
すなわち、前記ＮＧ判定用辞書記憶手段は、二以上の単語の係り受けによってＮＧ文章を構成するＮＧ係り受けを格納し、前記ＮＧ判断手段は、前記文書データの文章の一つを判断対象として、当該一つの文章中の少なくとも一つのＮＧワードを起点として当該起点と他の単語との関係を構文解析し、前記ＮＧ判定用辞書記憶手段を参照して当該起点と他の単語との関係がＮＧ係り受けであるか否かを判断するとともに、ＮＧ係り受けが存在すると判断した場合には当該ＮＧ係り受けを起点として修正候補であるか否かを判断することとしてもよい。
【００１９】
「ＮＧ係り受け」とは、ＮＧ文例を予め構文解析した結果から抽出したサンプルや、係り受けによってＮＧとなる場合の規則性など関する情報などである。
たとえば、「主語−述語」の関係において「当社−侵害」をＮＧ係り受けとして登録しておく。「当社」について、「弊社」、「我が社」、「うちの会社」、正式な社名などは、シソーラスとして登録すると効果的である。
係り受けにおける目的節の「Ａ社（競合他社の正式名や俗称としての社名）−特許権」をＮＧ係り受けとして登録しておくと、「他社の特許に抵触するおそれ」という趣旨の表現を抽出しやすくなるので、効果的である。
【００２０】
（作用）
ＮＧ判定用辞書記憶手段は、二以上の単語の係り受けによってＮＧ文章を構成するＮＧ係り受けを格納している。
ＮＧ判断手段は、前記文書データの文章の一つを判断対象として、当該一つの文章中の少なくとも一つのＮＧワードを起点として当該起点と他の単語との関係を構文解析する。そして、前記ＮＧ判定用辞書記憶手段を参照して当該起点と他の単語との関係がＮＧ係り受けであるか否かを判断する。ＮＧ係り受けが存在すると判断した場合には当該ＮＧ係り受けを起点として修正候補であるか否かを判断する。
【００２１】
（第一の発明のバリエーション３）
第一の発明に係る文書管理装置は、以下のように形成してもよい。
すなわち、前記ＮＧ判定用辞書記憶手段には、ＮＧワードではない二以上の単語の組み合わせが同一文中に併存することでＮＧ文章を構成することとなるＮＧ文章構成単語群を格納し、前記のＮＧ判断手段は、前記文書データの文章の一つを判断対象として、当該一つの文章中にＮＧワードが存在しないと判断した場合に、当該一つの文章を構文解析するとともに、前記ＮＧ判定用辞書記憶部を参照してＮＧ文章構成単語群が含まれるか否かによって当該一つの文章が修正候補であるか否かを判断することとしてもよい。
【００２２】
「ＮＧ文章構成単語群」とは、ＮＧ文章である、と判断すべき文章構成単語群である。たとえば、「他社の特許×号は、当社の製品の障害となるおそれがある。」という文章がＮＧワードをひとつも含まないが、単語の組み合わせが同一文中に併存することでＮＧ文章を構成することとなるとして格納するのである。
【００２３】
（作用）
ＮＧ判定用辞書記憶手段には、ＮＧワードではない二以上の単語の組み合わせが同一文中に併存することでＮＧ文章を構成することとなるＮＧ文章構成単語群を格納しておく。
ＮＧ判断手段は、前記文書データの文章の一つを判断対象として、当該一つの文章中にＮＧワードが存在しないと判断した場合に、当該一つの文章を構文解析する。そして、ＮＧ判定用辞書記憶部を参照し、ＮＧ文章構成単語群が含まれるか否かによって当該一つの文章が修正候補であるか否かを判断する。
【００２４】
（第一の発明のバリエーション４）
第一の発明に係る文書管理装置は、以下のように形成してもよい。
すなわち、前記ＮＧ判断手段による判断結果として修正候補と判断された部位を表示させる処理結果出力手段と、その処理結果出力手段によって修正候補と判断された部位に対する修正入力を所定の端末から受け付ける修正入力手段と、その修正入力手段によって修正された文書データを受信する適正文書データ受信手段と、を備えることとしてもよい。
【００２５】
「修正データ」には、修正が不要である場合に、修正が不要であったことを確認した場合に入力される確認データをも含む。
「修正入力手段」は、検閲対象となる文書ファイルを作成した端末（被管理部門端末）であってもよいし（図１３参照）、検閲対象となる文書ファイルを作成した端末（被管理部門端末）以外の端末（管理部門端末）であってもよい（図１参照）。前者の場合は、検閲対象となる文書ファイルを作成した作成者が自ら「管理者」となる場合が含まれる。
【００２６】
（作用）
ＮＧ判断手段による判断結果として修正候補と判断された部位を処理結果出力手段が表示させる。
所定の端末操作者（たとえば文書データの管理者）は表示された修正候補と判断された部位を閲覧し、それに対して修正入力手段を用いて修正データを入力する。その修正入力手段によって修正された文書データを適正文書データ受信手段が受信する。
以上により、本願に係る文書管理装置を導入する組織内で保管すべき文書ファイルを保管前に事前チェックをする体制が、その組織へ提供されることとなる。
【００２７】
（第一の発明のバリエーション５）
第一の発明に係る文書管理装置は、以下のように形成してもよい。
すなわち、ＮＧ判定用辞書記憶手段に格納されたＮＧワードに対応した推奨ワードを予め格納する推奨ワード辞書記憶手段を備え、前記処理結果出力手段は、前記ＮＧ判断手段によって修正候補と判断された部位を出力する際に、当該修正候補に対応する推奨ワードを出力することしてもよい。
【００２８】
（作用）
ＮＧ判定用辞書記憶手段に格納されたＮＧワードに対応した推奨ワードを、推奨ワード辞書記憶手段が予め格納しておく。
処理結果出力手段は、修正候補と判断された部位を出力する際に、当該修正候補に対応する推奨ワードを出力する。
【００２９】
（第一の発明のバリエーション６）
前記した第一の発明のバリエーション４または５に係る文書管理装置においては、修正入力手段による修正の結果をＮＧ判定用辞書記憶手段へ登録することとしてもよい。
ここで、「修正の結果」とは、修正が不要である場合に、修正が不要であったことを確認した場合に入力される確認データをも含む。また、修正候補と判断された部位、修正入力手段によって入力された修正データ、修正データを入力した主体に関するデータ、修正データの入力日時などのデータを含む。
【００３０】
（作用）
修正入力手段によって入力された修正の結果がＮＧ判定用辞書記憶手段へ登録されるので、ＮＧ判定用辞書記憶手段は修正データが入力されるたびに進化する。
本願発明に係る文書管理装置を備えることとした組織に適合したＮＧ判定能力に修正される。これによって、本願に係る文書管理装置の徐々に解析能力が向上し、修正を担当する者の負担が軽減される。
【００３１】
（第一の発明のバリエーション７）
前記した第一の発明のバリエーション４から６に係る文書管理装置においては、前記の修正入力手段にて入力された修正データが反映された適正文書データを記録する文書ファイルに対して、電子的なタイムスタンプを押すタイムスタンプ手段を備えることとしてもよい。
【００３２】
「タイムスタンプ手段」とは、文書ファイルに対して保存日時を記録する機能である。文書ファイルまたはその文書ファイルのハッシュ値を日時特定のための時計が備えられたサーバへ送信する機能、当該サーバが文書ファイルまたはその文書ファイルのハッシュ値に対して日時データを付加して送り返してきたファイルを受信する機能などが含まれる。
なお、保存日時を特定するための時計は、本願に係る文書管理装置を導入しているイントラネットの外部であることが望ましく、公的または準公的な第三者機関であることがより好ましい。日時データの客観性が高まるからである。
【００３３】
（第一の発明のバリエーション８）
前述した第一の発明のバリエーション４に係る文書管理装置は、以下のように形成してもよい。
すなわち、前記の修正入力手段を複数備えることとし、一の修正入力手段から入力された修正データは、他の修正入力手段における出力において前記の解析結果表示手段による解析結果とは識別が可能な表示としてもよい。
【００３４】
（作用）
ある修正を担当する者は、一の修正手段にて修正する。「修正文書ファイル送信手段」が送信する「所定の端末」は、一の修正手段にて修正作業をした者とは別の者に係る端末となる。
その別の者に係る端末において出力された出力結果は、一の修正入力手段から入力された修正データが、解析結果表示手段による解析結果とは識別が可能な表示となっている。したがって、別の修正者は、解析結果と修正データとを識別しながら、修正内容を検討することができる。
【００３５】
（第二の発明）
本願は、コンピュータプログラムに係る第二の発明を提供することもできる。
その第二の発明は、ＮＧワードをＮＧ判定用辞書記憶手段へ格納するＮＧ判定用辞書記憶手順と、検閲対象となる文書データを所定の端末から受信する対象文書受信手順と、その対象文書受信手順にて受信した文書データの文書を形態素解析して単語を抽出する形態素解析手順と、その形態素解析手順にて抽出された単語が前記ＮＧ判定用辞書記憶手段を参照して前記ＮＧワードであるか否かを判断するＮＧワード判断手順と、そのＮＧワード判断手順にてＮＧワードが存在すると判断された場合には当該ＮＧワードを起点として修正候補であるか否かを判断するＮＧ判断手順とを、コンピュータに実行させるためのコンピュータプログラムに係る。
【００３６】
（第二の発明のバリエーション）
第二の発明は、第一の発明のバリエーション１から８に対応したバリエーションを実現可能な各手順を含んだコンピュータプログラムとしてもよい。
【００３７】
第二の発明に係るコンピュータプログラムは、バリエーションを含め、ハードディスク、ＤＶＤ−Ｒなどの記録媒体に格納して提供することもできる。また、第二の発明に係るコンピュータプログラムを格納した記録媒体から、通信回線を介して所定の情報端末に受信することもできる。受信した情報端末は、第一の発明に係る文書管理装置となる。
【発明の効果】
【００３８】
本願発明によれば、文書ファイルや文書データをその組織内のデータベースへ格納する前段階で事前チェックするのに役立つ技術を提供することができた。
【図面の簡単な説明】
【００３９】
【図１】第一の実施形態の全体構成を示すブロック図である。
【図２】第一の実施形態における主要な処理手順を示すフローチャートである。
【図３】構文解析手段による解析の前後を示す図である。
【図４】ＮＧ判定用辞書記憶手段の構造を示すブロック図である。
【図５】検閲対象文書ファイルが構文解析手段によってどのように解析されるかを示す図示例である。
【図６】解析後の検閲対象文書ファイルが修正入力手段によってどのように修正されるかを示す図示例である。
【図７】検閲対象文書ファイルが構文解析手段によってどのように解析されるかを示す図示例である。
【図８】解析後の検閲対象文書ファイルが修正入力手段によってどのように修正されるかを示す図示例である。
【図９】検閲対象文書ファイルがどのような理由で修正されるかを示す図示例である。
【図１０】検閲対象文書ファイルが複数回の修正を経て戻される場合を概念的に示すブロック図である。
【図１１】文書ファイルにタイムスタンプが付与される手順を概念的に示すブロック図である。
【図１２】文書ファイルを事後的にチェックする実施形態を示すブロック図である。
【図１３】文書ファイルを文書作成者が自ら修正する実施形態を示すブロック図である。
【発明を実施するための形態】
【００４０】
以下、本発明を実施形態に基づいて更に詳しく説明する。ただし、本発明は、実施形態の態様に限られるものではない。
以下の説明に使用する図面は、図１から図１３である。
【００４１】
（図１）
図1では、本願発明の主要な構成を概念的にブロック図で示したものである。
管理部門に係る端末（図中では「管理部門端末」と表記）、ＮＧ文言サーバ、および管理される部門に係る端末（図中では「被管理部門端末」と表記）が、社内のイントラネットで接続されている。事業者がインターネットなどを通じたＡＳＰ形態によって必要な構成を提供してもよい。
管理部門とは、社内の各部門（「被管理部門」）にて作成されたり改訂されたりする文書に対して、法律的なチェックや必要な修正を行う部署であり、一般的には法務部門や総務部門である。
【００４２】
管理部門端末からは、ＮＧ文言入力手段（当該端末のキーボード等）を用いてＮＧワードやＮＧ文例を入力する。入力されたＮＧワード、ＮＧ文章構成単語群、ＮＧ文例、ＮＧ係り受け等を入力する。入力されたＮＧワード等は、ＮＧ文言サーバにおけるＮＧ判定用辞書データベース（ＮＧ判定用辞書手段）に格納される。
「ＮＧ文例」とは、ＮＧワードを含む一文のほか、ＮＧワードではない特定のワードの組み合わせを所定の組織において文書中に用いたとすると相応しくない、と判断すべき文例（ＮＧ文章構成）である。たとえば、「他社の特許×号は、当社の製品の障害となるおそれがある。」といった文である。
【００４３】
さて、被管理部門端末の対象文書入力手段（当該端末のキーボード等）から、検閲対象の文書データを含む文書ファイルが準備され、ＮＧ文言サーバに送信されてきたとする（図中、「文書ファイル」は、単に「文書」と表記している）。
ここで、「検閲対象文書ファイル」とは、たとえば、技術担当者らにメール回覧予定の電子回覧板のような文書を含むファイルであり、文書データとして「Ｙ社の特許ａｂｃｄ号は、当社の製品Ａの障害となるおそれあり。」という一文のデータを含むものであったとする。
【００４４】
ＮＧ文言サーバに送信されてきた検閲対象文書に対しては、まず、形態素解析手段による形態素解析処理が実行される。
形態素解析処理は、自然言語文を形態素に分割し単語辞書を参照して単語を抽出し文章を単語単位に分割する自然言語処理であり、形態素解析手段は公知の形態素解析ツールで構成できる。
【００４５】
検閲対象文書に含まれる単語は、前述の形態素解析手段で抽出された後、ＮＧ判断手段によるＮＧ判断処理を受ける。ＮＧ判断手段は、ＮＧ判定用辞書記憶部を参照して検閲対象文書中の単語がＮＧワードであるか否かを判断し、ＮＧワードであると判断した単語があればこれを起点として修正候補であるか否かを判断する。
ＮＧワードであると判断した単語を起点として修正候補であるか否かを判断する方法としては、第一に、ＮＧ判定用辞書記録部に格納されたＮＧワードのランクデータを参照し、最高ランクのＮＧワードを起点とし、その起点のランクが所定値以上である場合に修正候補と判断する方法が挙げられる。
第二に、検閲対象の一文中の起点の数（すなわちＮＧワードの数）が所定数以上である場合に修正候補と判断する方法、検閲対象の一文中のＮＧワードの全てを起点とし、それぞれの起点のランクの合計値が所定値以上の場合に修正候補と判断する方法が挙げられる。
第三に、一文中の起点と他の単語との関係（すなわち単語同士の係り受け）を構文解析し、その起点と他の単語との関係がＮＧ係り受けである場合に修正候補と判断する方法が挙げられる。
【００４６】
さらに、検閲対象文にＮＧワードがない場合、ＮＧ判断手段は構文解析を行って二以上の単語で構成される構文（解析）木を作成し、一つの構文木を構成する二以上の単語の組み合わせがＮＧ文章構成単語群に該当しないか否かによって修正候補と判断してもよい。
構文解析処理は、形態素解析処理の結果（形態素列）を入力とし、単語同士の係り受け関係や格関係を表す構文木を出力する処理であり、公知の構文解析ツールで構成できる。構文解析処理を実行することによって、ＮＧとして抽出する部位に対する精度が向上する。そのため、構文解析の手順が無い場合に比べて、修正候補として出力される箇所が減ったり、抽出し損なう箇所が減ったりするので、修正入力の手間を軽減することに寄与する。
【００４７】
なお、本実施形態では構文解析処理の「係り受けの解析手法」としては、例えば特開２００４−２１４４５号の「テキストデータ分析システム」に開示された手法を採用している。
用語間の対応関係を分析するために抽出するシステムも併用してもよい。用語間の対応関係抽出システムとしては、たとえば、特開２０１１−１０３０３８号に開示された手法である。
【００４８】
構文解析処理が実行された後、ＮＧ判定用辞書記憶部を用いて、ＮＧワードやＮＧ係り受けに該当する箇所を抽出する。そして、結果表示手段にて、抽出した箇所を他とは区別できるように表示する。ＮＧ判定用辞書記憶部がインテリジェント化している場合には、単なる解析結果のみならず、修正候補の文言を含んだ対象文書として送信する。
【００４９】
結果表示手段を介して、管理部門の端末の出力画面には、修正候補の文言を含んだ対象文書ファイルが出力される。出力された文書ファイルは、管理部門の担当者が閲覧し、解析結果として抽出されたＮＧワードやＮＧ文章を検討する。そして、その管理部門の担当者が修正の必要ありと判断すれば、修正入力手段を用いて、修正データを入力する。たとえば、「Ｙ社の特許ａｂｃｄ号は、当社の製品Ａの改良に参考となる。」というように修正する。
【００５０】
修正の必要が無く、元の文言で問題ないと判断した場合には、修正しない旨を入力する。なお、管理部門の担当者が判断不能な場合に「保留」という選択をし、その旨を入力することとしてもよい。
修正後の文書ファイルは、検閲対象文書ファイルを送信した被管理部門端末へ送信される。そして、被管理部門端末から、修正後の文書ファイルを送信すべき人や部門へ送信するため、社内メールサーバに送信される。同時に、管理部門が管轄する保存文書データベースにも蓄積される。
なお、修正前の文書ファイルは、本システムを採用する組織におけるポリシーによって異なる。たとえば、修正前の文書ファイルは管理部門などの所定部署において回覧用に印刷出力し、保存文書データベースには保存しないとする、としてもよい。
【００５１】
（図２）
図２では、前述した修正候補であるか否かを判断する手順の一例を示している。
検閲対象となる文書データに対して、まず形態素解析処理を実行し、文書データを単語に分割する。
分割された単語にＮＧワードが含まれているか否かを判断する。含まれていない場合には、文書データにおける一文中の起点と他の単語との関係（すなわち単語同士の係り受け）を構文解析し、その起点と他の単語との関係がＮＧ係り受けである場合に修正候補と判断する。
ＮＧ係り受けと判断されない場合には、構文解析を行って二以上の単語で構成される構文（解析）木を作成し、一つの構文木を構成する二以上の単語の組み合わせがＮＧ文章構成単語群に該当しないか否かによって修正候補と判断する。
【００５２】
この図２に示したフローチャートは一例であり、本願に係る文書管理装置を導入する組織における環境、規模、予算、処理ポリシーなどに応じて、前述した方法の組み合わせを採択できる。
【００５３】
（自主修正と管理部門とによる修正の複数チェック）
図１において波線にて示しているが、被管理部門端末にて文書ファイルを作成する段階でＮＧ判定用辞書記憶手段にもアクセスし、ＮＧワード等を入力したら警告が発せられるといったシステムを構築してもよい。こうすることで、検閲対象文書においてＮＧワード等がなるべく使われないようにするとともに、検閲対象文書ファイルを作成する者と、管理部門の担当者との二重チェックのシステムが形成できる。
【００５４】
（図３）
図３では、「Ａ社が当社の特許権を侵害している。」という一文を構文解析した場合（Ａ）と、「当社がＡ社の特許権を侵害している。」という一文を構文解析した場合（Ｂ）とを示している。
構文解析を実行しないと、（Ａ），（Ｂ）のいずれもが修正候補として抽出されてしまう可能性が高い。しかし、ＮＧ係り受けにおいて「主語＝当社、述語＝侵害」と登録しており、構文解析を実行していれば、（Ａ）が修正候補として抽出されず、（Ｂ）のみが修正候補として抽出される。
【００５５】
（図４）
図４は、ＮＧ文言サーバにおけるＮＧ判定用辞書記憶部の構造を概念的に示したブロック図である。
予め登録しておくべきＮＧワードなどは、ＮＧ文言入力手段によって入力され、ＮＧワードデータベースなどにそれぞれ登録される。
一方、前記した修正入力手段にて修正した文言は、ＯＫワードやＯＫ文例としてＯＫワードデータベースなどにそれぞれ登録される。すなわち、修正作業によって、事後的に登録され、学習する。
学習したＮＧ文言辞書データベースは、学習前よりも、本実施形態に係る文書管理装置を導入する組織における不適切な表現を含んだ文書ファイルが作成される蓋然性を低くする。
【００５６】
なお、図４には図示していないが、ＮＧ判定用辞書記憶手段について、検閲対象となる文書ファイルの種類ごと、および／または被管理部門ごとに、ＮＧワードやＮＧ文例やＮＧ係り受けを予め格納することとしてもよい。
所定の分野における営業的なワード（たとえば「クレーム」）として用いられていたとしてＮＧワードに該当したとしても、別の部署においてはＮＧワードとならない場合（「クレーム」は「請求項」という意味しか持たない場合）があり、そのような場合には修正作業の効率を落とすこととなってしまうからである。
【００５７】
（推奨文章の出力）
検閲対象文書ファイルにＮＧワードやＮＧ文章が使用されているという解析結果を所定の端末へ出力する際、前述のＯＫワードデータベース、ＯＫ文例データベースを用いて、推奨文章を出力することとしてもよい。修正データ入力手段を操作する操作者が推奨文章をそのまま使ってよいと判断した場合には、その推奨文章を選択するだけで修正データの入力が完了する。そのまま使わない場合でも、操作者にとって修正の参考となる。
なお、推奨文章の採用結果（採用した場合も不採用の場合も）についても、ＮＧ判定用辞書記憶手段にフィードバックされ、以後の精度を高めることに寄与する。
【００５８】
（図５）
図５は、検閲対象文書ファイルが、構文解析手段によってどのように解析されるかについて具体的に示したものである。
検閲対象文書ファイルは、技術開発を担当するメンバー全員に回覧される「電子回覧板」である。閲覧した者は電子的に「閲覧済み」というデータを、この検閲対象文書ファイルに格納させる。また、回覧された内容についてコメントがあれば、コメントも記入して保存できる。
構文解析手段によって解析された後の検閲対象文書ファイルにおけるメモには、「α関連と推測」という箇所と、「製品Ａの障害」という箇所が抽出され、その抽出箇所は、他の箇所と識別可能であるように出力表示（いわゆるハイライト表示）される。
【００５９】
（図６）
図６は、解析後の検閲対象文書ファイルが修正入力手段によってどのように修正されるかを具体的に示している。
修正入力手段を操作したのは、管理部門の担当者である。その担当者は、「α関連と推測」という箇所の修正は不要であると判断し、その判断を反映させている。また、「製品Ａの障害」というフレーズを含んだ箇所は、「改良に参考となる」というように修正し、その修正内容を確定させている。
この修正によって、製品Ａが特許公開番号２０１１−ａｂｃｄ号に開示されている内容と抵触していることを伺わせる記載が、社内の文書として保存されることを未然に防止したこととなる。
【００６０】
（図７）
図７もまた、検閲対象文書ファイルが、構文解析手段によってどのように解析されるかについて具体的に示したものであり、検閲対象文書ファイルは「発明届出書」である。
構造解析手段は、「怪我をするおそれ」と「怪我のおそれ」という二カ所を抽出している。
【００６１】
（図８）
図８もまた、解析後の検閲対象文書ファイルが修正入力手段によってどのように修正されるかを具体的に示したものである。
管理部門の担当者は、構造解析手段が抽出した部位のみならずその前の部分までを、修正前の文言を一切使わず、大幅に修正している。このような修正をしたのは、いわゆる製造物責任法において、自社製品の危険性を認識しながら放置したと解釈されかねない記載が、社内の文書として保存されることを未然に防止するためである。
【００６２】
（図９）
図９では、検閲対象文書ファイルがどのような理由で修正されるかを例示している。
修正前の検索対象文書ファイルの中には、以下のようなフレーズが存在していたとする。『当社製品「Ａ」が、例の安全基準に対してセーフであるとは思えない。』
最初の「Ａ」は、固有名詞または登録商標に係る名称であるため、普通名称に変換している。なお、社内文書には、こうした固有名詞や登録商標に係る名称がいろいろな部署で使われる蓋然性が高いので、予め変換テーブルをNG判定用辞書記憶部に備えることとしてもよい。
【００６３】
次に「例の安全基準」といった略語または隠語を、普通に用いられる用語（Ｚ号安全基準）に変換している。略語は、社内どころか、社内の他の部署でも通じない用語があるため、変換の必要性が高い。また、隠語については、裁判などにおいては不利な証拠となりかねないため、変換の必要性が高い。
【００６４】
次に、「セーフであるとは思えない」という二重否定の構文を、構文解析手段が指摘し、管理部門の担当者が修正している。
二重否定のフレーズは一般的にわかりにくく、正確な表現ではないためである。修正前における該当箇所の前後との整合性から、「安全性を確認したい」という修正を行った。
【００６５】
（図１０）
図１０は、検閲対象文書ファイルが複数回の修正を経て戻される場合を概念的に示している。
被管理部門のＡ氏が検閲対象文書ファイルを作成したとする。なお、Ａ氏の作成段階においても、Ａ氏が文書ファイルを作成していた端末は、ＮＧ判定用辞書記憶部にアクセスし、ＮＧワードやＮＧ文例に該当する入力を指摘していたとする。
前記の検閲対象文書ファイルが管理部門へ送信され、管理部門のＢ氏が検閲対象文書ファイルを閲覧し、Ｂ氏ができる範囲で修正をし、判断がつかない箇所を保留して、上司であるＣ氏に係る端末へ、第一修正ファイルを保留箇所である旨のメモデータを付属させて送信する。
【００６６】
Ｃ氏は、保留箇所である旨のメモデータと、その保留箇所を見ながら、必要な修正を入力し、第二修正ファイルとして被管理部門の端末（Ａ氏に係る端末）と、保存文書データベースとに送信する。また、Ｂ氏に係る端末へも送信する。
以上の手順を踏めば、管理部門においてダブルチェック、Ａ氏の自己チェックを含めればトリプルチェックを実行できたこととなる。Ｂ氏が管理業務に成熟していない場合には、Ｂ氏のスキルアップにも寄与する。
【００６７】
（図１１）
図１１は、修正後の文書ファイルに対して、電子的なタイムスタンプを付与するシステムについて説明するための概念図である。手順をカッコ書きのローマ数字で示している。
まず、タイムスタンプを欲する文書ファイル（ここでは、修正後の文書ファイルとしているが、修正前や修正中でも、必要に応じて含めてもよい）をタイムスタンプ要求手段にかける。ＮＧ文言サーバ内のタイムスタンプ要求手段は、その文書ファイルのハッシュ値を算出し、第三者機関に係るサーバへ、そのハッシュ値をインターネット経由で送信する。
【００６８】
第三者機関に係るサーバは、更に時刻認証局へインターネット経由でアクセスし、そのハッシュ値に対して時刻認証情報を得てタイムスタンプを取得する。そして、時刻認証情報をＮＧ文言サーバへ返信する。
受信した時刻認証情報は、修正後の文書ファイルに合成する。時刻認証情報が合成された文書ファイルは、保存すべきデータベースに保存する。その文書ファイルを必要とする端末が呼び出すと、時刻認証情報が押された文書ファイルが出力される。
【００６９】
前記の例示では、文書ファイルそのものではなくその文書ファイルのハッシュ値を第三者機関へ送信することとしたが、文書ファイルそのものを第三者機関へ送信することとしても良い場合はある。
また、前記の例示では、第三者機関と時刻認証局とを分けて説明したが、時刻認証局が第三者機関として時刻認証情報を直接発行し、発送することとしてもよい。
【００７０】
（図１２）
図１２は、既に格納された文書ファイルのデータベースや、送信を終えたメールの送信済みメールの保存データベースに対して、事後的にＮＧワードやＮＧ文例に該当しないかどうかをチェックする場合を示したものである。
図２と同様、ＮＧ文言サーバに送信されてきた検閲対象文書は、構文解析手段に入力され、構文解析手段では、前記のＮＧ文言辞書データベースのデータを用いるとともに、単語間の係り受け関係を抽出する構文分析手段などに基づいて、検閲対象文書ファイルにＮＧワードやＮＧ文章が使用されているか否かを解析する。
【００７１】
（事後的なＮＧチェック）
文書ファイルが作成され、必要なチェックもなされ、格納された後に、事後的に登録されたＮＧワードやＮＧ文例に該当してしまうことがある。図１２に示したように、一旦格納された文書ファイルに対しても、事後的に構文解析を実行することができるようにしてもよい。ただし、事後的な構文解析は、修正候補の文言を含む対象文書を抽出するにとどめる。修正入力手段によってデータを修正できるが、修正した文書ファイルは上書きをせず、別名でなければ保存できないようにしている。
【００７２】
（図１３）
図１３に示す実施形態は、図１や図２と異なり、管理部門端末において検閲対象文書ファイルを修正するのではなく、文書作成者が自ら修正する実施形態を示すブロック図である。
解析結果送信手段は、被管理対象部門の端末、すなわち、検閲対象文書ファイルを作成した作成者に係る端末へ送信される。そして、出力された修正候補などを参照しながら、修正データを入力する。
修正データを入力して適正文書ファイルとなった文書ファイルは、社内の保存文書データベースへ格納するとともに、社内メールサーバなど、必要な出力に供する。
【００７３】
（翻訳への応用）
なお、ここまでの記載では、法律的な背景から、不適切な表現を効率的に発見し、未然に修正することを趣旨として説明してきた。しかし、法律の面のみならず、グローバル企業においては一つの文書ファイルを複数の言語へ翻訳する必要がある場合も多い。その翻訳に誤りがないように、あわよくば機械翻訳で済むようにする、という目的として使用しても有益である。
【００７４】
（組織内の略語や隠語）
本実施形態に係る文書管理装置を導入する組織、またはその組織内の更に細かな組織内においてのみ通用している略語、特殊用語、隠語などについては、前述のＮＧ言語辞書データベースとは別に、特殊用語データベースを備えることとしてもよい。その場合、その特殊用語データベースには、それぞれの略語、特殊用語、隠語などに対応する一般用語をそれぞれ登録しておく。
検閲対象文書において、特殊用語データベースに登録されている用語が使われている場合には、一般用語に変換する。そして、前述の修正入力手段を操作する管理者等が表示させる出力画面においては、その用語が変換された旨を認識できるように表示する。
【００７５】
（ＮＧランク）
ＮＧ文言辞書データベースへ予め格納されるＮＧワードは、そのＮＧワード毎にランクデータを含ませることとしてもよい。そして解析結果表示手段は、検閲対象となる文書ファイルにおいてＮＧワードを出力する際に、当該ＮＧワードのランクデータに応じた識別が可能なランク表示を含ませることとしてもよい。
この場合、修正を担当する者は、そのランクデータを意識しながら修正作業が行える。
【００７６】
（検閲対象文書の分類）
検閲対象文書について分類が可能な場合には、ＮＧ文言辞書データベースにおいて格納されるＮＧワードやＮＧ文言についても、対象とする検閲対象文書の種類についてのデータを予め入力しておいたり、追加で登録したりするようにする。たとえば、検閲対象文書が発明届出書である場合に特有なＮＧワードやＮＧ文言である場合には、検閲対象文書が発明届出書である場合にのみ、構文解析手段が用いるようにする。
【００７７】
（応用例）
前述してきた実施形態においては、組織における文書ファイル保存前の文書チェック補助技術として説明したが、本発明に示すアイディアのコンセプトは、契約書の作成支援システム、特許明細書の作成支援システムなどにも応用可能である。
特許明細書の作成支援システムにおけるＮＧワードとしては、例えば登録商標となっている自社や競合他社の製品名がある。これらの製品名は、その製品を示す普通名称に自動変換することとしてもよい。すなわち、ＮＧ文言辞書データベース内のＯＫワードを格納したデータベースに、その製品を示す普通名称を登録しておき、登録商標となっている自社や競合他社の製品名が検閲対象文書ファイルに含まれていたら、自動変換するのである。
【産業上の利用可能性】
【００７８】
本発明は、所定の組織内のイントラネットを構築するシステムインテグレータ、イントラネットにインストールするためのソフトウェア開発をするソフトウェア開発業、イントラネットを構築するためのハードウェア製造業、インターネットを通じたＡＳＰ事業などにおいて利用可能性を有する。

【特許請求の範囲】
【請求項１】
ＮＧワードを格納するＮＧ判定用辞書記憶手段と、
検閲対象となる文書データを所定の端末から受信する対象文書受信手段と、
その対象文書受信手段が受信した文書データの文書を形態素解析して単語を抽出する形態素解析手段と、
その形態素解析手段が抽出した単語が前記ＮＧ判定用辞書記憶手段を参照して前記ＮＧワードであるか否かを判断し、ＮＧワードが存在すると判断した場合には当該ＮＧワードを起点として修正候補であるか否かを判断するＮＧ判断手段と、
を備えた文書管理装置。
【請求項２】
前記ＮＧ判定用辞書記憶手段は、格納されるＮＧワード毎にランクデータを含み、
前記ＮＧ判断手段は、検閲対象となる文書データの文書においてＮＧワードが存在すると判断した場合は当該ＮＧワードを起点として当該起点のランクによって修正候補であるか否かを判断することとした請求項１に記載の文書管理装置。
【請求項３】
前記ＮＧ判定用辞書記憶手段は、二以上の単語の係り受けによってＮＧ文章を構成するＮＧ係り受けを格納し、
前記ＮＧ判断手段は、前記文書データの文章の一つを判断対象として、当該一つの文章中の少なくとも一つのＮＧワードを起点として当該起点と他の単語との関係を構文解析し、
前記ＮＧ判定用辞書記憶手段を参照して当該起点と他の単語との関係がＮＧ係り受けであるか否かを判断するとともに、ＮＧ係り受けが存在すると判断した場合には当該ＮＧ係り受けを起点として修正候補であるか否かを判断することとした請求項１または請求項２のいずれかに記載の文書管理装置。
【請求項４】
前記ＮＧ判定用辞書記憶手段には、ＮＧワードではない二以上の単語の組み合わせが同一文中に併存することでＮＧ文章を構成することとなるＮＧ文章構成単語群を格納し、
前記のＮＧ判断手段は、前記文書データの文章の一つを判断対象として、当該一つの文章中にＮＧワードが存在しないと判断した場合に、当該一つの文章を構文解析するとともに、前記ＮＧ判定用辞書記憶部を参照してＮＧ文章構成単語群が含まれるか否かによって当該一つの文章が修正候補であるか否かを判断することとした
請求項１から請求項３のいずれかに記載の文書管理装置。
【請求項５】
前記ＮＧ判断手段による判断結果として修正候補と判断した部位を表示させる処理結果出力手段と、
その処理結果出力手段によって修正候補と判断された部位に対する修正入力を所定の端末から受け付ける修正入力手段と、
その修正入力手段によって修正された文書データを受信する適正文書データ受信手段と、
を備えた請求項１から請求項４のいずれかに記載の文書管理装置。
【請求項６】
ＮＧ判定用辞書記憶手段に格納されたＮＧワードに対応した推奨ワードを予め格納する推奨ワード辞書記憶手段を備え、
前記処理結果出力手段は、前記ＮＧ判断手段によって修正候補と判断された部位を出力する際に、当該修正候補に対応する推奨ワードを出力することとした請求項１から請求項５のいずれかに記載の文書管理装置。
【請求項７】
前記ＮＧ判定用辞書記憶手段は、前記の修正入力手段による修正の結果を登録することとした請求項５または請求項６に記載の文書管理装置。
【請求項８】
前記の修正入力手段にて入力された修正データが反映された適正文書データを記録する文書ファイルに対して、電子的なタイムスタンプを押すタイムスタンプ手段を備えた請求項５から請求項７のいずれかに記載の文書管理装置。

【図１】