説明

文書管理装置

【課題】 文書データをその組織内のデータベースへ格納する前段階で事前チェックするのに役立つ技術を提供する。
【解決手段】 NGワードを格納するNG判定用辞書記憶手段と、検閲対象となる文書データを所定の端末から受信する対象文書受信手段と、受信した文書データの文書を形態素解析して単語を抽出する形態素解析手段と、NG判断手段と、を備えた文書管理装置とする。 NG判断手段は、形態素解析手段が抽出した単語が前記NG判定用辞書記憶手段を参照して前記NGワードであるか否かを判断し、NGワードが存在すると判断した場合には当該NGワードを起点として修正候補であるか否かを判断する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、組織内における文書管理をする際に、不適切な表現を含む文書が保存されることを未然に防止する技術に関する。
【背景技術】
【0002】
情報処理技術の進展に伴って、法人でも個人でも、保有作成する書類に関してはペーパーレス化が進展し、書類が電子化されて保存され管理されるようになった。 特に、組織内での情報共有や情報検索において、効率的な管理運営に寄与している。
【0003】
さて、米国の訴訟制度において、訴訟の被告となった場合に必要な証拠文書を相手方に提示しなければならない「ディスカバリー」と呼ばれる制度がある。 たとえば、X社が製造販売している製品AがY社の保有する特許権Bを侵害している、と訴訟を起こされた場合を想定する。 X社が特許権Bの存在をいつくらいから認識していたのか、製品Aの製造販売に際して特許権Bの侵害とならない(あるいは、なる)といつ判断したのか、といったことが、損害額の認定などにおいて争われることがある。 そうした場合に、裁判所が必要と認めた場合に、X社は関連する社内の書類提出を命じられることがある。
ディスカバリー制度は、前述した知的財産関連の訴訟の他、金融税金といった事件における訴訟において用いられる制度である。
【0004】
近年のディスカバリー制度では、書類の電子化の進展に伴い、電子化された文書が保存された記録媒体の提出が命じられることとなる。旧来の「ディスカバリー制度」と区別するために「イー・ディスカバリー(e-Discovery)」と呼ばれることもある。
電子化された書類は、タイムスタンプといった認証技術を併用しない限り、作成日時や改訂日時を変更することは容易であるものの、作成日時や改訂日時を改ざん等したことが発覚したとすれば、裁判において不利な状況に追い込まれる可能性がある。 したがって、「イー・ディスカバリー(e-Discovery)」を意識した適切な書類管理が、多くの企業で求められる。
【0005】
企業における情報管理システムは、オーダーメイドされることも少なくないが、導入コストや納期の面で導入が容易な情報管理システムも望まれている。
たとえば、特許文献1に開示された技術では、各企業における機密文書を、それら企業と契約を締結した外部の事業者が管理するサーバ装置を用いることによって一括して保管するシステムが提案されている。
【0006】
また、特許文献1に開示された技術に内在する問題点を見いだし、企業における一般的なセキュリティポリシーに反している等の点を解決した技術として、特許文献2に開示された情報管理システムも提案されている。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2001−222525号公報
【特許文献2】特開2009−9551号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
「イー・ディスカバリー(e-Discovery)」においては、膨大な書類が開示対象となり、中には例えば担当者の誤解に基づく記録で後に訂正されたにもかかわらずその訂正の記録が脱落した文章のように、不要な誤解を招くような記録(すなわち開示要求を受けた組織にとって不都合な記録)が含まれる場合もある。
開示要求があってから当該組織にとってこのような不都合な文書ファイルを削除したり改訂したりすれば、裁判において不利になる可能性がある。 不都合な文書ファイルの削除はその証跡が残る可能性がある。改訂した文書ファイルに改訂の日時データが残り、その日時データが裁判準備の開始後であれば、改訂前の文書ファイルを破棄したことに等しい。 そうした事実が裁判上で明らかになれば、関係者の心証は悪くなり、裁判が不利に進行する可能性がある。
【0009】
以上のような課題を回避するためには、その組織において文書ファイルを保管する前の段階で当組織にとって誤解を招くような不都合な文書ファイルが存在していないか事前チェックすることが望ましい、ということになる。
しかし、出願人が先行技術調査のため、民間の特許情報サービスを使用してキーワード検索などを試みたが、文書ファイルを組織で利用するサーバやデータベースへ格納する前段階で事前チェックするシステムは見あたらなかった。
【0010】
本発明が解決しようとする課題は、文書ファイルを組織で利用するサーバやデータベースへ格納する前段階で事前チェックする際に役立つ技術を提供することにある。
【課題を解決するための手段】
【0011】
(第一の発明)
第一の発明は、 NGワードを格納するNG判定用辞書記憶手段と、 検閲対象となる文書データを所定の端末から受信する対象文書受信手段と、 その対象文書受信手段が受信した文書データの文書を形態素解析して単語を抽出する形態素解析手段と、 その形態素解析手段が抽出した単語が前記NG判定用辞書記憶手段を参照して前記NGワードであるか否かを判断し、NGワードが存在すると判断した場合には当該NGワードを起点として修正候補であるか否かを判断するNG判断手段と、を備えた文書管理装置 に係る。
【0012】
「検閲対象」が「文書データ」であるとしているのは、文書ファイルのほか、文書ファイル中の所定の文書データや、電子メールの中の一文、といった場合もあるからである。
【0013】
「NGワード」とは、本願に係る文書管理装置を導入する組織において文書中に用いる単語として相応しくない、と判断すべきワードである。たとえば、公序良俗を害するような言葉、差別用語、などである。 NGワードは、同一組織内であっても部署が異なればNGワードに該当したりしなかったりする場合もあるので、部署毎にNGワードを区別するようにしてもよい。
公共放送における禁止用語集などを用いることで、NG判定用辞書記憶手段への入力の手間を軽減してもよい。
【0014】
(作用)
NG判定用辞書記憶手段には、NGワードを予め格納する。
検閲対象となる文書データを、所定の端末から対象文書受信手段が受信する。 その受信した文書データに対して形態素解析手段が形態素解析をし、当該文書データを単語ごとに分割する。
NG判断手段は、形態素解析手段が抽出した単語が前記NG判定用辞書記憶手段を参照して前記NGワードであるか否かを判断する。 そして、NGワードが存在すると判断した場合には当該NGワードを起点として修正候補であるか否かを判断する。
【0015】
(第一の発明のバリエーション1)
第一の発明に係る文書管理装置は、以下のように形成してもよい。
すなわち、 前記NG判定用辞書記憶手段は、格納されるNGワード毎にランクデータを含み、 前記NG判断手段は、検閲対象となる文書データの文書においてNGワードが存在すると判断した場合は当該NGワードを起点として当該起点のランクによって修正候補であるか否かを判断することとしてもよい。
【0016】
「ランクデータ」とは、たとえば、どんな文書にも使ってはいけない言葉、場合によっては使うことが許される言葉、といった危険度のランクである。 たとえば、どんな文書にも使ってはいけない言葉が「5」、場合によっては使うことが許される言葉が「4」、という具合に危険度のランク情報を設定すればよい。このように、ランクデータは危険度を数値で記述することが好ましい。処理が容易となるからである。しかし、数値の記述のみならず、文字(例えば「使用禁止」「場合によって使用可」「警告表示」等)情報や色などで記述するようにしてもよい。一方、チェック結果を表示する出力の際には危険度のランクを数値ではなく、色や文字の太さで表現すると直感的な認識が可能となって好ましい。
他の請求項にて特定する「処理結果出力手段」においては、修正候補に対してランク表示を実行する。 ここで「ランク表示」とは、NGワードとして抽出された際に、そのNGワードの危険度を赤や黄の色で着色表現される表示、ハイライトの色や濃さ、網掛けの種類や濃さ、下線の種類や太さ、イタリックの角度、フォントの変更、文字の大小、文字の太さ、で表現される表示、当該ランクがカーソルを当てると吹き出しなどで危険度が表現される表示、あるいはこれらを組み合わせた表示である。
なお、NGワードの登録時にランクデータが入力されていない場合には、後に入力することとしてもよい。また、入力されていたランクデータがふさわしくない場合には、改訂して入力し直してもよい。
【0017】
(作用)
NG判定用辞書記憶手段は、格納されるNGワード毎にランクデータを含んで登録されている。
NG判断手段は、検閲対象となる文書データの文書においてNGワードが存在すると判断した場合は、当該NGワードを起点として当該起点のランクによって修正候補であるか否かを判断する。
修正候補を出力された作業者は、ランクデータを意識しながら修正作業が行える。
【0018】
(第一の発明のバリエーション2)
第一の発明に係る文書管理装置は、以下のように形成してもよい。
すなわち、 前記NG判定用辞書記憶手段は、二以上の単語の係り受けによってNG文章を構成するNG係り受けを格納し、 前記NG判断手段は、前記文書データの文章の一つを判断対象として、当該一つの文章中の少なくとも一つのNGワードを起点として当該起点と他の単語との関係を構文解析し、 前記NG判定用辞書記憶手段を参照して当該起点と他の単語との関係がNG係り受けであるか否かを判断するとともに、 NG係り受けが存在すると判断した場合には当該NG係り受けを起点として修正候補であるか否かを判断することとしてもよい。
【0019】
「NG係り受け」とは、NG文例を予め構文解析した結果から抽出したサンプルや、係り受けによってNGとなる場合の規則性など関する情報などである。
たとえば、「主語−述語」の関係において「当社−侵害」をNG係り受けとして登録しておく。 「当社」について、「弊社」、「我が社」、「うちの会社」、正式な社名などは、シソーラスとして登録すると効果的である。
係り受けにおける目的節の「A社(競合他社の正式名や俗称としての社名)−特許権」をNG係り受けとして登録しておくと、「他社の特許に抵触するおそれ」という趣旨の表現を抽出しやすくなるので、効果的である。
【0020】
(作用)
NG判定用辞書記憶手段は、二以上の単語の係り受けによってNG文章を構成するNG係り受けを格納している。
NG判断手段は、前記文書データの文章の一つを判断対象として、当該一つの文章中の少なくとも一つのNGワードを起点として当該起点と他の単語との関係を構文解析する。 そして、前記NG判定用辞書記憶手段を参照して当該起点と他の単語との関係がNG係り受けであるか否かを判断する。NG係り受けが存在すると判断した場合には当該NG係り受けを起点として修正候補であるか否かを判断する。
【0021】
(第一の発明のバリエーション3)
第一の発明に係る文書管理装置は、以下のように形成してもよい。
すなわち、 前記NG判定用辞書記憶手段には、NGワードではない二以上の単語の組み合わせが同一文中に併存することでNG文章を構成することとなるNG文章構成単語群を格納し、 前記のNG判断手段は、前記文書データの文章の一つを判断対象として、当該一つの文章中にNGワードが存在しないと判断した場合に、当該一つの文章を構文解析するとともに、前記NG判定用辞書記憶部を参照してNG文章構成単語群が含まれるか否かによって当該一つの文章が修正候補であるか否かを判断することとしてもよい。
【0022】
「NG文章構成単語群」とは、NG文章である、と判断すべき文章構成単語群である。たとえば、「他社の特許×号は、当社の製品の障害となるおそれがある。」という文章がNGワードをひとつも含まないが、単語の組み合わせが同一文中に併存することでNG文章を構成することとなるとして格納するのである。
【0023】
(作用)
NG判定用辞書記憶手段には、NGワードではない二以上の単語の組み合わせが同一文中に併存することでNG文章を構成することとなるNG文章構成単語群を格納しておく。
NG判断手段は、前記文書データの文章の一つを判断対象として、当該一つの文章中にNGワードが存在しないと判断した場合に、当該一つの文章を構文解析する。そして、NG判定用辞書記憶部を参照し、NG文章構成単語群が含まれるか否かによって当該一つの文章が修正候補であるか否かを判断する。
【0024】
(第一の発明のバリエーション4)
第一の発明に係る文書管理装置は、以下のように形成してもよい。
すなわち、 前記NG判断手段による判断結果として修正候補と判断された部位を表示させる処理結果出力手段と、 その処理結果出力手段によって修正候補と判断された部位に対する修正入力を所定の端末から受け付ける修正入力手段と、 その修正入力手段によって修正された文書データを受信する適正文書データ受信手段と、を備えることとしてもよい。
【0025】
「修正データ」には、修正が不要である場合に、修正が不要であったことを確認した場合に入力される確認データをも含む。
「修正入力手段」は、検閲対象となる文書ファイルを作成した端末(被管理部門端末)であってもよいし(図13参照)、検閲対象となる文書ファイルを作成した端末(被管理部門端末)以外の端末(管理部門端末)であってもよい(図1参照)。前者の場合は、検閲対象となる文書ファイルを作成した作成者が自ら「管理者」となる場合が含まれる。
【0026】
(作用)
NG判断手段による判断結果として修正候補と判断された部位を処理結果出力手段が表示させる。
所定の端末操作者(たとえば文書データの管理者)は表示された修正候補と判断された部位を閲覧し、それに対して修正入力手段を用いて修正データを入力する。その修正入力手段によって修正された文書データを適正文書データ受信手段が受信する。
以上により、本願に係る文書管理装置を導入する組織内で保管すべき文書ファイルを保管前に事前チェックをする体制が、その組織へ提供されることとなる。
【0027】
(第一の発明のバリエーション5)
第一の発明に係る文書管理装置は、以下のように形成してもよい。
すなわち、 NG判定用辞書記憶手段に格納されたNGワードに対応した推奨ワードを予め格納する推奨ワード辞書記憶手段を備え、 前記処理結果出力手段は、前記NG判断手段によって修正候補と判断された部位を出力する際に、当該修正候補に対応する推奨ワードを出力することしてもよい。
【0028】
(作用)
NG判定用辞書記憶手段に格納されたNGワードに対応した推奨ワードを、推奨ワード辞書記憶手段が予め格納しておく。
処理結果出力手段は、修正候補と判断された部位を出力する際に、当該修正候補に対応する推奨ワードを出力する。
【0029】
(第一の発明のバリエーション6)
前記した第一の発明のバリエーション4または5に係る文書管理装置においては、修正入力手段による修正の結果をNG判定用辞書記憶手段へ登録することとしてもよい。
ここで、「修正の結果」とは、修正が不要である場合に、修正が不要であったことを確認した場合に入力される確認データをも含む。 また、修正候補と判断された部位、修正入力手段によって入力された修正データ、修正データを入力した主体に関するデータ、修正データの入力日時などのデータを含む。
【0030】
(作用)
修正入力手段によって入力された修正の結果がNG判定用辞書記憶手段へ登録されるので、NG判定用辞書記憶手段は修正データが入力されるたびに進化する。
本願発明に係る文書管理装置を備えることとした組織に適合したNG判定能力に修正される。 これによって、本願に係る文書管理装置の徐々に解析能力が向上し、修正を担当する者の負担が軽減される。
【0031】
(第一の発明のバリエーション7)
前記した第一の発明のバリエーション4から6に係る文書管理装置においては、前記の修正入力手段にて入力された修正データが反映された適正文書データを記録する文書ファイルに対して、電子的なタイムスタンプを押すタイムスタンプ手段を備えることとしてもよい。
【0032】
「タイムスタンプ手段」とは、文書ファイルに対して保存日時を記録する機能である。 文書ファイルまたはその文書ファイルのハッシュ値を日時特定のための時計が備えられたサーバへ送信する機能、当該サーバが文書ファイルまたはその文書ファイルのハッシュ値に対して日時データを付加して送り返してきたファイルを受信する機能などが含まれる。
なお、保存日時を特定するための時計は、本願に係る文書管理装置を導入しているイントラネットの外部であることが望ましく、公的または準公的な第三者機関であることがより好ましい。日時データの客観性が高まるからである。
【0033】
(第一の発明のバリエーション8)
前述した第一の発明のバリエーション4に係る文書管理装置は、以下のように形成してもよい。
すなわち、前記の修正入力手段を複数備えることとし、 一の修正入力手段から入力された修正データは、他の修正入力手段における出力において前記の解析結果表示手段による解析結果とは識別が可能な表示としてもよい。
【0034】
(作用)
ある修正を担当する者は、一の修正手段にて修正する。 「修正文書ファイル送信手段」が送信する「所定の端末」は、一の修正手段にて修正作業をした者とは別の者に係る端末となる。
その別の者に係る端末において出力された出力結果は、一の修正入力手段から入力された修正データが、解析結果表示手段による解析結果とは識別が可能な表示となっている。 したがって、別の修正者は、解析結果と修正データとを識別しながら、修正内容を検討することができる。
【0035】
(第二の発明)
本願は、コンピュータプログラムに係る第二の発明を提供することもできる。
その第二の発明は、 NGワードをNG判定用辞書記憶手段へ格納するNG判定用辞書記憶手順と、 検閲対象となる文書データを所定の端末から受信する対象文書受信手順と、 その対象文書受信手順にて受信した文書データの文書を形態素解析して単語を抽出する形態素解析手順と、 その形態素解析手順にて抽出された単語が前記NG判定用辞書記憶手段を参照して前記NGワードであるか否かを判断するNGワード判断手順と、 そのNGワード判断手順にてNGワードが存在すると判断された場合には当該NGワードを起点として修正候補であるか否かを判断するNG判断手順とを、コンピュータに実行させるためのコンピュータプログラムに係る。
【0036】
(第二の発明のバリエーション)
第二の発明は、第一の発明のバリエーション1から8に対応したバリエーションを実現可能な各手順を含んだコンピュータプログラムとしてもよい。
【0037】
第二の発明に係るコンピュータプログラムは、バリエーションを含め、ハードディスク、DVD−Rなどの記録媒体に格納して提供することもできる。 また、第二の発明に係るコンピュータプログラムを格納した記録媒体から、通信回線を介して所定の情報端末に受信することもできる。受信した情報端末は、第一の発明に係る文書管理装置となる。
【発明の効果】
【0038】
本願発明によれば、文書ファイルや文書データをその組織内のデータベースへ格納する前段階で事前チェックするのに役立つ技術を提供することができた。
【図面の簡単な説明】
【0039】
【図1】第一の実施形態の全体構成を示すブロック図である。
【図2】第一の実施形態における主要な処理手順を示すフローチャートである。
【図3】構文解析手段による解析の前後を示す図である。
【図4】NG判定用辞書記憶手段の構造を示すブロック図である。
【図5】検閲対象文書ファイルが構文解析手段によってどのように解析されるかを示す図示例である。
【図6】解析後の検閲対象文書ファイルが修正入力手段によってどのように修正されるかを示す図示例である。
【図7】検閲対象文書ファイルが構文解析手段によってどのように解析されるかを示す図示例である。
【図8】解析後の検閲対象文書ファイルが修正入力手段によってどのように修正されるかを示す図示例である。
【図9】検閲対象文書ファイルがどのような理由で修正されるかを示す図示例である。
【図10】検閲対象文書ファイルが複数回の修正を経て戻される場合を概念的に示すブロック図である。
【図11】文書ファイルにタイムスタンプが付与される手順を概念的に示すブロック図である。
【図12】文書ファイルを事後的にチェックする実施形態を示すブロック図である。
【図13】文書ファイルを文書作成者が自ら修正する実施形態を示すブロック図である。
【発明を実施するための形態】
【0040】
以下、本発明を実施形態に基づいて更に詳しく説明する。ただし、本発明は、実施形態の態様に限られるものではない。
以下の説明に使用する図面は、図1から図13である。
【0041】
(図1)
図1では、本願発明の主要な構成を概念的にブロック図で示したものである。
管理部門に係る端末(図中では「管理部門端末」と表記)、NG文言サーバ、および管理される部門に係る端末(図中では「被管理部門端末」と表記)が、社内のイントラネットで接続されている。 事業者がインターネットなどを通じたASP形態によって必要な構成を提供してもよい。
管理部門とは、社内の各部門(「被管理部門」)にて作成されたり改訂されたりする文書に対して、法律的なチェックや必要な修正を行う部署であり、一般的には法務部門や総務部門である。
【0042】
管理部門端末からは、NG文言入力手段(当該端末のキーボード等)を用いてNGワードやNG文例を入力する。入力されたNGワード、NG文章構成単語群、NG文例、NG係り受け等を入力する。入力されたNGワード等は、NG文言サーバにおけるNG判定用辞書データベース(NG判定用辞書手段)に格納される。
「NG文例」とは、NGワードを含む一文のほか、NGワードではない特定のワードの組み合わせを所定の組織において文書中に用いたとすると相応しくない、と判断すべき文例(NG文章構成)である。たとえば、「他社の特許×号は、当社の製品の障害となるおそれがある。」といった文である。
【0043】
さて、被管理部門端末の対象文書入力手段(当該端末のキーボード等)から、検閲対象の文書データを含む文書ファイルが準備され、NG文言サーバに送信されてきたとする(図中、「文書ファイル」は、単に「文書」と表記している)。
ここで、「検閲対象文書ファイル」とは、たとえば、技術担当者らにメール回覧予定の電子回覧板のような文書を含むファイルであり、文書データとして「Y社の特許abcd号は、当社の製品Aの障害となるおそれあり。」という一文のデータを含むものであったとする。
【0044】
NG文言サーバに送信されてきた検閲対象文書に対しては、まず、形態素解析手段による形態素解析処理が実行される。
形態素解析処理は、自然言語文を形態素に分割し単語辞書を参照して単語を抽出し文章を単語単位に分割する自然言語処理であり、形態素解析手段は公知の形態素解析ツールで構成できる。
【0045】
検閲対象文書に含まれる単語は、前述の形態素解析手段で抽出された後、NG判断手段によるNG判断処理を受ける。NG判断手段は、NG判定用辞書記憶部を参照して検閲対象文書中の単語がNGワードであるか否かを判断し、NGワードであると判断した単語があればこれを起点として修正候補であるか否かを判断する。
NGワードであると判断した単語を起点として修正候補であるか否かを判断する方法としては、第一に、NG判定用辞書記録部に格納されたNGワードのランクデータを参照し、最高ランクのNGワードを起点とし、その起点のランクが所定値以上である場合に修正候補と判断する方法が挙げられる。
第二に、検閲対象の一文中の起点の数(すなわちNGワードの数)が所定数以上である場合に修正候補と判断する方法、検閲対象の一文中のNGワードの全てを起点とし、それぞれの起点のランクの合計値が所定値以上の場合に修正候補と判断する方法が挙げられる。
第三に、一文中の起点と他の単語との関係(すなわち単語同士の係り受け)を構文解析し、その起点と他の単語との関係がNG係り受けである場合に修正候補と判断する方法が挙げられる。
【0046】
さらに、検閲対象文にNGワードがない場合、NG判断手段は構文解析を行って二以上の単語で構成される構文(解析)木を作成し、一つの構文木を構成する二以上の単語の組み合わせがNG文章構成単語群に該当しないか否かによって修正候補と判断してもよい。
構文解析処理は、形態素解析処理の結果(形態素列)を入力とし、単語同士の係り受け関係や格関係を表す構文木を出力する処理であり、公知の構文解析ツールで構成できる。構文解析処理を実行することによって、NGとして抽出する部位に対する精度が向上する。そのため、構文解析の手順が無い場合に比べて、修正候補として出力される箇所が減ったり、抽出し損なう箇所が減ったりするので、修正入力の手間を軽減することに寄与する。
【0047】
なお、本実施形態では構文解析処理の「係り受けの解析手法」としては、例えば特開2004−21445号の「テキストデータ分析システム」に開示された手法を採用している。
用語間の対応関係を分析するために抽出するシステムも併用してもよい。用語間の対応関係抽出システムとしては、たとえば、特開2011−103038号に開示された手法である。
【0048】
構文解析処理が実行された後、NG判定用辞書記憶部を用いて、NGワードやNG係り受けに該当する箇所を抽出する。そして、結果表示手段にて、抽出した箇所を他とは区別できるように表示する。NG判定用辞書記憶部がインテリジェント化している場合には、単なる解析結果のみならず、修正候補の文言を含んだ対象文書として送信する。
【0049】
結果表示手段を介して、管理部門の端末の出力画面には、修正候補の文言を含んだ対象文書ファイルが出力される。出力された文書ファイルは、管理部門の担当者が閲覧し、解析結果として抽出されたNGワードやNG文章を検討する。そして、その管理部門の担当者が修正の必要ありと判断すれば、修正入力手段を用いて、修正データを入力する。 たとえば、「Y社の特許abcd号は、当社の製品Aの改良に参考となる。」というように修正する。
【0050】
修正の必要が無く、元の文言で問題ないと判断した場合には、修正しない旨を入力する。なお、管理部門の担当者が判断不能な場合に「保留」という選択をし、その旨を入力することとしてもよい。
修正後の文書ファイルは、検閲対象文書ファイルを送信した被管理部門端末へ送信される。そして、被管理部門端末から、修正後の文書ファイルを送信すべき人や部門へ送信するため、社内メールサーバに送信される。同時に、管理部門が管轄する保存文書データベースにも蓄積される。
なお、修正前の文書ファイルは、本システムを採用する組織におけるポリシーによって異なる。たとえば、修正前の文書ファイルは管理部門などの所定部署において回覧用に印刷出力し、保存文書データベースには保存しないとする、としてもよい。
【0051】
(図2)
図2では、前述した修正候補であるか否かを判断する手順の一例を示している。
検閲対象となる文書データに対して、まず形態素解析処理を実行し、文書データを単語に分割する。
分割された単語にNGワードが含まれているか否かを判断する。含まれていない場合には、文書データにおける一文中の起点と他の単語との関係(すなわち単語同士の係り受け)を構文解析し、その起点と他の単語との関係がNG係り受けである場合に修正候補と判断する。
NG係り受けと判断されない場合には、構文解析を行って二以上の単語で構成される構文(解析)木を作成し、一つの構文木を構成する二以上の単語の組み合わせがNG文章構成単語群に該当しないか否かによって修正候補と判断する。
【0052】
この図2に示したフローチャートは一例であり、本願に係る文書管理装置を導入する組織における環境、規模、予算、処理ポリシーなどに応じて、前述した方法の組み合わせを採択できる。
【0053】
(自主修正と管理部門とによる修正の複数チェック)
図1において波線にて示しているが、被管理部門端末にて文書ファイルを作成する段階でNG判定用辞書記憶手段にもアクセスし、NGワード等を入力したら警告が発せられるといったシステムを構築してもよい。こうすることで、検閲対象文書においてNGワード等がなるべく使われないようにするとともに、検閲対象文書ファイルを作成する者と、管理部門の担当者との二重チェックのシステムが形成できる。
【0054】
(図3)
図3では、「A社が当社の特許権を侵害している。」という一文を構文解析した場合(A)と、「当社がA社の特許権を侵害している。」という一文を構文解析した場合(B)とを示している。
構文解析を実行しないと、(A),(B)のいずれもが修正候補として抽出されてしまう可能性が高い。しかし、NG係り受けにおいて「主語=当社、述語=侵害」と登録しており、構文解析を実行していれば、(A)が修正候補として抽出されず、(B)のみが修正候補として抽出される。
【0055】
(図4)
図4は、NG文言サーバにおけるNG判定用辞書記憶部の構造を概念的に示したブロック図である。
予め登録しておくべきNGワードなどは、NG文言入力手段によって入力され、NGワードデータベースなどにそれぞれ登録される。
一方、前記した修正入力手段にて修正した文言は、OKワードやOK文例としてOKワードデータベースなどにそれぞれ登録される。すなわち、修正作業によって、事後的に登録され、学習する。
学習したNG文言辞書データベースは、学習前よりも、本実施形態に係る文書管理装置を導入する組織における不適切な表現を含んだ文書ファイルが作成される蓋然性を低くする。
【0056】
なお、図4には図示していないが、NG判定用辞書記憶手段について、検閲対象となる文書ファイルの種類ごと、および/または被管理部門ごとに、NGワードやNG文例やNG係り受けを予め格納することとしてもよい。
所定の分野における営業的なワード(たとえば「クレーム」)として用いられていたとしてNGワードに該当したとしても、別の部署においてはNGワードとならない場合(「クレーム」は「請求項」という意味しか持たない場合)があり、そのような場合には修正作業の効率を落とすこととなってしまうからである。
【0057】
(推奨文章の出力)
検閲対象文書ファイルにNGワードやNG文章が使用されているという解析結果を所定の端末へ出力する際、前述のOKワードデータベース、OK文例データベースを用いて、推奨文章を出力することとしてもよい。修正データ入力手段を操作する操作者が推奨文章をそのまま使ってよいと判断した場合には、その推奨文章を選択するだけで修正データの入力が完了する。 そのまま使わない場合でも、操作者にとって修正の参考となる。
なお、推奨文章の採用結果(採用した場合も不採用の場合も)についても、NG判定用辞書記憶手段にフィードバックされ、以後の精度を高めることに寄与する。
【0058】
(図5)
図5は、検閲対象文書ファイルが、構文解析手段によってどのように解析されるかについて具体的に示したものである。
検閲対象文書ファイルは、技術開発を担当するメンバー全員に回覧される「電子回覧板」である。閲覧した者は電子的に「閲覧済み」というデータを、この検閲対象文書ファイルに格納させる。また、回覧された内容についてコメントがあれば、コメントも記入して保存できる。
構文解析手段によって解析された後の検閲対象文書ファイルにおけるメモには、「α関連と推測」という箇所と、「製品Aの障害」という箇所が抽出され、その抽出箇所は、他の箇所と識別可能であるように出力表示(いわゆるハイライト表示)される。
【0059】
(図6)
図6は、解析後の検閲対象文書ファイルが修正入力手段によってどのように修正されるかを具体的に示している。
修正入力手段を操作したのは、管理部門の担当者である。その担当者は、「α関連と推測」という箇所の修正は不要であると判断し、その判断を反映させている。 また、「製品Aの障害」というフレーズを含んだ箇所は、「改良に参考となる」というように修正し、その修正内容を確定させている。
この修正によって、製品Aが特許公開番号2011−abcd号に開示されている内容と抵触していることを伺わせる記載が、社内の文書として保存されることを未然に防止したこととなる。
【0060】
(図7)
図7もまた、検閲対象文書ファイルが、構文解析手段によってどのように解析されるかについて具体的に示したものであり、検閲対象文書ファイルは「発明届出書」である。
構造解析手段は、「怪我をするおそれ」と「怪我のおそれ」という二カ所を抽出している。
【0061】
(図8)
図8もまた、解析後の検閲対象文書ファイルが修正入力手段によってどのように修正されるかを具体的に示したものである。
管理部門の担当者は、構造解析手段が抽出した部位のみならずその前の部分までを、修正前の文言を一切使わず、大幅に修正している。 このような修正をしたのは、いわゆる製造物責任法において、自社製品の危険性を認識しながら放置したと解釈されかねない記載が、社内の文書として保存されることを未然に防止するためである。
【0062】
(図9)
図9では、検閲対象文書ファイルがどのような理由で修正されるかを例示している。
修正前の検索対象文書ファイルの中には、以下のようなフレーズが存在していたとする。 『当社製品「A」が、例の安全基準に対してセーフであるとは思えない。』
最初の「A」は、固有名詞または登録商標に係る名称であるため、普通名称に変換している。 なお、社内文書には、こうした固有名詞や登録商標に係る名称がいろいろな部署で使われる蓋然性が高いので、予め変換テーブルをNG判定用辞書記憶部に備えることとしてもよい。
【0063】
次に「例の安全基準」といった略語または隠語を、普通に用いられる用語(Z号安全基準)に変換している。 略語は、社内どころか、社内の他の部署でも通じない用語があるため、変換の必要性が高い。 また、隠語については、裁判などにおいては不利な証拠となりかねないため、変換の必要性が高い。
【0064】
次に、「セーフであるとは思えない」という二重否定の構文を、構文解析手段が指摘し、管理部門の担当者が修正している。
二重否定のフレーズは一般的にわかりにくく、正確な表現ではないためである。修正前における該当箇所の前後との整合性から、「安全性を確認したい」という修正を行った。
【0065】
(図10)
図10は、検閲対象文書ファイルが複数回の修正を経て戻される場合を概念的に示している。
被管理部門のA氏が検閲対象文書ファイルを作成したとする。なお、A氏の作成段階においても、A氏が文書ファイルを作成していた端末は、NG判定用辞書記憶部にアクセスし、NGワードやNG文例に該当する入力を指摘していたとする。
前記の検閲対象文書ファイルが管理部門へ送信され、管理部門のB氏が検閲対象文書ファイルを閲覧し、B氏ができる範囲で修正をし、判断がつかない箇所を保留して、上司であるC氏に係る端末へ、第一修正ファイルを保留箇所である旨のメモデータを付属させて送信する。
【0066】
C氏は、保留箇所である旨のメモデータと、その保留箇所を見ながら、必要な修正を入力し、第二修正ファイルとして被管理部門の端末(A氏に係る端末)と、保存文書データベースとに送信する。また、B氏に係る端末へも送信する。
以上の手順を踏めば、管理部門においてダブルチェック、A氏の自己チェックを含めればトリプルチェックを実行できたこととなる。 B氏が管理業務に成熟していない場合には、B氏のスキルアップにも寄与する。
【0067】
(図11)
図11は、修正後の文書ファイルに対して、電子的なタイムスタンプを付与するシステムについて説明するための概念図である。手順をカッコ書きのローマ数字で示している。
まず、タイムスタンプを欲する文書ファイル(ここでは、修正後の文書ファイルとしているが、修正前や修正中でも、必要に応じて含めてもよい)をタイムスタンプ要求手段にかける。 NG文言サーバ内のタイムスタンプ要求手段は、その文書ファイルのハッシュ値を算出し、第三者機関に係るサーバへ、そのハッシュ値をインターネット経由で送信する。
【0068】
第三者機関に係るサーバは、更に時刻認証局へインターネット経由でアクセスし、そのハッシュ値に対して時刻認証情報を得てタイムスタンプを取得する。そして、時刻認証情報をNG文言サーバへ返信する。
受信した時刻認証情報は、修正後の文書ファイルに合成する。時刻認証情報が合成された文書ファイルは、保存すべきデータベースに保存する。 その文書ファイルを必要とする端末が呼び出すと、時刻認証情報が押された文書ファイルが出力される。
【0069】
前記の例示では、文書ファイルそのものではなくその文書ファイルのハッシュ値を第三者機関へ送信することとしたが、文書ファイルそのものを第三者機関へ送信することとしても良い場合はある。
また、前記の例示では、第三者機関と時刻認証局とを分けて説明したが、時刻認証局が第三者機関として時刻認証情報を直接発行し、発送することとしてもよい。
【0070】
(図12)
図12は、既に格納された文書ファイルのデータベースや、送信を終えたメールの送信済みメールの保存データベースに対して、事後的にNGワードやNG文例に該当しないかどうかをチェックする場合を示したものである。
図2と同様、NG文言サーバに送信されてきた検閲対象文書は、構文解析手段に入力され、構文解析手段では、前記のNG文言辞書データベースのデータを用いるとともに、単語間の係り受け関係を抽出する構文分析手段などに基づいて、検閲対象文書ファイルにNGワードやNG文章が使用されているか否かを解析する。
【0071】
(事後的なNGチェック)
文書ファイルが作成され、必要なチェックもなされ、格納された後に、事後的に登録されたNGワードやNG文例に該当してしまうことがある。 図12に示したように、一旦格納された文書ファイルに対しても、事後的に構文解析を実行することができるようにしてもよい。 ただし、事後的な構文解析は、修正候補の文言を含む対象文書を抽出するにとどめる。 修正入力手段によってデータを修正できるが、修正した文書ファイルは上書きをせず、別名でなければ保存できないようにしている。
【0072】
(図13)
図13に示す実施形態は、図1や図2と異なり、管理部門端末において検閲対象文書ファイルを修正するのではなく、文書作成者が自ら修正する実施形態を示すブロック図である。
解析結果送信手段は、被管理対象部門の端末、すなわち、検閲対象文書ファイルを作成した作成者に係る端末へ送信される。そして、出力された修正候補などを参照しながら、修正データを入力する。
修正データを入力して適正文書ファイルとなった文書ファイルは、社内の保存文書データベースへ格納するとともに、社内メールサーバなど、必要な出力に供する。
【0073】
(翻訳への応用)
なお、ここまでの記載では、法律的な背景から、不適切な表現を効率的に発見し、未然に修正することを趣旨として説明してきた。しかし、法律の面のみならず、グローバル企業においては一つの文書ファイルを複数の言語へ翻訳する必要がある場合も多い。 その翻訳に誤りがないように、あわよくば機械翻訳で済むようにする、という目的として使用しても有益である。
【0074】
(組織内の略語や隠語)
本実施形態に係る文書管理装置を導入する組織、またはその組織内の更に細かな組織内においてのみ通用している略語、特殊用語、隠語などについては、前述のNG言語辞書データベースとは別に、特殊用語データベースを備えることとしてもよい。 その場合、その特殊用語データベースには、それぞれの略語、特殊用語、隠語などに対応する一般用語をそれぞれ登録しておく。
検閲対象文書において、特殊用語データベースに登録されている用語が使われている場合には、一般用語に変換する。 そして、前述の修正入力手段を操作する管理者等が表示させる出力画面においては、その用語が変換された旨を認識できるように表示する。
【0075】
(NGランク)
NG文言辞書データベースへ予め格納されるNGワードは、そのNGワード毎にランクデータを含ませることとしてもよい。 そして解析結果表示手段は、検閲対象となる文書ファイルにおいてNGワードを出力する際に、当該NGワードのランクデータに応じた識別が可能なランク表示を含ませることとしてもよい。
この場合、修正を担当する者は、そのランクデータを意識しながら修正作業が行える。
【0076】
(検閲対象文書の分類)
検閲対象文書について分類が可能な場合には、NG文言辞書データベースにおいて格納されるNGワードやNG文言についても、対象とする検閲対象文書の種類についてのデータを予め入力しておいたり、追加で登録したりするようにする。 たとえば、検閲対象文書が発明届出書である場合に特有なNGワードやNG文言である場合には、検閲対象文書が発明届出書である場合にのみ、構文解析手段が用いるようにする。
【0077】
(応用例)
前述してきた実施形態においては、組織における文書ファイル保存前の文書チェック補助技術として説明したが、本発明に示すアイディアのコンセプトは、契約書の作成支援システム、特許明細書の作成支援システムなどにも応用可能である。
特許明細書の作成支援システムにおけるNGワードとしては、例えば登録商標となっている自社や競合他社の製品名がある。 これらの製品名は、その製品を示す普通名称に自動変換することとしてもよい。 すなわち、NG文言辞書データベース内のOKワードを格納したデータベースに、その製品を示す普通名称を登録しておき、登録商標となっている自社や競合他社の製品名が検閲対象文書ファイルに含まれていたら、自動変換するのである。
【産業上の利用可能性】
【0078】
本発明は、所定の組織内のイントラネットを構築するシステムインテグレータ、イントラネットにインストールするためのソフトウェア開発をするソフトウェア開発業、イントラネットを構築するためのハードウェア製造業、インターネットを通じたASP事業などにおいて利用可能性を有する。

【特許請求の範囲】
【請求項1】
NGワードを格納するNG判定用辞書記憶手段と、
検閲対象となる文書データを所定の端末から受信する対象文書受信手段と、
その対象文書受信手段が受信した文書データの文書を形態素解析して単語を抽出する形態素解析手段と、
その形態素解析手段が抽出した単語が前記NG判定用辞書記憶手段を参照して前記NGワードであるか否かを判断し、NGワードが存在すると判断した場合には当該NGワードを起点として修正候補であるか否かを判断するNG判断手段と、
を備えた文書管理装置。
【請求項2】
前記NG判定用辞書記憶手段は、格納されるNGワード毎にランクデータを含み、
前記NG判断手段は、検閲対象となる文書データの文書においてNGワードが存在すると判断した場合は当該NGワードを起点として当該起点のランクによって修正候補であるか否かを判断することとした請求項1に記載の文書管理装置。
【請求項3】
前記NG判定用辞書記憶手段は、二以上の単語の係り受けによってNG文章を構成するNG係り受けを格納し、
前記NG判断手段は、前記文書データの文章の一つを判断対象として、当該一つの文章中の少なくとも一つのNGワードを起点として当該起点と他の単語との関係を構文解析し、
前記NG判定用辞書記憶手段を参照して当該起点と他の単語との関係がNG係り受けであるか否かを判断するとともに、 NG係り受けが存在すると判断した場合には当該NG係り受けを起点として修正候補であるか否かを判断することとした請求項1または請求項2のいずれかに記載の文書管理装置。
【請求項4】
前記NG判定用辞書記憶手段には、NGワードではない二以上の単語の組み合わせが同一文中に併存することでNG文章を構成することとなるNG文章構成単語群を格納し、
前記のNG判断手段は、前記文書データの文章の一つを判断対象として、当該一つの文章中にNGワードが存在しないと判断した場合に、当該一つの文章を構文解析するとともに、前記NG判定用辞書記憶部を参照してNG文章構成単語群が含まれるか否かによって当該一つの文章が修正候補であるか否かを判断することとした
請求項1から請求項3のいずれかに記載の文書管理装置。
【請求項5】
前記NG判断手段による判断結果として修正候補と判断した部位を表示させる処理結果出力手段と、
その処理結果出力手段によって修正候補と判断された部位に対する修正入力を所定の端末から受け付ける修正入力手段と、
その修正入力手段によって修正された文書データを受信する適正文書データ受信手段と、
を備えた請求項1から請求項4のいずれかに記載の文書管理装置。
【請求項6】
NG判定用辞書記憶手段に格納されたNGワードに対応した推奨ワードを予め格納する推奨ワード辞書記憶手段を備え、
前記処理結果出力手段は、前記NG判断手段によって修正候補と判断された部位を出力する際に、当該修正候補に対応する推奨ワードを出力することとした請求項1から請求項5のいずれかに記載の文書管理装置。
【請求項7】
前記NG判定用辞書記憶手段は、前記の修正入力手段による修正の結果を登録することとした請求項5または請求項6に記載の文書管理装置。
【請求項8】
前記の修正入力手段にて入力された修正データが反映された適正文書データを記録する文書ファイルに対して、電子的なタイムスタンプを押すタイムスタンプ手段を備えた請求項5から請求項7のいずれかに記載の文書管理装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2013−84180(P2013−84180A)
【公開日】平成25年5月9日(2013.5.9)
【国際特許分類】
【出願番号】特願2011−224716(P2011−224716)
【出願日】平成23年10月12日(2011.10.12)
【出願人】(000155469)株式会社野村総合研究所 (1,067)