説明

リスク情報生成システム及びプログラム

【課題】膨大な記事データの中から、記事データの内容を表すリスク情報を自動的に生成可能な技術の実現。
【解決手段】電子化された記事データを形態素に分解し、辞書を参照して、各形態素の中で企業名、人物名、地域、違法行為を表す文字列等に対して対応の抽象化タグを付与する抽象化処理部20と、記事データ中の各文に含まれる抽象化タグの組合せ、あるいは抽象化タグと特定の文字列との組合せ毎に、リスク情報の構成要素として抽出すべき文字列を規定した抽出ルールを記事データに適用することにより、人物名を表す文字列、企業名を表す文字列、当該企業の所在地を表す文字列等をリスク情報の構成要素として抽出した後、記事データに含まれる抽象化タグの構成をカテゴリ判定ルールに適用して当該記事データのカテゴリを判定し、このカテゴリと、抽出した文字列、及び記事データの識別コードを備えたリスク情報を生成し、リスク情報記憶部30に格納するリスク情報抽出部24を備えたリスク情報生成システム11。

【発明の詳細な説明】
【技術分野】
【0001】
この発明はリスク情報生成システム及びプログラムに係り、特に、電子化されたニュース記事データ等から個別企業の不祥事情報や事故情報等のリスク情報を自動生成する技術に関する。
【背景技術】
【0002】
取引先企業が破綻すると売掛金の回収が困難となり、大きな損失を被ることになるため、各企業においては取引先企業の経営状況について常時監視することが行われている。
例えば、担当部署のスタッフが取引先企業に関係する新聞記事や雑誌記事をスクラップしたり、インターネットの検索サイトやニュースサイトを閲覧し、取引先企業の不祥事情報を収集したりすることが日常的に行われている。
あるいは、非特許文献1に示すように、データ収集サービスを利用することにより、Webサイト上の企業情報を自動収集することも行われている。
【非特許文献1】ビジネス情報の収集・分析支援ソリューション簡単導入パッケージ インターネットURL:http://www.necst.co.jp/product/kms/solution/collection.html 検索日:平成22年2月23日
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかしながら、このような従来の情報収集方法の場合、収集したリスク情報を利用するために多くの手間がかかるという問題があった。
まず、紙ベースでの情報収集の場合、キーボードやスキャナ、OCRソフト等を用いて情報を電子化する必要があった。
インターネットを利用し、初めから電子化された状態の情報を取得すれば、このような電子化のための手間を省くことができるが、この場合でも人間が1件毎に内容をチェックして取り込む必要があり、多くの手間を要していた。
非特許文献1の自動生成システムを用いた場合、ユーザが予め設定したキーワードを含む情報が取り込まれるため、リスク情報の収集作業についてはある程度の効率化が可能となるが、Webサイトから収集された情報は一般に玉石混交であり、様々な意図に基づいて各用語が文中に挿入されているため、集められた情報を有効活用するためには、その取捨選択や分類、加工に大きな労力を割く必要があった。
【0004】
この発明は、従来のこのような問題を解決するために案出されたものであり、日々発生する膨大な記事データの中から、当該記事データの内容を表すリスク情報を自動的に生成可能な技術の実現を目的としている。
【課題を解決するための手段】
【0005】
上記の目的を達成するため、請求項1に記載したリスク情報生成システムは、具体的な表現文字列と、その種類を示す抽象化文字列との対応関係を登録した辞書と、電子化された記事データを形態素に分解する手段と、上記辞書を参照し、各形態素の中で少なくとも企業名、地域、リスク要因を表す文字列に対して、対応の抽象化タグを付与する手段と、この抽象化タグが付与された記事データを格納しておく記事データ記憶手段と、記事データ中の各文に含まれる抽象化タグの組合せ、あるいは抽象化タグと特定の文字列との組合せ毎に、リスク情報の構成要素として抽出すべき文字列を規定した抽出ルールを、予め複数格納しておく抽出ルール記憶手段と、上記の記事データに上記抽出ルールを適用することにより、少なくとも企業名を表す文字列、当該企業の所在地を表す文字列をリスク情報の構成要素として抽出する手段と、記事データに含まれる抽象化タグの構成に応じて、当該記事データのカテゴリを判定するためのルールを、予め複数格納しておくカテゴリ判定ルール記憶手段と、上記の記事データに含まれる抽象化タグの構成を上記カテゴリ判定ルールに適用し、当該記事データのカテゴリを判定する手段と、このカテゴリと、抽出した上記文字列、及び記事データの識別コードを備えたリスク情報を生成し、リスク情報記憶手段に格納する手段を備えたことを特徴としている。
上記の「リスク要因を表す文字列」とは、例えば「逮捕」、「捜索」、「起訴」、「行政指導」、「業務停止命令」、「営業停止」、「訴えられ」、「会社更生法の適用」、「不渡り」等、企業にとってリスクとなり得る事象の存在を示す用語を意味している(以下同様)。
【0006】
請求項2に記載したリスク情報生成システムは、具体的な表現文字列と、その種類を示す抽象化文字列との対応関係を登録した辞書と、電子化された記事データを形態素に分解する手段と、上記辞書を参照し、各形態素の中で少なくとも人物名、地域、企業名、リスク要因を表す文字列に対して、対応の抽象化タグを付与する手段と、この抽象化タグが付与された記事データを格納しておく記事データ記憶手段と、記事データ中の各文に含まれる抽象化タグの組合せ、あるいは抽象化タグと特定の文字列との組合せ毎に、リスク情報の構成要素として抽出すべき文字列を規定した抽出ルールを、予め複数格納しておく抽出ルール記憶手段と、上記の記事データに上記抽出ルールを適用することにより、少なくとも人物名を表す文字列、当該人物の住所を表す文字列、当該人物の所属企業名を表す文字列を企業関係者に係るリスク情報の構成要素として抽出し、あるいは少なくとも企業名を表す文字列、当該企業の所在地を表す文字列を企業に係るリスク情報の構成要素として抽出する手段と、記事データに含まれる抽象化タグの構成に応じて、当該記事データのカテゴリを判定するためのルールを、予め複数格納しておくカテゴリ判定ルール記憶手段と、上記の記事データに含まれる抽象化タグの構成を上記カテゴリ判定ルールに適用し、当該記事データのカテゴリを判定する手段と、このカテゴリと、抽出した上記文字列、及び記事データの識別コードを備えたリスク情報を生成し、リスク情報記憶手段に格納する手段を備えたことを特徴としている。
【0007】
請求項3に記載したリスク情報生成システムは、請求項1または2のシステムであって、さらに、予め設定された正規表現ルールを各文に対して適用し、当該正規表現ルールにマッチする文字列を企業名、地域、リスク要因、または人物名の何れかであると認定すると共に、当該文字列に対して対応の抽象化タグを関連付ける手段を備えたことを特徴としている。
【0008】
請求項4に記載したリスク情報生成システムは、請求項1〜3のシステムであって、さらに上記リスク情報には、グループIDを格納するデータ項目が設けられており、新規のリスク情報が生成された際に、当該リスク情報の基になった新規記事データに付与された抽象化タグの構成と、上記の記事データ記憶手段に格納された複数の既存記事データに付与された抽象化タグの構成に基づいて、両記事データ間の類似度を算出する手段と、この類似度が最も高い既存記事データに基づいて生成されたリスク情報のグループIDと共通するグループIDを、上記の新規記事データに係るリスク情報に関連付ける手段を備えたことを特徴としている。
【0009】
請求項5に記載したリスク情報生成システムは、請求項4のシステムであって、さらに、同一のグループIDが関連付けられたリスク情報間で、データ項目毎に値の充填/未充填の状態を比較し、未充填のデータ項目に対しては他のリスク情報の充填済みの値を補充する手段を備えたことを特徴としている。
【0010】
請求項6に記載したリスク情報生成システムは、請求項1〜5のシステムであって、さらに、所定の照応詞毎にその先行詞を決定するための照応解析ルールを格納しておく照応解析記憶手段と、この照応解析ルールを参照し、文中に存在する照応詞に対して、対応の先行詞を決定すると共に、この先行詞によって照応詞を置き換える手段を備えたことを特徴としている。
【0011】
請求項7に記載したリスク情報生成プログラムは、コンピュータを、具体的な表現文字列と、その種類を示す抽象化文字列との対応関係を登録した辞書を格納する記憶手段、電子化された記事データを形態素に分解する手段、上記辞書を参照し、各形態素の中で少なくとも企業名、地域、リスク要因を表す文字列に対して、対応の抽象化タグを付与する手段、この抽象化タグが付与された記事データを格納しておく記事データ記憶手段、記事データ中の各文に含まれる抽象化タグの組合せ、あるいは抽象化タグと特定の文字列との組合せ毎に、リスク情報の構成要素として抽出すべき文字列を規定した抽出ルールを、予め複数格納しておく抽出ルール記憶手段、上記の記事データに上記抽出ルールを適用することにより、少なくとも企業名を表す文字列、当該企業の所在地を表す文字列をリスク情報の構成要素として抽出する手段、記事データに含まれる抽象化タグの構成に応じて、当該記事データのカテゴリを判定するためのルールを、予め複数格納しておくカテゴリ判定ルール記憶手段、上記の記事データに含まれる抽象化タグの構成を上記カテゴリ判定ルールに適用し、当該記事データのカテゴリを判定する手段、このカテゴリと、抽出した上記文字列、及び記事データの識別コードを備えたリスク情報を生成し、リスク情報記憶手段に格納する手段として機能させることを特徴としている。
【発明の効果】
【0012】
請求項1に記載のリスク情報生成システム及び請求項7に記載のリスク情報生成プログラムによれば、電子化された記事データから、自動的にリスク記事の内容を表す企業名、企業の所在地、リスク情報のカテゴリ(分類)が抽出され、これらの構成要素を備えたリスク情報として生成されるため、このリスク情報を参照することにより、リスク記事の効果的な活用(検索、参照等)が可能となる。
【0013】
請求項2に記載のリスク情報生成システムによれば、上記の効果に加え、記事データ中から関係人物名とその属性情報を抽出できるため、社員等の企業関係者による犯罪や事故など、企業の信用を大きく毀損させる危険性の高い人為的なリスク情報を有効に生成可能となる。
【0014】
請求項3に記載のリスク情報生成システムによれば、辞書に収録されていない文字列に対してもルールベースで抽象化タグを付与することが可能となり、その分、多くのリスク情報を記事データから取り出すことが可能となる。
【0015】
請求項4に記載のリスク情報生成システムによれば、同一事案に関する個別の記事データを自動的にグルーピングすることが可能となる。
【0016】
請求項5に記載のリスク情報生成システムによれば、同一グループに属する記事データのリスク情報間で、欠落しているデータを補完し合うことが可能となり、個々のリスク情報の完成度を高めることが可能となる。
【0017】
請求項6に記載のリスク情報生成システムによれば、記事データ中の照応詞を対応の先行詞で置き換えることが可能となり、その分、多くの情報要素を記事データから抽出可能となる。
【発明を実施するための最良の形態】
【0018】
図1は、この発明に係るリスク情報生成システム11を含むリスク情報提供システム10の機能構成を示すブロック図であり、記事データ収集部12と、記事データ記憶部14と、フィルタ処理部16と、辞書データ記憶部18と、抽象化処理部20と、ルール記憶部22と、リスク情報抽出部24と、グループ化処理部28と、リスク情報記憶部30と、検索処理部32とから構成される。
【0019】
上記の記事データ収集部12、フィルタ処理部16、抽象化処理部20、リスク情報抽出部24、グループ化処理部28及び検索処理部32は、コンピュータのCPUが、OS及びアプリケーションプログラムに従って必要な処理を実行することによって実現される。
【0020】
また、上記の記事データ記憶部14、辞書データ記憶部18、ルール記憶部22、リスク情報記憶部30は、同コンピュータのハードディスク内に設けられている。
辞書データ記憶部18には、具体的な表現文字列と、その種類を示す抽象化文字列との対応関係を規定した各種の辞書データが多数登録されている(詳細は後述)。
また、ルール記憶部22には、抽象化ルール、リスク情報抽出ルール、照応解析ルール、カテゴリ判定ルール等の各種ルールデータが格納されている(詳細は後述)。
【0021】
上記の各機能構成部の中、記事データ収集部12、記事データ記憶部14、フィルタ処理部16、辞書データ記憶部18、抽象化処理部20、ルール記憶部22、リスク情報抽出部24、グループ化処理部28、リスク情報記憶部30によってリスク情報生成システム11が構成され、これに検索処理部32を加えることにより、リスク情報提供システム10が構成される。
【0022】
記事データ収集部12には、インターネット36を介してニュースサーバ38が接続されている。このニュースサーバ38は、テキスト化されたニュース記事情報をオンラインで配信する機能を備えており、新聞社や通信社などが運営している。
【0023】
検索処理部32には、インターネット36を介してニュースサーバ38及び企業情報提供サーバ40が接続されている。この企業情報提供サーバ40は、企業情報データベースを備えており、各企業の住所や代表者、役員構成、関連企業(親会社、子会社、主要取引先)、株主構成、財務情報等をオンラインで配信する機能を備えており、情報ベンダによって運営されている。
また検索処理部32には、インターネット36を介してユーザが操作するクライアント端末42が接続されている。
【0024】
つぎに、図2のフローチャートに従い、このリスク情報生成システム11における処理手順を説明する。
まず記事データ収集部12は、定期的にニュースサーバ38にアクセスし、最新のニュース記事を取得した後、記事データ記憶部14に格納する(S10)。
このニュース記事は、プレーンテキストによって構成されており、記事ID、発行者、発行年月日、取得年月日等の情報が関連付けられている。
【0025】
つぎにフィルタ処理部16が起動し、記事データ記憶部14に格納されたニュース記事について検索処理を行い、「リスク記事」とそれ以外の「一般記事」とのフィルタリングを行う(S12)。
すなわち、フィルタ処理部16は予め辞書データ記憶部18内に格納されたリスクキーワード辞書を参照し、対象となる記事データ中にリスクキーワードが含まれているか否かを判定する。
【0026】
リスクキーワードとしては、例えば「違法」、「行政指導」、「逮捕」、「犯罪」、「捜査」、「差押え」、「脱法行為」、「訴訟」、「破綻」、「暴力団」、「総会屋」など、企業リスクに繋がる可能性のある用語が広く選定されている。
これらのキーワードが所定数含まれるニュース記事に対しては、リスク記事であることを示すフラグがフィルタ処理部16によって設定され、後続処理の対象と認定される。
これに対し、これらのキーワードが所定数未満のニュース記事については、一般記事であることを示すフラグがフィルタ処理部16によって設定され、後続処理の対象から除外される。この結果、後続処理の効率化が図れる。
【0027】
つぎに抽象化処理部20が起動し、リスク記事に含まれる所定の用語に対して抽象化タグ(メタタグ)を付与する。
このために抽象化処理部20は、まずリスク記事を形態素単位に分解し、それぞれの品詞を同定する(S14)。
【0028】
つぎに抽象化処理部20は、辞書データ記憶部18に格納された企業名辞書、人物名辞書、地域名辞書、違法事件辞書、訴訟事件辞書、行政指導事件辞書、労務トラブル事件辞書、企業事故辞書、企業役職辞書などの辞書情報を参照し、各形態素の中で該当するものに対しては対応の抽象化タグを付与する(S16)。
【0029】
例えば図3に示すように、あるリスク記事X(記事ID:240012)の文No.0001中に「ABC商事」という文字列が存在しており、企業名辞書中に「ABC商事」の文字列が企業名として登録されている場合、抽象化処理部20は「ABC商事」の文字列に対して<社名>の抽象化タグを関連付ける。
【0030】
また、同文中に「東京都中央区」の文字列が存在しており、地域名辞書中に「東京都中央区」の登録例が存在している場合、抽象化処理部20は「東京都中央区」の文字列に対して<地域>の抽象化タグを関連付ける。
【0031】
また、同文中に「社員」の文字列が存在しており、企業役職辞書中に「社員→<社員>」の定義が存在している場合、抽象化処理部20は「社員」の文字列に対して<社員>の抽象化タグを関連付ける。
同辞書中には他にも「従業員→<社員>」、「スタッフ→<社員>」、「アルバイト→<社員>」、「パート→<社員>」等の定義データが登録されており、企業の社員を表す異なった用語に対して、等しく<社員>の抽象化タグが付与されることとなる。
【0032】
また、同文中に「贈賄」の文字列が存在しており、違法事件辞書中に「贈賄→<容疑>」の定義が存在しているため、抽象化処理部20は「贈賄」の文字列に対して<容疑>の抽象化タグを関連付ける。
なお、同文中の「逮捕」の文字列は、違法行為の容疑者(人物)に対してのみ用いられ、リスク要因に該当する特に重要な用語であるため、違法事件辞書中に「逮捕→<逮捕>」の定義が存在している。このため、抽象化処理部20は「逮捕」の文字列に対して<逮捕>の抽象化タグを付与する。
【0033】
つぎの文No.0002にも、「逮捕」の文字列と、地域名辞書に登録された「東京都江東区」の文字列が存在するため、抽象化処理部20は<逮捕>及び<地域>の抽象化タグを各文字列に関連付ける。
【0034】
また、同文中に「山田太郎」の文字列が存在し、人物名辞書中に「山田(姓)」と「太郎(名)」の登録例が存在しているため、抽象化処理部20は姓名の揃った「山田太郎」の文字列に対して<人名>の抽象化タグを関連付ける。
【0035】
つぎの文No.0003の場合、「営業課長」の文字列が存在しており、役職辞書中に「営業課長」の登録例があるため、抽象化処理部20は「営業課長」の文字列に対して<役職>の抽象化タグを関連付ける。
【0036】
抽象化処理部20は上記のように、まず各種辞書の登録情報を参照することにより、該当の形態素に対して抽象化タグを付与する処理を実行するが、辞書の収録語数には自ずと限界があり、辞書ベースでの抽象化処理だけでは漏れが生じる可能性がある。
そこで抽象化処理部20は、ルール記憶部22に格納された抽象化ルールを適用することにより、辞書に収録されていない文字列について抽象化タグを関連付ける(S18)。
このため、ルール記憶部22には、予め多数の抽象化ルールが格納されている。
【0037】
図4の(a)は抽象化ルールの一例を示すものであり、「<company_size>の<country>(<feature:名詞>+)」は、「company_size(企業規模を表す文字列)」+「の」+「country(国を表す文字列)」の直後に続く名詞を企業名と認定することが定義されている。また、「company_size」のエイリアス表現(別名)として、「首位、大手、中堅」が定義されており、「company_size」のエイリアス表現として、「米、英、欧州」が定義されている。
【0038】
ここに、図4(b)に示すように、「小売大手の米AAAマートは、人員削減計画を発表した。」という文が与えられた場合、抽象化処理部20はこれを図4(c)に示すように名詞単位のOR表現に置き換え、ルールにマッチする「小売り大手の米AAAマート」を抽出した後、正規表現の「後方参照」を用いて「AAAマート」を取り出し、企業名と認定する。
この結果、AAAマートに対しては<社名>の抽象化タグが抽象化処理部20によって付与される。
【0039】
つぎにリスク情報抽出部24が起動し、抽象化処理部20による抽象化タグの付与が完了したリスク記事データに対しルール記憶部22に格納された抽出ルールを適用することにより、リスク情報を抽出する(S20)。
以下、図5及び図6のフローチャートに従い、この抽出処理の具体的手順を説明する。
【0040】
まずリスク情報抽出部24は、記事データに付与された抽象化タグをチェックし、違法事件に係る記事(情報)に該当するか否かを判定する(S20-01)。例えば、図3に示したリスク記事Xの場合、「逮捕」に対して違法事件を示す<逮捕>の抽象化タグが付与されているため、リスク情報抽出部24は違法事件に係る記事であると判定する。
【0041】
このために、ルール記憶部22内には、予め以下のように、違法事件(リスク要因)を認定するための抽象化タグが定義付けされている。
■違法事件:<逮捕>/<起訴>/<検挙>/<犯罪>/<捜索>…etc.
記事中の何れかの文にこれらの抽象化タグが付与されていた場合、リスク情報抽出部24は当該記事を違法事件に係る記事と認定する。
【0042】
つぎにリスク情報抽出部24は、当該記事から違法行為を実行した人物名を抽出する(S20-02)。例えば、図3に示した記事の場合、文No.0001には<逮捕>の抽象化タグが付与されているが、人物名を表す<人名>の抽象化タグが付与されていないため、リスク情報抽出部24はこの文から人物名を抽出することはできない。
これに対し文No.0002には、<逮捕>の抽象化タグと共に<人名>の抽象化タグが付与されているため、リスク情報抽出部24は<人名>の抽象化タグが付与された文字列「山田太郎」を人物名として抽出する。
【0043】
このために、ルール記憶部22内に予め以下のように、違法行為の主体を抽出するための抽出ルールが設定されている。
■同一文中に人物による違法事件を表す抽象化タグと、<人名>の抽象化タグが付与されている場合→違法事件の主体である人物名として<人名>が付与された文字列を抽出
■人物による違法事件を表す抽象化タグ:<逮捕>
なお、これらのルールは、実際には所定のプログラム言語によってコーディングされている(以下も同様)。
【0044】
つぎにリスク情報抽出部24は、抽出した人物名が「敬称付人物名」に該当するか否かを判定し、「敬称付人物名」に該当する場合には、これを一旦抽出した違法行為の主体としての人物名から除外する処理を実行する(S20-03)。
例えば「逮捕<逮捕>された山田太郎<人名>の上司である齋藤次郎<人名>氏は、山田容疑者の日頃の勤務態度について…」という文が存在した場合、上記ルールの適用により、「山田太郎」の他に違法行為とは無関係の「齋藤次郎」も違法行為の主体として抽出してしまうことになる。
このため、ルール記憶部22には、以下の除外ルールが規定されている。
■<人名>の抽象化タグが付与された文字列の直後に「さん/氏/様」が付加されている場合→人物名から除外
【0045】
このように、人名の直後に敬称(さん、氏等)が付く場合には抽出対象外と規定しておくことにより、違法行為の主体でない者を誤って抽出することを有効に防止できる。
文No.0002の「山田太郎」の場合には敬称が付加されていないため、除外されることなく残される。
【0046】
上記したリスク記事Xは、違法行為の主体が企業の社員である場合であるが、違法行為の主体が企業である場合には、当該記事から企業名が抽出される(S20-04)。
例えば、以下のような記事が該当する。
(文α)捜査当局は24日、不正競争防止法違反の疑いで、自動車部品メーカーであるデンコー<社名>の本社=東京都港区<地域>=の捜索<捜索>を行った。
【0047】
この場合、リスク情報抽出部24は文α中に企業による違法行為を表す<捜索>の抽象化タグと<社名>の抽象化タグが付与されていることに着目し、企業名の「デンコー」を違法行為の主体として抽出する。
【0048】
このために、ルール記憶部22内に予め以下のように、違法行為の主体を抽出するための抽出ルールが設定されている。
■同一文中に企業による違法事件を表す抽象化タグと、<社名>の抽象化タグが付与されている場合→違法事件の主体である企業名として<社名>が付与された文字列を抽出
■企業による違法事件を表す抽象化タグ:<捜索>
【0049】
つぎにリスク情報抽出部24は、記事中に所定の照応詞が含まれている場合に、これを対応の先行詞に置き換える照応処理を実行する(S20-05)。
例えば、図3のリスク記事Xの文No.0003には、「同容疑者」という文字列が存在し、この「同容疑者」はルール記憶部22に格納された照応解析ルールに照応詞として規定されているため、リスク情報抽出部24はこの照応解析ルールに従い、直近の先行文中に含まれる<人名>である「山田太郎」を先行詞と認定し、これと置き換える処理を実行する。この結果、「同容疑者」は「山田太郎<人名>」と置換される。
【0050】
また、文No.0003には「同社」という文字列が存在し、この「同社」はルール記憶部22に格納された別の照応解析ルールにおいて照応詞として規定されているため、リスク情報抽出部24はこの照応解析ルールに従い、直近の先行文中に含まれる<社名>である「ABC商事」を先行詞と認定し、これと置き換える処理を実行する。この結果、「同社」は「ABC商事<社名>」と置換される。
【0051】
なお、図示は省略したが、文中に「山田は、」あるいは「山田容疑者は、」のように、名字のみによる省略形で人物名が記載されていた場合、リスク情報抽出部24は当該文字列に先行する人物名の中で、名字が一致し、かつ姓名が揃った文字列である「山田太郎」を探索し、「山田」を「山田太郎」に置き換えると共に、<人名>の抽象化タグを付与する処理を実行する。
【0052】
つぎにリスク情報抽出部24は、当該記事から違法行為を実行した人物の属性情報(所属企業、所属企業の住所、役職、年齢、人物の住所、容疑)を抽出する(S20-06)。
例えば、図3に示したリスク記事Xの場合、文No.0001には<逮捕>の抽象化タグと共に、<社名>の抽象化タグ及び<社員>の抽象化タグが付与されているため、リスク情報抽出部24は<社名>の抽象化タグが付与された文字列「ABC商事」を違法行為者の所属企業と認定し、その企業名「ABC商事」を抽出する。
【0053】
このために、ルール記憶部22内には予め以下のように、違法行為者の所属企業を抽出するためのルールが設定されている。
■同一文中に、人物による違法事件を表す抽象化タグと、<社名>及び<社員>の抽象化タグが付与されている場合→<社名>の抽象化タグが付与された文字列を所属企業名として抽出
【0054】
ルール記憶部22内には以下のルールも設定されているため、文の体裁が「…ABC商事<社名>に所属する山田太郎<人名>(46)を贈賄容疑で逮捕した。」と変化した場合でも、リスク情報抽出部24は「ABC商事」を所属企業として抽出することが可能となる。
■同一文中に、人物による違法事件を表す抽象化タグと、<社名>及び<人名>の抽象化タグが付与されている場合→<社名>の抽象化タグが付与された文字列を所属企業名として抽出
【0055】
つぎにリスク情報抽出部24は、文No.0001から「東京都中央区」を所属企業の住所として抽出する。
このために、ルール記憶部22内には以下のルールが設定されている。
■<社名>の抽象化タグが付与された文字列の直後に「=」で前後が挟まれた<地域>の抽象化タグが付与された文字列が存在する場合→その文字列を企業の住所として抽出
【0056】
なお、以下のようなルールを上記ルールと併せて設定しておくことにより、「ABC商事(東京都中央区)」のように、括弧で囲まれた地域をも企業の住所として抽出することが可能となる。
■<社名>の抽象化タグが付与された文字列の直後に、括弧記号で前後が挟まれた<地域>の抽象化タグが付与された文字列が存在する場合→その文字列を企業の住所として抽出する
【0057】
つぎにリスク情報抽出部24は、文No.0002には<逮捕>の抽象化タグと共に、<地域>の抽象化タグ及び<人名>の抽象化タグが付与されていることに着目し、<地域>の抽象化タグが付与された文字列「東京都江東区」を人物(違法行為者)の住所と認定し、これを抽出する。
このために、ルール記憶部22内には以下のルールが設定されている。
■同一文中に、<逮捕>、<人名>、<地域>の抽象化タグが付与されている場合→<地域>の抽象化タグが付与された文字列を人物の住所として抽出
【0058】
つぎにリスク情報抽出部24は、文No.0002から「46」の数字を人物の年齢として抽出する。
このために、ルール記憶部22内には以下のルールが設定されている。
■<人名>の抽象化タグが付与された文字列の直後に括弧記号で囲まれた数字がある場合→その数字を人物の年齢として抽出
【0059】
つぎにリスク情報抽出部24は、文No.0003から「営業課長」の文字列を人物の役職として抽出する。
このために、ルール記憶部22内には以下のルールが設定されている。
■同一文中に、<人名>及び<役職>の抽象化タグが付与されている場合→<役職>の抽象化タグが付与された文字列を人物の役職として抽出
上記のように、文No.0003の「同容疑者」は照応処理によって事前に「山田太郎<人名>」に置換されているため、リスク情報抽出部24はこの抽出ルールを同文に適用することが可能となる。
【0060】
つぎにリスク情報抽出部24は、文No.0001から「贈賄」の文字列を人物の容疑として抽出する。
このために、ルール記憶部22内には以下の抽出ルールが設定されている。
■同一文中に、<容疑>及び<逮捕>の抽象化タグが付与されている場合→<容疑>の抽象化タグが付与されている文字列を人物の「容疑」として抽出
【0061】
企業が主体となって犯罪を犯した場合、リスク情報抽出部24はリスク記事から当該企業の属性情報(企業の住所、容疑)を抽出する(S20-07)。
企業の住所の抽出方法は上記と同様、つぎのような抽出ルールに従って実行される。
■<社名>の抽象化タグが付与された文字列の直後に「=」で前後が挟まれた<地域>の抽象化タグが付与された文字列が存在する場合→その文字列を企業の住所として抽出する
【0062】
また、企業の容疑の抽出方法も上記と同様、つぎのような抽出ルールに従って実行される。
■同一文中に、<容疑>及び<捜索>の抽象化タグが付与されている場合→<容疑>の抽象化タグが付与されている文字列を企業の「容疑」として抽出
【0063】
つぎにリスク情報抽出部24は、抽出したリスク情報の内容に従い、当該リスク情報のカテゴリを付与する(S20-08)。
例えば、図3のリスク記事Xの場合、企業の社員による犯罪容疑に関するものであり、当該社員の役職が「営業課長」であるため、リスク情報抽出部24は「企業の一般社員による犯罪」のカテゴリを付与する。
【0064】
このために、ルール記憶部22内には以下のカテゴリ判定ルールが設定されている。
■記事中に<人名>、<社員>、<逮捕>の抽象化タグが付与されており、違法行為の主体の<役職>が「代表取締役」、「社長」、「代表」、「会長」、「社主」、「取締役」、「役員」以外の場合→「企業の一般社員による犯罪」のカテゴリを付与
【0065】
これに対し、企業の社員による犯罪容疑に関するリスク記事であり、当該社員の役職が「社長」であった場合、リスク情報抽出部24は「企業代表者による犯罪」のカテゴリを付与する。
このために、ルール記憶部22内には、以下のカテゴリ判定ルールが設定されている。
■記事中に<人名>、<社員>、<逮捕>の抽象化タグが付与されており、違法行為の主体の<役職>が「代表取締役」、「社長」、「代表」、「会長」、「社主」、「取締役」、「役員」の場合→「企業代表者による犯罪」のカテゴリを付与
【0066】
つぎにリスク情報抽出部24は、リスク記事から抽出したリスク情報を、リスク情報記憶部30に登録する(S20-09)。
図3の(a)は図3のリスク記事Xから抽出されたリスク情報を例示しており、記事ID、グループID、カテゴリ、企業名、企業住所、人物名、役職、年齢、人物住所、容疑のデータ項目を備えている。
【0067】
このリスク情報の場合、人物による犯罪に対応しているため、「企業名」及び「企業住所」に充填された値は、当該人物の属性としての「所属企業名」及び「所属企業の住所」を表している。
これに対し、仮にこのリスク情報が企業を主体とする犯罪に該当する場合には、「企業名」及び「企業住所」に充填された値は、当該企業自身の属性を意味することになる。また、この場合には当然ながら、人物名、役職、年齢、人物住所のデータ項目に値は充填されない。
なお、図3の「グループID」の項目には値が記載されているが、この項目に対しては次段の処理によって値が充填されるものであり、この時点では空白となされている(詳細は後述)。
【0068】
以上のようにしてリスク記事から違法事件に係るリスク情報を抽出した後、あるいはS20-01において違法事件に係る記事でないと判定された場合、リスク情報抽出部24は同リスク記事に付与された抽象化タグをチェックし、企業に対する訴訟事件に係る記事に該当する場合には被告企業名を抽出する(図6のS20-10、S20-11)。
【0069】
例えば以下のような文βが記事に含まれていた場合、リスク情報抽出部24は企業に対する訴訟事件に係る記事であると判定し、「帝都工業」を被告企業名として抽出する。
(文β)丸菱電機<社名>は、2月23日、同業の帝都工業<社名>を特許権侵害で提訴<提訴>した。
【0070】
このために、ルール記憶部22内には予め以下のようなルールが設定されている。
■同一文中に<提訴>の抽象化タグと<社名>の抽象化タグが付与された文字列が存在しており、かつ、<社名>が付された文字列の直後に「を」または「に対し」の文字列が接続している場合→<社名>が付された文字列を被告企業名として抽出
この前提として、リスク要因を表す「提訴」の文字列に対しては、<提訴>の抽象化タグが抽象化処理部20によって予め付与されてる。
【0071】
訴訟事件を表す用語は「提訴」以外にも数多く存在しているため、ルール記憶部22内には、予め多数の組合せパターンに対応した抽出ルールが用意されている。
例えば、つぎの文γのように文の述語が「訴えられた」に変化した場合、上記とは異なる以下のルールが適用され、被告企業名として「帝都工業」が抽出される。
(文γ)帝都工業<社名>は、2月23日、同業の丸菱電機<社名>から特許権侵害で訴えられ<訴えられ>た。
■同一文中に<訴えられ>の抽象化タグと<社名>の抽象化タグが付与された文字列が存在しており、かつ、<社名>が付された文字列の直後に「は」または「が」の文字列が接続している場合→<社名>が付された文字列を被告企業名として抽出
【0072】
つぎにリスク情報抽出部24は、記事中の照応詞を先行詞で置き換える照応処理を施した後(S20-12)、企業属性の抽出処理を実行することになるが(S20-13)、これらの処理は上記した違法事件における処理と実質的に等しいため、詳細な記述を省略する。
【0073】
つぎにリスク情報抽出部24は、ルール記憶部22内のカテゴリ判定ルールを参照し、抽出したリスク情報に対して「企業に対する訴訟」のカテゴリを付与した後(S20-14)、抽出したリスク情報をリスク情報記憶部30に登録する(S20-15)。
図3の(b)は企業に対する訴訟事件に係るリスク情報を例示するものであり、人物名、役職、年齢、人物住所、容疑の項目はブランクとなされている。
【0074】
以上のようにしてリスク記事から企業に対する訴訟事件に係るリスク情報を抽出した後、あるいはS20-10において企業に対する訴訟事件に係る記事でないと判定された場合、リスク情報抽出部24は同リスク記事に付与された抽象化タグをチェックし、労務トラブルに係る記事に該当する場合には関係企業名を抽出する(S20-16、S20-17)。
【0075】
例えば以下のような文δが記事に含まれていた場合、リスク情報抽出部24は労務トラブルに係る記事であると判定し、「帝都交通」を関係企業名として抽出する。
(文δ)帝都交通<社名>は、1日、始発からストライキ<スト>に突入した。
【0076】
このために、ルール記憶部22内には予め以下のようなルールが設定されている。
■同一文中に<スト>の抽象化タグと<社名>の抽象化タグが付与された文字列が存在している場合→<社名>が付された文字列を労務トラブルの関係企業名として抽出
【0077】
つぎにリスク情報抽出部24は、記事中の照応詞を先行詞で置き換える照応処理を施した後(S20-18)、企業属性の抽出処理を実行することになるが(S20-19)、これらの処理は上記した違法事件における処理と実質的に等しいため、詳細な記述を省略する。
【0078】
つぎにリスク情報抽出部24は、ルール記憶部22内のカテゴリ判定ルールを参照し、抽出したリスク情報に対して「労務トラブル」のカテゴリを付与した後(S20-20)、抽出したリスク情報をリスク情報記憶部30に登録する(S20-21)。
図3の(c)は労務トラブルに対する訴訟事件に係るリスク情報を例示するものであり、人物名、役職、年齢、人物住所、容疑の項目はブランクとなされている。
【0079】
以後もリスク情報抽出部24は、上記と同様の手順に従い、企業に係る様々なリスク情報(「企業に対する行政指導情報」、「企業の災害被害情報」、「企業起因の事故情報」、「リコール/製品不具合情報」、「企業の破綻情報」等)をリスク記事中から抽出し、リスク情報記憶部30に格納する処理を続行する。
【0080】
各リスク情報の抽出に関する詳細な説明は省略するが、要はルール記憶部22に格納された抽出ルールとリスク記事データ中の抽象化タグや文字列とをマッチングさせ、該当する場合にはルール中で指定された文字列を企業名や企業住所として抽出し、対応のカテゴリを付与してリスク情報記憶部30に格納することが該当する。
【0081】
リスク情報記憶部30に新たなリスク情報が格納されると、グループ化処理部28が起動し、リスク情報のグループ化処理を実行する(図2のS22)。
以下、図7のフローチャートに従い、このグループ化処理の具体的手順を説明する。
【0082】
まずグループ化処理部28は、リスク情報記憶部30にリスク情報が格納されると(S22-01)、この新規リスク情報の基になったリスク記事(以下「新規リスク記事」)と、直近100件以内のリスク情報の基になったリスク記事(以下「既存リスク記事」)との間で、抽象化タグに基づく相互間の類似度を算出する(S22-02)。
【0083】
図8(a)は、このグループ化処理のイメージを示すものであり、新規リスク記事と、各グループに属する既存リスク記事との間でそれぞれ類似度を算出する様子が描かれている。
ここで、例えばグループAは「同一企業の贈賄事件に対する各新聞社の記事群」を意味しており、グループBは「同一企業の破綻に関する各新聞社の記事群」を意味しているというように、「グループ」とは、同一のイベント(事件)に対する個別記事の集合を意味している。
【0084】
新規リスク記事と比較の対象となるのは、各グループに含まれる全リスク記事データではなく、時間的に「直近100件以内」に該当するリスク記事データに限定される。
したがって、グループ内に「直近100件以内」に該当するリスク記事データが1件も存在しない場合には、当該グループとの比較はなされないことになる。
【0085】
両リスク記事データ間の類似度は、図8(b)の計算式に従って算出される。
ここで分子の「抽象化タグ一致数」とは、抽象化タグそのものの一致数ではなく、抽象化タグ及びこれが付与された文字列間の一致数を意味している。
例えば、既存記事中に「斉藤恵子<人名>」が存在し、新規記事中に「内藤正夫<人名>」が存在した場合に、両者の抽象化タグは<人名>で一致しているが、抽象化タグが付与された文字列自体は異なっているため、「抽象化タグ一致数」としてカウントされることはない。
これに対し、既存記事中に「斉藤恵子<人名>」が存在し、新規記事中にも「斉藤恵子<人名>」が存在した場合には、両者の抽象化タグは<人名>で一致しており、かつ抽象化タグが付与された文字列も一致しているため、「抽象化タグ一致数」としてカウントされる。
【0086】
また、一致数は種類単位でカウントされるものであり、同種文字列が双方の記事中に多数存在したとしても、一致数は「1」となる。
例えば、既存記事中に「斉藤恵子<人名>」が5件存在し、新規記事中に「斉藤恵子<人名>」が3件存在した場合に、「一致数=3」とカウントされるのではなく、「同種文字列間の一致数=1」となされる。
【0087】
同様に、分母の「既存記事中の抽象化タグ数」及び「新規記事中の抽象化タグ数」も、抽象化タグが付与された文字列の種類の数を意味しており、単純に記事中に含まれる抽象化タグの総数を意味しているものではない。
先の例でいえば、「斉藤恵子<人名>」が5件存在しても抽象化タグ数としては「1」とカウントされ、「斉藤恵子<人名>」が5件、「東京商事<社名>」が3件存在した場合には、「抽象化タグ数=2」とカウントされる。
【0088】
そして、直近100件の既存記事データの中で、類似度が最も高い記事データが所属するグループが新規リスク記事の所属すべきグループと認定され、当該グループに組み入れられる。
具体的には、当該新規リスク記事に係るリスク情報の「グループID」項目に、所属グループの識別コードがグループ化処理部28によって記録される(S22-03)。
【0089】
つぎにグループ化処理部28は、同一グループに属する記事間で、欠落しているデータ項目のマージ処理を実行する(S22-04)。
例えば、既存リスク記事から抽出したリスク情報では人物の「年齢」が欠落していたところ、同グループに加えられた新規リスク記事に係るリスク情報が人物の「年齢」情報を備えていた場合、グループ化処理部28は新規リスク情報の年齢を既存リスク情報の年齢の項目に追加する。
なお、既存リスク情報のデータと新規リスク情報のデータ間に矛盾が存在する場合(年齢の不一致等)、グループ化処理部28はリスク情報間でデータの調整を行うことはせずに、そのまま放置する。
【0090】
つぎに、検索処理部32によるリスク情報提供処理について説明する。
まず、ユーザがクライアント端末42から検索処理部32にアクセスし、リスク情報提供サービスの利用をリクエストすると、検索処理部32からサービスのトップ画面が送信され、Webブラウザ上に表示される(図示省略)。
【0091】
そして、ユーザがこの画面の検索ボックスに企業名として「ABC商事」を入力し、検索ボタンをクリックすると、検索処理部32は「ABC商事」をキーワードにした検索処理を企業情報提供サーバ40に依頼し、検索結果画面をクライアント端末42に送信する。
【0092】
図9は、この検索結果画面50の一例を示すものであり、企業コード、企業名、住所、業種の表示項目を備えた検索結果リスト52が表示されている。
この検索結果リスト52に列挙された企業の中から、ユーザは住所や業種を手掛かりにして目的の企業を特定し、クリッカブルに表示された企業コードをクリックする。ここでは、企業コード「2222222222」の「ABC商事株式会社(東京都千代田区大手町)」が選択されたものとする。
【0093】
この結果、図10に示すように、選択した企業の基本情報画面54がWebブラウザ上に表示される。
この「基本情報」としては、企業名や本社所在地、代表者氏名、役員、親会社、子会社、大株主の項目が含まれており、これらの情報は検索処理部32が企業情報提供サーバ40から取得したものである。
【0094】
この画面に表示された人物名や企業名の中、リスク情報記憶部30内にリスク情報として登録されている個人名または企業名については、検索処理部32によって「(イベントあり)」の注意喚起フレーズ56がインデックスとして付与されている。
ユーザがこの注意喚起フレーズ56が付与された人物名または企業名をクリックすると、当該リスク情報の詳細画面が表示されることとなる(詳細画面の構成については後述)。
【0095】
つぎにユーザが「イベント」タグ58をクリックすると、図11に示すように、ABC商事のイベント一覧画面59が表示される。
この画面59においては、リスク情報記憶部30内に登録された「ABC商事」に係る全てのリスク情報について、カテゴリ60、イベントのタイトル61、日付62、企業名63、住所64がリスト表示されている。
これらの中、「イベント」は各リスク情報が属するグループを表しており、当該グループに属するリスク記事の中で最古のもののタイトルが代表として表示される。また、「日付」についてもこの最古のリスク記事の日付が表示されている。
【0096】
このリストに列挙されたイベントの中から、ユーザはカテゴリやイベントのタイトル、住所を手掛かりにして目的のイベントを特定し、クリッカブルに表示されたイベントのタイトル61をクリックする。ここでは、「会社社長を恐喝の容疑で逮捕」のイベント66が選択されたものとする。
【0097】
この結果、図12に示すように、イベント詳細画面68がクライアント端末42のWebブラウザ上に表示される。
この詳細画面68には、カテゴリ(企業代表者による犯罪)60、企業情報(企業名、住所、容疑)及び人物情報(人物名、年齢、推定生年月日、住所、容疑、所属企業、役職)の他に、グループ内リスク情報リスト70が設けられている。
【0098】
このグループ内リスク情報リスト70には、新聞、雑誌、プレス発表、ブログのタグが設けられており、各タグはリスク情報の情報源を表している。
図においては「新聞」タグ71が選択されており、同一イベントについて4件の新聞記事が存在していることを示している。
【0099】
ここでユーザが何れかの新聞記事のタイトルをクリックすると、検索処理部32は記事データ記憶部14から対応の新聞記事を取り出し、クライアント端末42に記事詳細画面を送信する。
図13はこの記事詳細画面72を示しており、記事本文が記載された小ウィンドウがフローティング表示されている。
この記事本文における抽象化タグ付与箇所については、他の部分と異なる色彩(例えば<人名>が付与された文字列→オレンジ色に彩色)が施されており、ユーザの注意を喚起することができる。
この記事詳細画面72中のPDFアイコン73をユーザがクリックすると、ニュースサーバ38から当該記事のPDFファイルが検索処理部32に送信され、クライアント端末42に転送される。
【0100】
つぎにユーザが「注意マップ」タグ74をクリックすると、図14に示すように、ユーザが選択した企業(ABC商事)に係るイベント情報の存在を示す注意マップ画面76が検索処理部32から送信される。
この画面76では、イベント情報が関係企業(親会社/子会社/大株主)と関係者(代表者/役員/大株主)に分けて表示されており、それぞれの関係記事が例示されている。
この注意マップ画面76を閲覧することにより、ユーザは対象企業を取り巻くリスク状況を、関係企業及び関係者の両面から迅速に認識することが可能となる。
ここでユーザが関係企業(大江戸興業)や関係者(野村太郎)をクリックすると、図12に示したイベント詳細画面68が表示され、関係記事をクリックすると、図13に示した記事詳細画面72が表示される。
【0101】
ユーザは、画面の検索ボックス78に人物名を入力することにより、人物名を起点にしてリスク情報を検索することもできる。
図15はその一例を示すものであり、注意マップに表示された「野村太郎」を検索ボックス78に入力して検索ボタン79をクリックした結果、2件のイベント情報がヒットした状態の人物イベント一覧画面80が表示されている。
この画面80中の検索結果リストには、リスク情報のカテゴリ60、イベントのタイトル61、日付62、名前82、推定生年月日83、住所84が表示されている。
ここで、イベントのタイトルはクリッカブルに表示されており、ユーザがクリックするとイベント詳細画面68が表示される(図12参照)。
【0102】
「推定生年月日」は、リスク情報に含まれる当該人物の年齢と、当該記事の掲載年月日に基づいて、検索処理部32が算出する。例えば、2010年3月3日の記事において年齢が20歳と記載されていた場合、推定生年月日の範囲は「1989年3月4日〜1990年3月3日」となる。
【0103】
ユーザが「関連企業」タブ86をクリックすると、図16に示すように、「野村太郎」に係る企業情報が列挙された関連企業一覧画面88が表示される。
この中の関連企業リスト89は、検索処理部32が「野村太郎」の文字列をキーに設定した検索を企業情報提供サーバ40に依頼することによって取得されたものであり、「野村太郎」が関係している企業の企業コード、企業名、住所、役職、名前が記載されている。ただし、この中には同姓同名の複数の人物が列挙されている可能性があるため、ユーザは住所や役職に基づいて目的の人物が関与している企業を絞り込む。
【0104】
上記にあっては、企業情報を外部の企業情報提供サーバ40から取得する例を示したが、企業情報データベースをシステム内部に保持しておき、検索処理部32がこのデータベースを参照するように構成してもよい。
【図面の簡単な説明】
【0105】
【図1】リスク情報生成システムを含むリスク情報提供システムの機能構成を示すブロック図である。
【図2】リスク情報生成システムにおける処理手順を示すフローチャートである。
【図3】リスク記事及びリスク情報の具体例を示す説明図である。
【図4】抽象化ルールの一例を示す説明図である。
【図5】リスク情報抽出処理の手順を示すフローチャートである。
【図6】リスク情報抽出処理の手順を示すフローチャートである。
【図7】グループ化処理の手順を示すフローチャートである。
【図8】グループ化処理のイメージを示す説明図である。
【図9】検索結果画面を示す図である。
【図10】企業の基本情報画面を示す図である。
【図11】企業のイベント一覧画面を示す図である。
【図12】イベント詳細画面を示す図である。
【図13】記事画面を示す図である。
【図14】注意マップ画面を示す図である。
【図15】人物イベント一覧画面を示す図である。
【図16】関連企業イベント一覧画面を示す図である。
【符号の説明】
【0106】
10 リスク情報提供システム
11 リスク情報生成システム
12 記事データ収集部
14 記事データ記憶部
16 フィルタ処理部
18 辞書データ記憶部
20 抽象化処理部
22 ルール記憶部
24 リスク情報抽出部
28 グループ化処理部
30 リスク情報記憶部
32 検索処理部
36 インターネット
38 ニュースサーバ
40 企業情報提供サーバ
42 クライアント端末
50 検索結果画面
52 検索結果リスト
54 基本情報画面
56 注意喚起フレーズ
58 「イベント」タグ
59 イベント一覧画面
60 カテゴリ
61 タイトル
62 日付
63 企業名
64 住所
66 イベント
68 イベント詳細画面
70 グループ内リスク情報リスト
71 「新聞」タグ
72 記事詳細画面
73 PDFアイコン
74 「注意マップ」タグ
76 注意マップ画面
78 検索ボックス
79 検索ボタン
80 人物イベント一覧画面
82 名前
83 推定生年月日
84 住所
86 「関連企業」タブ
88 関連企業一覧画面
89 関連企業リスト

【特許請求の範囲】
【請求項1】
具体的な表現文字列と、その種類を示す抽象化文字列との対応関係を登録した辞書と、
電子化された記事データを形態素に分解する手段と、
上記辞書を参照し、各形態素の中で少なくとも企業名、地域、リスク要因を表す文字列に対して、対応の抽象化タグを付与する手段と、
この抽象化タグが付与された記事データを格納しておく記事データ記憶手段と、
記事データ中の各文に含まれる抽象化タグの組合せ、あるいは抽象化タグと特定の文字列との組合せ毎に、リスク情報の構成要素として抽出すべき文字列を規定した抽出ルールを、予め複数格納しておく抽出ルール記憶手段と、
上記の記事データに上記抽出ルールを適用することにより、少なくとも企業名を表す文字列、当該企業の所在地を表す文字列をリスク情報の構成要素として抽出する手段と、
記事データに含まれる抽象化タグの構成に応じて、当該記事データのカテゴリを判定するためのルールを、予め複数格納しておくカテゴリ判定ルール記憶手段と、
上記の記事データに含まれる抽象化タグの構成を上記カテゴリ判定ルールに適用し、当該記事データのカテゴリを判定する手段と、
このカテゴリと、抽出した上記文字列、及び記事データの識別コードを備えたリスク情報を生成し、リスク情報記憶手段に格納する手段と、
を備えたリスク情報生成システム。
【請求項2】
具体的な表現文字列と、その種類を示す抽象化文字列との対応関係を登録した辞書と、
電子化された記事データを形態素に分解する手段と、
上記辞書を参照し、各形態素の中で少なくとも人物名、地域、企業名、リスク要因を表す文字列に対して、対応の抽象化タグを付与する手段と、
この抽象化タグが付与された記事データを格納しておく記事データ記憶手段と、
記事データ中の各文に含まれる抽象化タグの組合せ、あるいは抽象化タグと特定の文字列との組合せ毎に、リスク情報の構成要素として抽出すべき文字列を規定した抽出ルールを、予め複数格納しておく抽出ルール記憶手段と、
上記の記事データに上記抽出ルールを適用することにより、少なくとも人物名を表す文字列、当該人物の住所を表す文字列、当該人物の所属企業名を表す文字列を企業関係者に係るリスク情報の構成要素として抽出し、あるいは少なくとも企業名を表す文字列、当該企業の所在地を表す文字列を企業に係るリスク情報の構成要素として抽出する手段と、
記事データに含まれる抽象化タグの構成に応じて、当該記事データのカテゴリを判定するためのルールを、予め複数格納しておくカテゴリ判定ルール記憶手段と、
上記の記事データに含まれる抽象化タグの構成を上記カテゴリ判定ルールに適用し、当該記事データのカテゴリを判定する手段と、
このカテゴリと、抽出した上記文字列、及び記事データの識別コードを備えたリスク情報を生成し、リスク情報記憶手段に格納する手段と、
を備えたリスク情報生成システム。
【請求項3】
予め設定された正規表現ルールを各文に対して適用し、当該正規表現ルールにマッチする文字列を企業名、地域、リスク要因、または人物名の何れかであると認定すると共に、当該文字列に対して対応の抽象化タグを関連付ける手段を備えたことを特徴とする請求項1または2に記載のリスク情報生成システム。
【請求項4】
上記リスク情報には、グループIDを格納するデータ項目が設けられており、
新規のリスク情報が生成された際に、当該リスク情報の基になった新規記事データに付与された抽象化タグの構成と、上記の記事データ記憶手段に格納された複数の既存記事データに付与された抽象化タグの構成に基づいて、両記事データ間の類似度を算出する手段と、
この類似度が最も高い既存記事データに基づいて生成されたリスク情報のグループIDと共通するグループIDを、上記の新規記事データに係るリスク情報に関連付ける手段を備えたことを特徴とする請求項1〜3の何れかに記載のリスク情報生成システム。
【請求項5】
同一のグループIDが関連付けられたリスク情報間で、データ項目毎に値の充填/未充填の状態を比較し、未充填のデータ項目に対しては他のリスク情報の充填済みの値を補充する手段を備えたことを特徴とする請求項4に記載のリスク情報生成システム。
【請求項6】
所定の照応詞毎に、その先行詞を決定するための照応解析ルールを格納しておく照応解析記憶手段と、
この照応解析ルールを参照し、文中に存在する照応詞に対して、対応の先行詞を決定すると共に、この先行詞によって照応詞を置き換える手段とを備えたことを特徴とする請求項1〜5の何れかに記載のリスク情報生成システム。
【請求項7】
コンピュータを、
具体的な表現文字列と、その種類を示す抽象化文字列との対応関係を登録した辞書を格納する記憶手段、
電子化された記事データを形態素に分解する手段、
上記辞書を参照し、各形態素の中で少なくとも企業名、地域、リスク要因を表す文字列に対して、対応の抽象化タグを付与する手段、
この抽象化タグが付与された記事データを格納しておく記事データ記憶手段、
記事データ中の各文に含まれる抽象化タグの組合せ、あるいは抽象化タグと特定の文字列との組合せ毎に、リスク情報の構成要素として抽出すべき文字列を規定した抽出ルールを、予め複数格納しておく抽出ルール記憶手段、
上記の記事データに上記抽出ルールを適用することにより、少なくとも企業名を表す文字列、当該企業の所在地を表す文字列をリスク情報の構成要素として抽出する手段、
記事データに含まれる抽象化タグの構成に応じて、当該記事データのカテゴリを判定するためのルールを、予め複数格納しておくカテゴリ判定ルール記憶手段、
上記の記事データに含まれる抽象化タグの構成を上記カテゴリ判定ルールに適用し、当該記事データのカテゴリを判定する手段、
このカテゴリと、抽出した上記文字列、及び記事データの識別コードを備えたリスク情報を生成し、リスク情報記憶手段に格納する手段、
として機能させるリスク情報生成プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate