ユーザ区分けシステム

【課題】多数のユーザを、目的に応じて的確に区分けする。
【解決手段】解析処理装置３０は、各々のユーザが作成した文書ファイル（業務文書ファイルや電子メール文書ファイル）に基づいて、多数のユーザを所定のグループに区分けする処理を行う。例えば解析処理装置３０は、研修テキスト文書のような基準文書ファイルに係る文書に用いられている単語群と、各ユーザが作成したユーザ文書ファイルに用いられている単語群との類似度をＪＡＣＣＡＲＤ係数で評価することで、各ユーザの研修内容に関する事前理解度を評価する。また、１のユーザの作成に係る文書ファイルに用いられている単語群と、他のユーザの作成に係る文書ファイルに用いられている単語群との類似度をクラスター分析で評価することで、１のユーザと他のユーザとの業務類似性を評価する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、多数のユーザを、各々のユーザが作成した文書ファイルに基づいてグループ分けするユーザ区分けシステムに関する。
【背景技術】
【０００２】
企業等においては、社員のスキルアップ、コンプライアンスや情報セキュリティの意識付けなどを目的として、種々の社内研修が行われている。このような社内研修には、多人数の受講者が一堂に会する集合研修の形式や、少人数のグループに分けて討論等を行うグループ研修の形式で行われることが多い。
【０００３】
一般に、社内研修を実施する場合、単純に参加希望者を募る方法もあるが、その社内研修に参加に相応しい人物であるか否かの事前チェックが行われる場合がある。この事前チェック方法としては、研修内容に関連した事前理解度チェック表などを参加希望者に配布し、これを回収する方法がある。研修事務局は、回収されたチェック表に基づいて、例えば「初級者クラス」、「上級者クラス」等に参加希望者を大人数単位でグループ分けし、研修を実行している。一方、少人数のグループ分けには大きな考慮が払われることは少なく、例えば従業員番号の下一桁が共通している者を集めて一つのグループにする等の手法でグルーピングが行われている。
【０００４】
しかしながら、事前理解度チェック表は、自己申告や簡易セルフチェックの形式で行われるものであり、各人の事前理解度を正確には把握することは難しい。このため、クラス分けが的確に行われない場合がある。また、少人数のグループ分けにおいても簡易な手法が採用されるので、一つのグループに属する受講者のレベルや業務内容が異なるものとなる結果、深い討議を行えないという不具合が生じる。
【０００５】
なお、特許文献１には、テスト問題に対する回答の正誤、回答に要した時間を勘案して学習者の習熟度を判定し、その判定結果に応じて次に提示する問題を選定するようにした学習支援方法が開示されている。このような方法を研修に応用して、事前に詳細なテストを行い、その採点結果に基づいてクラス分けすれば、受講者の実情に照らした教育を実施することは可能である。しかし、このような詳細な事前テストを実行するのは、実際には極めて困難である。
【先行技術文献】
【特許文献】
【０００６】
【特許文献１】特開２００２−２２１８９３号公報
【発明の概要】
【発明が解決しようとする課題】
【０００７】
本発明は上記問題に鑑みて為されたもので、多数のユーザを、目的に応じて的確に区分けすることで、例えば研修の効率、成果を向上させることができるユーザ区分けシステムを提供することを目的とする。
【課題を解決するための手段】
【０００８】
本発明の一局面に係るユーザ区分けシステムは、複数のユーザに共用され、前記ユーザの識別符号に関連付けて複数の文書ファイルを蓄積する文書データベースと、前記文書データベースの共用のため前記ユーザに利用される端末機であって、自身の識別符号に関連付けて、前記文書データベースへ前記ユーザ自身の作成に係る文書ファイルの登録が可能な端末機と、前記文書データベースに蓄積された文書ファイル間の類似度を算出する類似度算出手段と、前記類似度算出手段に、前記類似度を算出させる比較元となる文書ファイル及び比較先となる文書ファイルを指定する指定手段と、前記類似度算出手段により算出された類似度の度合いに応じて、前記ユーザをグループ分けする区分け手段と、を備える（請求項１）。
【０００９】
この構成によれば、各々のユーザが作成した文書ファイルを用い、これら文書ファイルの類似度を評価することで、ユーザのグループ分けが行われる。つまり、ユーザ自身が過去に作成した文書ファイルをベースとして、各々のユーザのグループが決定される。このため、事前理解度チェック表や事前テスト等を実行することなく、各々のユーザの文書作成実績に基づいて的確にグループ分けを行うことができる。
【００１０】
上記構成において、前記比較元となる文書ファイルが、１の基準文書ファイルであり、前記比較先となる文書ファイルが、作成者毎に区分されたユーザ別文書ファイルであることが望ましい（請求項２）。
【００１１】
この構成によれば、１の基準文書ファイルに対する各ユーザの親和性を評価できる。つまり、１の基準文書ファイルに類似度の高い文書ファイルを作成しているユーザは、その基準文書ファイルの記述内容について詳しい知識を有すると推定することができ、そうでないユーザは、さほど知識を有していないと推定することができる。かかる推定結果に基づき、ユーザを適切に区分けすることができる。
【００１２】
この場合、前記基準文書ファイルは、ユーザが受講することが予定された研修内容が記述された研修テキスト文書ファイルであり、前記区分け手段は、前記類似度の高さを前記研修内容の事前理解度と見なして、前記ユーザを前記事前理解度別にクラス分けすることが望ましい（請求項３）。
【００１３】
この構成によれば、研修テキスト文書ファイルと、各ユーザが過去に作成した文書ファイルとの類似度を評価することを通して、研修内容の事前理解度を個別に評価することができる。従って、各ユーザの知識レベルに応じた的確なクラス分けが行えるようになる。
【００１４】
上記構成において、前記比較元となる文書ファイルが、１のユーザの作成に係る文書ファイルであり、前記比較先となる文書ファイルが、他のユーザの作成に係る文書ファイルであることが望ましい（請求項４）。
【００１５】
この構成によれば、１のユーザと他のユーザとの親和性を評価できる。つまり、１のユーザの作成に係る文書ファイルに類似度の高い文書ファイルを作成している他のユーザは、当該１のユーザと共通性が高い作業を行っていると推定することができ、そうでないユーザは、共通性が低いと推定することができる。かかる推定結果に基づき、ユーザを適切にグループ分けすることができる。
【００１６】
この場合、前記区分け手段は、前記類似度の高さを前記ユーザ間の業務類似度と見なして、前記ユーザを前記業務類似度別にグループ分けすることが望ましい（請求項５）。
【００１７】
この構成によれば、各ユーザが過去に作成した文書ファイルとの類似度を評価することを通して、業務類似度が高いユーザを特定し、グループ分けを行うことができる。従って、少人数でのグループ研修を行う場合におけるグルーピングに有用である。
【００１８】
上記構成において、前記類似度は、比較元となる文書ファイルに登場する単語と、比較先となる文書ファイルに登場する単語の共通性に基づき判定されることが望ましい（請求項６）。
【００１９】
この構成によれば、各々の文書ファイルに出現する単語の共通性に基づいて、両者の類似度を簡易な演算処理で求めることができる。
【発明の効果】
【００２０】
本発明によれば、多数のユーザを、個々のユーザが過去に作成した文書ファイルに基づいて、目的に応じて的確に区分けすることができる。従って、例えば社内研修等を行うに際し、本発明のシステムにて多数のユーザを知識レベルや業務内容等に応じて適宜なグループに区分けできるので、当該社内研修の効率、成果を向上させることができる。
【図面の簡単な説明】
【００２１】
【図１】本発明に係るユーザ区分けシステムのハードウェア構成を概略的に示す構成図である。
【図２】解析処理装置の機能構成を示す機能ブロック図である。
【図３】事前理解度の判定手法を模式的に示す図である。
【図４】比較元と比較先の文書ファイルから抽出された単語の頻度を示す表形式の図である。
【図５】業務類似度に応じたグルーピングの手法を模式的に示す図である。
【図６】各ユーザが作成した文書における単語の頻度を示す表形式の図である。
【図７】グルーピングの考え方を示す模式図である。
【図８】事前理解度に応じたユーザのクラス分け処理の動作を示すフローチャートである。
【図９】業務類似度に応じたユーザのクラス分け処理の動作を示すフローチャートである。
【発明を実施するための形態】
【００２２】
以下、図面に基づいて、本発明の実施形態につき詳細に説明する。図１は、本発明の実施形態に係るユーザ区分けシステムＳのハードウェア構成を概略的に示す構成図である。ユーザ区分けシステムＳは、例えば一つの企業内又は事業所内といったローカルエリア内で運営されているネットワークに組み込まれるシステムである。ユーザ区分けシステムＳは、文書データベース１０、管理サーバ２０、解析処理装置３０及び端末装置４０を含んで構成されている。
【００２３】
端末装置４０は、企業内又は事業所内の個々の従業員等（ユーザ）に割り当てられる端末機４１、４２、４３、４４・・・を含む。端末機４１、４２、４３、４４・・・は、例えばパーソナルコンピュータや携帯型端末機等からなり、管理サーバ２０を介して文書データベース１０にネットワーク接続され、文書データベース１０を共用的に利用することができる。例えばユーザは、端末機４１、４２、４３、４４・・・を通して、文書データベース１０に格納された文書ファイルを閲覧可能であると共に、予め付与されている自身の識別符号に関連付けて、自身の作成に係る文書ファイルの登録が可能である。
【００２４】
文書データベース１０は、各種データを保管するためのファイルサーバ群からなり、ここでは業務文書データサーバ１１、メール文書データサーバ１２及び研修テキスト文書データサーバ１３を例示している。業務文書データサーバ１１は、各ユーザが業務に関連して端末装置４０で作成した業務文書ファイル（業務報告書、作業標準など）を、当該ユーザの識別符号に関連付けて蓄積するサーバである。メール文書データサーバ１２は、端末装置４０で作成された電子メール文書ファイルを、前記識別符号に関連付けて自動保存するサーバである。研修テキスト文書データサーバ１３は、ユーザに対する研修を目的としたテキスト文書類（例えば情報セキュリティ教育のためのテキスト又はその資料の類）の文書ファイルを蓄積するためのサーバである。
【００２５】
管理サーバ２０は、文書データベース１０、解析処理装置３０及び端末装置４０をリンクさせ、ローカルエリア内で生成される各種データの処理並びに管理を行うためのサーバである。
【００２６】
解析処理装置３０は、各々のユーザが作成した文書ファイル（業務文書ファイルや電子メール文書ファイル）に基づいて、多数のユーザを所定のグループに区分けする処理を行う。解析処理装置３０は、この区分け処理を行うＣＰＵ（中央演算処理装置）を備えたコンピュータ装置である。
【００２７】
解析処理装置３０は、大別して次の２つのユーザ区分け処理を行う。
（１）ユーザのクラス分け
１の基準文書ファイルに対する各ユーザが作成した文書の類似度の度合いに応じて、ユーザをクラス分けする。具体的には、基準文書ファイルに係る文書に用いられている単語群と、各ユーザが作成したユーザ文書ファイルに用いられている単語群との一致性（類似度）を評価することで、１の基準文書ファイルに対する各ユーザの親和性を評価する。１の基準文書ファイルに類似度の高い文書ファイルを作成しているユーザは、その基準文書ファイルの記述内容について詳しい知識を有すると推定することができ、そうでないユーザは、さほど知識を有していないと推定することができる。かかる推定結果に基づき、ユーザをクラス分けする。
【００２８】
このクラス分け処理は、例えば多人数のユーザを集めて研修等を行う場合に、研修内容についての事前理解度に応じてユーザをクラス分けする場合に特に有用である。この場合、前記基準文書ファイルは、ユーザが受講することが予定された研修内容が記述された研修テキスト文書ファイルとなる。この研修テキスト文書ファイルに用いられている単語群を多数用いて日々の業務文書を作成しているユーザは、当該研修内容についての事前理解度が高いと推定することができる。研修テキスト文書ファイルと、各ユーザが過去に作成した文書ファイルとの類似度を評価し、各ユーザをランク付けすることで、ユーザを事前理解度別にクラス分けすることができる。
【００２９】
（２）ユーザのグループ分け
１のユーザの作成に係る文書ファイルと、他のユーザの作成に係る文書ファイルとの類似度を評価し、類似性が高いユーザを複数のグループに集約する。具体的には、１のユーザの作成に係る文書ファイルに用いられている単語群と、他のユーザの作成に係る文書ファイルに用いられている単語群との一致性（類似度）を評価することで、１のユーザと他のユーザとの親和性を評価する。共通度合い高い単語群を用いて日々の文書を作成しているユーザ同士は、共通性が高い業務を行っていると推定することができ、そうでないユーザは、共通性が低いと推定することができる。かかる推定結果に基づき、ユーザを、その共通性に応じてグループ分けする。
【００３０】
このグループ分け処理は、例えば多人数のユーザを集めて討論形式の研修等を行う場合に、ユーザを適正にグルーピングする場合に有用である。この種の研修の場合、業務類似度が高いユーザ同士を集めて１つのグループを形成することが望ましい。従って、上記の単語群の類似度を、ユーザ間の業務類似度と見なしてグルーピングすることで、ユーザを適正にグループ分けすることができる。
【００３１】
続いて、解析処理装置３０について詳述する。図２は、解析処理装置３０の機能構成を示す機能ブロック図である。前記ＣＰＵは、前記区分け処理を行うべくプログラミングされたソフトウェアが実行されることで、図２に示す機能部を具備するように動作する。解析処理装置３０は、機能的に、データ抽出部３１、文書選別部３２（指定手段）、文書解析部３３、類似度算出部３４（類似度算出手段）及びランク判定部３５（区分け手段）を含む。
【００３２】
データ抽出部３１は、ユーザの上記で説明した区分けのために、文書データベース１０、すなわち業務文書データサーバ１１、メール文書データサーバ１２及び研修テキスト文書データサーバ１３から必要なデータを抽出する。例えば、ユーザＡについて上記（１）のクラス分け処理を行う場合、データ抽出部３１は、ユーザＡの識別符号（ユーザＩＤ等）に関連付けて登録されている文書ファイルを、業務文書データサーバ１１及びメール文書データサーバ１２から抽出する。同時に、データ抽出部３１は、研修テキスト文書データサーバ１３から、ユーザＡが受講する講座用の研修テキスト文書ファイルを抽出する。一方、上記（２）のグループ分け処理を行う場合、データ抽出部３１は、ユーザＡと、グルーピングの候補とされる他のユーザとの識別符号に関連付けて登録されている文書ファイルを、業務文書データサーバ１１及びメール文書データサーバ１２から抽出する。
【００３３】
文書選別部３２は、データ抽出部３１により抽出された文書ファイルの中から、文書ファイル間の類似度を算出する際の比較元となる文書ファイルと、比較先となる文書ファイルとを指定する処理を行う。上記（１）のクラス分け処理の場合、文書選別部３２は、例えばユーザＡの作成文書ファイルを比較先と指定し、研修テキスト文書ファイルを比較元と指定する。上記（２）のグループ分け処理の場合、文書選別部３２は、例えばユーザＡの作成に係る文書ファイルを比較元と指定し、他のユーザの作成に係る文書ファイルを比較先と指定する。
【００３４】
ここで、ユーザＡの作成文書ファイルが比較先又は比較元となる場合、ユーザＡの作成に係る全文書を文書解析対象としても良いし、いくつかの文書ファイルを選択的に文書解析対象としても良い。前記選択を行う方法としては、重要なキーワードを設定してユーザＡの作成に係る文書に絞り込みを掛ける処理を行う方法が挙げられる。例えば情報セキュリティに関する研修が予定されている場合は、「情報漏洩」の如きキーワードを用いることができる。上記（２）のグループ分け処理を行う場合における、比較先となる他のユーザの作成に係る文書ファイルについても同様である。
【００３５】
文書解析部３３は、文書選別部３２にて指定された文書ファイルから単語を抽出する。具体的には文書解析部３３は、指定された各文書ファイルが含む文書データに対して、正規化処理、文書構造解析処理、同義語処理などの文書解析処理を行い、文書データを単語単位に分割する。これにより、文書ファイル中において自立する単語（キーワード）が導出される。
【００３６】
類似度算出部３４は、文書選別部３２にて指定された比較元の文書ファイルと、比較先の文書ファイルとの間における類似度を、各文書ファイルが包含する単語の同一性に基づいて算出する。ここでは、上記（１）のクラス分け処理の場合においては、ＪＡＣＣＡＲＤ係数を用い、比較先と比較元の文書ファイルにおいて共通して出現する単語が、両文書全体の単語の中でどれくらいの割合を占めるかという指標で類似度を評価する例を示す。また、上記（２）のグループ分け処理の場合においては、多変量解析（クラスター分析）の手法を用い、単語の出現傾向が類似したユーザ同士をグルーピングする例を示す。以下、これらの例を詳述する。
【００３７】
図３は、上記（１）のクラス分け処理における事前理解度の判定手法を模式的に示す図である。上述の通り、ユーザ（受講者）の作成に係る業務文書ファイル及びメール文書ファイルと、研修テキスト文書ファイルとが、文書解析部３３により単語レベルに分解される。そして、ユーザの作成文書の単語集合（ＤＩ）と、研修テキスト文書の単語集合（ＳＩ）とが作成される。比較先となる各ユーザの作成文書及び比較元となる研修テキスト文書として指定された文書ファイルが複数存在する場合は、これらを合成して、一つの単語集合（ＤＩ）及び（ＳＩ）が作成される。
【００３８】
模式的に説明すれば、図３に示す単語集合（ＤＩ）と単語集合（ＳＩ）との重複部ＯＬが大きい程、両者の類似度が高いと評価する。つまり、両者に出現する単語が共通している程、両者の類似度が高いと、換言すれば、そのユーザの研修内容に対する事前理解度が高いと評価する。
【００３９】
図４は、比較元と比較先の文書ファイルから抽出された単語の頻度を示す表形式の図である。図４において、研修テキスト文書ファイルにおいては、ある「単語１」が２回出現し、「単語４」は１回だけ出現し、「単語８」は一度も出現しないことを示している。同様にユーザＡについては、その作成文書ファイル中に例えば「単語１」は２回出現し、ユーザＢについては、その作成文書ファイル中に「単語１」は一度も出現しないことを示している。
【００４０】
このような比較先及び比較元の単語出現頻度マトリクスが得られたら、次のＪＡＣＣＡＲＤ係数算出式を用い、ユーザ毎にＪＡＣＣＡＲＤ係数を算出する。図４の最右欄の「ＪＡＣＣＡＲＤ係数」は、次式にて求められたものである。
【００４１】
【数１】

【００４２】
次に図５は、上記（２）のグループ分け処理を行う場合における、業務類似度に応じたグルーピングの手法を模式的に示す図である。この場合、グルーピングの対象として予め選定されたユーザの作成に係る業務文書ファイル及びメール文書ファイルが抽出される。ここでは、ユーザＡ、Ｂ、Ｃ及びＤの作成に係る業務文書ファイル及びメール文書ファイル１１Ａ、１１Ｂ、１１Ｃ及び１１Ｄが、比較先及び比較元文書として抽出（文書選別部３２により指定）されている状態を示している。これら文書ファイル１１Ａ、１１Ｂ、１１Ｃ及び１１Ｄは、文書解析部３３により単語レベルに分解される。
【００４３】
そして、１のユーザの作成に係る文書ファイル（群）に出現する単語群と、他のユーザの作成に係る文書ファイル（群）に出現する単語群との類似性が評価される。例えば、ユーザＡが比較元となる場合、ユーザＡの作成文書ファイル１１Ａに出現する単語群と、比較先となるユーザＢ、Ｃ及びＤの作成文書ファイル１１Ｂ、１１Ｃ及び１１Ｄに出現する単語群との類似性が評価される。ユーザＢ、Ｃ又はＤが比較元となる場合も同様である。
【００４４】
図６は、ユーザＡ、Ｂ、Ｃ及びＤが作成に係る文書ファイルに出現した単語の頻度を示す表形式の図である。図６において、例えばユーザＡにおいて、「広報」という単語が３回、「備品」という単語が１回、「ＣＳＲ」という単語が１回出現したことを示している。このような単語頻度の傾向は、一般にユーザの業務内容を反映すると言うことができ、同様な単語頻度傾向を有するユーザ同士は、類似する業務を担当していると推定することができる。従って、所属部署や肩書き等で外見的に業務内容を類推できない場合でも、ユーザ間の単語頻度傾向の類似性を評価することで、グルーピングが行えるようになる。
【００４５】
単語頻度傾向の類似性の評価には、クラスター分析、特に階層的クラスタリングを好適に用いることができる。ここでは、図６に示した単語頻度データを用い、ユーザＡ、Ｂ、Ｃ、Ｄ・・・間の距離を定義し、その距離の近さによってユーザを分類する統計処理（クラスター分析）を行う例を示す。なお、図７は、階層的クラスタリングの結果を表現する樹状図（デンドログラム）である。
【００４６】
クラスター分析の具体的手法としては、例えばユークリッド距離Ｙを用いることができる。単位クラスターであるユーザＡとユーザＢとのユークリッド距離Ｙ_ＡＢは、各々の単語頻度の差を用い、次式
Ｙ_ＡＢ＝√（３−０）^２＋（１−４）^２＋（１−０）^２・・・
にて算出することができる。同様にして、全単位クラスター間のユークリッド距離Ｙを算出する。そして、最も距離の近い単位クラスターを結合させて、新クラスターを作成する。図７では、ユーザＡとユーザＣとが最も距離の近い単位クラスターである例を示し、これらで新クラスターＩ（Ａ，Ｃ）が先ず形成された例を示している。
【００４７】
次に、新クラスターＩ（Ａ，Ｃ）と他の単位クラスターとの距離が求められ、さらに新しいクラスターが形成される。ここでは、ユーザＢが新クラスターＩ（Ａ，Ｃ）に対して最も距離が近い例を示している。この場合、これらを統合させて、さらに新クラスターII（Ａ，Ｂ，Ｃ）が形成される。このようにして、全てのユーザが一つのクラスターに統合されるまで、同様な処理が繰り返される。
【００４８】
ユーザをどのレベルでグルーピングするかは、デンドログラムのどの階層を採用するかに依存する。例えば、図７の例において、ユーザを３つのグループに区分けするならば、クラスターＩに属するユーザＡ及びＣと、ユーザＤと、ユーザＢとの３グループとなる。従って、グループ討論形式の研修等が予定されている場合、設置を企図しているグループ数をパラメータとして予め与え、そのグループ数＝クラスター数として、クラスター解析を行わせるようにすればよい。
【００４９】
図２に戻って、ランク判定部３５は、類似度算出部３４により算出された類似度の度合いに応じて、ユーザをグループ分けするためのユーザ区分けデータを出力する。上記（１）のクラス分け処理においては、算出されたＪＡＣＣＡＲＤ係数に応じて、事前理解度に相当するランクデータをユーザ毎に与える。また、上記（２）のグループ分け処理においては、クラスター解析の結果に基づいて、どのグループに分類されたかを示すデータをユーザ毎に与える。
【００５０】
続いて、以上説明した本実施形態に係るユーザ区分けシステムＳの動作を、図８及び図９に示すフローチャートに基づいて説明する。図８は、事前理解度に応じたユーザのクラス分け処理における、解析処理装置３０の動作を示すフローチャートである。
【００５１】
先ず、データ抽出部３１は、研修テキスト文書データサーバ１３から、開講が予定されている講座の研修テキスト文書ファイルを抽出する（ステップＳ１）。そして、文書解析部３３により文書解析処理が行われ（ステップＳ２）、研修テキスト文書ファイルに用いられている単語が抽出されると共に、その単語頻度が求められる（ステップＳ３）。求められた単語頻度データは、図略のメモリに一時的に格納される。
【００５２】
続いて文書選別部３２により、ユーザカウンタＹが１に設定され（ステップＳ４）、比較先となるユーザが指定される。このユーザカウンタＹは、当該講座への参加が予定されているユーザ１〜ｍに、予め個別に付与されているナンバリングをカウントするものである。その後、データ抽出部３１は、このユーザＹの識別符号に関連付けて登録されている文書ファイルを、業務文書データサーバ１１及びメール文書データサーバ１２から抽出する（ステップＳ５）。
【００５３】
次に、文書選別部３２により、ユーザＹについて、単語頻度の導出対象とする文書ファイルを粗選別する処理が行われる（ステップＳ８）。この処理は、上述の通り、ユーザＹの作成に係る文書ファイルが多数存在する場合に、キーワード等を用いて研修テーマとある程度関連性がある文書に絞り込みを掛ける処理である。
【００５４】
その後、文書解析部３３により、ユーザＹの作成に係る文書ファイルのうち、粗選別で抽出された文書ファイルについて文書解析処理が行われ（ステップＳ７）、当該文書ファイルに用いられている単語が抽出されると共に、その単語頻度が求められる（ステップＳ８）。次いで、類似度算出部３４により、ユーザＹについての単語頻度データと、先に求められている研修テキスト文書ファイルの単語頻度データとを用い、ＪＡＣＣＡＲＤ係数算出式を適用して、ユーザＹのＪＡＣＣＡＲＤ係数が算出される（ステップＳ９）。このＪＡＣＣＡＲＤ係数は、図略のメモリに格納される（ステップＳ１０）。
【００５５】
続いて、ユーザカウンタＹが最終のユーザ番号を示す「ｍ」であるか否かが確認される（ステップＳ１１）。Ｙ＝ｍでない場合（ステップＳ１１でＮＯ）、Ｙが１つインクリメントされ（ステップＳ１２）、ステップＳ５に戻って２番目のユーザについて同様な処理が繰り返される。
【００５６】
一方、Ｙ＝ｍである場合（ステップＳ１１でＹＥＳ）、全てのユーザについてＪＡＣＣＡＲＤ係数が求められたことになるので、ランク判定部３５により、各ユーザのＪＡＣＣＡＲＤ係数の大きさに基づくソート処理が行われる（ステップＳ１３）。これにより、対象とされた全ユーザが、各々のＪＡＣＣＡＲＤ係数の大きさに応じて昇順若しくは降順にランク付けされることになる。そして、このランクに基づいて、各ユーザの事前理解度が評価され、クラス分けに相当するユーザ区分けデータが作成され（ステップＳ１４）、処理を終える。
【００５７】
次に、図９は、上記（２）の業務類似度に応じたユーザのクラス分け処理における、解析処理装置３０の動作を示すフローチャートである。この処理では、先ず文書選別部３２により、ユーザカウンタＹが１に設定され（ステップＳ２１）、ユーザの指定が実行される。そして、データ抽出部３１は、このユーザＹの識別符号に関連付けて登録されている文書ファイルを、業務文書データサーバ１１及びメール文書データサーバ１２から抽出する（ステップＳ２２）。
【００５８】
次に、文書選別部３２により、ユーザＹについて、単語頻度の導出対象とする文書ファイルを粗選別する処理が行われる（ステップＳ２３）。その後、文書解析部３３により、ユーザＹの作成に係る文書ファイルのうち、粗選別で抽出された文書ファイルについて文書解析処理が行われ（ステップＳ２４）、当該文書ファイルに用いられている単語が抽出されると共に、その単語頻度が求められる（ステップＳ２５）。このユーザＹについての単語頻度データは、図略のメモリに格納される（ステップＳ２６）。
【００５９】
続いて、ユーザカウンタＹが最終のユーザ番号を示す「ｍ」であるか否かが確認される（ステップＳ２７）。Ｙ＝ｍでない場合（ステップＳ２７でＮＯ）、Ｙが１つインクリメントされ（ステップＳ２８）、ステップＳ２２に戻って２番目のユーザについて同様な処理が繰り返される。
【００６０】
一方、Ｙ＝ｍである場合（ステップＳ２７でＹＥＳ）、全てのユーザについて単語頻度データが出揃ったことになるので、ランク判定部３５により、これら単語頻度データを用いてクラスター分析が実行される（ステップＳ２９）。そして、前記クラスター分析の結果に基づいて、ランク判定部３５は、ユーザ毎に、どのグループに分類されたかを示すグループ符号データを付与する（ステップＳ３０）。
【００６１】
以上説明した本実施形態に係るユーザ区分けシステムＳによれば、多数のユーザを、個々のユーザが過去に作成した文書ファイルに基づいて、目的に応じて的確に区分けすることができる。例えば社内研修等を行うに際し、ユーザ区分けシステムＳにて多数のユーザを事前理解度や業務類似度等に応じて適宜にグループ分けすることができるので、当該社内研修の効率、成果を向上させることができる。
【００６２】
以上、本発明の実施形態に係るユーザ区分けシステムＳを説明したが、本発明はこれらに限定されるものではない。例えば、上記実施形態では、文書ファイル間の類似度を求める手法として、ＪＡＣＣＡＲＤ係数及び階層的クラスタリングを用いる例を示した。これらの解析手法は一例であり、例えばコサイン尺度、Ｄｉｃｅ係数、Ｔスコア、相互情報量、Ｓｉｍｐｓｏｎ係数などの解析手法を用いることもできる。
【符号の説明】
【００６３】
Ｓユーザ区分けシステム
１０文書データベース
１１業務文書データサーバ
１２メール文書データサーバ
１３研修テキスト文書データサーバ
２０管理サーバ
３０解析処理装置
３１データ抽出部
３２文書選別部（指定手段）
３３文書解析部
３４類似度算出部（類似度算出手段）
３５ランク判定部（区分け手段）
４０端末装置
４１、４２、４３、４４端末機

【特許請求の範囲】
【請求項１】
複数のユーザに共用され、前記ユーザの識別符号に関連付けて複数の文書ファイルを蓄積する文書データベースと、
前記文書データベースの共用のため前記ユーザに利用される端末機であって、自身の識別符号に関連付けて、前記文書データベースへ前記ユーザ自身の作成に係る文書ファイルの登録が可能な端末機と、
前記文書データベースに蓄積された文書ファイル間の類似度を算出する類似度算出手段と、
前記類似度算出手段に、前記類似度を算出させる比較元となる文書ファイル及び比較先となる文書ファイルを指定する指定手段と、
前記類似度算出手段により算出された類似度の度合いに応じて、前記ユーザをグループ分けする区分け手段と、
を備えるユーザ区分けシステム。
【請求項２】
前記比較元となる文書ファイルが、１の基準文書ファイルであり、
前記比較先となる文書ファイルが、作成者毎に区分されたユーザ別文書ファイルである、請求項１に記載のユーザ区分けシステム。
【請求項３】
前記基準文書ファイルは、ユーザが受講することが予定された研修内容が記述された研修テキスト文書ファイルであり、
前記区分け手段は、前記類似度の高さを前記研修内容の事前理解度と見なして、前記ユーザを前記事前理解度別にクラス分けする、
請求項２に記載のユーザ区分けシステム。
【請求項４】
前記比較元となる文書ファイルが、１のユーザの作成に係る文書ファイルであり、
前記比較先となる文書ファイルが、他のユーザの作成に係る文書ファイルである、請求項１に記載のユーザ区分けシステム。
【請求項５】
前記区分け手段は、前記類似度の高さを前記ユーザ間の業務類似度と見なして、前記ユーザを前記業務類似度別にグループ分けする、
請求項４に記載のユーザ区分けシステム。
【請求項６】
前記類似度は、比較元となる文書ファイルに登場する単語と、比較先となる文書ファイルに登場する単語の共通性に基づき判定される、
請求項１〜５のいずれかに記載のユーザ区分けシステム。

【図１】