説明

ユーザ区分けシステム

【課題】多数のユーザを、目的に応じて的確に区分けする。
【解決手段】解析処理装置30は、各々のユーザが作成した文書ファイル(業務文書ファイルや電子メール文書ファイル)に基づいて、多数のユーザを所定のグループに区分けする処理を行う。例えば解析処理装置30は、研修テキスト文書のような基準文書ファイルに係る文書に用いられている単語群と、各ユーザが作成したユーザ文書ファイルに用いられている単語群との類似度をJACCARD係数で評価することで、各ユーザの研修内容に関する事前理解度を評価する。また、1のユーザの作成に係る文書ファイルに用いられている単語群と、他のユーザの作成に係る文書ファイルに用いられている単語群との類似度をクラスター分析で評価することで、1のユーザと他のユーザとの業務類似性を評価する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、多数のユーザを、各々のユーザが作成した文書ファイルに基づいてグループ分けするユーザ区分けシステムに関する。
【背景技術】
【0002】
企業等においては、社員のスキルアップ、コンプライアンスや情報セキュリティの意識付けなどを目的として、種々の社内研修が行われている。このような社内研修には、多人数の受講者が一堂に会する集合研修の形式や、少人数のグループに分けて討論等を行うグループ研修の形式で行われることが多い。
【0003】
一般に、社内研修を実施する場合、単純に参加希望者を募る方法もあるが、その社内研修に参加に相応しい人物であるか否かの事前チェックが行われる場合がある。この事前チェック方法としては、研修内容に関連した事前理解度チェック表などを参加希望者に配布し、これを回収する方法がある。研修事務局は、回収されたチェック表に基づいて、例えば「初級者クラス」、「上級者クラス」等に参加希望者を大人数単位でグループ分けし、研修を実行している。一方、少人数のグループ分けには大きな考慮が払われることは少なく、例えば従業員番号の下一桁が共通している者を集めて一つのグループにする等の手法でグルーピングが行われている。
【0004】
しかしながら、事前理解度チェック表は、自己申告や簡易セルフチェックの形式で行われるものであり、各人の事前理解度を正確には把握することは難しい。このため、クラス分けが的確に行われない場合がある。また、少人数のグループ分けにおいても簡易な手法が採用されるので、一つのグループに属する受講者のレベルや業務内容が異なるものとなる結果、深い討議を行えないという不具合が生じる。
【0005】
なお、特許文献1には、テスト問題に対する回答の正誤、回答に要した時間を勘案して学習者の習熟度を判定し、その判定結果に応じて次に提示する問題を選定するようにした学習支援方法が開示されている。このような方法を研修に応用して、事前に詳細なテストを行い、その採点結果に基づいてクラス分けすれば、受講者の実情に照らした教育を実施することは可能である。しかし、このような詳細な事前テストを実行するのは、実際には極めて困難である。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2002−221893号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明は上記問題に鑑みて為されたもので、多数のユーザを、目的に応じて的確に区分けすることで、例えば研修の効率、成果を向上させることができるユーザ区分けシステムを提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明の一局面に係るユーザ区分けシステムは、複数のユーザに共用され、前記ユーザの識別符号に関連付けて複数の文書ファイルを蓄積する文書データベースと、前記文書データベースの共用のため前記ユーザに利用される端末機であって、自身の識別符号に関連付けて、前記文書データベースへ前記ユーザ自身の作成に係る文書ファイルの登録が可能な端末機と、前記文書データベースに蓄積された文書ファイル間の類似度を算出する類似度算出手段と、前記類似度算出手段に、前記類似度を算出させる比較元となる文書ファイル及び比較先となる文書ファイルを指定する指定手段と、前記類似度算出手段により算出された類似度の度合いに応じて、前記ユーザをグループ分けする区分け手段と、を備える(請求項1)。
【0009】
この構成によれば、各々のユーザが作成した文書ファイルを用い、これら文書ファイルの類似度を評価することで、ユーザのグループ分けが行われる。つまり、ユーザ自身が過去に作成した文書ファイルをベースとして、各々のユーザのグループが決定される。このため、事前理解度チェック表や事前テスト等を実行することなく、各々のユーザの文書作成実績に基づいて的確にグループ分けを行うことができる。
【0010】
上記構成において、前記比較元となる文書ファイルが、1の基準文書ファイルであり、前記比較先となる文書ファイルが、作成者毎に区分されたユーザ別文書ファイルであることが望ましい(請求項2)。
【0011】
この構成によれば、1の基準文書ファイルに対する各ユーザの親和性を評価できる。つまり、1の基準文書ファイルに類似度の高い文書ファイルを作成しているユーザは、その基準文書ファイルの記述内容について詳しい知識を有すると推定することができ、そうでないユーザは、さほど知識を有していないと推定することができる。かかる推定結果に基づき、ユーザを適切に区分けすることができる。
【0012】
この場合、前記基準文書ファイルは、ユーザが受講することが予定された研修内容が記述された研修テキスト文書ファイルであり、前記区分け手段は、前記類似度の高さを前記研修内容の事前理解度と見なして、前記ユーザを前記事前理解度別にクラス分けすることが望ましい(請求項3)。
【0013】
この構成によれば、研修テキスト文書ファイルと、各ユーザが過去に作成した文書ファイルとの類似度を評価することを通して、研修内容の事前理解度を個別に評価することができる。従って、各ユーザの知識レベルに応じた的確なクラス分けが行えるようになる。
【0014】
上記構成において、前記比較元となる文書ファイルが、1のユーザの作成に係る文書ファイルであり、前記比較先となる文書ファイルが、他のユーザの作成に係る文書ファイルであることが望ましい(請求項4)。
【0015】
この構成によれば、1のユーザと他のユーザとの親和性を評価できる。つまり、1のユーザの作成に係る文書ファイルに類似度の高い文書ファイルを作成している他のユーザは、当該1のユーザと共通性が高い作業を行っていると推定することができ、そうでないユーザは、共通性が低いと推定することができる。かかる推定結果に基づき、ユーザを適切にグループ分けすることができる。
【0016】
この場合、前記区分け手段は、前記類似度の高さを前記ユーザ間の業務類似度と見なして、前記ユーザを前記業務類似度別にグループ分けすることが望ましい(請求項5)。
【0017】
この構成によれば、各ユーザが過去に作成した文書ファイルとの類似度を評価することを通して、業務類似度が高いユーザを特定し、グループ分けを行うことができる。従って、少人数でのグループ研修を行う場合におけるグルーピングに有用である。
【0018】
上記構成において、前記類似度は、比較元となる文書ファイルに登場する単語と、比較先となる文書ファイルに登場する単語の共通性に基づき判定されることが望ましい(請求項6)。
【0019】
この構成によれば、各々の文書ファイルに出現する単語の共通性に基づいて、両者の類似度を簡易な演算処理で求めることができる。
【発明の効果】
【0020】
本発明によれば、多数のユーザを、個々のユーザが過去に作成した文書ファイルに基づいて、目的に応じて的確に区分けすることができる。従って、例えば社内研修等を行うに際し、本発明のシステムにて多数のユーザを知識レベルや業務内容等に応じて適宜なグループに区分けできるので、当該社内研修の効率、成果を向上させることができる。
【図面の簡単な説明】
【0021】
【図1】本発明に係るユーザ区分けシステムのハードウェア構成を概略的に示す構成図である。
【図2】解析処理装置の機能構成を示す機能ブロック図である。
【図3】事前理解度の判定手法を模式的に示す図である。
【図4】比較元と比較先の文書ファイルから抽出された単語の頻度を示す表形式の図である。
【図5】業務類似度に応じたグルーピングの手法を模式的に示す図である。
【図6】各ユーザが作成した文書における単語の頻度を示す表形式の図である。
【図7】グルーピングの考え方を示す模式図である。
【図8】事前理解度に応じたユーザのクラス分け処理の動作を示すフローチャートである。
【図9】業務類似度に応じたユーザのクラス分け処理の動作を示すフローチャートである。
【発明を実施するための形態】
【0022】
以下、図面に基づいて、本発明の実施形態につき詳細に説明する。図1は、本発明の実施形態に係るユーザ区分けシステムSのハードウェア構成を概略的に示す構成図である。ユーザ区分けシステムSは、例えば一つの企業内又は事業所内といったローカルエリア内で運営されているネットワークに組み込まれるシステムである。ユーザ区分けシステムSは、文書データベース10、管理サーバ20、解析処理装置30及び端末装置40を含んで構成されている。
【0023】
端末装置40は、企業内又は事業所内の個々の従業員等(ユーザ)に割り当てられる端末機41、42、43、44・・・を含む。端末機41、42、43、44・・・は、例えばパーソナルコンピュータや携帯型端末機等からなり、管理サーバ20を介して文書データベース10にネットワーク接続され、文書データベース10を共用的に利用することができる。例えばユーザは、端末機41、42、43、44・・・を通して、文書データベース10に格納された文書ファイルを閲覧可能であると共に、予め付与されている自身の識別符号に関連付けて、自身の作成に係る文書ファイルの登録が可能である。
【0024】
文書データベース10は、各種データを保管するためのファイルサーバ群からなり、ここでは業務文書データサーバ11、メール文書データサーバ12及び研修テキスト文書データサーバ13を例示している。業務文書データサーバ11は、各ユーザが業務に関連して端末装置40で作成した業務文書ファイル(業務報告書、作業標準など)を、当該ユーザの識別符号に関連付けて蓄積するサーバである。メール文書データサーバ12は、端末装置40で作成された電子メール文書ファイルを、前記識別符号に関連付けて自動保存するサーバである。研修テキスト文書データサーバ13は、ユーザに対する研修を目的としたテキスト文書類(例えば情報セキュリティ教育のためのテキスト又はその資料の類)の文書ファイルを蓄積するためのサーバである。
【0025】
管理サーバ20は、文書データベース10、解析処理装置30及び端末装置40をリンクさせ、ローカルエリア内で生成される各種データの処理並びに管理を行うためのサーバである。
【0026】
解析処理装置30は、各々のユーザが作成した文書ファイル(業務文書ファイルや電子メール文書ファイル)に基づいて、多数のユーザを所定のグループに区分けする処理を行う。解析処理装置30は、この区分け処理を行うCPU(中央演算処理装置)を備えたコンピュータ装置である。
【0027】
解析処理装置30は、大別して次の2つのユーザ区分け処理を行う。
(1)ユーザのクラス分け
1の基準文書ファイルに対する各ユーザが作成した文書の類似度の度合いに応じて、ユーザをクラス分けする。具体的には、基準文書ファイルに係る文書に用いられている単語群と、各ユーザが作成したユーザ文書ファイルに用いられている単語群との一致性(類似度)を評価することで、1の基準文書ファイルに対する各ユーザの親和性を評価する。1の基準文書ファイルに類似度の高い文書ファイルを作成しているユーザは、その基準文書ファイルの記述内容について詳しい知識を有すると推定することができ、そうでないユーザは、さほど知識を有していないと推定することができる。かかる推定結果に基づき、ユーザをクラス分けする。
【0028】
このクラス分け処理は、例えば多人数のユーザを集めて研修等を行う場合に、研修内容についての事前理解度に応じてユーザをクラス分けする場合に特に有用である。この場合、前記基準文書ファイルは、ユーザが受講することが予定された研修内容が記述された研修テキスト文書ファイルとなる。この研修テキスト文書ファイルに用いられている単語群を多数用いて日々の業務文書を作成しているユーザは、当該研修内容についての事前理解度が高いと推定することができる。研修テキスト文書ファイルと、各ユーザが過去に作成した文書ファイルとの類似度を評価し、各ユーザをランク付けすることで、ユーザを事前理解度別にクラス分けすることができる。
【0029】
(2)ユーザのグループ分け
1のユーザの作成に係る文書ファイルと、他のユーザの作成に係る文書ファイルとの類似度を評価し、類似性が高いユーザを複数のグループに集約する。具体的には、1のユーザの作成に係る文書ファイルに用いられている単語群と、他のユーザの作成に係る文書ファイルに用いられている単語群との一致性(類似度)を評価することで、1のユーザと他のユーザとの親和性を評価する。共通度合い高い単語群を用いて日々の文書を作成しているユーザ同士は、共通性が高い業務を行っていると推定することができ、そうでないユーザは、共通性が低いと推定することができる。かかる推定結果に基づき、ユーザを、その共通性に応じてグループ分けする。
【0030】
このグループ分け処理は、例えば多人数のユーザを集めて討論形式の研修等を行う場合に、ユーザを適正にグルーピングする場合に有用である。この種の研修の場合、業務類似度が高いユーザ同士を集めて1つのグループを形成することが望ましい。従って、上記の単語群の類似度を、ユーザ間の業務類似度と見なしてグルーピングすることで、ユーザを適正にグループ分けすることができる。
【0031】
続いて、解析処理装置30について詳述する。図2は、解析処理装置30の機能構成を示す機能ブロック図である。前記CPUは、前記区分け処理を行うべくプログラミングされたソフトウェアが実行されることで、図2に示す機能部を具備するように動作する。解析処理装置30は、機能的に、データ抽出部31、文書選別部32(指定手段)、文書解析部33、類似度算出部34(類似度算出手段)及びランク判定部35(区分け手段)を含む。
【0032】
データ抽出部31は、ユーザの上記で説明した区分けのために、文書データベース10、すなわち業務文書データサーバ11、メール文書データサーバ12及び研修テキスト文書データサーバ13から必要なデータを抽出する。例えば、ユーザAについて上記(1)のクラス分け処理を行う場合、データ抽出部31は、ユーザAの識別符号(ユーザID等)に関連付けて登録されている文書ファイルを、業務文書データサーバ11及びメール文書データサーバ12から抽出する。同時に、データ抽出部31は、研修テキスト文書データサーバ13から、ユーザAが受講する講座用の研修テキスト文書ファイルを抽出する。一方、上記(2)のグループ分け処理を行う場合、データ抽出部31は、ユーザAと、グルーピングの候補とされる他のユーザとの識別符号に関連付けて登録されている文書ファイルを、業務文書データサーバ11及びメール文書データサーバ12から抽出する。
【0033】
文書選別部32は、データ抽出部31により抽出された文書ファイルの中から、文書ファイル間の類似度を算出する際の比較元となる文書ファイルと、比較先となる文書ファイルとを指定する処理を行う。上記(1)のクラス分け処理の場合、文書選別部32は、例えばユーザAの作成文書ファイルを比較先と指定し、研修テキスト文書ファイルを比較元と指定する。上記(2)のグループ分け処理の場合、文書選別部32は、例えばユーザAの作成に係る文書ファイルを比較元と指定し、他のユーザの作成に係る文書ファイルを比較先と指定する。
【0034】
ここで、ユーザAの作成文書ファイルが比較先又は比較元となる場合、ユーザAの作成に係る全文書を文書解析対象としても良いし、いくつかの文書ファイルを選択的に文書解析対象としても良い。前記選択を行う方法としては、重要なキーワードを設定してユーザAの作成に係る文書に絞り込みを掛ける処理を行う方法が挙げられる。例えば情報セキュリティに関する研修が予定されている場合は、「情報漏洩」の如きキーワードを用いることができる。上記(2)のグループ分け処理を行う場合における、比較先となる他のユーザの作成に係る文書ファイルについても同様である。
【0035】
文書解析部33は、文書選別部32にて指定された文書ファイルから単語を抽出する。具体的には文書解析部33は、指定された各文書ファイルが含む文書データに対して、正規化処理、文書構造解析処理、同義語処理などの文書解析処理を行い、文書データを単語単位に分割する。これにより、文書ファイル中において自立する単語(キーワード)が導出される。
【0036】
類似度算出部34は、文書選別部32にて指定された比較元の文書ファイルと、比較先の文書ファイルとの間における類似度を、各文書ファイルが包含する単語の同一性に基づいて算出する。ここでは、上記(1)のクラス分け処理の場合においては、JACCARD係数を用い、比較先と比較元の文書ファイルにおいて共通して出現する単語が、両文書全体の単語の中でどれくらいの割合を占めるかという指標で類似度を評価する例を示す。また、上記(2)のグループ分け処理の場合においては、多変量解析(クラスター分析)の手法を用い、単語の出現傾向が類似したユーザ同士をグルーピングする例を示す。以下、これらの例を詳述する。
【0037】
図3は、上記(1)のクラス分け処理における事前理解度の判定手法を模式的に示す図である。上述の通り、ユーザ(受講者)の作成に係る業務文書ファイル及びメール文書ファイルと、研修テキスト文書ファイルとが、文書解析部33により単語レベルに分解される。そして、ユーザの作成文書の単語集合(DI)と、研修テキスト文書の単語集合(SI)とが作成される。比較先となる各ユーザの作成文書及び比較元となる研修テキスト文書として指定された文書ファイルが複数存在する場合は、これらを合成して、一つの単語集合(DI)及び(SI)が作成される。
【0038】
模式的に説明すれば、図3に示す単語集合(DI)と単語集合(SI)との重複部OLが大きい程、両者の類似度が高いと評価する。つまり、両者に出現する単語が共通している程、両者の類似度が高いと、換言すれば、そのユーザの研修内容に対する事前理解度が高いと評価する。
【0039】
図4は、比較元と比較先の文書ファイルから抽出された単語の頻度を示す表形式の図である。図4において、研修テキスト文書ファイルにおいては、ある「単語1」が2回出現し、「単語4」は1回だけ出現し、「単語8」は一度も出現しないことを示している。同様にユーザAについては、その作成文書ファイル中に例えば「単語1」は2回出現し、ユーザBについては、その作成文書ファイル中に「単語1」は一度も出現しないことを示している。
【0040】
このような比較先及び比較元の単語出現頻度マトリクスが得られたら、次のJACCARD係数算出式を用い、ユーザ毎にJACCARD係数を算出する。図4の最右欄の「JACCARD係数」は、次式にて求められたものである。
【0041】
【数1】

【0042】
次に図5は、上記(2)のグループ分け処理を行う場合における、業務類似度に応じたグルーピングの手法を模式的に示す図である。この場合、グルーピングの対象として予め選定されたユーザの作成に係る業務文書ファイル及びメール文書ファイルが抽出される。ここでは、ユーザA、B、C及びDの作成に係る業務文書ファイル及びメール文書ファイル11A、11B、11C及び11Dが、比較先及び比較元文書として抽出(文書選別部32により指定)されている状態を示している。これら文書ファイル11A、11B、11C及び11Dは、文書解析部33により単語レベルに分解される。
【0043】
そして、1のユーザの作成に係る文書ファイル(群)に出現する単語群と、他のユーザの作成に係る文書ファイル(群)に出現する単語群との類似性が評価される。例えば、ユーザAが比較元となる場合、ユーザAの作成文書ファイル11Aに出現する単語群と、比較先となるユーザB、C及びDの作成文書ファイル11B、11C及び11Dに出現する単語群との類似性が評価される。ユーザB、C又はDが比較元となる場合も同様である。
【0044】
図6は、ユーザA、B、C及びDが作成に係る文書ファイルに出現した単語の頻度を示す表形式の図である。図6において、例えばユーザAにおいて、「広報」という単語が3回、「備品」という単語が1回、「CSR」という単語が1回出現したことを示している。このような単語頻度の傾向は、一般にユーザの業務内容を反映すると言うことができ、同様な単語頻度傾向を有するユーザ同士は、類似する業務を担当していると推定することができる。従って、所属部署や肩書き等で外見的に業務内容を類推できない場合でも、ユーザ間の単語頻度傾向の類似性を評価することで、グルーピングが行えるようになる。
【0045】
単語頻度傾向の類似性の評価には、クラスター分析、特に階層的クラスタリングを好適に用いることができる。ここでは、図6に示した単語頻度データを用い、ユーザA、B、C、D・・・間の距離を定義し、その距離の近さによってユーザを分類する統計処理(クラスター分析)を行う例を示す。なお、図7は、階層的クラスタリングの結果を表現する樹状図(デンドログラム)である。
【0046】
クラスター分析の具体的手法としては、例えばユークリッド距離Yを用いることができる。単位クラスターであるユーザAとユーザBとのユークリッド距離YABは、各々の単語頻度の差を用い、次式
AB=√(3−0)+(1−4)+(1−0)・・・
にて算出することができる。同様にして、全単位クラスター間のユークリッド距離Yを算出する。そして、最も距離の近い単位クラスターを結合させて、新クラスターを作成する。図7では、ユーザAとユーザCとが最も距離の近い単位クラスターである例を示し、これらで新クラスターI(A,C)が先ず形成された例を示している。
【0047】
次に、新クラスターI(A,C)と他の単位クラスターとの距離が求められ、さらに新しいクラスターが形成される。ここでは、ユーザBが新クラスターI(A,C)に対して最も距離が近い例を示している。この場合、これらを統合させて、さらに新クラスターII(A,B,C)が形成される。このようにして、全てのユーザが一つのクラスターに統合されるまで、同様な処理が繰り返される。
【0048】
ユーザをどのレベルでグルーピングするかは、デンドログラムのどの階層を採用するかに依存する。例えば、図7の例において、ユーザを3つのグループに区分けするならば、クラスターIに属するユーザA及びCと、ユーザDと、ユーザBとの3グループとなる。従って、グループ討論形式の研修等が予定されている場合、設置を企図しているグループ数をパラメータとして予め与え、そのグループ数=クラスター数として、クラスター解析を行わせるようにすればよい。
【0049】
図2に戻って、ランク判定部35は、類似度算出部34により算出された類似度の度合いに応じて、ユーザをグループ分けするためのユーザ区分けデータを出力する。上記(1)のクラス分け処理においては、算出されたJACCARD係数に応じて、事前理解度に相当するランクデータをユーザ毎に与える。また、上記(2)のグループ分け処理においては、クラスター解析の結果に基づいて、どのグループに分類されたかを示すデータをユーザ毎に与える。
【0050】
続いて、以上説明した本実施形態に係るユーザ区分けシステムSの動作を、図8及び図9に示すフローチャートに基づいて説明する。図8は、事前理解度に応じたユーザのクラス分け処理における、解析処理装置30の動作を示すフローチャートである。
【0051】
先ず、データ抽出部31は、研修テキスト文書データサーバ13から、開講が予定されている講座の研修テキスト文書ファイルを抽出する(ステップS1)。そして、文書解析部33により文書解析処理が行われ(ステップS2)、研修テキスト文書ファイルに用いられている単語が抽出されると共に、その単語頻度が求められる(ステップS3)。求められた単語頻度データは、図略のメモリに一時的に格納される。
【0052】
続いて文書選別部32により、ユーザカウンタYが1に設定され(ステップS4)、比較先となるユーザが指定される。このユーザカウンタYは、当該講座への参加が予定されているユーザ1〜mに、予め個別に付与されているナンバリングをカウントするものである。その後、データ抽出部31は、このユーザYの識別符号に関連付けて登録されている文書ファイルを、業務文書データサーバ11及びメール文書データサーバ12から抽出する(ステップS5)。
【0053】
次に、文書選別部32により、ユーザYについて、単語頻度の導出対象とする文書ファイルを粗選別する処理が行われる(ステップS8)。この処理は、上述の通り、ユーザYの作成に係る文書ファイルが多数存在する場合に、キーワード等を用いて研修テーマとある程度関連性がある文書に絞り込みを掛ける処理である。
【0054】
その後、文書解析部33により、ユーザYの作成に係る文書ファイルのうち、粗選別で抽出された文書ファイルについて文書解析処理が行われ(ステップS7)、当該文書ファイルに用いられている単語が抽出されると共に、その単語頻度が求められる(ステップS8)。次いで、類似度算出部34により、ユーザYについての単語頻度データと、先に求められている研修テキスト文書ファイルの単語頻度データとを用い、JACCARD係数算出式を適用して、ユーザYのJACCARD係数が算出される(ステップS9)。このJACCARD係数は、図略のメモリに格納される(ステップS10)。
【0055】
続いて、ユーザカウンタYが最終のユーザ番号を示す「m」であるか否かが確認される(ステップS11)。Y=mでない場合(ステップS11でNO)、Yが1つインクリメントされ(ステップS12)、ステップS5に戻って2番目のユーザについて同様な処理が繰り返される。
【0056】
一方、Y=mである場合(ステップS11でYES)、全てのユーザについてJACCARD係数が求められたことになるので、ランク判定部35により、各ユーザのJACCARD係数の大きさに基づくソート処理が行われる(ステップS13)。これにより、対象とされた全ユーザが、各々のJACCARD係数の大きさに応じて昇順若しくは降順にランク付けされることになる。そして、このランクに基づいて、各ユーザの事前理解度が評価され、クラス分けに相当するユーザ区分けデータが作成され(ステップS14)、処理を終える。
【0057】
次に、図9は、上記(2)の業務類似度に応じたユーザのクラス分け処理における、解析処理装置30の動作を示すフローチャートである。この処理では、先ず文書選別部32により、ユーザカウンタYが1に設定され(ステップS21)、ユーザの指定が実行される。そして、データ抽出部31は、このユーザYの識別符号に関連付けて登録されている文書ファイルを、業務文書データサーバ11及びメール文書データサーバ12から抽出する(ステップS22)。
【0058】
次に、文書選別部32により、ユーザYについて、単語頻度の導出対象とする文書ファイルを粗選別する処理が行われる(ステップS23)。その後、文書解析部33により、ユーザYの作成に係る文書ファイルのうち、粗選別で抽出された文書ファイルについて文書解析処理が行われ(ステップS24)、当該文書ファイルに用いられている単語が抽出されると共に、その単語頻度が求められる(ステップS25)。このユーザYについての単語頻度データは、図略のメモリに格納される(ステップS26)。
【0059】
続いて、ユーザカウンタYが最終のユーザ番号を示す「m」であるか否かが確認される(ステップS27)。Y=mでない場合(ステップS27でNO)、Yが1つインクリメントされ(ステップS28)、ステップS22に戻って2番目のユーザについて同様な処理が繰り返される。
【0060】
一方、Y=mである場合(ステップS27でYES)、全てのユーザについて単語頻度データが出揃ったことになるので、ランク判定部35により、これら単語頻度データを用いてクラスター分析が実行される(ステップS29)。そして、前記クラスター分析の結果に基づいて、ランク判定部35は、ユーザ毎に、どのグループに分類されたかを示すグループ符号データを付与する(ステップS30)。
【0061】
以上説明した本実施形態に係るユーザ区分けシステムSによれば、多数のユーザを、個々のユーザが過去に作成した文書ファイルに基づいて、目的に応じて的確に区分けすることができる。例えば社内研修等を行うに際し、ユーザ区分けシステムSにて多数のユーザを事前理解度や業務類似度等に応じて適宜にグループ分けすることができるので、当該社内研修の効率、成果を向上させることができる。
【0062】
以上、本発明の実施形態に係るユーザ区分けシステムSを説明したが、本発明はこれらに限定されるものではない。例えば、上記実施形態では、文書ファイル間の類似度を求める手法として、JACCARD係数及び階層的クラスタリングを用いる例を示した。これらの解析手法は一例であり、例えばコサイン尺度、Dice係数、Tスコア、相互情報量、Simpson係数などの解析手法を用いることもできる。
【符号の説明】
【0063】
S ユーザ区分けシステム
10 文書データベース
11 業務文書データサーバ
12 メール文書データサーバ
13 研修テキスト文書データサーバ
20 管理サーバ
30 解析処理装置
31 データ抽出部
32 文書選別部(指定手段)
33 文書解析部
34 類似度算出部(類似度算出手段)
35 ランク判定部(区分け手段)
40 端末装置
41、42、43、44 端末機


【特許請求の範囲】
【請求項1】
複数のユーザに共用され、前記ユーザの識別符号に関連付けて複数の文書ファイルを蓄積する文書データベースと、
前記文書データベースの共用のため前記ユーザに利用される端末機であって、自身の識別符号に関連付けて、前記文書データベースへ前記ユーザ自身の作成に係る文書ファイルの登録が可能な端末機と、
前記文書データベースに蓄積された文書ファイル間の類似度を算出する類似度算出手段と、
前記類似度算出手段に、前記類似度を算出させる比較元となる文書ファイル及び比較先となる文書ファイルを指定する指定手段と、
前記類似度算出手段により算出された類似度の度合いに応じて、前記ユーザをグループ分けする区分け手段と、
を備えるユーザ区分けシステム。
【請求項2】
前記比較元となる文書ファイルが、1の基準文書ファイルであり、
前記比較先となる文書ファイルが、作成者毎に区分されたユーザ別文書ファイルである、請求項1に記載のユーザ区分けシステム。
【請求項3】
前記基準文書ファイルは、ユーザが受講することが予定された研修内容が記述された研修テキスト文書ファイルであり、
前記区分け手段は、前記類似度の高さを前記研修内容の事前理解度と見なして、前記ユーザを前記事前理解度別にクラス分けする、
請求項2に記載のユーザ区分けシステム。
【請求項4】
前記比較元となる文書ファイルが、1のユーザの作成に係る文書ファイルであり、
前記比較先となる文書ファイルが、他のユーザの作成に係る文書ファイルである、請求項1に記載のユーザ区分けシステム。
【請求項5】
前記区分け手段は、前記類似度の高さを前記ユーザ間の業務類似度と見なして、前記ユーザを前記業務類似度別にグループ分けする、
請求項4に記載のユーザ区分けシステム。
【請求項6】
前記類似度は、比較元となる文書ファイルに登場する単語と、比較先となる文書ファイルに登場する単語の共通性に基づき判定される、
請求項1〜5のいずれかに記載のユーザ区分けシステム。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2012−98921(P2012−98921A)
【公開日】平成24年5月24日(2012.5.24)
【国際特許分類】
【出願番号】特願2010−246244(P2010−246244)
【出願日】平成22年11月2日(2010.11.2)
【出願人】(000156938)関西電力株式会社 (1,442)
【Fターム(参考)】