説明

引用関係抽出システム、引用関係抽出方法、及び引用関係抽出用プログラム

【課題】コンテンツ中の暗黙引用関係の抽出を可能とするとともに、暗黙引用関係抽出の精度向上を可能とする。
【解決手段】本発明による引用関係抽出システム、引用関係抽出方法、及び引用関係抽出用プログラムは、コンテンツ間の作成、更新又は参照時間の差と、コンテンツを作成、更新又は参照した著者間の関係の度合いとに基づいて、コンテンツ間で引用が行われた可能性の度合いを示す引用度を算出する。また、引用関係抽出システム、引用関係抽出方法、及び引用関係抽出用プログラムは、算出した引用度に基づいて、コンテンツ間の引用関係を抽出する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンテンツ間の引用関係を抽出する引用関係抽出システム、引用関係抽出方法、及び引用関係抽出用プログラムに関する。
【背景技術】
【0002】
企業等の組織の日常業務において、上司や同僚又は部下が作成したコンテンツを引用したり、参考にしたりして新たなコンテンツを作成することが多い。例えば、プロジェクトメンバの資料の一部を取り込んで報告書を作成することがある。引用関係を明らかにすることは、直接的には原著や出典を明確にすることに繋がり、著作権保護には重要である。また、コンテンツ群全体について引用関係を発見することは、コンテンツの体系化を行ったり検索を容易にしたりするためにも重要な役割がある。
【0003】
例えば、研究機関等において、被引用回数に基づいて論文のインパクトファクタを測って研究者を評価したり、引用関係に基づいて文書のネットワークを生成して文書群の整理を行ったりすることが行われている。
【0004】
しかしながら、研究機関等で用いられる論文とは違って、企業等の組織内で用いられる社内コンテンツの引用関係は明示されないことが多い。そのため、引用関係に基づくコンテンツの体系化技術のメリットを十分に享受できないとともに、オリジナルアイディアの発案者を正しく評価できない場合がある。
【0005】
以下、社内コンテンツにおける明示されない引用関係を暗黙引用関係という。また、以下、特別な説明がない限り、「引用関係」とは暗黙引用関係のことを示すものとする。
【0006】
引用とは、2つのコンテンツ間又は2つのコンテンツ中の部分(以下パッセージ)間にある関係である。引用とは、あるコンテンツ(以下、引用元コンテンツ)の一部又は全部を、別のコンテンツ(以下、引用先コンテンツ)の中でそのまま又は一部を改変して再利用することである。また、以下、引用元コンテンツの一部又は全部を引用元パッセージといい、引用先コンテンツの一部又は全部を引用先パッセージという。
【0007】
引用関係は文書の組織化と検索の容易化のための重要ファクタであるため、文書やコンテンツの引用や再利用関係を発見する手法が多数提案されている。例えば、特許文献1では、文字列のマッチングにより同一文字列を発見し、同一文字列の出現場所と出現回数等との表層情報を用いたコンテンツの再利用関係の抽出手法が記載されている。また、特許文献2では、パッセージ類似に基づいてリンク関係を自動生成する手法が記載されている。
【0008】
【特許文献1】国際公開第2004/034282号パンフレット
【特許文献2】特開2000−3372号公報
【発明の開示】
【発明が解決しようとする課題】
【0009】
しかし、特許文献1や特許文献2に記載された手法を用いただけでは、引用関係を誤判定する可能性がある。例えば、繋がりのない2人の研究者がほぼ同時に書いた論文は、相互に引用関係がないといえる。しかし、この場合に、特許文献1や特許文献2に記載された手法を用いただけでは、文字列やパッセージが類似であると判断され、引用関係があると誤認識されてしまう可能性がある。すなわち、特許文献1や特許文献2に記載された手法では、2つのコンテンツの作成時期が非常に離れている場合や、組織内でコンテンツの作成者の関係が非常に離れている場合、両者が独立に作成されたコンテンツである可能性が高くなるという点が考慮されていない。
【0010】
また、一般にアクセス権の設定を行うシステムでは、アクセス権のない機密文書を引用することは不可能である。しかし、特許文献1や特許文献2に記載された類似関係ベースで引用関係を判定する手法では、アクセス権のない機密文書であっても、偶然類似する文字列やパッセージが含まれていれば、引用関係があると誤検出されてしまう可能性がある。
【0011】
そこで、本発明は、上記課題を解決するためになされたものであって、コンテンツ中の暗黙引用関係の抽出を可能とするとともに、暗黙引用関係抽出の精度向上を可能とする引用関係抽出システム、引用関係抽出方法、及び引用関係抽出用プログラムを提供することを目的とする。
【課題を解決するための手段】
【0012】
本発明による引用関係抽出システムは、コンテンツ間の作成、更新又は参照時間の差と、コンテンツを作成、更新又は参照した著者間の関係の度合いとに基づいて、コンテンツ間で引用が行われた可能性の度合いを示す引用度を算出する引用度算出手段と、引用度算出手段が算出した引用度に基づいて、コンテンツ間の引用関係を抽出する引用関係抽出手段とを備えたことを特徴とする。
【0013】
また、本発明による引用関係抽出方法は、コンテンツ間の作成、更新又は参照時間の差と、コンテンツを作成、更新又は参照した著者間の関係の度合いとに基づいて、コンテンツ間で引用が行われた可能性の度合いを示す引用度を算出する引用度算出ステップと、算出した引用度に基づいて、コンテンツ間の引用関係を抽出する引用関係抽出ステップとを含むことを特徴とする。
【0014】
また、本発明による引用関係抽出用プログラムは、コンピュータに、コンテンツ間の作成、更新又は参照時間の差と、コンテンツを作成、更新又は参照した著者間の関係の度合いとに基づいて、コンテンツ間で引用が行われた可能性の度合いを示す引用度を算出する引用度算出処理と、算出した引用度に基づいて、コンテンツ間の引用関係を抽出する引用関係抽出処理とを実行させるためのものである。
【発明の効果】
【0015】
本発明によれば、コンテンツ間の作成、更新又は参照時間の差と、コンテンツを作成、更新又は参照した著者間の関係の度合いとを考慮して、コンテンツ間の引用関係を抽出するので、引用関係の誤検出を除外することができる。従って、コンテンツ中の暗黙引用関係の抽出を可能とするとともに、暗黙引用関係抽出の精度向上を可能とすることができる。
【発明を実施するための最良の形態】
【0016】
実施形態1.
以下、本発明の第1の実施形態について図面を参照して説明する。図1は、本発明による暗黙引用関係発見システム(引用関係抽出システム)の構成の一例を示すブロック図である。本発明は、例えば、社内情報システムに関する。例えば、暗黙引用関係発見システムは、企業等の組織内において、電子文書等の社内コンテンツの組織化や検索の容易化に関して、特に、社内コンテンツ間の暗黙的引用関係を発見する処理を行う。
【0017】
なお、暗黙引用関係発見システムは、電子文書に限らず、静止画像や映像等のコンテンツにも適用できるが、以下、便利上、特別な説明がない限り、本実施形態では、コンテンツの一例である電子文書を用いて説明を行う。例えば、引用元コンテンツと引用先コンテンツとを、それぞれ引用元文書と引用先文書とに言い換えて説明を行う。
【0018】
まず、本発明による暗黙引用関係発見システム(引用関係抽出システム)の概念について説明する。本発明では、引用関係の時空間制約条件と引用方向制約条件とを導入して、引用関係の誤判定を除外できる暗黙引用関係の発見手段を提供する。
【0019】
引用方向制約は、引用元コンテンツが引用先コンテンツより以前に作成されている必要があるという時間条件と、引用先コンテンツの著者が引用元コンテンツにアクセスできる権限がある必要があるというアクセス権条件とを含む。暗黙引用関係発見システムは、この引用方向制約を利用して、引用関係が存在しえないコンテンツペアを排除し、引用先と引用元との順序関係を与える。
【0020】
時空間制約条件は、引用関係が発生するためには、コンテンツの作成時刻の差が一定範囲内にある必要があるという時間間隔条件と、著者間に繋がりがある必要があるという組織空間における著者の相関条件とを含む。これらの時空間制約条件は、コンテンツの引用における以下に示すような一般的な傾向を定式化したものである。
【0021】
(1)時間間隔条件:同時に作成されたコンテンツには引用関係が存在する可能性が低い。つまり、引用元文書と引用先文書との作成時刻が近いほど、引用関係が存在しない可能性が高い。また、この作成時刻の差が大きくなると、コンテンツにアクセスされる可能性が高くなるので、引用される可能性が大きくなる。
【0022】
しかしながら、この作成時刻の差が極端に大きくなると、非常に優れたコンテンツでない限り、かえって忘却されてしまい、引用される可能性が低くなる。つまり、作成時刻の差の増加に伴って、コンテンツ間の引用可能性は一旦増大した後に次第に減少していく傾向がある。
【0023】
(2)組織相関条件:組織空間において、強い繋がりのある著者同士は、近い空間にいるため、密にコミュニケーションを行っている可能性が高い。そのため、相手の考え方や相手が作成したコンテンツに対する理解が高く、コンテンツを引用する可能性が高い。
【0024】
暗黙引用関係発見システムは、以上の考え方に従って、コンテンツ間の引用関係の抽出を行う。
【0025】
図1に示すように、暗黙引用関係発見システムは、コントローラ100と、文書データベース101と、組織構成表記憶手段102と、アクセスデータベース103と、仮想引用データベース104と、順序関係推定手段201と、引用度計算手段202とを含む。
【0026】
暗黙引用関係発見システムは、具体的には、プログラムに従って動作するパーソナルコンピュータ等の情報処理装置によって実現される。なお、暗黙引用関係発見システムは、1つの情報処理装置によって実現されてもよく、複数の情報処理装置を用いて実現されてもよい。例えば、暗黙引用関係発見システムは、企業等の組織内に設置されている文書共有システムや人事管理システム等を実現する複数の情報処理装置を用いて実現されていてもよい。
【0027】
文書データベース101は、社内で用いられる社内文書(電子文書)を格納するデータベースであり、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。また、文書データベース101は、企業等の組織内における文章共有システムを実現する1つ又は複数のデータベースサーバによって実現されてもよい。
【0028】
また、文書データベース101は、文書に関する情報として、文書IDや、ファイルパス、著者ID、作成時刻、アクセスレベル、文書タイプの組を格納する。また、文書データベース101は、文書中に含まれるパッセージに関する情報として、パッセージIDや、文書ID、パッセージの組を格納する。また、文書データベース101は、コンテンツのタイプ毎の引用度の計算パラメータの情報として、文書のタイプや、単位時間距離の換算パラメータの組を格納する。
【0029】
なお、文書データベース101は、例えば、「文書に関する情報」や「パッセージに関する情報」、「計算パラメータの情報」を、文書共有システムに文書を登録するタイミングで予め格納している。例えば、文書データベース101は、文書登録の際に入力されるIDやパスワードに基づいて特定された著者名(例えば、著者ID)を、「文書に関する情報」の1つとして格納している。
【0030】
パッセージは、コンテンツ(例えば、電子文書)に含まれる意味的に1つのまとまりを構成する部分である。例えば、コンテンツが文書である場合、パッセージは段落である。
【0031】
また、アクセスレベルは、その文書にアクセスするために必要な権限のレベルを示す情報である。例えば、アクセスレベルは、0から10までの数字で表される。例えば、暗黙引用関係発見システムは、電子文書(コンテンツ)を作成した著者の操作に従って、電子文書を文書データベース101に登録する際に、適切なアクセスレベルを設定する。また、利用者は、利用者端末等を操作して、自分に許可されたアクセスレベルに従って、文書データベース101に蓄積された文書にアクセスする。
【0032】
また、文書の作成時刻は、文書データベース101に電子文書(コンテンツ)を登録した時点の時刻である。
【0033】
コンテンツのタイプ毎の引用度の計算パラメータの情報を構成する情報のうち、文書タイプとは、例えば、メモ書きや週報、月報、報告書、論文等の文書の目的・用途に応じたタイプ分けを示す情報である。
【0034】
また、単位時間距離の換算パラメータとは、各タイプの文書が作成されてから参照される最も可能性が高い時までの時間(有効期間)である。例えば、週報であれば、作成直後から1ヶ月ぐらいまでの間に参照される可能性が高く、その後参照される可能性が低くなる場合には、単位時間距離の換算パラメータの値は1ヶ月である。同様に、例えば、月報であれば、単位時間距離の換算パラメータの値は1年である。文書データベース101は、このような形で予め文書タイプに応じて定められた換算パラメータが登録されているものとする。
【0035】
組織構成表記憶手段102は、具体的には、磁気ディスク装置や光ディスク装置等の記憶装置によって実現される。組織構成表記憶手段102は、著者情報と、組織構成グラフの隣接行列と、組織構成グラフの更新時間とを含む組織構成表を格納する。なお、組織構成表は、例えば、企業等の組織内の人事部門によって作成され、予め組織構成表記憶手段102に登録される。また、暗黙引用関係発見システムは、組織内の人事管理システムから組織構成表を取得し、処理を実行するようにしてもよい。
【0036】
図2は、組織構成グラフと、その組織構成グラフに対する隣接行列と、著者情報との例を示す説明図である。このうち、図2(a)は、組織構成グラフの例を示している。また、図2(b)に示すように、組織構成表記憶手段102は、組織構成表に含まれる著者情報として、著者や著者IDの組を蓄積する。また、図2(c)に示すように、組織構成表記憶手段102は、著者IDを用いて表現される隣接グラフとして、グラフIDや隣接行列の組を格納する。
【0037】
また、組織構成表記憶手段102は、組織構成グラフの更新時間として、グラフIDや更新時刻の組を格納する。暗黙引用関係発見システムは、この組織構成表記憶手段102が格納する更新時間の情報を用いて、組織改正や人事異動に伴う組織グラフの更新を管理することができる。
【0038】
アクセスデータベース103は、文書のアクセス権情報を格納するデータベースであり、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。なお、アクセス権情報は、予め企業等の組織内の人事部門やシステム管理部門によって作成され、予めアクセスデータベース103に登録される。また、暗黙引用関係発見システムは、組織内の人事管理システムやアクセス権管理システムからアクセス情報を取得し、処理を実行するようにしてもよい。
【0039】
アクセスデータベース103は、アクセス権情報として、著者IDや、更新時間、アクセスレベルの組を格納している。アクセスレベルは、著者IDに対応する著者のアクセス権限のレベルを示す情報である。例えば、アクセスレベルは、0から10までの数字で表される。従って、本実施形態では、文書のアクセスに必要なアクセスレベル以上のアクセスレベルをもつ著者しか、その文書にアクセスすることができない。更新時間は、組織改正や人事異動に伴う著者のアクセスレベルの変更時間である。従って、アクセスレベルを特定するには、著者IDと更新時間とを同時に用いて判断する必要がある。
【0040】
仮想引用データベース104は、暗黙引用関係発見システムが抽出した引用関係の抽出結果を格納するデータベースであり、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。仮想引用データベース104は、暗黙引用関係発見システムが抽出したパッセージの引用関係の抽出結果として、引用元の文書IDや、引用元のパッセージID、引用先の文書ID、引用先のパッセージID、引用度の組を格納している。
【0041】
コントローラ100は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。コントローラ100は、引用度計算手段202が算出した引用度及び順序関係推定手段201が推定した順序関係に基づいて、コンテンツ間の引用関係を抽出する機能を備える。
【0042】
本実施形態では、コントローラ100は、文書データベース101が格納する文書の全部又は一部を対象に、順序関係推定手段201の推定結果(推定処理の判定結果)と引用度計算手段202の計算結果とを用いて、暗黙引用関係の抽出を行う。また、コントローラ100は、コンテンツ(例えば、電子文書)間の暗黙引用関係の抽出結果を、仮想引用データベース104に格納させる。
【0043】
順序関係推定手段201は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。順序関係推定手段201は、引用元となりうるコンテンツと引用先となりうるコンテンツとの順序関係を推定する機能を備える。図1に示すように、順序関係推定手段201は、アクセス権判断手段2011と、時間順序判断手段2012とを含む。
【0044】
本実施形態では、順序関係推定手段201は、引用方向制約に基づいて、引用度の高い文書ペアの引用元と引用先との順序関係を推定する。つまり、順序関係推定手段201は、引用元へのアクセスの可否に関わるアクセス権条件と、引用元が引用先より先に作成される必要があるという時間条件とに基づいて、引用元と引用先とを推定する。
【0045】
順序関係推定手段201に含まれる各手段のうち、アクセス権判断手段2011は、アクセス権条件を検査して、引用元と引用先との順序関係を推定する機能を備える。アクセス権判断手段2011は、コンテンツに設定されたアクセス権のレベルと、著者に設定されたアクセス権のレベルとに基づいて、引用元となりうるコンテンツと引用先となりうるコンテンツとの順序関係を推定する。この場合、アクセス権判断手段2011は、著者に設定されたアクセス権のレベルがコンテンツに設定されたアクセス権のレベル以上であると判断すると、そのコンテンツを引用元となりうるコンテンツと推定する。
【0046】
また、時間順序判断手段2012は、時間条件を検査して、引用元と引用先との順序関係を推定する機能を備える。時間順序判断手段2012は、コンテンツの作成、更新又は参照時間(本実施形態では作成時間)に基づいて、引用元となりうるコンテンツと引用先となりうるコンテンツとの順序関係を推定する。この場合、時間順序判断手段2012は、作成、更新又は参照時間が古いコンテンツを引用元となりうるコンテンツと推定し、作成、更新又は参照時間が新しいコンテンツを引用先となりうるコンテンツと推定する。
【0047】
引用度計算手段202は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。引用度計算手段202は、電子文書中のパッセージの引用の可能性の度合いを示す引用度を計算する機能を備える。引用度計算手段202は、コンテンツ間の作成、更新又は参照時間の差と、コンテンツを作成、更新又は参照した著者間の関係の度合いとに基づいて、コンテンツ間で引用が行われた可能性の度合いを示す引用度を算出する。図1に示すように、引用度計算手段202は、類似度計算手段2021と、時間距離計算手段2022と、著者距離計算手段2023と、統合計算手段2024とを含む。
【0048】
類似度計算手段2021は、コンテンツ間の類似度を算出する機能を備える。本実施形態では、類似度計算手段2021は、異なる文書に含まれるパッセージ間の類似度を計算する。例えば、類似度計算手段2021は、ベクトル空間モデルに基づいて計算されるキーワードベクトルの余弦を用いて、文書中のパッセージの類似度を求めることができる。なお、ベクトル空間モデルに基づいて計算されるキーワードベクトルの余弦を用いて、文書中のパッセージの類似度を求める方法は、例えば、文献A「徳永健伸、”情報検索と言語処理”、東京大学出版会、pp.31,41−43」に記載されている。
【0049】
なお、類似度計算手段2021は、文書以外のコンテンツの類似度を求める場合には、そのコンテンツの種類に応じて用意された類似度計算方式を用いて、コンテンツ間の類似度を計算する。
【0050】
時間距離計算手段2022は、コンテンツ間の作成、更新又は参照時間の差を示す時間距離を算出する機能を備える。本実施形態では、時間距離計算手段2022は、2つの文書の作成時刻の差の絶対値を計算する。なお、時間距離計算手段2022は、例えば、2つの文書の更新時刻や参照時刻の差の絶対値を計算してもよい。
【0051】
また、時間距離計算手段2022は、求めた作成時刻の差の絶対値を、単位時間距離に換算する機能を備える。なお、単位時間距離に換算するためのパラメータは、文書のタイプ毎に決められ、予め文書データベース101に格納されている。そして、時間距離計算手段2022は、単位距離に換算するためのパラメータを文書データベース101から取得(抽出)し、抽出したパラメータを用いて正規化することによって、作成時刻の差の絶対値を単位時間距離に換算する。すなわち、時間距離計算手段2022は、コンテンツタイプに応じたコンテンツの作成、更新又は参照時間(本実施形態では作成時間)の差を正規化するための正規化パラメータを用いて、正規化した時間距離を算出する。
【0052】
著者距離計算手段2023は、コンテンツを作成、更新又は参照した著者間の関係の度合いを示す著者距離を算出する機能を備える。本実施形態では、著者距離計算手段2023は、組織構成グラフにおける文書の著者に対応するノード間の最短パスの長さを、著者距離として計算する。
【0053】
総合計算手段2024は、時間距離計算手段2022が算出した時間距離と、著者距離計算手段2023が算出した著者距離と、類似度計算手段2021が算出した類似度とを統合した引用度を算出する機能を備える。本実施形態では、統合計算手段2024は、類似度計算手段2021が求めたパッセージ間の類似度と、著者距離計算手段2023が求めた著者距離と、時間距離計算手段2022が求めた時間距離とを用いて、文書中のパッセージの引用度を計算する。つまり、引用度は、時空間制約条件に基づく、類似度と、時間距離と、著者距離との関数である。
【0054】
なお、本実施形態において、暗黙引用関係発見システムを実現する情報処理装置の記憶装置(図示せず)は、コンテンツ(例えば、電子文書)間の暗黙的引用関係を発見するための各種プログラムを記憶している。例えば、暗黙引用関係発見システムを実現する情報処理装置の記憶装置は、コンピュータに、コンテンツ間の作成、更新又は参照時間の差と、コンテンツを作成、更新又は参照した著者間の関係の度合いとに基づいて、コンテンツ間で引用が行われた可能性の度合いを示す引用度を算出する引用度算出処理と、算出した引用度に基づいて、コンテンツ間の引用関係を抽出する引用関係抽出処理とを実行させるための暗黙引用関係発見用プログラム(引用関係抽出用プログラム)を記憶している。
【0055】
次に、動作について説明する。図3は、暗黙引用関係発見システムがコンテンツ(電子文書中のパッセージ)間に含まれる暗黙引用関係を抽出する処理の一例を示す流れ図である。暗黙引用関係発見システムは、所定のタイミングで、図3に示す暗黙引用関係の抽出処理を開始する。
【0056】
例えば、暗黙引用関係発見システムは、システム管理者の指示操作をトリガとして、暗黙引用関係の抽出処理を開始する。また、例えば、暗黙引用関係発見システムは、夜間バッチ等を用いて所定時間毎に、暗黙引用関係の抽出処理を実行してもよい。また、例えば、暗黙引用関係発見システムは、文書データベース101に新規の電子文書が登録されたことに基づいて、暗黙引用関係の抽出処理を開始してもよい。さらに、例えば、暗黙引用関係発見システムは、文書データベース101に所定量の電子文書が登録されたことに基づいて、暗黙引用関係の抽出処理を開始してもよい。
【0057】
まず、コントローラ100は、文書データベース101から処理対象文書の集合Dを取得(抽出)する(ステップS101)。
【0058】
コントローラ100は、抽出した文書集合Dに含まれる文書di(0<i<D.count)を対象に、以下に示すステップS103〜S112の処理を繰り返し実行する(ステップS102)。なお、iは文書の順番を示し、D.countは文書の総数を示している。
【0059】
文書diに対するループ処理において、コントローラ100は、文書集合Dに含まれる文書dj(i+1≦j≦D.count)を対象に、以下に示すステップS104〜S111の処理を繰り返し実行する(ステップS103)。なお、jは文書の順番を示している。
【0060】
まず、コントローラ100は、順序関係推定手段201に、処理対象となる文書diと文書djとを渡す(出力する)。順序関係推定手段201は、アクセス権判断手段2011と時間判断手段2012とを用いて、文書diと文書djとの引用の順序関係を推定する(ステップS104)。そして、順序関係の推定結果をコントローラ100に返す(出力する)。
【0061】
コントローラ100は、順序関係推定手段201から順序関係の推定結果を受け取る(入力する)。そして、コントローラ100は、入力した推定結果が文書diと文書djとに引用の順序関係があることを示しているか否かを判断する(ステップS105)。文書diと文書djとに引用の順序関係がないという推定結果であれば、コントローラ100は、そのままステップS112にジャンプ(移行)する。そして、ステップS103〜S112のループ処理を繰り返す。
【0062】
文書diと文書djとに引用の順序関係があるという推定結果であれば、コントローラ100は、文書di及び文書djとともに、文書diと文書djとの引用の順序関係を引用度計算手段202に渡す(出力する)。
【0063】
次いで、引用度計算手段202は、時間距離計算手段2022を用いて、文書diと文書djとの時間距離を計算する(ステップS106)。また、同時に、引用度計算手段202は、著者距離計算手段2023を用いて、文書diの著者と文書djの著者との著者距離を計算する(ステップS107)。さらに、同時に、引用度計算手段202は、類似度計算手段2021を用いて、文書di及び文書djに含まれるパッセージの類似度を計算する(ステップS108)。
【0064】
なお、ステップS106〜S108の処理を実行する順番は問わない。例えば、引用度計算手段202は、ステップS106の時間距離の算出処理を実行した後にステップS107,S108の処理を実行してもよいし、ステップS107の著者距離の算出処理を実行した後にステップS106,S108の処理を実行してもよい。また、引用度計算手段202は、ステップS108の類似度の算出処理を実行した後にステップS106,S107の処理を実行してもよく、タイムシェアリングによりステップS106,S107,S108の処理を並行して実行してもよい。
【0065】
次いで、引用度計算手段202は、ステップS106で計算した時間距離と、ステップS107で計算した著者距離と、ステップS108で計算したパッセージ類似度とを用いて、引用度cを求める。この場合、引用度計算手段202は、統合計算手段2024を利用して、文書di及び文書djに含まれる2つのパッセージの組み合わせの引用度cを計算する(ステップS109)。そして、引用度計算手段202は、引用度cの計算結果を、コントローラ100に渡す(出力する)。
【0066】
次いで、コントローラ100は、ステップS109で計算した引用度cの値を引用度計算手段202から受け取る(入力する)。そして、コントローラ100は、入力した引用度cと予め定義されている閾値との比較を行い、引用度cの値が所定の閾値より大きいか否かを判断する(ステップS110)。
【0067】
コントローラ100は、引用度cが所定の閾値より大きいと判断した場合には、文書diと文書djとに含まれるパッセージの組み合わせに引用関係があると判断する。そして、コントローラ100は、引用関係があると判断した判定結果を、仮想引用データベース104に登録する(ステップS111)。
【0068】
次いで、コントローラ100は、文書の順番を示す係数jに1加算(j=j+1)して、ステップS103に移行する。すなわち、次の文書djについて、ステップS104〜S111の処理を行う。
【0069】
ステップS113では、コントローラ100は、文書の順番を示す係数iに1加算(i=i+1)して、ステップS102に移行する。すなわち、次の文書diについて、ステップS103〜S112の処理を行う。
【0070】
以上のように、文書データベース101が蓄積する全ての電子文書についてステップS103〜S112の処理が繰り返し実行されることによって、全ての電子文書に含まれるパッセージの組み合わせについて引用関係が抽出される。そして、引用関係があると判断された全てのパッセージの判定結果が仮想引用データベース104に格納される。
【0071】
なお、仮想引用データベース104に格納された判定結果は、企業等の組織内の各部門からの要求に応じて提供され利用することができる。例えば、暗黙引用関係発見システムは、組織内のマネジメント部門や人事部門の端末からの要求に応じて、仮想引用データベース104から引用関係の判定結果を抽出して送信する。そして、マネジメント部門や人事部門の端末において受信した引用関係の判定結果を表示することによって、組織の業績評価や人事評価に利用することができる。
【0072】
以下、図3に示した暗黙引用関係の抽出処理に含まれるそれぞれのステップについて説明する。
【0073】
(1)処理対象文書集合の取得処理(ステップS101):ステップS101では、コントローラ100は、文書データベース101にアクセスして、処理対象となる文書のID集合を文書データベース101から取得(抽出)する。一般的には、コントローラ100は、文書データベース101に蓄積されている全ての文書を対象として、文書IDを抽出する。なお、コントローラ100は、条件を指定して、文書データベース101に蓄積されている一部の文書を対象として、文書IDを抽出することも可能である。
【0074】
なお、文書IDと文書とは一対一に対応しているため、以下では、特別の説明がない限り、この文書IDの集合を文書集合Dという。
【0075】
(2)順序関係の推定処理(ステップS104):引用には、順序関係がある。つまり、引用元となりうる文書と引用先となりうる文書とは、予め決まっている。本実施形態では、順序関係推定手段201は、このような引用元となりうる文書と引用先となりうる文書との方向性の制約である引用方向制約を導入して、引用の順序関係を決める。引用方向制約は、時間条件と、アクセス権条件とを含む。時間条件とは、引用元の文書は、引用先の文書が作成されるより以前に作成されている必要があるという条件である。また、アクセス権条件とは、引用先の文書の著者は引用元の文書にアクセスできる(アクセス権が与えられている)という条件である。
【0076】
順序関係推定手段201は、文書データベース101にアクセスして、文書の作成時刻を文書データベース101から取得(抽出)して比較することによって、時間条件をチェックできる。なお、時間条件のチェック処理は、順序関係推定手段201の時間順序判断手段2012によって実行される。
【0077】
時間順序判断手段2012は、文書の作成時刻を、順序関係推定手段201を通して文書データベース101から取得(抽出)する。そして、時間順序判断手段2012は、抽出した各文書の作成時刻を比較して、引用先となりうる文書と、引用元となりうる文書とを判断する。なお、時間順序判断手段2012は、文書データベース101にアクセスして、直接文書の作成時刻を取得(抽出)するようにしてもよい。
【0078】
また、順序関係推定手段201は、著者Aが文書bにアクセスできるか否かを、アクセス権判断手段2011を用いて判断する。アクセス権判断手段2011は、順序関係推定手段201を通して、文書データベース101から文書bに必要なアクセスレベルを抽出する。また、アクセス権判断手段2011は、順序関係推定手段201を通して、アクセスデータベース103から著者Aのアクセスレベルを抽出する。そして、アクセス権判断手段2011は、抽出した文書bのアクセスレベルと著者Aのアクセスレベルとを比較して、アクセス権条件を満たすか否かを判断する。
【0079】
この場合、アクセス権判断手段2011は、著者Aのアクセスレベルが文書bのアクセスレベル以上であれば、著者Aが文書bにアクセスできる(アクセス権条件を満たす)と判断する。すなわち、アクセス権判断手段2011は、文書bが引用元となりえると判断する。また、アクセス権判断手段2011は、著者Aのアクセスレベルが文書bのアクセスレベル以上でなければ、著者Aが文書bにアクセスできない(アクセス権条件を満たさない)と判断する。すなわち、アクセス権判断手段2011は、文書bが引用元となりえないと判断する。
【0080】
なお、アクセス権判断手段2011は、文書データベース101とアクセスデータベース103とに、直接アクセスするようにしてもよい。
【0081】
図4は、ステップS104の順序関係の推定処理の一例を示す流れ図である。ステップS104において、順序関係推定手段201は、ステップS101で取得した文書集合に含まれる文書の組み合わせ(di,dj)に対して、文書データベース101から文書(di又はdj)の作成時刻を抽出する。また、順序関係推定手段201は、文書di及び文書djの著者のIDを用いて、アクセスレベル情報をアクセスデータベース103から取得(抽出)する。
【0082】
すなわち、順序関係推定手段201は、文書(di又はdj)の作成時刻の直前のアクセスレベル情報を用いて引用順序を決定する。そして、順序関係推定手段201は、引用方向制約条件を用いて、以下に示す手順に従って、文書diと文書djとの引用順序を決める。
【0083】
順序関係推定手段201は、文書diの著者が文書djにアクセスできるか否かを判断するとともに、文書djの著者が文書diにアクセスできるか否かを判断する。文書djの著者が文書diにアクセスできるが、文書diの著者が文書djにアクセスできないと判断した場合には(ステップS401)、順序関係推定手段201は、文書djが引用先の文書であり、文書diが引用元の文書であると判断する(ステップS402)。
【0084】
また、文書diの著者が文書djにアクセスできるが、文書djの著者が文書diにアクセスできないと判断した場合には(ステップS403)、順序関係推定手段201は、文書diが引用先の文書であり、文書djが引用元の文書であると判断する(ステップS404)。
【0085】
また、文書diの著者が文書djにアクセスでき、かつ、文書djの著者が文書diにアクセスできると判断した場合には(ステップS405のY)、順序関係推定手段201は、文書diと文書djとの作成時刻に基づいて、文書diと文書djとの順序関係を推定する。
【0086】
文書diが文書djより先に作成されたと判断した場合には(ステップS406)、順序関係推定手段201は、文書diが引用元の文書であり、文書djが引用先の文書であると判断する(ステップS407)。逆に、文書djが文書diより先に作成されたと判断した場合には(ステップS408のY)、順序関係推定手段201は、文書diが文書djを引用していると判断する(ステップS409)。また、文書diと文書djとの作成時刻が同じであると判断した場合には(ステップS408のN)、順序関係推定手段201は、この2つの文書di,djには引用関係がないと判断する(ステップS410)。
【0087】
また、文書diの著者が文書djにアクセスできず、かつ、文書djの著者が文書diにアクセスできないと判断した場合には(ステップS405のN)、順序関係推定手段201は、文書diと文書djとに引用関係がないと判断する(ステップS410)。
【0088】
そして、ステップS105に移行し、順序関係推定手段201は、コントローラ100に推定結果を返す(出力する)。
【0089】
(3)時空間制約条件を用いた引用度計算処理(ステップS106、ステップS107、ステップS108、及びステップS109)と、引用関係登録処理(ステップS110,S111):文書ペア(di,dj)に対して、コントローラ100は、引用度計算手段202を用いて、パッセージ単位に総当たりで引用度を計算する。
【0090】
引用は文書中のパッセージ単位で行われることが多いため、本実施形態では、暗黙引用関係発見システムは、パッセージ単位で引用度を計算して引用関係の有無を判定する。暗黙引用関係発見システムは、2つのパッセージの引用度が高ければ、この2つのパッセージには引用関係があると判断する。なお、この場合、この2つのパッセージを含む文書間にも引用関係があることになる。以下、特別の説明がない限り、文書d1を引用元文書とし、文書d2を引用先文書として説明を行う。
【0091】
引用度計算手段202は、文書の時間距離と、著者距離と、パッセージ間の類似度とを用いて、引用度を計算される。引用度計算手段202は、時間距離と著者距離とを文書単位で計算する。一方、引用度計算手段202は、類似度をパッセージ単位で計算する。
【0092】
本実施形態では、時間距離は、2つの文書の作成時刻の差である。また、著者距離は、組織空間における文書の著者を繋げるパスの最短距離であり、著者の繋がりの強弱を示す尺度である。
【0093】
基本的に、類似度が高いほど、パッセージ間の引用可能性が高く、引用度が高くなる。また、著者距離が短いほど、パッセージ間の引用可能性が高く、引用度が高くなる。また、時間距離が小さい又は大きいパッセージ間の引用度は小さくなる。
【0094】
引用度計算手段202は、ステップS106で計算した時間距離と、ステップS107で計算した著者距離と、ステップS108で計算したパッセージ類似度とを用いて、ステップS109において引用度を計算する。この場合、引用度計算手段202は、統合計算手段2024を用いて、文書d1のパッセージp1と文書d2のパッセージp2との引用度citを、次の式(1)に従って計算する。
【0095】
【数1】

【0096】
ただし、式(1)において、simはパッセージの類似度である。また、式(1)において、timedisは時間距離であり、authdisは著者距離である。
【0097】
引用度計算手段202が求めた文書d1のパッセージp1と文書d2のパッセージp2との引用度citが予め定義された閾値より大きければ、コントローラ100は、文書d1のパッセージp1と文書d2のパッセージp2との間に引用関係があると判断する。そして、コントローラ100は、文書d1のID、パッセージp1のID、文書d2のID、パッセージp2のID、及び引用度citを対応付けた形で、仮想引用データベース104に引用関係の判定結果の登録を行う。なお、この引用関係の判定結果の登録処理は、ステップS111で行われる。
【0098】
以下、パッセージの類似度、時間距離、及び著者距離の計算方法についてそれぞれ説明する。
【0099】
(3−1)時間間隔条件を用いた時間距離計算(ステップS106):一般に、同時に作成された文書には引用関係が存在する可能性が低い。つまり、引用元の文書と引用先の文書との作成時刻が近いほど、引用関係が存在する可能性が高い。一方、この文書間の作成時刻の差が大きくなると、文書が読まれる可能性が高くなるので、引用される可能性が大きくなる。
【0100】
しかしながら、この文書館の作成時刻の差が極端に大きくなると、非常に優れた文書でない限り、かえって忘却されてしまい、引用される可能性が低くなる。つまり、図5に示しているように、文書間の作成時刻の差の増加に伴って、文書間の引用可能性は、一旦増大した後にある時点から減少していく傾向がある。
【0101】
本実施形態では、時間距離計算手段2022は、時間距離として、単位時間距離に換算された(正規化された)文書の作成時刻の差を求める。ステップS106では、時間距離計算手段2022は、コントローラ100を通して、文書データベース101から各文書の作成時刻、文書タイプ、及び文書タイプに対応した単位時間距離の換算パラメータを取得(抽出)する。そして、時間距離計算手段2022は、抽出したこれらの情報を用いて、次の式(2)に従って、文書d1と文書d2との時間距離を計算する。
【0102】
timedis(d1,d2)=(|time(d1)−time(d2)|)/μ(d1) ・・・ 式(2)
【0103】
ただし、式(2)において、time(d1)及びtime(d2)は、それぞれ、時間(hour)単位とした文書d1及び文書d2の作成時刻である。また、μは、引用元文書のタイプに対応した単位時間距離の換算パラメータである。単位時間距離の換算パラメータは、前述したように、文書のタイプ毎に予め設定されている。
【0104】
例えば、文書が週報である場合には、換算パラメータμは、24時間(1日)と設定できる。また、例えば、文書が社内報告RNである場合には、換算パラメータは、720時間(1ヶ月)と設定できる。このように、単位時間距離に換算することによって、時間距離計算手段2022は、文書の有効時間の長短の影響を取り除いた形で時間距離を求めることができる。
【0105】
なお、時間距離計算手段2022は、文書データベース101にアクセスして、文書の作成時刻と換算パラメータμとを直接取得(抽出)するようにしてもよい。
【0106】
(3−2)組織相関条件を用いた著者距離計算(ステップS107):一般に、組織空間において、強い繋がりのある著者同士は、近い空間にいるため、密にコミュニケーションを行っている可能性が高い。そのため、相手の考え方や相手が作成した文書に対する理解が高く、相手が作成した文書を引用する可能性が高い。例えば、同じ部署内の同僚や上司、部下の関係にある著者同士は、相手が作成した文書を引用する可能性が高い。
【0107】
本実施形態では、著者距離計算手段2023は、著者距離は、組織構成表記憶手段102から取得(抽出)する組織グラフを用いて、著者距離を計算する。例えば、図2(a)に示す組織グラフでは、ノードは社員に対応し、枝は社員間の組織関係を表している。著者距離計算手段2023は、図2(a)に示されるような組織グラフを用いて、以下の処理に従って著者距離を算出する。
【0108】
著者距離計算手段2023は、引用度計算手段202を通して、引用先文書d2の作成時刻に基づいて、組織構成表記憶手段102から組織グラフを取得(抽出)する。つまり、著者距離計算手段2023は、文書d2の作成時刻の直前の組織グラフを取得して利用することによって、著者距離を求める。なお、著者距離計算手段2023は、引用度計算手段202を通さず、直接組織構成表記憶手段102から組織グラフに関する情報を取得(抽出)するようにしてもよい。
【0109】
ステップS107では、著者距離計算手段2023は、文書d1と文書d2との著者距離authdisを、次の式(3)に従って求める。すなわち、著者距離計算手段2023は、組織グラフにおけるノードd1.authorとノードd2.authorとを結ぶ最短パスの長さとして計算する。なお、パスの長さは、パスの枝の数として数えられる。また、文書diと文書djとの著者が複数いる場合には、著者距離計算手段2023は、その全ての組み合わせについて、著者距離を計算することになる。
【0110】
authdis(d1,d2)=shortestpath(d1.author,d2.author) ・・・ 式(3)
【0111】
この求めた著者距離が短いほど、文書d1と文書d2との著者の繋がりが強く、同じ空間にいる可能性が高い。そのため、コントローラ100は、相手の文書を引用する可能性が高いと判断できる。
【0112】
例えば、図2(a)に示す組織グラフの例では、「S統括」と「H部長」との距離は1であり、「S統括」と「K主任研究員」との距離は2である。従って、コントローラ100は、「S統括」と「H部長」の繋がりがより強く、「S統括」が「K主任研究員」の文書より「H部長]の文書を引用する可能性が高いと判断する。
【0113】
なお、著者距離計算手段2023は、2人の著者を繋げる最短パスを、グラフの最短路問題として求めることができる。例えば、著者距離計算手段2023は、著者間を繋げる最短パスを、Dijkstraのアルゴリズムを利用して求めることができる。なお、Dijkstraのアルゴリズムを利用して最短パスを求める方法は、例えば、文献B「石畑清、”アルゴリズムとデータ構造”、岩波書店、pp.260−270」に記載されている。
【0114】
(3−3)類似度計算(ステップS108):類似度計算手段2021は、例えば、以下に示す式(4)を用いて、類似度を計算することができる。なお、式(4)は、ベクトル空間モデルに基づいてキーワードベクトルの余弦を計算する式である(文献A参照)。
【0115】
【数2】

【0116】
ただし、式(4)において、パッセージp1に対するキーワードベクトルは(x1,x2,...,xn)であり、パッセージp2に対するキーワードベクトルは(y1,y12,...,ym)である。
【0117】
類似度計算手段2021は、引用度計算手段202を通して、文書データベース101から、パッセージp1とp2とのテキストをそれぞれ抽出する。なお、類似度計算手段2021は、引用度計算手段202を通さず、文書データベース101から直接パッセージp1とp2とのテキストを取得(抽出)してもよい。パッセージ間の類似度が高い場合には、パッセージ間に引用関係のある可能性が高い。なお、類似度計算手段2021は、文書以外のコンテンツである場合、相応する類似度の計算式を用意して類似度計算を行う。
【0118】
以上のように、本実施形態によれば、コンテンツ間の作成時間の差と、コンテンツを作成した著者間の関係の度合いとを考慮して、コンテンツ間の引用関係を抽出するので、引用関係の誤検出を除外することができる。従って、コンテンツ中の暗黙引用関係の抽出を可能とするとともに、暗黙引用関係抽出の精度向上を可能とすることができる。
【0119】
すなわち、本実施形態によれば、引用方向制約を用いた順序関係の推定手段と、時空間制約条件に基づいて、類似度、時間距離及び著者距離を用いた引用度の計算手段とを備える。引用度に基づいて引用関係の抽出が行えるので、コンテンツ中に明示されていない暗黙引用関係であっても抽出することができる。また、時間距離及び著者距離を考慮した抽出を行えるので、類似度ベースの手法を用いただけでは、実際には引用関係がないにもかかわらず引用関係があるものと誤検出されることを除外できる。つまり、引用関係の検出の精度を向上させることができる。
【0120】
本実施形態に示した手法によって構築された暗黙引用関係抽出システムの仮想引用データベースと文書データベースとを参照することによって、以下のような利用方法が可能となる。例えば、文書データベース内の文書IDやファイルパスを参照して社内の文書を表示し、表示した文書に関連する文書を表示することができる。また、文書中のパッセージ間で自動的にハイパーリンクを生成し、相互に参照を行うことが可能となる。また、引用関係をWebのリンクと同様に見なせば、Webの検索と同様にリンク関係を用い、重要文書のランキングを行うことができる。
【0121】
さらに、引用関係のパッセージ単位でのノベルティ(新規度)やオーソリティ(非引用度)を求め、オリジナリティの高い文書を作成している著者を特定することによって業績評価を行うことができる。
【0122】
なお、ノベルティやオーソリティ、オリジナリティは、例えば以下のような式(5)を用いて求めることができる。
【0123】
O(p)=A(p)・N(p)
N(p)=1/(refin(p)+1)
A(p)=refout(p)
・・・ 式(5)
【0124】
ここで、式(5)において、O(p)はパッセージpのオリジナリティであり、N(p)はパッセージpのノベルティであり、A(p)はパッセージpのオーソリティである。また、refout(p)はパッセージpを引用するパッセージの数であり、refin(p)はパッセージpが引用しているパッセージの数である。例えば、著者毎の文書内のパッセージのオリジナリティを求め、平均値を求めることで、著者の作成する文書の平均のオリジナリティを求めることができる。
【0125】
実施形態2.
次に、本発明の第2の実施形態について図面を参照して説明する。図6は、第2の実施形態における暗黙引用関係発見システムの構成例を示すブロック図である。図6に示すように、本実施形態では、暗黙引用関係発見システムは、第1の実施形態で示した構成要素に加えて、文書登録監視手段301を含む点で、第1の実施形態と異なる。また、本実施形態では、順序関係推定手段201が、第1の実施形態で示した構成要素のうち、時間順序判断手段2012を含まない点で、第1の実施形態と異なる。
【0126】
すなわち、本実施形態では、暗黙引用関係発見システムは、コントローラ100と、文書データベース101と、組織構成表記憶手段102と、アクセスデータベース103と、仮想引用データベース104と、順序関係推定手段201と、引用度計算手段202と、文書監視手段301とを含む。以下、第1の実施形態と同様の構成要素については、図1に示したブロック図と同一の符号を付し、詳細な説明を省略する。
【0127】
文書登録監視手段301は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。文書監視手段301は、文書データベース101への新規文書の登録をモニタリングする機能を備える。
【0128】
本実施形態では、コントローラ100は、文書監視手段301が検出する新規文書に対して、文書データベース101に格納されている各文書について、検出した新規文書より以前に登録された文書(既登録文書)との引用関係を判定する。この場合、コントローラ100は、順序関係推定手段201と引用度計算手段202とを用いて、新規文書と既登録文書との引用関係を判定する。そして、コントローラ100は、引用関係の判定結果を仮想引用データベース104に登録する。
【0129】
順序関係推定手段201は、アクセス権判断手段2011を含む。順序関係推定手段201は、引用方向制約に基づいて、引用度の高い文書ペアの引用元と引用先との順序関係を推定する。すなわち、順序関係推定手段201は、文書監視手段301が検出した新規文書と、コントローラ100を通して文書データベース101から取得(抽出)した新規文書より以前に登録された既登録文書との引用の順序関係を推定する。この場合、順序関係推定手段201は、アクセス権判断手段2011を利用して、引用元文書へのアクセス権が必要である旨のアクセス権条件に基づいて推定する。つまり、順序関係推定手段201は、引用元の文書と引用先の文書とを推定して決める。
【0130】
引用度計算手段202は、パッセージの引用の可能性を示す引用度を計算する。
【0131】
コントローラ100は、順序関係推定手段201と引用度計算手段202とを用いて、パッセージ間の引用関係を抽出して、仮想引用データベース104に格納させる。
【0132】
次に、動作について説明する。図7は、第2の実施形態における暗黙引用関係発見システムがコンテンツ(電子文書中のパッセージ)間に含まれる暗黙引用関係を抽出する処理の一例を示す流れ図である。なお、本実施形態において、第1の実施形態と同様の処理を行うステップについては、詳細な説明を省略する。
【0133】
本実施形態では、文書登録監視手段301は、文書データベース101の新規文書の登録を繰り返しモニタリングしている。例えば、文書登録監視手段301は、所定時間毎に、文書データベース101に新規文書が登録されたか否かを判断する(ステップS200)。新規文書が登録されたと判断すると、文書登録監視手段301は、新規文書が登録された旨を、コントローラ100に知らせる(例えば、通知情報を出力する)。新規文書の登録がなければ、文書登録監視手段301は、ステップS200のモニタリングの処理を継続する。
【0134】
コントローラ100は、文書登録監視手段301が検出した新規文書dに対して、引用関係抽出の処理を開始する(ステップS201)。コントローラ100は、文書データベース101から、文書登録監視手段301が検出した新しい文書の登録の時刻より以前に作成された既登録文書の集合Dを取得(抽出)する(ステップS202)。そして、コントローラ100は、ステップS200で検出した個々の新規文書dに対して、以下の処理を行う。
【0135】
コントローラ100は、抽出した文書集合Dに含まれる文書di(0<i<D.count)を対象に、以下に示すステップS204〜S211の処理を繰り返し実行する(ステップS203)。なお、iは文書の順番を示し、D.countは文書の総数を示している。
【0136】
まず、コントローラ100は、順序関係推定手段201に、処理対象となる文書dと文書diとを渡す(出力する)。順序関係推定手段201は、アクセス権判断手段2011を用いて、文書dと文書diとの引用の順序関係を推定する(ステップS204)。そして、順序関係の推定結果をコントローラ100に返す(出力する)。
【0137】
コントローラ100は、順序関係推定手段201から順序関係の推定結果を受け取る(入力する)。そして、コントローラ100は、入力した推定結果が文書dと文書diとに引用の順序関係があることを示しているか否かを判断する(ステップS205)。文書dと文書diとに引用の順序関係がないという推定結果であれば、コントローラ100は、そのままステップS212にジャンプ(移行)する。そして、ステップS204〜S212のループ処理を繰り返す。
【0138】
文書dと文書diとに引用の順序関係があるという推定結果であれば、コントローラ100は、文書d及び文書diとともに、文書dと文書diとの引用の順序関係を引用度計算手段202に渡す(出力する)。
【0139】
次いで、引用度計算手段202は、時間距離計算手段2022を用いて、文書dと文書diとの時間距離を計算する(ステップS206)。また、同時に、引用度計算手段202は、著者距離計算手段2023を用いて、文書dの著者と文書diの著者との著者距離を計算する(ステップS207)。さらに、同時に、引用度計算手段202は、類似度計算手段2021を用いて、文書d及び文書diに含まれるパッセージの類似度を計算する(ステップS208)。
【0140】
次いで、引用度計算手段202は、ステップS206で計算した時間距離と、ステップS207で計算した著者距離と、ステップS208で計算したパッセージ類似度とを用いて、引用度cを求める。この場合、引用度計算手段202は、統合計算手段2024を利用して、文書d及び文書diに含まれる2つのパッセージの組み合わせの引用度cを計算する(ステップS209)。そして、引用度計算手段202は、引用度cの計算結果を、コントローラ100に渡す(出力する)。
【0141】
次いで、コントローラ100は、ステップS209で計算した引用度cの値を引用度計算手段202から受け取る(入力する)。そして、コントローラ100は、入力した引用度cと予め定義されている閾値との比較を行い、引用度cの値が所定の閾値より大きいか否かを判断する(ステップS210)。
【0142】
コントローラ100は、引用度cが所定の閾値より大きいと判断した場合には、文書dと文書diとに含まれるパッセージの組み合わせに引用関係があると判断する。そして、コントローラ100は、引用関係があると判断した判定結果を、仮想引用データベース104に登録する(ステップS211)。
【0143】
次いで、コントローラ100は、文書の順番を示す係数iに1加算(i=i+1)して、ステップS203に移行する。すなわち、次の文書diについて、ステップS204〜S211の処理を行う。
【0144】
その後、文書登録監視手段301が次の新規文書dを検出した場合には(ステップS213)、コントローラ100は、次の新規文書dを対象にステップS201〜S212と同様の処理を行う。
【0145】
以下、第1の実施形態とは異なる処理を行うステップS200,S202,S204の処理について説明する。まず、ステップS200において、文書登録監視手段301は、文書データベース101をモニタリングし、新規文書の登録があるか否かを監視する。新規文書の登録を検出したら、文書登録監視手段301は、新規登録された新規文書群をコントローラ100に知らせる(例えば、通知情報を出力する)。そして、コントローラ100は、新規文書群と、文書データベース101に以前に登録された既登録文書との引用関係の抽出を行う。つまり、本実施形態では、暗黙引用関係発見システムは、新規文書の登録をトリガとして、引用関係の発見の処理を行う。文書登録監視手段301による新規文書登録の検出は、このトリガの役割を果たす。
【0146】
ステップS202において、コントローラ100は、文書データベース101にアクセスして、ステップS200で検出した新規文書より以前に登録された既登録文書の集合を、文書データベース101から取得(抽出)する。本実施形態では、文書データベース101への登録時刻が文書の作成時刻を示している。そのため、コントローラ100は、文書データベース101が格納する文書の作成時刻をチェックすることによって、新規文書より以前に登録された既登録文書集合を取得(抽出)することができる。
【0147】
図8は、第2の実施形態におけるステップS204の順序関係の推定処理の一例を示す流れ図である。本実施形態では、文書集合Dに含まれる文書diが新規文書dより以前に作成されていることが既知であるため、順序関係推定手段201は、時間条件の検査の処理を行う必要がない。そのため、順序関係推定手段201は、アクセス権判断手段2011を用いて、文書データベース101から取得(抽出)した著者情報とアクセスデータベース103から取得(抽出)したアクセス権条件とに基づいて、以下に示す手順に従って、文書dと文書diとの引用順序を決める。なお、アクセス権判断手段2011は、順序関係推定手段201を通さず、文書データベース101とアクセスデータベース103とに直接アクセスするようにしてもよい。
【0148】
順序関係推定手段201は、文書diの著者が文書dにアクセスできるか否かを判断するとともに、文書dの著者が文書diにアクセスできるか否かを判断する。文書dの著者が文書diにアクセスできるが、文書diの著者が文書dにアクセスできないと判断した場合には(ステップS451)、順序関係推定手段201は、文書dが引用先の文書であり、文書diが引用元の文書であると判断する(ステップS452)。
【0149】
また、文書diの著者が文書dにアクセスできるが、文書dの著者が文書diにアクセスできないと判断した場合には(ステップS453)、順序関係推定手段201は、文書diが引用先の文書であり、文書dが引用元の文書であると判断する(ステップS454)。
【0150】
また、文書dの著者が文書diにアクセスでき、かつ、文書diの著者が文書dにアクセスできると判断した場合には(ステップS455のY)、順序関係推定手段201は、文書dが引用先の文書であり、文書diが引用元の文書であると判断する(ステップS456)。
【0151】
また、文書dの著者が文書diにアクセスできず、かつ、文書diの著者が文書dにアクセスできないと判断した場合には(ステップS455のN)、順序関係推定手段201は、文書diと文書dには引用関係がないと判断する(ステップS457)。
【0152】
そして、ステップS205に移行し、順序関係推定手段201は、コントローラ100に推定結果を渡す(出力する)。
【0153】
以上のように、本実施形態によれば、順序関係推定手段201は、文書登録監視手段301が検出した新規文書より以前に登録された既登録文書のみを取得して処理すれば、文書間の引用関係を推定することができる。従って、引用の順序関係の推定処理において、時間条件の検査の処理を省略することができ、処理負担の軽減を図ることができる。また、本実施形態によれば、既登録文書に対しての処理のみを行えばよいので、処理の対象となる文書数を削減することができる。
【0154】
次に、本発明による引用関係抽出システムの最小構成について説明する。図9は、引用関係抽出システムの最小の構成例を示すブロック図である。図9に示すように、引用関係抽出システムは、最小の構成要素として、文書データベース101と、引用度計算手段202とを含む。
【0155】
引用度計算手段202は、コンテンツ間の作成、更新又は参照時間の差と、コンテンツを作成、更新又は参照した著者間の関係の度合いとに基づいて、コンテンツ間で引用が行われた可能性の度合いを示す引用度を算出する機能を備える。また、コントローラ100は、引用度計算手段202が算出した引用度に基づいて、コンテンツ間の引用関係を抽出する機能を備える。
【0156】
図9に示す最小構成の引用関係抽出システムによれば、コンテンツ間の作成、更新又は参照時間の差と、コンテンツを作成、更新又は参照した著者間の関係の度合いとを考慮して、コンテンツ間の引用関係を抽出するので、引用関係の誤検出を除外することができる。従って、コンテンツ中の暗黙引用関係の抽出を可能とするとともに、暗黙引用関係抽出の精度向上を可能とすることができる。
【0157】
なお、上記の各実施形態では、以下の(1)〜(8)に示すような引用関係抽出システム(暗黙引用関係発見システム)の特徴的構成が示されている。
【0158】
(1)引用関係抽出システムは、コンテンツ間の作成、更新又は参照時間の差と、コンテンツを作成、更新又は参照した著者間の関係の度合いとに基づいて、コンテンツ間で引用が行われた可能性の度合いを示す引用度を算出する引用度算出手段(例えば、引用度計算手段202によって実現される)と、引用度算出手段が算出した引用度に基づいて、コンテンツ間の引用関係を抽出する引用関係抽出手段(例えば、コントローラ100によって実現される)とを備えたことを特徴とする。
【0159】
(2)引用関係抽出システムは、引用元となりうるコンテンツと引用先となりうるコンテンツとの順序関係を推定する順序関係推定手段(例えば、順序関係推定手段201によって実現される)を備え、引用関係抽出手段は、引用度算出手段が算出した引用度及び順序関係推定手段が推定した順序関係に基づいて、コンテンツ間の引用関係を抽出するように構成されていてもよい。
【0160】
(3)引用関係抽出システムにおいて、引用度算出手段は、コンテンツ間の作成、更新又は参照時間の差を示す時間距離を算出する時間距離算出手段(例えば、時間距離計算手段2022によって実現される)と、時間距離算出手段が算出した時間距離に基づいて引用度を算出する算出手段(例えば、総合計算手段2024によって実現される)とを含むように構成されていてもよい。
【0161】
(4)引用関係抽出システムにおいて、引用度算出手段は、コンテンツを作成、更新又は参照した著者間の関係の度合いを示す著者距離を算出する著者距離算出手段(例えば、著者距離計算手段2023によって実現される)と、著者距離算出手段が算出した著者距離に基づいて引用度を算出する算出手段(例えば、総合計算手段2024によって実現される)とを含むように構成されていてもよい。
【0162】
(5)引用関係抽出システムにおいて、引用度算出手段は、コンテンツ間の類似度を算出する類似度算出手段(例えば、類似度計算手段2021によって実現される)を含み、算出手段は、時間距離算出手段が算出した時間距離と、著者距離算出手段が算出した著者距離と、類似度算出手段が算出した類似度とを統合した引用度を算出するように構成されていてもよい。
【0163】
(6)引用関係抽出システムにおいて、順序関係推定手段は、コンテンツに設定されたアクセス権のレベルと、著者に設定されたアクセス権のレベルとに基づいて、引用元となりうるコンテンツと引用先となりうるコンテンツとの順序関係を推定するアクセス権順序推定手段(例えば、アクセス権判断手段2011によって実現される)を含み、アクセス権順序推定手段は、著者に設定されたアクセス権のレベルがコンテンツに設定されたアクセス権のレベル以上であると判断すると、当該コンテンツを引用元となりうるコンテンツと推定するように構成されていてもよい。
【0164】
(7)引用関係抽出システムにおいて、順序関係推定手段は、コンテンツの作成、更新又は参照時間に基づいて、引用元となりうるコンテンツと引用先となりうるコンテンツとの順序関係を推定する時間順序推定手段(例えば、時間順序判断手段2012によって実現される)を含み、時間順序推定手段は、作成、更新又は参照時間が古いコンテンツを引用元となりうるコンテンツと推定し、作成、更新又は参照時間が新しいコンテンツを引用先となりうるコンテンツと推定するように構成されていてもよい。
【0165】
(8)引用関係抽出システムにおいて、時間距離算出手段は、コンテンツタイプに応じたコンテンツの作成、更新又は参照時間の差を正規化するための正規化パラメータ(例えば、単位時間距離に換算するためのパラメータ)を用いて、正規化した時間距離を算出するように構成されていてもよい。
【産業上の利用可能性】
【0166】
本発明は、社内コンテンツを体系化する情報処理装置や、社内コンテンツの検索装置、社内の業績評価を支援する装置といった用途に適用できる。また、コンテンツの再利用関係を発見して原著と出典とを明確にし著作権保護を支援するための装置といった用途にも適用できる。
【図面の簡単な説明】
【0167】
【図1】本発明による暗黙引用関係発見システムの構成の一例を示すブロック図である。
【図2】組織構成グラフと、その組織構成グラフに対する隣接行列と、著者情報との例を示す説明図である。
【図3】暗黙引用関係発見システムがコンテンツ(電子文書中のパッセージ)間に含まれる暗黙引用関係を抽出する処理の一例を示す流れ図である。
【図4】順序関係の推定処理の一例を示す流れ図である。
【図5】引用の可能性と時間距離との関係を示す説明図である。
【図6】第2の実施形態における暗黙引用関係発見システムの構成例を示すブロック図である。
【図7】第2の実施形態における暗黙引用関係発見システムがコンテンツ(電子文書中のパッセージ)間に含まれる暗黙引用関係を抽出する処理の一例を示す流れ図である。
【図8】第2の実施形態における順序関係の推定処理の一例を示す流れ図である。
【図9】引用関係抽出システムの最小の構成例を示すブロック図である。
【符号の説明】
【0168】
100 コントローラ
101 文書データベース
102 組織構成表記憶手段
103 アクセスデータベース
104 仮想引用データベース
201 順序関係の推定手段
2011 アクセス権判断手段
2012 時間順序判断手段
202 引用度計算手段
2021 類似度計算手段
2022 時間距離計算手段
2023 著者距離計算手段
2024 統合計算手段
301 文書登録監視手段

【特許請求の範囲】
【請求項1】
コンテンツ間の作成、更新又は参照時間の差と、コンテンツを作成、更新又は参照した著者間の関係の度合いとに基づいて、コンテンツ間で引用が行われた可能性の度合いを示す引用度を算出する引用度算出手段と、
前記引用度算出手段が算出した引用度に基づいて、コンテンツ間の引用関係を抽出する引用関係抽出手段とを
備えたことを特徴とする引用関係抽出システム。
【請求項2】
引用元となりうるコンテンツと引用先となりうるコンテンツとの順序関係を推定する順序関係推定手段を備え、
引用関係抽出手段は、引用度算出手段が算出した引用度及び前記順序関係推定手段が推定した順序関係に基づいて、コンテンツ間の引用関係を抽出する
請求項1記載の引用関係抽出システム。
【請求項3】
引用度算出手段は、
コンテンツ間の作成、更新又は参照時間の差を示す時間距離を算出する時間距離算出手段と、
前記時間距離算出手段が算出した時間距離に基づいて引用度を算出する算出手段とを含む
請求項1又は請求項2記載の引用関係抽出システム。
【請求項4】
引用度算出手段は、
コンテンツを作成、更新又は参照した著者間の関係の度合いを示す著者距離を算出する著者距離算出手段と、
前記著者距離算出手段が算出した著者距離に基づいて引用度を算出する算出手段とを含む
請求項1から請求項3のうちのいずれか1項に記載の引用関係抽出システム。
【請求項5】
引用度算出手段は、コンテンツ間の類似度を算出する類似度算出手段を含み、
算出手段は、時間距離算出手段が算出した時間距離と、著者距離算出手段が算出した著者距離と、前記類似度算出手段が算出した類似度とを統合した引用度を算出する
請求項3又は請求項4記載のの引用関係抽出システム。
【請求項6】
順序関係推定手段は、コンテンツに設定されたアクセス権のレベルと、著者に設定されたアクセス権のレベルとに基づいて、引用元となりうるコンテンツと引用先となりうるコンテンツとの順序関係を推定するアクセス権順序推定手段を含み、
前記アクセス権順序推定手段は、著者に設定されたアクセス権のレベルがコンテンツに設定されたアクセス権のレベル以上であると判断すると、当該コンテンツを引用元となりうるコンテンツと推定する
請求項2記載の引用関係抽出システム。
【請求項7】
順序関係推定手段は、コンテンツの作成、更新又は参照時間に基づいて、引用元となりうるコンテンツと引用先となりうるコンテンツとの順序関係を推定する時間順序推定手段を含み、
前記時間順序推定手段は、作成、更新又は参照時間が古いコンテンツを引用元となりうるコンテンツと推定し、作成、更新又は参照時間が新しいコンテンツを引用先となりうるコンテンツと推定する
請求項2又は請求項6記載の引用関係抽出システム。
【請求項8】
時間距離算出手段は、コンテンツタイプに応じたコンテンツの作成、更新又は参照時間の差を正規化するための正規化パラメータを用いて、正規化した時間距離を算出する請求項3から請求項5のうちのいずれか1項に記載の引用関係抽出システム。
【請求項9】
コンテンツ間の作成、更新又は参照時間の差と、コンテンツを作成、更新又は参照した著者間の関係の度合いとに基づいて、コンテンツ間で引用が行われた可能性の度合いを示す引用度を算出する引用度算出ステップと、
算出した前記引用度に基づいて、コンテンツ間の引用関係を抽出する引用関係抽出ステップとを
含むことを特徴とする引用関係抽出方法。
【請求項10】
引用元となりうるコンテンツと引用先となりうるコンテンツとの順序関係を推定する順序関係推定ステップを含み、
引用関係抽出ステップで、算出した引用度及び推定した前記順序関係に基づいて、コンテンツ間の引用関係を抽出する
請求項9記載の引用関係抽出方法。
【請求項11】
引用度算出ステップで、
コンテンツ間の作成、更新又は参照時間の差を示す時間距離を算出し、
算出した前記時間距離に基づいて引用度を算出する
請求項9又は請求項10記載の引用関係抽出方法。
【請求項12】
引用度算出ステップで、
コンテンツを作成、更新又は参照した著者間の関係の度合いを示す著者距離を算出し、
算出した前記著者距離に基づいて引用度を算出する
請求項9から請求項11のうちのいずれか1項に記載の引用関係抽出方法。
【請求項13】
引用度算出ステップで、
コンテンツ間の類似度を算出し、
算出した時間距離、著者距離及び前記類似度を統合した引用度を算出する
請求項11又は請求項12記載のの引用関係抽出方法。
【請求項14】
順序関係推定ステップで、コンテンツに設定されたアクセス権のレベルと、著者に設定されたアクセス権のレベルとに基づいて、著者に設定されたアクセス権のレベルがコンテンツに設定されたアクセス権のレベル以上であると判断すると、当該コンテンツを引用元となりうるコンテンツと推定することによって、引用元となりうるコンテンツと引用先となりうるコンテンツとの順序関係を推定する請求項10記載の引用関係抽出方法。
【請求項15】
順序関係推定ステップで、コンテンツの作成、更新又は参照時間に基づいて、作成、更新又は参照時間が古いコンテンツを引用元となりうるコンテンツと推定し、作成、更新又は参照時間が新しいコンテンツを引用先となりうるコンテンツと推定することによって、引用元となりうるコンテンツと引用先となりうるコンテンツとの順序関係を推定する請求項10又は請求項14記載の引用関係抽出方法。
【請求項16】
引用度算出ステップで、コンテンツタイプに応じたコンテンツの作成、更新又は参照時間の差を正規化するための正規化パラメータを用いて、正規化した時間距離を算出する請求項11から請求項13のうちのいずれか1項に記載の引用関係抽出方法。
【請求項17】
コンピュータに、
コンテンツ間の作成、更新又は参照時間の差と、コンテンツを作成、更新又は参照した著者間の関係の度合いとに基づいて、コンテンツ間で引用が行われた可能性の度合いを示す引用度を算出する引用度算出処理と、
算出した前記引用度に基づいて、コンテンツ間の引用関係を抽出する引用関係抽出処理とを
実行させるための引用関係抽出用プログラム。
【請求項18】
コンピュータに、
引用元となりうるコンテンツと引用先となりうるコンテンツとの順序関係を推定する順序関係推定処理を実行させ、
引用関係抽出処理で、算出した引用度及び推定した前記順序関係に基づいて、コンテンツ間の引用関係を抽出する処理を実行させる
請求項17記載の引用関係抽出用プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate