説明

情報マップ作成装置、情報マップ作成方法、及びプログラム

【課題】特定のノードへの関係線の集中と重要な情報の欠落とが適切に回避された情報マップを作成すること。
【解決手段】各情報要素について当該情報要素が有する関連の強度を集計し、該集計値に基づいて選択される情報要素について、該情報要素が有する関連をも伴って複製を作成する複製手段と、複製元の情報要素又は複製先の情報要素の一方が有する関連の中で強度が相対的に低い一部の関連を除外した状態で、各情報要素間の関連について、間接的な経路も含む第二の強度を算出する関連度算出手段と、複製元及び複製先の情報要素ごとに当該情報要素が有する関連の第二の強度を集計する関連度集計手段と、複製元及び複製先の情報要素のうち集計手段による集計値の大きい情報要素が有する関連の中で第二の強度が相対的に低い関連を表示対象から除外する重複解消手段とを有する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報要素間を接続する関係線によって情報要素間の関連性を表現する情報マップを作成する情報マップ作成装置、情報マップ作成方法、及びプログラムに関する。
【背景技術】
【0002】
テキストマイニング製品や特許分析システム等には、検索や分析を支援するための情報マップ作成・表示機能が実装されている。情報マップでは、検索された情報又は分析対象とされた情報に含まれている単語やデータ項目(特許や文献の書誌情報等)の関係が図1に示されるようなネットワーク図として図解化される。情報マップ上の単語やデータ項目(以下、「情報要素」という。)の配置位置や情報要素間の関係線(エッジ)は、情報要素間の共起情報(同一文書に一緒に出現する度合いを示す情報)等を用いて決定又は作成される。情報マップとして、単語のマップを作成すれば文書群の主要トピックを知ることができる。情報マップとしてIPC(国際特許分類)のマップを作成すれば特許文書群の技術分野の依存関係を知ることができる。情報マップとして発明者のマップを作成すれば共同出願による人脈を知ることができる。このように、情報マップによって大量文書群の概要情報を容易に把握することが可能となる。
【0003】
ところで、情報マップでは、図の可読性を高めるために、図を簡略化することが重要である。図の簡略化のためにエッジの間引きを行う技術が開発されている。エッジの間引きでは、関連の弱いエッジから順番に削除していく方式が一般的である。しかし、単純な間引き方式では特定のノードにエッジが集中してしまう可能性があった。その結果、ネットワーク図としても意味が無い(情報量が無い)情報マップになってしまうことがあった。例えば、図2は、特定のノードにエッジが集中した情報マップの例を示す図である。図2のような情報マップでは、情報要素Xが他の情報要素と関係を有していることしか示されていない。
【0004】
そこで、エッジの間引き方式を工夫(例えば、各ノードへの最大エッジ数を制限)することにより、特定ノードへのエッジ集中を回避するための技術が提案されている(例えば、特許文献1)。特許文献1に記載された技術によれば、図3に示されるように、エッジが特定のノードにノードが集中することを回避することができる。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特許第4167855号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、情報マップの表示状態としてどのようなものが最適であるかについては、情報マップの利用目的に応じて異なる。特許文献1の場合、特定のノードへのエッジの集中の回避が優先されるため、強い関連に関するエッジが削除されてしまう可能性が有る。したがって、強い関連を優先的に把握したい場合に必ずしも最適な状態が得られるとは限らなかった。
【0007】
本発明は、上記の点に鑑みてなされたものであって、特定のノードへの関係線の集中と重要な情報の欠落とが適切に回避された情報マップを作成することのできる情報マップ作成装置、情報マップ作成方法、及びプログラムの提供を目的とする。
【課題を解決するための手段】
【0008】
そこで上記課題を解決するため、情報要素間の関連を表示する情報マップを作成する情報マップ作成装置は、各情報要素について当該情報要素が有する関連の強度を集計し、該集計値に基づいて選択される情報要素について、該情報要素が有する関連をも伴って複製を作成する複製手段と、複製元の情報要素又は複製先の情報要素の一方が有する関連の中で強度が相対的に低い一部の関連を除外した状態で、各情報要素間の関連について、間接的な経路も含む第二の強度を算出する関連度算出手段と、複製元及び複製先の情報要素ごとに当該情報要素が有する関連の前記第二の強度を集計する関連度集計手段と、複製元及び複製先の情報要素のうち前記集計手段による集計値の大きい情報要素が有する関連の中で前記第二の強度が相対的に低い関連を表示対象から除外する重複解消手段とを有する。
【発明の効果】
【0009】
特定のノードへの関係線の集中と重要な情報の欠落とが適切に回避された情報マップを作成することができる。
【図面の簡単な説明】
【0010】
【図1】情報マップの例を示す図である。
【図2】特定のノードにエッジが集中した情報マップの例を示す図である。
【図3】特定のノードへのエッジの集中を回避して間引きが行われた情報マップの例を示す図である。
【図4】本実施の形態により作成される情報マップの例を示す図である。
【図5】本発明の実施の形態における情報マップ作成装置のハードウェア構成例を示す図である。
【図6】本発明の実施の形態における情報マップ作成装置の機能構成例を示す図である。
【図7】情報マップ作成装置の全体処理手順を説明するためのフローチャートである。
【図8】情報要素の統計情報の例を示す図である。
【図9】情報要素の関連情報の例を示す図である。
【図10】関連の間引き処理の処理手順を説明するためのフローチャートである。
【図11】間接経路の関連度の加算処理を示す図である。
【図12】関連の間引き処理の内容を視覚的に説明するための図である。
【図13】関連集中度の算出処理を示す図である。
【図14】情報要素及び関連の複製処理を示す図である。
【図15】複製により重複している関連の間引き処理を示す図である。
【図16】間接経路の関連度の加算処理を示す第二の図である。
【図17】間引き結果を示す図である。
【図18】関連集中度の算出処理を示す第二の図である。
【図19】複製により重複している関連の間引き処理を示す第二の図である。
【図20】間接経路の関連度の加算処理を示す第三の図である。
【図21】間引き結果を示す第二の図である。
【発明を実施するための形態】
【0011】
以下、図面に基づいて本発明の実施の形態を説明する。まず、本実施の形態において開示される、情報マップの関係線又は関連線(以下、「エッジ」という。)の間引き方法の概要について説明する。本実施の形態では、情報マップにおいてエッジが集中しているノードを複製(又は分割)することにより、特定のノードへのエッジの集中を回避させる。
【0012】
図4は、本実施の形態により作成される情報マップの例を示す図である。同図は、図1に示される情報マップに対して本実施の形態のエッジの間引き方法を適用した結果の例である。
【0013】
同図では、エッジが集中しているノードXの複製が生成され(又はノードXが分割され)、ノードXに集中していたエッジは複製元と複製先とに振り分けられて(分配されて)いる。その結果、ノードXに集中していた強い関連を示すエッジを欠落させることなく、特定のノードへのエッジの集中が回避されている。
【0014】
但し、ノードを複製する場合、当該ノードに集中していた各エッジを複製元及び複製先のいずれに分配するかが問題となる。図1の場合であれば、互いに関連の強いノードA、B、及びCと、ノードD、E、及びFとがそれぞれグループを構成し、一方のグループが複製元に、他方のグループが複製先に接続されることが望ましい。そうすることにより、ノードX以外の他のノード間の関係も保存される(破壊されない)からである。しかし、複製元に関する情報と複製先に関する情報とは同一であるため、コンピュータの情報処理において区別するのは困難である。そこで、本実施の形態では、間接的な経路を反映した関連度(関連の強度)を利用することにより、エッジの分配に関する問題を解決している。間接的な経路を反映した関連度の利用がどのように当該問題の解決に寄与するかについては後述する。なお、間接的な経路(間接経路)とは、或る二つのノードの間の経路について、当該二つのノードを直接接続するエッジ以外のエッジによって形成される経路をいう。例えば、図1における、ノードA及びCについて、A−B−Cという経路は、間接経路に相当する。
【0015】
以下、具体的に説明する。図5は、本発明の実施の形態における情報マップ作成装置のハードウェア構成例を示す図である。図5の情報マップ作成装置10は、それぞれバスBで相互に接続されているドライブ装置100と、補助記憶装置102と、メモリ装置103と、CPU104と、表示装置105と、入力装置106とを有する。
【0016】
情報マップ作成装置10での処理を実現するプログラムは、CD−ROM等の記録媒体101によって提供される。プログラムを記録した記録媒体101がドライブ装置100にセットされると、プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。但し、プログラムのインストールは必ずしも記録媒体101より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置102は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
【0017】
メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。CPU104は、メモリ装置103に格納されたプログラムに従って情報マップ作成装置10に係る機能を実現する。表示装置105はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置106はキーボード及びマウス等であり、様々な操作指示を入力させるために用いられる。
【0018】
図6は、本発明の実施の形態における情報マップ作成装置の機能構成例を示す図である。同図において、情報マップ作成装置10は、文書管理DB11、検索部12、情報抽出集計部13、出力要素選定部14、拡張間引き部15、及び可視化処理部16等を有する。これら各部は、情報マップ作成装置10にインストールされたプログラムがCPU104に実行させる処理によって実現されるソフトウェアである。
【0019】
文書管理DB11は、補助記憶装置102を利用して文書(文書データ)を体系的に管理するデータベースである。本実施の形態において、文書の内容は問わない。特許文献、論文、書籍、又は業務上の資料等、多種多様な文書が対象となりうる。
【0020】
検索部12は、入力される検索条件に合致した文書データを文書管理DB11より検索し、検索された文書の集合を対象文書集合21として出力する。すなわち、対象文書集合21には、各文書の内容(書誌情報及び文章等)が含まれる。本実施の形態では、対象文書集合21が情報マップの作成対象としての情報セットとなる。なお、対象文書集合21は、情報マップ作成装置10の外部より与えられてもよい。具体的には、ネットワーク又は可搬性の有る記録媒体等を介して対象文書集合21が情報マップ作成装置10に入力されてもよい。したがって、情報マップ作成装置10は、文書管理DB11及び検索部12を必ずしも有していなくてもよい。
【0021】
情報抽出集計部13は、一般的な(周知又は公知の)情報解析処理を実行し、対象文書集合21からの情報要素の抽出、情報要素に関する統計情報の出力、情報要素間の関連の解析等を行う。情報抽出集計部13の処理結果は、抽出集計結果22として出力される。したがって、抽出集計結果22には、抽出された情報要素、統計情報、及び関連に関する情報(関連連情報)等が含まれる。なお、一般的な情報解析技術とは、文章を単語に分割する形態素解析処理、主語、述語、目的語、修飾関係等を抽出する係り受け解析処理、単語の出現頻度や重要度等を判定する統計処理、二つの単語が同時に出現する回数を集計する共起関係集計処理等を含む。また、情報要素とは、情報マップの作成対象の情報セットより抽出される単語、文書内の書誌情報の各項目の値等の情報セットの構成要素をいい、情報マップにおいてノードとなりうるものをいう。本実施の形態において、情報要素は文書より抽出される要素(すなわち、文書の構成要素)であるため文書要素ということもできる。文書内の書誌情報とは、特許文献を例とすると、願書における各項目や、明細書における発明の名称等である。
【0022】
出力要素選定部14は、抽出集計結果22に含まれる情報要素の中から、情報マップ上にノードとして表示対象とする情報要素を選定(選択)する。選定された情報要素、当該情報要素に関する統計情報及び関連情報等は、選定結果23として出力される。
【0023】
拡張間引き部15は、情報要素間の関連を間引くための処理を実行する。関連は、情報マップ上においてエッジとして表現される情報である。したがって、関連を間引くとはエッジを間引くこと(表示対象から除外すること)と実質的に同義である。前者は、コンピュータの処理内容の観点に基づく表現であり、後者は情報マップの視覚的な観点に基づく表現である。同様に、情報要素とノードとは実質的に同義である。
【0024】
拡張間引き部15は、関連度算出部151、関連集中度算出部152、複製部153、重複解消部154、及び間引き部155等を有する。関連度算出部151は、各情報要素について間接的な関連(間接経路)も含めて他の情報要素との関連度を算出する。関連集中度算出部152は、各情報要素について、当該情報要素が有する関連の関連度の総和などを算出することにより、各情報要素に関する関連集中度を求める。複製部153は、関連集中度に基づいて選択される情報要素について、該情報要素が有する関連をも伴って複製を作成する。重複解消部154は、複製部153によって複製された関連の重複を解消する。すなわち、重複解消部154は、複製元の関連又は複製先の関連のいずれか一方を間引く。間引き部155は、従来の方法を利用して関連の間引き処理を実行する。したがって、間引き部155による間引き対象は、複製によって重複している関連に限られない。
【0025】
可視化処理部16は、拡張間引き部15による間引き処理の結果に基づいて情報マップを可視化させる。
【0026】
以下、情報マップ作成装置10の処理手順について説明する。図7は、情報マップ作成装置の全体処理手順を説明するためのフローチャートである。
【0027】
例えば、ユーザによる検索条件の入力に応じ、検索部12は当該検索条件に合致する文書の集合を文書管理DB11より検索し、検索された対象文書集合21をメモリ装置103又は補助記憶装置102(以下、「記憶手段」という。)に記録する(S101)。なお、検索条件によっては、対象文書集合21には一つの文書のみが含まれている場合もある。続いて、情報抽出集計部13は、対象文書集合21を解析し、情報要素の統計情報及び関連情報等を含む抽出集計結果22を記憶手段に出力する(S102)。
【0028】
図8は、情報要素の統計情報の例を示す図である。同図において、統計情報221は、対象文書集合21より抽出された情報要素ごとに、出現頻度、出現単位テキスト数、及び重要度等を含む。すなわち、同図におけるアルファベット(A〜F)は、情報要素を抽象的に表現したものであり、以下の説明においても同様である。出現頻度は、情報要素の全ての単位テキストにおける出現頻度の総和である。単位テキストは、「単語の連想関係によるテキストマイニング(情報処理学会第55回 情報学基礎研究会資料(1999)、渡部 勇、三木 和男)」(以下、「参考文献1」という。)にも記載されているように、一つの段落や一つの記事等の意味のある文の集合をいう。出現単位テキスト数は、情報要素が出現した単位テキストの総数である。重要度は、単位テキストの集合における情報要素の重要度をいい、単位テキストにおける情報要素の重要度の総和として求められる。単位テキストにおける情報要素の重要度は、情報要素の狭義の統計情報の関数として決定される。狭義の統計情報とは、単位テキストにおける情報要素の出現確率と全単位テキストの集合における情報要素の出現確率、又は単位テキストにおける情報要素の出現頻度と情報要素の出現単位テキスト数等である。なお、重要度についても参考文献1に詳しい。
【0029】
また、図9は、情報要素の関連情報の例を示す図である。同図において、関連情報222は、関連を有する情報要素の組み合わせ(情報要素1及び情報要素2)ごとに、関連度及び共起回数等を含む。関連度は、例えば、同一単位テキスト内での重要度の積の総和であり、文献1に詳しい。但し、本実施の形態では、当該総和に対して重み付けを適用している。共起回数は、例えば、単位テキスト内に同時に出現する(共起する)回数である。関連度及び共起回数の双方とも、関連の強度を示す指標値又は統計値である。
【0030】
続いて、出力要素選定部14は、統計情報221に基づいて情報マップの表示対象とする情報要素を選定(抽出)し、選定結果23を記憶手段に記録する(S103)。例えば、出現頻度の上位50番目までの情報要素がノード対象として選定される。但し、出現単位テキスト数又は重要度等、統計情報221に含まれる他の指標に基づいて情報要素が選定されてもよい。
【0031】
続いて、拡張間引き部15は、関連の間引き処理を実行する(S104)。関連の間引き処理の詳細については後述する。続いて、可視化処理部16は、拡張間引き部15によって生成された情報に基づいて情報マップを可視化する(S105)。例えば、可視化処理部16は、表示装置106に情報マップを表示させる。又は、非図示のプリンタに情報マップを印刷させてもよい。なお、情報マップにおいて、各ノードの配置位置は、ノード間を結ぶ関係線の関連度の大きさによって決まる。すなわち、各関係線をスプリングとみなし、そのスプリングの長さや強さをそれぞれの関係線の関連度に応じで決める。各ノードに斥力が働くようにすることにより、スプリングと化した関係線の張力及び初期長とノード間の斥力との関係が安定した位置に各ノードの配置位置が決まる。ノードの配置位置の決定方法については、「テキストマイニングのための連想関係の可視化技術(情報処理学会第55回 情報学基礎研究会資料(1999)、三末 和男、渡部 勇)」に詳しい。
【0032】
続いて、ステップS104の詳細について説明する。図10は、関連の間引き処理の処理手順を説明するためのフローチャートである。
【0033】
ステップS201において、関連度算出部151は、各情報要素が有する関連の関連度(直接的な関連の関連度)に間接経路の関連度を加算し、当該演算結果を記憶手段に記録する。
【0034】
図11は、間接経路の関連度の加算処理を示す図である。同図において、テーブルA1は、情報要素間の直接経路の関連度を示すマトリクス(行列)を示す。テーブルA1の内容は、関連情報222より得る(導出する)ことができる。なお、テーブルA1の内容を情報マップにすると図12(A)に示されるようになる。図12は、関連の間引き処理の内容を視覚的に説明するための図である。
【0035】
テーブルA1に格納されている各関連度に間接経路の関連度を加算するには、テーブルA1が示す行列を自乗する行列演算を実行すればよい。当該行列演算の結果がテーブルB1である。したがって、ステップS201では、テーブルB1の内容が記憶手段に記録される。また、テーブルA1の内容も記憶手段に保持される。
【0036】
ところで、行列を自乗しているのは、二つの関連を使用した間接経路(すなわち、2関連分の距離の間接経路)を考慮しているためのである。したがって、3つ以上の関連をしようした間接経路を考慮する場合、行列を3乗以上してもよい。なお、本実施の形態では、小数点第2位以下は便宜上四捨五入している。また、間接経路の関連度が加算された関連度(テーブルB1に格納されている関連度)を以下、「間接加算関連度」という。
【0037】
続いて、関連集中度算出部152は、情報要素ごとに、関連度の総和(関連集中度)を算出(関連度を集計)する(S202)。
【0038】
図13は、関連集中度の算出処理を示す図である。同図では、テーブルB1の行方向に間接加算関連度が集計されている。その結果、情報要素A、B、C、D、E、F、及びXのそれぞれについて、8.0、6.0、7.7、6.7、7.7、7.4、15.8が関連集中度として得られている。なお、列方向に間接加算関連度を集計しても同じ結果が得られる。なお、関連集中度は、直接的な関連の関連度(テーブルA1に格納されている関連度)を用いて算出されてもよい。また、関連集中度として、関連度の総和の代わりに、関連度が非零の要素数(情報要素につながっている関係線の本数)や、指定された閾値を超える要素数(情報要素につながっている指定された閾値を超える関連度の関係線の本数)などを用いてもよい。
【0039】
続いて、複製部153は、関連集中度が閾値を超える(すなわち、関連が集中している)情報要素の有無を判定する(S203)。閾値の値は、得たい情報マップにおいて許容される関連の集中度合いに応じて定めればよい。例えば、閾値が10であるとすると、情報要素Xの存在により、当該判定結果は肯定的なものとなる。
【0040】
関連集中度が閾値を超える情報要素が有る場合(S203でYes)、複製部153は、関連集中度が閾値を超える情報要素の中で関連集中度が最大の情報要素と、当該情報要素が有する関連とを複製する(S204)。
【0041】
図14は、情報要素及び関連の複製処理を示す図である。同図に示されるように、情報要素と当該情報要素が有する関連の複製は、テーブルA1において、当該情報要素の行及び列の複製を作成することにより実現される。同図では、情報要素Xについて複製が行われている。すなわち、情報要素Xの行及び列の複製が作成されている。この際、複製元と複製先との関連度は1.0とされる。但し、必ずしも1.0でなければならない訳ではない。例えば、0.5としてもよいし、他の値を付与してもよい。
【0042】
なお、同図では、複製元と複製先とを区別するため、複製元を情報要素X1とし、複製先を情報要素X2としている。以降において図示されるテーブルA1及びテーブルB1においても同様である。同図のテーブルA1の内容を情報マップにすると図12(B)に示されるようになる。図12(B)では、ノードXとノードXに接続されているエッジが複製されている。
【0043】
続いて、重複解消部154は、複製元又は複製先の情報要素の一方をランダムに(任意に)選択し、選択された情報要素が有する関連のうち、関連度が最も低い関連を間引く(S205)。これにより、複製され、重複している関連のうちの一つの関連について重複が解消される。なお、情報要素の選択に関しては、ランダムではなく、あらかじめ定められた方法(「複製元を選択する」など)で行ってもよい。
【0044】
図15は、複製により重複している関連の間引き処理を示す図である。同図では、情報要素X2が選択された例が示されている。情報要素X2が有する関連の中で最も関連度の低い関連X2−Bについて、関連度が0.0(ゼロ)に更新されている。すなわち、本実施の形態において、基本的に、関連の間引きは当該関連の関連度をゼロとすることにより実現される。なお、同図のテーブルA1の内容を情報マップにすると図12(C)に示されるようになる。図12(C)では、エッジX2−Bが削除されている。
【0045】
続いて、関連度算出部151は図15のテーブルA1に基づいて、各情報要素が有する関連の関連度(直接的な関連の関連度)に間接経路の関連度を加算し、当該演算結果を記憶手段に記録する(S206)。すなわち、関連度算出部151は、図15のテーブルA1が示す行列を自乗する。
【0046】
図16は、間接経路の関連度の加算処理を示す第二の図である。同図では、テーブルA1の行列を自乗した結果(間接加算関連度)が、テーブルC1に格納されている。なお、情報要素X1と情報要素X2との一部の関連の重複が解消されたことにより、双方の情報要素に関する間接経路の対称性が崩れている。具体的には、情報要素A、B、及びCとの関連について、情報要素X1と情報要素X2との間接加算関連度の値に相違が生じている。後段の処理では、斯かる対称性の崩れを利用して、複製元と複製先との情報要素又は関連の差別化を行っている。
【0047】
続いて、間引き部155は、テーブルC1の間接加算関連度に基づいて、間引きの対象とする関連を判定し、当該関連を間引く(S207)。但し、間引き部155による間引きについては、間引きの対象とされた関連の関連度はこのタイミング(ステップS207のタイミング)ではゼロにはされない。間引き部155による間引かれた関連の関連度をゼロにしてしまうと、間接経路に関する情報が失われてしまい、以降において間接経路に関する情報を利用した計算が困難となるからである。したがって、間引き部155は、間引きの対象とされた関連に対し、間引かれたことを示す情報(例えば、フラグ情報)を付与する。
【0048】
例えば、間引き部155が、各情報要素について、関連度が最大である一つの関連以外は全て間引くという方法を採用した場合、間引きの結果は図17に示されるようになる。
【0049】
図17は、間引き結果を示す図である。同図のテーブルA1において、網掛けが施されたセルが、これまでに(ステップS205及びS207で)間引かれた関連に係るセルである。但し、網掛けされたセルの値(関連度)は、ゼロにはされてない。また、同図のテーブルA1の内容を情報マップにすると図12(D)に示されるようになる。
【0050】
なお、関連度が最大である関連が複数ある情報要素については、この時点では当該複数の関連は間引きの対象とされない。但し、間引き部155による間引き方法は特定のものに限定されない。他の周知又は公知の様々な間引き方法を利用して間引きが実行されてよい。例えば、関連度が最大の関連以外ではなく、下位N番目までの関連を間引いてもよい。または、情報要素ごとではなく、全ての関連の集合に対して、関連度が下位N番目までの関連を間引いてもよい。また、特許文献1に記載された間引き方法を利用してもよい。更に、複製により重複している関連について、テーブルC1における関連度の比較において小さい方を間引くようにしてもよい。上記のように各情報要素について、関連度が最大である一つの関連以外は全て間引くという方法を採用した場合、複製により重複している関連のうち、一方が間引かれる可能性は高い。すなわち、関連の重複の解消は、重複解消部154の責務であるが、間引き部155によって故意又は偶然に関連の重複が解消されてもよい。後述するように、関連の重複が解消されたことが処理の終了条件の一つとなるため、間引き部155によっても関連の重複が解消されることにより、処理の高速化を期待することができる。
【0051】
続いて、関連集中度算出部152は、情報要素ごとに、間接加算関連度の総和(関連集中度)を算出する(S208)。
【0052】
図18は、関連集中度の算出処理を示す第二の図である。同図では、テーブルC1の行方向に間接加算関連度が集計されている。直接的な関連の関連度(テーブルA1に格納されている関連度)を用いて関連集中度が算出されてもよいのはステップS202と同様である。なお、ステップS208では、少なくとも複製された情報要素の複製元及び複製先のそれぞれについて関連集中度が算出されればよい。
【0053】
続いて、重複解消部154は、複製された関連の中で複製元及び複製先の双方が表示対象から除外されていない関連が有る場合は、複製元及び複製先の情報要素のうち、関連集中度が高い情報要素が有する関連の中で関連度が最も低い関連を間引く(S209)。
【0054】
図18では、情報要素X1の方が関連集中度が高い。したがって、重複解消部154は、情報要素X1が有する関連の中で、関連度が最も低い関連X1−Dの値をテーブルA1においてゼロに更新する。
【0055】
図19は、複製により重複している関連の間引き処理を示す第二の図である。同図のテーブルA1では、関連X1−Dの値がゼロに更新されている。また、網掛けが施されたセルは、これまでに(ステップS205,S207、及びS209で)間引かれた関連に係るセルである。同図のテーブルA1の内容を情報マップにすると図12(E)に示されるようになる。図12(E)では、エッジX1−Dが削除されている。
【0056】
続いて、関連度算出部151は図19のテーブルA1に基づいて、各情報要素が有する関連の関連度(直接的な関連の関連度)に間接経路の関連度を加算し、当該演算結果を記憶手段に記録する(S210)。すなわち、関連度算出部151は、図19のテーブルA1が示す行列を自乗する。
【0057】
図20は、間接経路の関連度の加算処理を示す第三の図である。同図では、テーブルA1の行列が自乗された結果(間接加算関連度)が、テーブルD1に格納されている。情報要素X1と情報要素X2との関連の重複が更に解消されたことにより、双方の情報要素に関する間接経路の対称性が更に崩れている。なお、間接加算関連度の算出において、間引き部155によって間引かれた関連の関連度については、テーブルA1に格納されている値がそのまま利用される。すなわち、間引かれたことによってゼロとして扱われない。
【0058】
続いて、間引き部155は、ステップS207と同様の処理によって、間引きの対象とする関連を判定し、当該関連を間引く(S211)。その結果、テーブルA1は、図21に示されるようになる。
【0059】
図21は、間引き結果を示す第二の図である。同図のテーブルA1において、網掛けが施されたセルが、これまでに(ステップS205,S207、及びステップS211で)間引かれた関連に係るセルである。ステップS211においても、間引き部155によって間引かれた関連については、このタイミングでは関連度はゼロにはされない。同図のテーブルA1の内容を情報マップにすると図12(F)に示されるようになる。
【0060】
続いて、重複解消部154は、テーブルA1に基づいて、重複する関連がまだ残っているか否かを判定する(S212)。具体的には、テーブルA1の情報要素X1の列と情報要素X2の列とにおいて同一行に係る一方の関連度がゼロで無い場合、当該行に係る関連は重複していると判定される。
【0061】
重複する関連が存在する場合(S212でYes)、拡張間引き部15は、関連の重複が解消されるまで(全ての複製された関連について複製元又は複製先の一方が表示対象から除外されるまで)ステップS208〜S211を繰り返す。
【0062】
関連の重複が解消された場合(S212でNo)、ステップS202に戻り、テーブルD1に基づいて、関連集中度算出部152によって関連集中度が算出される。算出された関連集中度の最大値が閾値以下であった場合(S203)、図10の処理は終了する。
【0063】
算出された関連集中度の最大値が閾値を超える場合、ステップS204以降が繰り返される。したがって、関連集中度が最大である情報要素が複製され、当該情報要素が有している関連が複製元と複製先に分配される。関連集中度の値が閾値より大きい情報要素が無くなるまで複製が繰り返し実行されることにより、関連の集中が適切に排除される。但し、情報要素の複製に応じて、テーブルA1の行数及び列数は増加する。したがって、間接加算関連度に基づいて関連集中度を算出する場合、当該関連集中度は複製前より大きくなる可能性が有る。したがって、この場合、複製の回数に応じて、ステップS203における閾値を変化させるようにしてもよい。
【0064】
その後、図7において説明したステップS105では、図10の処理の終了時の状態におけるテーブルA1に基づいて情報マップが表示される。この際、可視化処理部16は、関連度がゼロ又は間引かれたことが示されている情報が付加されている関連は表示対象から除外する。したがって、当該関連を示すエッジは表示されない。その結果、本実施の形態では、図12(F)に示されるような情報マップが表示される。なお、間引かれたことが示されている情報が付加されている関連(すなわち、間引き部155によって間引かれた関連)の関連度を、図10の処理の終了後、可視化処理部16の処理前にゼロとしてもよい。その場合、可視化処理部16は、単に関連度がゼロの関連を表示対象から除外すればよい。
【0065】
上述したように、本実施の形態によれば、関連(エッジ)が集中している情報要素(ノード)が複製(分割)され、当該情報要素が有していた関連は、複製元と複製先とに分配される。したがって、強い関連に対応するエッジは残しつつ特定のノードに対するエッジの集中を回避させることができる。
【0066】
また、情報要素を複製した場合、それに伴って情報要素に連結している関連も複製することになる。この際、複製した情報要素X1が有する関連と、情報要素X2が有する関連とは、完全に同一の関連度(強度)を持っている(例えば、関連X1−Aと関連X2−Aとは同一の関連度を持つ)。したがって、どちらの関連を優先的に削除するかを決定することができない。そこで、本実施の形態では、相互に関連の強い情報要素群が、複製した情報要素の周りにグループとして集まるように間接的な経路を反映した関連度を導入している。
【0067】
具体的には、各情報要素について間接経路を考慮した関連度(間接加算関連度)を算出し、間接加算関連度に基づいて間引き部155による間引き処理が行われる。その結果、互いに関連の強い情報要素を複製元又は複製先の周辺に集めることができる。すなわち、元々1つのノードにつながっていたノード群を、互いに関連の強いノードグループに分割することができる。例えば、図12における情報要素A、B、C、D、E、Fについて、A、B、及びCを第一グループとし、D、E、及びFを第二グループとし、第一グループを情報要素X1の周囲に、第二グループをX2の周囲に配置することができる。
【0068】
また、重複解消部154による関連の重複の解消において、関連集中度の高い情報要素が有している関連が間引きの対象とされる。したがって、複製元と複製先との情報要素が有する同一の関連を、バランス良く間引くことができる(複製元の情報要素と複製先との情報要素とにバランス良く関連を分配することができる)。
【0069】
ここで、重複解消部154が一回に間引く関連は、2以上であってもよいが、本実施の形態のように、ステップS208〜S211のループの中で一つずつ重複が解消されることにより、関連の分配のバランスをより良いものとすることができる。
【0070】
このように、本実施の形態によれば、重要な情報を落とさずに可読性の高い情報マップを作成することができ、文献検索及び分析の精度を向上や、手間の軽減等に大きく寄与することができる。
【0071】
なお、本実施の形態において、図10の処理では、関連の強度(強さ)を示す指標として、関連度を用いたが、関連度以外の指標を用いて図10の処理を実行してもよい。例えば、共起回数を用いてもよい。その他、関連の強度を示す公知の指標を関連度の代わりに利用してもよい。
【0072】
以上、本発明の実施例について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
【0073】
以上の説明に関し、更に以下の項を開示する。
(付記1)
情報要素間の関連を表示する情報マップを作成する情報マップ作成装置であって、
各情報要素について当該情報要素が有する関連の強度を集計し、該集計値に基づいて選択される情報要素について、該情報要素が有する関連をも伴って複製を作成する複製手段と、
複製元の情報要素又は複製先の情報要素の一方が有する関連の中で強度が相対的に低い一部の関連を除外した状態で、各情報要素間の関連について、間接的な経路も含む第二の強度を算出する関連度算出手段と、
複製元及び複製先の情報要素ごとに当該情報要素が有する関連の前記第二の強度を集計する関連度集計手段と、
複製元及び複製先の情報要素のうち前記集計手段による集計値の大きい情報要素が有する関連の中で前記第二の強度が相対的に低い関連を表示対象から除外する重複解消手段とを有する情報マップ作成装置。
(付記2)
複製された関連に限られず、前記第二の強度が相対的に低い関連を表示対象から除外する間引き手段を有する付記1記載の情報マップ作成装置。
(付記3)
前記集計手段による前記第二の強度の集計と、前記重複解消手段による関連の表示対象からの除外とを、全ての複製された関連について複製元又は複製先の一方が表示対象から除外されるまで繰り返す付記1又は2記載の情報マップ作成装置。
(付記4)
全ての複製された関連について複製元又は複製先の一方が表示対象から除外された後、前記集計手段による集計値と閾値との比較に応じて、前記複製手段は、該集計値に基づいて選択される情報要素について、該情報要素が有する関連をも伴って複製を作成する付記3記載の情報マップ作成装置。
(付記5)
コンピュータが情報要素間の関連を表示する情報マップを作成する情報マップ作成方法であって、
前記コンピュータが、
各情報要素について当該情報要素が有する関連の強度を集計し、該集計値に基づいて選択される情報要素について、該情報要素が有する関連をも伴って複製を作成する複製手順と、
複製元の情報要素又は複製先の情報要素の一方が有する関連の中で強度が相対的に低い一部の関連を除外した状態で、各情報要素間の関連について、間接的な経路も含む第二の強度を算出する関連度算出手順と、
複製元及び複製先の情報要素ごとに当該情報要素が有する関連の前記第二の強度を集計する関連度集計手順と、
複製元及び複製先の情報要素のうち前記集計手順による集計値の大きい情報要素が有する関連の中で前記第二の強度が相対的に低い関連を表示対象から除外する重複解消手順とを実行する情報マップ作成方法。
(付記6)
複製された関連に限られず、前記第二の強度が相対的に低い関連を表示対象から除外する間引き手順を有する付記5記載の情報マップ作成方法。
(付記7)
前記集計手順と前記重複解消手順とを、全ての複製された関連について複製元又は複製先の一方が表示対象から除外されるまで繰り返す付記5又は6記載の情報マップ作成方法。
(付記8)
全ての複製された関連について複製元又は複製先の一方が表示対象から除外された後、前記集計手順による集計値と閾値との比較に応じて、該集計値に基づいて選択される情報要素について、該情報要素が有する関連をも伴って複製を作成する付記7記載の情報マップ作成方法。
(付記9)
情報要素間の関連を表示する情報マップを作成するコンピュータに、
各情報要素について当該情報要素が有する関連の強度を集計し、該集計値に基づいて選択される情報要素について、該情報要素が有する関連をも伴って複製を作成する複製手順と、
複製元の情報要素又は複製先の情報要素の一方が有する関連の中で強度が相対的に低い一部の関連を除外した状態で、各情報要素間の関連について、間接的な経路も含む第二の強度を算出する関連度算出手順と、
複製元及び複製先の情報要素ごとに当該情報要素が有する関連の前記第二の強度を集計する関連度集計手順と、
複製元及び複製先の情報要素のうち前記集計手順による集計値の大きい情報要素が有する関連の中で前記第二の強度が相対的に低い関連を表示対象から除外する重複解消手順とを実行させるためのプログラム。
(付記10)
複製された関連に限られず、前記第二の強度が相対的に低い関連を表示対象から除外する間引き手順を有する付記9記載のプログラム。
(付記11)
前記集計手順と前記重複解消手順とを、全ての複製された関連について複製元又は複製先の一方が表示対象から除外されるまで繰り返す付記9又は10記載のプログラム。
(付記12)
全ての複製された関連について複製元又は複製先の一方が表示対象から除外された後、前記集計手順による集計値と閾値との比較に応じて、該集計値に基づいて選択される情報要素について、該情報要素が有する関連をも伴って複製を作成する付記11記載のプログラム。
【符号の説明】
【0074】
10 情報マップ作成装置
11 文書管理DB
12 検索部
13 情報抽出集計部
14 出力要素選定部
15 拡張間引き部
16 可視化処理部
100 ドライブ装置
101 記録媒体
102 補助記憶装置
103 メモリ装置
104 CPU
105 表示装置
106 入力装置
151 関連度算出部
152 関連集中度算出部
153 複製部
154 重複解消部
155 間引き部
B バス

【特許請求の範囲】
【請求項1】
情報要素間の関連を表示する情報マップを作成する情報マップ作成装置であって、
各情報要素について当該情報要素が有する関連の強度を集計し、該集計値に基づいて選択される情報要素について、該情報要素が有する関連をも伴って複製を作成する複製手段と、
複製元の情報要素又は複製先の情報要素の一方が有する関連の中で強度が相対的に低い一部の関連を除外した状態で、各情報要素間の関連について、間接的な経路も含む第二の強度を算出する関連度算出手段と、
複製元及び複製先の情報要素ごとに当該情報要素が有する関連の前記第二の強度を集計する関連度集計手段と、
複製元及び複製先の情報要素のうち前記集計手段による集計値の大きい情報要素が有する関連の中で前記第二の強度が相対的に低い関連を表示対象から除外する重複解消手段とを有する情報マップ作成装置。
【請求項2】
複製された関連に限られず、前記第二の強度が相対的に低い関連を表示対象から除外する間引き手段を有する請求項1記載の情報マップ作成装置。
【請求項3】
前記集計手段による前記第二の強度の集計と、前記重複解消手段による関連の表示対象からの除外とを、全ての複製された関連について複製元又は複製先の一方が表示対象から除外されるまで繰り返す請求項1又は2記載の情報マップ作成装置。
【請求項4】
全ての複製された関連について複製元又は複製先の一方が表示対象から除外された後、前記集計手段による集計値と閾値との比較に応じて、前記複製手段は、該集計値に基づいて選択される情報要素について、該情報要素が有する関連をも伴って複製を作成する請求項3記載の情報マップ作成装置。
【請求項5】
コンピュータが情報要素間の関連を表示する情報マップを作成する情報マップ作成方法であって、
前記コンピュータが、
各情報要素について当該情報要素が有する関連の強度を集計し、該集計値に基づいて選択される情報要素について、該情報要素が有する関連をも伴って複製を作成する複製手順と、
複製元の情報要素又は複製先の情報要素の一方が有する関連の中で強度が相対的に低い一部の関連を除外した状態で、各情報要素間の関連について、間接的な経路も含む第二の強度を算出する関連度算出手順と、
複製元及び複製先の情報要素ごとに当該情報要素が有する関連の前記第二の強度を集計する関連度集計手順と、
複製元及び複製先の情報要素のうち前記集計手順による集計値の大きい情報要素が有する関連の中で前記第二の強度が相対的に低い関連を表示対象から除外する重複解消手順とを実行する情報マップ作成方法。
【請求項6】
情報要素間の関連を表示する情報マップを作成するコンピュータに、
各情報要素について当該情報要素が有する関連の強度を集計し、該集計値に基づいて選択される情報要素について、該情報要素が有する関連をも伴って複製を作成する複製手順と、
複製元の情報要素又は複製先の情報要素の一方が有する関連の中で強度が相対的に低い一部の関連を除外した状態で、各情報要素間の関連について、間接的な経路も含む第二の強度を算出する関連度算出手順と、
複製元及び複製先の情報要素ごとに当該情報要素が有する関連の前記第二の強度を集計する関連度集計手順と、
複製元及び複製先の情報要素のうち前記集計手順による集計値の大きい情報要素が有する関連の中で前記第二の強度が相対的に低い関連を表示対象から除外する重複解消手順とを実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate


【公開番号】特開2010−262438(P2010−262438A)
【公開日】平成22年11月18日(2010.11.18)
【国際特許分類】
【出願番号】特願2009−112045(P2009−112045)
【出願日】平成21年5月1日(2009.5.1)
【出願人】(000005223)富士通株式会社 (25,993)
【Fターム(参考)】