説明

情報生成装置、情報表示装置、情報生成方法、及び情報生成プログラム

【課題】文書相互の類似度を表す情報を生成できること。
【解決手段】文書比較部は、複数の第1の文書の文書情報に基づいて、第1の文書同士の類似度を算出する。配置位置算出部は、文書比較部が算出した複数の類似度に基づいて、第1の文書の類似度に対応する間隔であって、最初の点と最後の点が接続されている座標における間隔を算出する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報生成装置、情報表示装置、情報生成方法、及び情報生成プログラムに関する。
【背景技術】
【0002】
近年、文書の類似度を視覚的に表現する技術が開発されている。例えば、ある文書を基準に似ている文書について、各文書を表す画像を視覚的に判別可能なように、二次元平面上に配置することが知られている。引用文献1には、基準となる基準文書との一致の度合いに応じて、画像の大きさや位置を決定することが記載されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2000−222416号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、引用文献1記載の技術では、基準文書以外の文書については、文書相互の類似度を表す情報を提供することができなかった。
【0005】
本発明は上記の点に鑑みてなされたものであり、文書相互の類似度を表す情報を生成できる情報生成装置、情報表示装置、情報生成方法、及び情報生成プログラムを提供する。
【課題を解決するための手段】
【0006】
(1)本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、複数の第1の文書の文書情報に基づいて、前記第1の文書同士の類似度を算出する文書比較部と、前記文書比較部が算出した複数の類似度に基づいて、前記第1の文書同士の類似度に対応する間隔であって、最初の点と最後の点が接続されている座標における間隔を算出する配置位置算出部と、を備えることを特徴とする情報生成装置である。
【0007】
(2)また、本発明の一態様は、上記の情報生成装置において、記配置位置算出部は、前記文書比較部が算出した複数の類似度に基づいて、前記座標における前記第1の文書の順序を決定し、決定した順序における最初の第1の文書と最後の第1の文書との間隔を算出することを特徴とする。
【0008】
(3)また、本発明の一態様は、上記の情報生成装置において、前記座標は円座標の偏角を表す座標であることを特徴とする。
【0009】
(4)また、本発明の一態様は、上記の情報生成装置において、前記文書比較部は、前記第1の文書各々と第2の文書との類似度を算出し、前記配置位置算出部は、前記文書比較部が算出した第1の文書各々と第2のとの文書の類似度に基づいて、円座標の動径方向の距離を算出することを特徴とする。
【0010】
(5)また、本発明の一態様は、上記(4)に記載の情報生成装置と、前記情報生成装置が算出した偏角と動径方向の距離に基づいて、前記第1の文書を表す画像を、前記第2の文書を表す画像を中心とした円座標に配置して表示する表示部と、を備えることを特徴とする情報表示装置である。
【0011】
(6)また、本発明の一態様は、情報生成装置が、複数の第1の文書の文書情報に基づいて、前記第1の文書同士の類似度を算出する文書比較過程と、情報生成装置が、前記文書比較過程にて算出した複数の類似度に基づいて、前記第1の文書同士の類似度に対応する間隔であって、最初の点と最後の点が接続されている座標における間隔を算出する配置位置算出過程と、を有することを特徴とする情報生成方法である。
【0012】
(7)また、本発明の一態様は、情報生成装置のコンピュータに、複数の第1の文書の文書情報に基づいて、前記第1の文書同士の類似度を算出する文書比較手順、前記文書比較手順にて算出した複数の類似度に基づいて、前記第1の文書同士の類似度に対応する間隔であって、最初の点と最後の点が接続されている座標における間隔を算出する配置位置算出手順、を実行させるための情報生成プログラムである。
【発明の効果】
【0013】
本発明によれば、文書相互の類似度を表す情報を生成できる。
【図面の簡単な説明】
【0014】
【図1】本発明の実施形態に係る表示部における表示の一例を示す概略図である。
【図2】本実施形態に係る情報提供装置の構成を示す概略ブロック図である。
【図3】本実施形態に係る距離情報リストの一例を表す概略図である。
【図4】本実施形態に係る配置位置算出部の動作の一例を示すフローチャートである。
【図5】本実施形態に係る連結リストの生成処理の一例を表す概念図である。
【図6】本実施形態に係る配置位置算出部による計算の実施例を表す概念図である。
【図7】本実施形態に係る比較文書画像間の相対偏角の一例を表す概念図である。
【図8】本実施形態に係る文書画像の配置の一例を表す概略図である。
【図9】本実施形態に係る表示部における表示の別の一例を示す概略図である。
【発明を実施するための形態】
【0015】
(第1の実施形態)
以下、図面を参照しながら本発明の実施形態について詳しく説明する。
図1は、本発明の実施形態に係る表示部106(図2参照)における表示の一例を示す概略図である。この図において、符号I1を付した画像(アイコン)は、基準文書(第2の文書)を表す画像(基準文書画像と称す)である。基準文書とは、基準となる文書であって、利用者又はコンピュータ等によって選択された或いは入力された文書である。この図の表示は、基準文書画像を中心に同心円上に、基準文書と比較された比較文書(第1の文書;文書A〜F)を表す画像(比較文書画像と称す)が配置されていることを表す。つまり、基準文書画像を中心とした円座標に、比較文書画像が配置されている。なお、基準文書画像及び比較文書画像には、文書のタイトルなどの文字情報を含めてもよい。
【0016】
図1において、基準文書画像から各比較文書画像の距離(動径方向の距離)は、比較文書と基準文書の類似度を示し、比較文書が基準文書に類似しているほど基準文書画像(同心円の中心)に近くなるように比較文書画像が配置されている。また、比較文書画像同士の偏角の差は比較文書同士の類似度を示し、比較文書が類似するほど偏角の差が小さくなるように比較文書画像が配置されている。
例えば、鎖線で囲った比較文書C、D、Eの比較文書画像は、他の比較文書画像と比較して近くに配置されており、これらの比較文書が類似していることを示す。
【0017】
図2は、本実施形態に係る情報提供装置1の構成を示す概略ブロック図である。この図において、情報提供装置1は、基準文書入力部101、情報生成装置11、及び表示部106を含んで構成される。情報生成装置11は、文書蓄積部111、制御部112、文書比較部113、及び配置位置算出部114を含んで構成される。
【0018】
基準文書入力部101には、例えば利用者の操作によって、基準文書情報が入力される。なお、基準文書情報は、文書蓄積部111に蓄積されている文書情報から選択されたものであってもよいし、文書蓄積部111に蓄積されていない文書情報であってもよい。基準文書入力部101には、入力された基準文書情報を制御部112に出力する。
文書蓄積部111は、文書情報を蓄積している。また、文書蓄積部111は、文書比較部113が算出した2つの文書情報毎の類似度情報を蓄積している。
【0019】
制御部112は、基準文書入力部101から入力された基準文書情報を文書比較部113に出力する。
文書比較部113は、制御部112から入力された基準文書情報と文書蓄積部111が記憶する文書情報とを比較して、それらの文書情報が表す文書同士の類似度を、種々の公知の手法を用いて算出する。例えば、文書比較部113は、文書情報が表す文書から単語を抽出し、同一又は類似する単語の出現頻度に基づいて文書同士の類似度を算出する。ここで、文書比較部113は、類似度を0〜1の数値(値が小さいほど文書同士が類似する)で表す。
文書比較部113は、比較した2つの文書情報毎に、それらの文書情報が表す文書同士の類似度を対応付けた類似度情報を生成し、生成した類似度情報を文書蓄積部111に蓄積する。つまり、文書比較部113は、以前に生成した類似度情報を蓄積している。文書比較部113は、類似度情報の生成を完了した後、基準文書情報を含む完了通知をリストを制御部112に出力する。
【0020】
制御部112は、文書比較部113から入力された完了通知に基づいて、文書蓄積部111が蓄積する類似度情報から、基準文書との類似度の値が小さい(近い)方から順にN個(Nは、規定数または指定された数)の文書(比較文書)について、基準文書及び他の比較文書との類似度情報を抽出する。制御部112は、抽出した類似度情報のリストを、配置位置算出部114に出力する。つまり、制御部112は、基準文書との類似度が高い上位N個の比較文書について、基準文書及び他の比較文書との類似度情報を、配置位置算出部114に出力する。
【0021】
配置位置算出部114は、次のように、基準文書画像及び比較文書画像を配置する。まず、配置位置算出部114は、基準文書画像を中心に配置する。配置位置算出部114は、比較文書画像を、その画像が表す比較文書が基準文書に類似するほど中心に近くなるように、基準文書画像を中心とした同心円上に配置する。
以下では、2つの文書間の類似度の値を画像間の距離として扱い、類似度情報を距離情報という。
【0022】
配置位置算出部114は、制御部112から入力された距離情報(上記の類似度情報に対応)のリスト(距離情報リストという)に基づいて、比較文書画像の動径方向の距離を決定する。また、制御部112から入力された比較文書同士の距離情報リスト(図3)に基づいて後述する結合リストの生成処理を行って、比較文書同士の類似度を表す間隔を算出する。配置位置算出部114は、算出した間隔に基づいて、比較文書画像の偏角を決定する。また、配置位置算出部114は、決定した動径方向の距離及び偏角に応じて、比較文書画像を配置する(図8参照)。なお、比較文書画像は、基準文書画像からの距離が遠い(類似度が低い)ほど小さい画像にするなど、基準文書画像との距離に応じて変化させてもよい(図9参照)。
【0023】
図3は、本実施形態に係る距離情報リストの一例を表す概略図である。この図のリストは、N=6の場合における比較文書同士の距離情報リストの一例を表す。行列の各成分は、対応する文書識別情報が表す文書同士の距離を表す。例えば、図3は、文書Aと文書Bの距離が「0.85」であることを示す。
【0024】
以下、結合リストの生成処理について詳細を説明する。配置位置算出部114は、次の(a)、(b)、(c)の順に処理を行う。
【0025】
(a)配置位置算出部114は、比較文書同士の距離情報を、距離の小さい(近い)順にソートする。ソート後のリストlは、例えば図3の距離情報の場合、順に、(A,F,0.2),(C,D,0.25),(C,E,0.26),(D,E,0.28),(C,F,0.6),(B,F,0.64),(B,E,0.66),(B,D,0.68),(B,C,0.69),(A,C,0.75),(A,E,0.81),(D,F,0.82),(E,F,0.83),(A,B,0.85),(A,D,0.86)となる。ここで、アルファベットA〜Fは、それぞれ、文書A〜Fを識別する文書識別情報である。このリストlでは、例えば、(A,F,0.2)は、文書「A」と文書「B」の距離が「0.2」である距離情報を表す。
【0026】
(b)配置位置算出部114は、空の記憶領域を生成することで、空の集合pを生成する(図6参照)。ここで、この集合pの要素になるのは、比較文書の文書識別情報を連結したサブセットのリスト(連結リストという)である。連結リストは、文書識別情報、及び、その文書識別情報が表す文書とその文書に予め定めた方向(正方向という)に隣り合う文書との間隔、を繰り返す形式で表される。例えば、図6で符号E31を付した連結リストE31は、E,0.26,C,0.25,D,1.49で表される。なお、この連結リストの最後の数値「1.49」は、その直前の文書識別情報が表す文書と最初の文書識別情報が表す文書との間隔を表す。
【0027】
(c)配置位置算出部114は、図4の動作を行うことにより、比較文書の文書識別情報のすべてを含む1つの連結リストを生成して、集合pの要素とする。この要素は、配列すべき比較文書の順序及び隣り合う比較文書同士の間隔を表す。例えば、図6で符号E52を付した要素E52は、E,0.26,C,0.25,D,0.82,F,0.2,A,0.85,B,0.66で表される。この要素は、比較文書を文書E、文書C、文書D、文書F、文書A、文書B(文書Bの次は文書E)の順(正方向)に配列することを表し、また例えば、文書Eと文書Cとの間隔が「0.26」、文書Bと文書Eとの間隔が「0.66」であることを表す。
【0028】
<配置位置算出部114の動作について>
図4は、本実施形態に係る配置位置算出部114の動作の一例を示すフローチャートである。
(ステップS101)配置位置算出部114は、ソート後のリストlの先頭の距離情報(距離が最小の距離情報)を抽出する。その後、ステップS102へ進む。
(ステップS102)配置位置算出部114は、直前のステップ(初回はステップS101、2回目以降はステップS109)で抽出した距離情報の文書識別情報の一方をd1、他方をd2に代入する。その後、ステップS103へ進む。
【0029】
(ステップS103)配置位置算出部114は、集合pのいずれかの要素に、文書識別情報d1及びd2の両方が含まれるか否かを判定する。つまり、配置位置算出部114は、集合pのいずれかの要素に、文書d1及びd2の両方が含まれる要素があるか否かを判定する。ある要素に文書識別情報d1及びd2の両方が含まれると判定した場合(Yes)、ステップS109へ進む。それ以外の場合(No)、ステップS104へ進む。
【0030】
(ステップS104)配置位置算出部114は、文書識別情報d1を含む要素と文書識別情報d2を含む要素とが別の要素であるか否かを判定する。つまり、配置位置算出部114は、文書d1を含む要素と文書d2を含む要素とが別の要素であるか否かを判定する。文書識別情報d1を含む要素と文書識別情報d2を含む要素とが別の連結リストとである判定した場合(Yes)、ステップS105へ進む。それ以外の場合(No)、ステップS106へ進む。
(ステップS105)配置位置算出部114は、文書識別情報d1を含む要素p1と文書識別情報d2を含む要素p2とを集合pから削除し、代わりに、後述するコストcが最小となるように、連結リストp1と連結リストp2を結合した連結リストを集合pへ追加する。その後、ステップS109へ進む。
【0031】
(ステップS106)配置位置算出部114は、文書識別情報d1又はd2のいずれか一方が要素に含まれ、かつ、他方が要素に含まれないか否かを判定する。つまり、配置位置算出部114は、文書d1又はd2のいずれか一方が要素に含まれ、かつ、他方が要素に含まれないか否かを判定する。文書識別情報d1又はd2のいずれか一方が要素に含まれ、かつ、他方が要素に含まれないと判定した場合(Yes)、ステップS107へ進む。それ以外の場合(No)、ステップS108へ進む。
(ステップS107)配置位置算出部114は、一方の文書識別情報が含まれる要素p0を削除し、代わりに、後述するコストcが最小となるように、連結リストp0に他方の文書識別情報を追加した連結リストを集合pへ追加する。その後、ステップS109へ進む。
【0032】
(ステップS108)配置位置算出部114は、集合pの連結リストに文書識別情報d1又はd2を含むものがないと判定し、文書識別情報d1と文書識別情報d2からなる連結リストp12を集合pに追加する。つまり、配置位置算出部114は、集合pの要素に文書d1又はd2を含むものがないと判定し、文書d1と文書d2からなる連結リストを集合pに追加する。その後、ステップS109へ進む。
(ステップS109)配置位置算出部114は、リストlのすべての距離情報について処理が完了した否かを判定する。リストlのすべての距離情報について処理が完了したと判定した場合(Yes)、配置位置算出部114は、処理を終了する。この連結リストは、配置すべき比較文書の順序及び隣り合う比較文書同士の距離を表す。それ以外の場合(No)、ステップS110へ進む。
(ステップS110)配置位置算出部114は、ソート後のリストlから、直近で抽出した距離情報の次の順の距離情報(次に距離が小さい距離情報)を抽出する。その後、ステップS102へ戻る。
【0033】
<コストcについて>
(a)配置位置算出部114は、要素内の隣り合う文書の間隔Sxyの総和Sを算出する。具体的には、配置位置算出部114は、連結リスト中の間隔の総和を算出する。
(b)配置位置算出部114は、次式(1)を用いてコストcを算出する。
【0034】
【数1】

・・・(1)
【0035】
ここで、Sxyは、文書xと文書yの間隔を表す。ここで、間隔Sxyは、文書xから正方向で文書yへ到るまでの間隔の総和と文書xから逆方向で文書yへ到るまでの間隔の総和とのうち、小さい方の値である。例えば、図6の連結リストE31では、文書Eと文書Dにおける前者の値は「0.51」、後者の値は「1.49」となるので、間隔SEDは、「0.51」となる。具体的には、配置位置算出部114は、連結リストにおいて、正方向に「E」⇒「0.26」⇒「C」⇒「0.25」⇒「D」と辿り、その間の数値「0.26」と「0.25」の和「0.51」を算出する。また、配置位置算出部114は、連結リストにおいて、逆方向に「E」⇒「1.49」⇒「D」と辿り、その間の数値「1.49」を算出し、間隔SED=「0.51」とする。
xyは、文書xと文書yの距離である(図3参照)。つまり、式(1)は、配置位置算出部114が間隔Sxyと距離dxyとの差に基づいてコストcを算出することを表し、その差が大きいほどコストcの値が大きくなることを表す。Σx≠yは、連結リスト内のすべての文書の組合せについて和をとることを示す。また、式(1)の「2」は、距離最大(=1)となる文書各々を表す画像を、画像間の偏角180度になるように円周上に配置したときの全周の長さである。なお、この長さを他の値Lとする場合には、式(1)で乗算する「2」に代えてLを用いる。なお、本実施形態では、距離の最大値(「1」)の2倍の値としている。
【0036】
<連結リストの生成処理について>
以下、配置位置算出部114が、図4の各ステップで行う連結リストの生成処理について、図5を用いて説明をする。以下、連結リストp0がd,・・・,d,stsであり、連結リストp1がd1,・・・,d1,s1tsであり、連結リストp2がd2,・・・,d2,s2tsである場合について説明をする(図5参照)。なお、文書d1から正方向で文書d1へ到るまでのの間隔の総和はs(逆方向はs1ts)であり、文書d2から正方向で文書d2へ到るまでのの間隔の総和はs(逆方向はs2ts)である。
【0037】
(1)配置位置算出部114は、図4のステップS105において、次の連結リストl1〜l4のうち、コストcが最小となるものを、集合pへ追加する。
(a)連結リストl1
連結リストp1の後ろに連結リストp2を追加する。具体的には、配置位置算出部114は、d1,・・・,d1,s12,d2,・・・,d2,s21を連結リストl1とする。
(b)連結リストl2
連結リストp2の後ろに連結リストp2を逆順にしたものを追加する。具体的には、配置位置算出部114は、d1,・・・,d1,s’12,d2,・・・,d2,s’21を連結リストl2とする。
(c)連結リストl3
連結リストp2の後ろに連結リストp1を追加する。具体的には、配置位置算出部114は、d2,・・・,d2,s’’21,d1,・・・,d1,s’’12を連結リストl3とする。
(d)連結リストl4
連結リストp2の後ろに連結リストp1を逆順にしたものを追加する。具体的には、配置位置算出部114は、d2,・・・,d2,s’’’21,d1,・・・,d1,s’’’12を連結リストl4とする。
【0038】
配置位置算出部114は、複数の距離情報に基づいて、連結リストの先頭の文書と末尾の文書との間隔を算出する。例えば上記(1)(a)の連結リストl1を生成する場合、配置位置算出部114は、連結リストp1の末尾の文書d1と連結リストp2の先頭の文書d2の間隔s12、及び、連結リストp2の末尾の文書d2と連結リストp1の先頭の文書d1の間隔s21を次のように算出する(図5(a)参照)。
(a)配置位置算出部114は、文書d1と文書d2の距離を間隔s12とする。
(b)配置位置算出部114は、s、sを算出する。配置位置算出部114は、s1ts、s2tsを読み出す。
(c)配置位置算出部114は、s1ts≧s2tsのとき、(s1ts−s)と(文書d1と文書d2の距離)のうち大きい方を、間隔s21とする。
(d)配置位置算出部114は、s1ts<s2tsのとき、(s2ts−s)と(文書d1と文書d2の距離)のうち大きい方を、間隔s21とする。
すなわち、(1)(c)、(d)において、配置位置算出部114は、連結リストl1の先頭の文書d1と末尾の文書d2との逆方向の間隔を算出する。以上の処理のより、配置位置算出部114は、d1,・・・,d1,s12,d2,・・・,d2,s21を連結リストl1とする。なお、間隔s’12、s’21、s’’12、s’’21、s’ ’’12、s’ ’’21を算出する場合も同様であるので、説明は省略する。
【0039】
(2)配置位置算出部114は、図4のステップS107において、次の連結リストl1、l2のうち、コストcが最小となるものを、集合pへ追加する。
(a)連結リストl1
連結リストp0の末尾に文書識別情報d0を追加する。具体的には、配置位置算出部114は、d,・・・,d,s,d0,sを連結リストl1とする。
(b)連結リストl2
連結リストp0の先頭に文書識別情報d0を挿入する。具体的には、配置位置算出部114は、d0,s’,d,・・・,d,s’を連結リストl2とする。
【0040】
配置位置算出部114は、距離情報に基づいて、連結リストの先頭の文書と末尾の文書との間隔を算出する。例えば上記(2)(a)連結リストl1を生成する場合、配置位置算出部114は、連結リストp0の末尾の文書dと文書d0との間隔s、及び、文書d0と連結リストp0の先頭の文書dとの間隔sを次のように算出する(図5(b)参照)。
(a)配置位置算出部114は、文書dと文書d0の距離を間隔sとする。
(b)配置位置算出部114は、[(連結リストp0の文書dと文書dの間隔)−s]と(文書dと文書d0の距離)のうち大きい方を、間隔sとする。
すなわち、この(b)において、配置位置算出部114は、連結リストの先頭の文書d1と末尾の文書d0との逆方向の間隔を算出する。
【0041】
配置位置算出部114は、例えば上記(2)(b)連結リストl2を生成する場合、文書d0と連結リストp0の先頭の文書dとの間隔s’、及び、文書d0と連結リストp0の末尾の文書dとの間隔s’を次のように算出する(図5(c)参照)。
(a)配置位置算出部114は、文書dと文書d0の距離を間隔s’とする。
(b)配置位置算出部114は、[(連結リストp0の文書dと文書dの間隔)−s]と(文書dと文書d0の距離)のうち大きい方を、間隔s’とする。
すなわち、この(b)において、配置位置算出部114は、連結リストの先頭の文書d0と末尾の文書dとの逆方向の間隔を算出する。
【0042】
(3)配置位置算出部114は、図4のステップS108において、文書識別情報d1と文書識別情報d2からなる連結リストp12を集合pに追加する(図5(d)参照)。
(a)配置位置算出部114は、文書d1と文書d2の距離を、文書d1を基準とした基点から正方向の間隔とする。
(b)配置位置算出部114は、[2−(文書d1と文書d2の距離)]を、文書d1を基準とした基点から逆方向の間隔とする。ここで、「2」は、式(1)のものと同じであるが、配置位置算出部114は、この「2」に変えて、他の値Lを用いてもよい。
すなわち、(3)(b)において、配置位置算出部114は、連結リストの先頭の文書d1と末尾の文書2との逆方向の間隔を算出する。
【0043】
図6は、本実施形態に係る配置位置算出部114による計算の実施例を表す概念図である。この図は、配置位置算出部114が、図3の距離情報リストに基づいて計算した場合の実施例を表す。
符号S0を付した集合は、集合pであり、最初は空の集合である。配置位置算出部114は、ステップS101で文書Aと文書Fの距離情報を抽出し、ステップS108で符号E11を付した連結リストE11を生成して集合pに追加する。次に、配置位置算出部114は、ステップS110で文書Cと文書Dの距離情報を抽出し、ステップS108で符号E22を付した連結リストE22トを生成して集合pに追加する。
【0044】
次に、配置位置算出部114は、ステップS110で文書Cと文書Eの距離情報を抽出し、ステップS107で符号E31、符号E32を付した連結リストE31、E32を生成し、それらのコストcを算出する。配置位置算出部114は、連結リストE22を削除し、算出したコストcが最小となる連結リストE31を、集合pに追加する。次に、配置位置算出部114は、ステップS110で文書D及び文書Eの距離情報を抽出し、ステップS103からステップS109へ進み、ステップS110で文書C及び文書Fの距離情報を抽出する。配置位置算出部114は、ステップS105で符号E41、E42、E43、E44を付した連結リストE41、E42、E43、E44を生成し、それらのコストcを算出する。配置位置算出部114は、連結リストE11、E31を削除し、算出したコストcが最小となる連結リストE42を、集合pに追加する。
【0045】
次に、配置位置算出部114は、ステップS110で文書B及び文書Fの距離情報を抽出し、ステップS106で符号E51、符号E52を付した連結リストE51、E52を生成し、それらのコストcを算出する。配置位置算出部114は、連結リストE42を削除し、算出したコストcが最小となる連結リストE52を、集合pに追加する。その後、配置位置算出部114は、ステップS110で文書B及び文書E、文書B及び文書D、・・・、文書A及び文書Dの文書情報を順に抽出し、それぞれ、ステップS103で連結リストに文書識別情報d1及びd2の両方が含まれると判定してS109へ進む。配置位置算出部114は、文書A及び文書Dの文書情報を抽出した後のステップS109で、リストlのすべての距離情報について処理が完了したと判定し、動作を終了する。
図6の場合、配置位置算出部114は、要素E52の連結リストとして、E,0.26,C,0.25,D,0.82,F,0.2,A,0.85,B,0.66を生成する。
【0046】
<画像の配置について>
配置位置算出部114は、間隔dxyに基づいて、文書xと文書yの比較文書画像間の偏角の差(相対偏角という)θxyを算出する。具体的には、配置位置算出部114は、θxy=(dxy/S)×360を算出する。
図7は、本実施形態に係る比較文書画像間の相対偏角の一例を表す概念図である。この図は、比較文書画像が画像間の相対偏角に基づいて、配置した場合の図である。文書Aと文書Fの相対偏角θAFが23.7度であることを示す。
【0047】
配置位置算出部114は、基準文書と比較文書zの距離情報リストに基づいて、比較文書画像の動径方向の距離rを算出する。配置位置算出部114は、算出した動径方向の距離r及び相対偏角θxyに応じて、比較文書画像を配置する。なお、配置位置算出部114は、文書識別情報を1つ選択し、選択した文書識別情報が表す文書の比較文書画像を配置する偏角を、予め定めた偏角(例えば、90度)に決定する。配置位置算出部114は、決定した偏角と算出した相対偏角θxyに基づいて、比較文書画像の偏角θを決定する。配置位置算出部114は、基準文書画像を中心に配置する。配置位置算出部114は、決定した動径方向の距離r及び偏角θに応じて、比較文書画像を配置する。
【0048】
図8は、本実施形態に係る文書画像の配置の一例を表す概略図である。この図において、円座標の動径方向はrで表され、偏角はθで表される。
図8では、基準文書画像が円座標の中心に配置されている。また、比較文書zの比較文書画像は、r=r、θ=θに配置されている。図8は、配置位置算出部114が偏角の基準として、文書Aの偏角θを90度に決定したことを示す。この場合、配置位置算出部114は、文書Fの偏角θをθ=θ+θAFとして算出する。図8において、文書Fの比較文書画像は、r=r、θ=θ=θ+θAFに配置されている。
【0049】
図9は、本実施形態に係る表示部106における表示の別の一例を示す概略図である。この図において、比較文書画像は、基準文書画像からの距離が遠い(類似度が低い)ほど小さい画像にするなど、基準文書画像との距離に応じて変化している。
【0050】
このように、本実施形態によれば、情報提供装置1では、文書比較部113が複数の文書の文書情報に基づいて、文書同士の類似度を算出する。配置位置算出部114が文書比較部113が算出した複数の類似度に基づいて、文書同士の類似度に対応する間隔であって、最初の点と最後の点が接続されている座標における間隔を算出する。つまり、配置位置算出部114が文書比較部113が算出した複数の類似度に基づいて、上記の座標における文書の順序を決定し、決定した順序における最初の文書と最後の文書との間隔を算出する。これにより、本実施形態では、情報提供装置1は、文書相互の類似度を表す情報を生成できる。
【0051】
また、本実施形態によれば、情報提供装置1では、上記の座標は円座標の偏角を表す座標である。これにより、本実施形態では、情報提供装置1は、文書相互の類似度を偏角で表すことができる。
また、本実施形態によれば、情報提供装置1では、文書比較部113は、基準となる基準文書と、各文書同士の類似度を算出する。配置位置算出部114は、文書比較部113が算出した文書と基準文書との文書の類似度に基づいて、円座標の動径方向の距離を算出する。これにより、本実施形態では、情報提供装置1は、基準文書と文書の類似度を動径方向の距離で表すことができる。
また、本実施形態によれば、情報提供装置1では、配置位置算出部114が算出した偏角と動径方向の距離に基づいて、文書を表す画像を、基準文書を表す画像を中心とした円座標に配置して表示する。これにより、本実施形態では、情報提供装置1は、二次元平面の二つの軸のうちの一つ(基準文書を中心に置いたときの基準文書との距離)を, 特定の一つ文書(基準文書)とその他の文書の類似度とし, もう一つの軸(基準文書を中心とする円の円周)でその他の文書同士の近さの度合を表現することができる。
【0052】
なお、上記実施形態において、情報提供装置1は、文書画像を円座標に配置する場合について説明したが、本発明はこれに限られない。例えば、情報提供装置1は、基準文書と比較文書の距離を色の濃淡や輝度もしくは明るさに対応させてもよい。また、この場合に、情報提供装置1は、間隔dxyを色(色相)に対応させてもよい。このように、情報提供装置1は、間隔dxyを、閉じた1次元の座標(最初の点と最後の点が接続されている座標。周期的な座標)に対応させてもよい。
【0053】
なお、上述した実施形態における情報提供装置1の一部をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、情報提供装置1に内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
また、上述した実施形態における情報提供装置1一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現しても良い。情報提供装置1の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化しても良い。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現しても良い。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いても良い。
【0054】
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
【符号の説明】
【0055】
1・・・情報提供装置、101・・・基準文書入力部、11・・・情報生成装置、106・・・表示部、111・・・文書蓄積部、112・・・制御部、113・・・文書比較部、114・・・配置位置算出部

【特許請求の範囲】
【請求項1】
複数の第1の文書の文書情報に基づいて、前記第1の文書同士の類似度を算出する文書比較部と、
前記文書比較部が算出した複数の類似度に基づいて、前記第1の文書同士の類似度に対応する間隔であって、最初の点と最後の点が接続されている座標における間隔を算出する配置位置算出部と、
を備えることを特徴とする情報生成装置。
【請求項2】
前記配置位置算出部は、前記文書比較部が算出した複数の類似度に基づいて、前記座標における前記第1の文書の順序を決定し、決定した順序における最初の第1の文書と最後の第1の文書との間隔を算出することを特徴とする請求項1に記載の情報生成装置。
【請求項3】
前記座標は円座標の偏角を表す座標であることを特徴とする請求項1又は請求項2に記載の情報生成装置。
【請求項4】
前記文書比較部は、前記第1の文書各々と第2の文書との類似度を算出し、
前記配置位置算出部は、前記文書比較部が算出した第1の文書各々と第2の文書との類似度に基づいて、円座標の動径方向の距離を算出することを特徴とする請求項3に記載の情報生成装置。
【請求項5】
請求項4に記載の情報生成装置と、
前記情報生成装置が算出した偏角と動径方向の距離に基づいて、前記第1の文書を表す画像を、前記第2の文書を表す画像を中心とした円座標に配置して表示する表示部と、
を備えることを特徴とする情報表示装置。
【請求項6】
情報生成装置が、複数の第1の文書の文書情報に基づいて、前記第1の文書同士の類似度を算出する文書比較過程と、
情報生成装置が、前記文書比較過程にて算出した複数の類似度に基づいて、前記第1の文書同士の類似度に対応する間隔であって、最初の点と最後の点が接続されている座標における間隔を算出する配置位置算出過程と、
を有することを特徴とする情報生成方法。
【請求項7】
情報生成装置のコンピュータに、
複数の第1の文書の文書情報に基づいて、前記第1の文書同士の類似度を算出する文書比較手順、
前記文書比較手順にて算出した複数の類似度に基づいて、前記第1の文書同士の類似度に対応する間隔であって、最初の点と最後の点が接続されている座標における間隔を算出する配置位置算出手順、
を実行させるための情報生成プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate