説明

分散潜在的意味インデキシングを使った情報検索およびテキストマイニングのための、方法、および、システム

情報検索およびテキストマイニング操作のための潜在的意味インデキシング(LSI)の使用が、大規模な異種のものからなるデータ集合を、まず、データ集合を、類似の概念ドメインを持ついくつかのより小さい区分に区分化することによって処理するように適合される。その次に、問い合わせベクトルを拡張する際のみならず、どのドメインに問い合わせるか決定する際にも利用される、概念ドメイン間のリンクを顕在化させるために類似性グラフネットワークが生成される。ユーザ問い合わせまたはテキストマイニング操作に関連する情報を含む可能性が最も高い区分化されたデータ集合に対してLSIが実行される。このようにして、LSIが、これまで拡張可能性の問題を提示したデータ集合に適用される。さらに、用語×文書行列の特異値分解の計算が、様々な分散コンピュータにおいて達成され、検索およびテキストマイニングシステムの頑強性が向上すると同時に、サーチ時間が短縮される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、分散アーキテクチャを使った概念に基づく情報の検索およびマイニングの方法、および、システムに関する。
【0002】
より詳細には、本発明は、異種のものからなるデータオブジェクトのコレクションを、そこに見出される概念ドメインに関して区分化し、潜在的意味インデキシング(LSI)を用いて区分化された各下位コレクションの内容に索引付けし、それによってこれらの分散LSIベクトル空間全体にわたって問い合わせを行うことを可能にする。これらのデータオブジェクトの下位コレクションのベクトル空間表現は、ユーザ問い合わせまたはマイニング操作に応答するのに必要とされる適当な情報源を選択するのに使用される。
【背景技術】
【0003】
潜在的意味インデキシング(LSI)は、用語間の依存関係または「意味類似性」を利用するベクトル検索方法の変形である高度な情報検索(IR)技術である。文書などのデータオブジェクト全体にわたる単語の用法のパターンには、何らかの基礎をなす、または「潜在的」な構造が存在し、この構造は統計的に発見されることが想定される。この手法の1つの大きな利点は、ある文書コレクションについて適当な縮小されたベクトル空間が計算されると、問い合わせは、その問い合わせと文書がマッチする用語を持たない場合でさえも、意味または概念において類似する文書を検索することができる。
【0004】
1つのLSIの情報検索手法は、各エントリが、ある用語がある文書中に出現する回数を与える、あるコレクションの用語/文書行列に特異値分解(SVD)を適用するものであり、同一出願人により詳述されている(特許文献1参照)。大きな用語/文書行列は、通常、元の行列が1次結合によってそこから近似される、おおよそ150から300の直交因子の集合に分解される。LSIで生成されるベクトル空間において、用語および文書は、これらの直交次元のそれぞれにおける連続値によって表され、したがって、用語および文書には、同じ空間において数値表現が与えられる。数学的には、用語をその行とし、文書をその列とするn×m疎行列Eを一緒に形成する、n個の一意の用語を持つm個の文書のコレクションを想定すると、E中の各エントリは、ある用語がある文書に出現する回数を与える。通常の場合、SVDを適用する前に、これらの未処理の度数カウントに対数/エントロピ重み付け(log(tf+l)entropy)が適用される。文書/文書および用語/用語の依存関係に帰属する構造は、数学的には、以下の式(1)で、EのSVDとして表される。
E=U(E)Σ(E)V(E) (1)
【0005】
式中、U(E)はU(E)U(E)=Iであるようなn×n行列であり、Σ(E)は特異値のn×n対角行列であり、V(E)はV(E)V(E)=Iであるようなn×m行列であり、簡単にするために、Eは文書より少ない用語を持つものと想定する。
【0006】
当然ながら、SVDの魅力は、それが、Eを、式(2)のランクkの再構築で示されるより低次元のベクトル空間kに分解するのに使用されることである。
=U(E)Σ(E)V(E) (2)
【0007】
因子の数は、この空間を構築するのに使用される一意の用語の数よりはるかに小さくなり得るため、単語は独立でなくなる。意味の類似する単語、および、それらが含む単語に基づいて、類似の内容を持つ文書は、LSI空間において互いの近くに位置することになる。これらの依存関係は、用語を用いて文書に問い合わせするだけでなく、文書を用いて用語に問い合わせし、用語を用いて用語に問い合わせし、他の文書を用いて文書に問い合わせすることも可能にする。実際、LSI手法は、単に、問い合わせを、「擬似文書」、あるいはそれが含む単語に基づく加重ベクトル和として扱うにすぎない。LSI空間において、用語または文書のベクトル間のコサインまたは内積は、それらの推定される類似性に対応し、この類似性の尺度は、文書に問い合わせし、それをフィルタにかけために興味深いやり方で利用される。この問い合わせベクトルqと文書ベクトルdの間の対応の尺度は式(3)によって与えられる。
sim(U(E)q,U(E)d) (3)
【0008】
左特異ベクトルの行列U(E)をベクトル辞書として使用することの正式な正当化の根拠は提供されている(例えば、非特許文献1参照)。
【0009】
LSIが普及した結果として、大量の異種のものからなる文書コレクションに問い合わせしようとするときにLSIによって示される、いくつかの問題が識別されている。SVDは、極端に大きい用語×文書行列では計算するのが難しく、コレクションが非常に大きくなると適合率/再現率性能が低下する傾向にある。驚くべきことに、LSIを取り巻く技術的考察の多くは、これらを実施する線形代数方法およびアルゴリズム、特に、SVDを大量の、用語/文書疎行列に適用する問題に集中している。様々な用語重み付けやSVDによって抽出される因子の数などのパラメータを変更することの、LSIの性能に対する影響の評価が行われている。LSIをより適切にスケーリングさせる手法の大部分は、LSIの索引付けおよびサーチアルゴリズムの複雑さを増大させることから見出されようとしている。
【0010】
LSIは、文書コレクションが増大すると、情報検索およびテキストマイニング戦略として制限される。というのは、大規模なコレクションを用いれば、文書を異なる概念ドメインから引き出す確率がますます大きくなるからである。これは、単一のLSIベクトル空間でモデル化される意味不均質性を増大させ、ゆえに、ノイズを導入し、LSIサーチアルゴリズムを「混乱させる」影響を及ぼす。あるコレクションにおいて多義性がより顕著になるにつれて、用語のベクトルは、その用語の一意の各意味ごとのすべてのベクトルの重心によって表される傾向があり、文書ベクトルは、文書が含む用語のベクトルの加重和から計算されるため、これらのセマンティクスもまた混乱する。
【0011】
一般に、概念ドメインの数は、文書コレクションのサイズと共に増大する。これは、情報空間に新しい概念が導入されること、あるいは、既存の概念が、その下位概念のさらなる差異化に伴って(文書数が)極端に大きくなることから生じ得る。どちらの場合にも、任意のベクトル空間ベースの方法における圧縮係数が、この膨張に適応するように増大される必要がある。
【0012】
大規模な概念的に差異化されていない文書コレクションに及ぼす訓練の有害な影響はおびただしいものがある。例えば、技術および食品という2つの概念ドメインから引き出された文書が、出典を明らかにせずに、単一の訓練集合に結合され、単一のベクトル空間を作成するためにこの集合にLSIが適用されると想定する。これら2つのドメインのセマンティクスがいかに混乱し得るかは容易に想像される。「chip(チップ)」および「wafer(ウェーハ)」という用語を表すベクトルの場所を例にとる。技術ドメインにおいては、silicon chip(シリコンチップ)、silicon wafer(シリコンウェーハ)、silicon valley(シリコンバレー)、およびcopper wafer(銅ウェーハ)という関連が見出される。しかしながら、食品ドメインにおいては、chipおよびwaferという用語は異なる意味を持ち、全く異なる意味関係、すなわち、potato chip(ポテトチップ)、corn chip(コーンチップ)、corn sugar(コーンシュガ)、sugar wafer(シュガーウェハース)があり得る。しかし、これらの意味上の区別は、LSIベクトル空間では混乱する。この概念的に差異化されていないコーパスに対して訓練を行うことにより、「chip」および「wafer」という共通の用語について、これらの用語が2つの概念ドメインにおいて持つ別個の意味を実際にはあまりはっきりと区別しないベクトルが計算される。代わりに、2つのドメインにおける各用語の別個の意味の数値平均または「重心」を表すにすぎない2つの意味的に「希薄な」ベクトルが索引付けされる。
【0013】
【特許文献1】米国特許第4839853号
【非特許文献1】"Using Linear Algebra for Intelligent Information Retrieval" by M. Berry et al., SIAM Review 37(4): pp. 573-595
【非特許文献2】"A Comparison of Document Clustering Techniques" by M. Steinbach et al., Technical Report 00-034, Department of Computer Science and Engineering, University of Minnesota
【発明の開示】
【発明が解決しようとする課題】
【0014】
したがって、大規模な異種のものからなるデータ集合を操作するように効率よくスケーリングされる、LSIベースの情報検索およびテキストマイニング操作を実行する方法およびシステムを持つことが望まれる。
【0015】
さらに、大規模なデータ集合に対して、迅速かつ正確にLSIベースの情報検索およびテキストマイニング操作を実行する方法およびシステムを持つことも望まれる。
【0016】
さらに、大規模なデータ集合に対して、概念的に差異化されるデータを混同する有害な影響を及ぼさずに、LSIベースの情報検索およびテキストマイニング操作を実行する方法およびシステムを持つことも望まれる。
【0017】
また、大規模な文書コレクションを、関連する概念ドメインを持つ下位コレクションの類似性グラフネットワークの作成を可能にする構造に処理する方法およびシステムを持つことも望まれる。
【0018】
さらに、ユーザが、サーチ結果で必要な類似性の度合いを指定することができるような、柔軟な方式で文書コレクションに問い合わせを行うことを可能にする方法およびシステムを持つことも望まれる。
【課題を解決するための手段】
【0019】
本発明は、大量の異種のものからなるデータオブジェクトの集合またはコレクション(文書集合ともいう)を取り、それをより意味的に均質な概念空間または下位コレクションに区分化する方法およびシステムを提供する。これは、LSIが、これらの集合またはコレクションのそれぞれに計算された個々のベクトル空間においてより適切に振る舞うことを可能にする。数学的には、この手法は、用語/文書行列の近似的ブロック対角化およびこれらのブロックのそれぞれでのSVDの獲得に等しい。その場合、問い合わせプロセスは、重なり合うブロックのネットワーク上へのマッピングであり、類似性メトリックを使ってこれらのブロックが実際にはどれほど重なり合うか示す。
【0020】
異種のものからなる文書コレクションを、用語×文書行列を計算する前に、概念ドメインによってソートされた文書の下位コレクションに前処理することは、各ドメイン(下位コレクション)がLSIを用いて独立に処理されることを可能にする。これは、記憶と計算両方のオーバーヘッドを低減し、より広いリソースネットワークにわたってベクトル空間(およびそれらのサーチ)を分散させる可能性を開く。この手法のさらなる利点は、より少ない次元から得られる任意の1つのベクトル空間でのより大きな意味解決であり、すなわち、LSIモデルがより大きな節減を示すことである。
【0021】
大規模なデータコレクションまたは複数のデータコレクションは、グループ化またはクラスタ化効果の有無について選別される。データコレクションが同種のものからなることが知られている場合、そのコレクションについてはこの最初の選別/クラスタ化ステップがスキップされる。次いで、この情報を使って、それぞれにSVDを適用する前に、文書がより意味的に均質な下位コレクションに分離される。ユーザの問い合わせが個々のLSIベクトル空間に適していたかどうか、すなわち、問い合わせの意図されるセマンティクスが個々の文書コレクションのセマンティクスにマッチしたかどうか決定するために、すべてのLSIベクトル空間の意味構造の間の対類似性が計算される。この距離尺度は、ベクトル空間の各対によって共用される単語から形成される意味グラフの類似性に基づくものである。ある問い合わせのセマンティクスは、複数の問い合わせ用語から、ユーザに、すべてのLSIベクトル空間で表される問い合わせ用語の異なる意味文脈を提示することによって推論され、次いで、この情報を利用して適正に問い合わせに情報が提供され、ヒットリストが融合される。その主要な考え方は、大規模な文書コレクションを、互いに概念的に独立の(またはほぼ独立の)より小さい下位コレクションに区分化し、次いで、それらの下位コレクションのそれぞれについてLSIベクトル空間を構築するというものである。
【0022】
「概念的独立」とは、(後で定義する)その意味類似性尺度がおおよそゼロである、2つのLSI空間に共通のいくつかの用語の存在を意味し得る。この場合、共通の用語は、関与する概念ドメイン全体にわたる多義性(1つの用語についての複数の意味)を表す。結果として生じるLSIベクトル空間のそれぞれにおいて多重解決概念分類が行われる。現実の状況においては、任意の2つの概念ドメイン間に相当数の共通用語があり得る。問い合わせにおける同義性および多義性の可能な問題に対処するために、共通用語によるリンクに基づく概念ドメインのネットワーク/グラフが生成される。次いで、ユーザの問い合わせ用語について文脈上適当な各LSI空間が適正に対処されるように、このグラフが、問い合わせ時に、最も近く隣り合う用語を求めて検査される。問い合わせベクトル作成に際してのLSIの使用は、ユーザが初期の問い合わせに類似性のレベルを選択することを可能にする。ユーザが、初期の問い合わせにより周辺的に関連し得る追加の文書を受け取る場合、システムは、LSI技法を使って問い合わせベクトルを拡張する。
【発明を実施するための最良の形態】
【0023】
図1を参照すると、本発明の文書コレクション処理の創意に富んだ方法が示されている。ステップ110で、本発明の方法は、文書コレクション(または集合)中の各文書における各用語ごとの度数カウントを生成する。この文脈における「データオブジェクト」という用語は、文書、ファイル、レコードなどの情報を指す。また、データオブジェクトは、本明細書では、文書とも呼ばれ得る。
【0024】
任意選択の前処理ステップ100において、各文書中の用語はその基準形式に還元され、所定の「ストップ」ワードの集合は無視される。ストップワードは、通常、「a」、「are」、「do」、「for」など、概念を接続するものとして使用されるが、実際の内容を提供しない単語である。一般的なストップワードのリストは当分野でよく知られている。また、類似の単語の集合をそれらの基準形式に還元する接尾辞ストリッパも当分野でよく知られている。そのようなストリッパまたはパーサは、computed、computingおよびcomputerなどの単語の集合を、「comput」という語幹語に還元し、それによってそのような単語の度数カウントを結合し、用語集合の全体サイズを縮小する。
【0025】
ステップ120で、異種のものからなるデータオブジェクトのコレクションは、概念ドメインによって類似の概念の下位コレクションに区分化される。より大きいデータコレクション内の1つまたは複数の別個の下位コレクションが、事実上同種のものからなることが知られている場合、それらの知られている同種のものからなるデータコレクションについて、初期の区分化は行う必要がない。データオブジェクトの、より概念的に均質な下位コレクションへの初期のソートでは、好ましくは、k個のクラスタを獲得するために各段階においてk=2とする再帰的な形の二分探索k平均アルゴリズムが使用される。クラスタ化技法については考察されている(例えば、非特許文献2参照)。二分探索k平均アルゴリズムが好ましいが、「標準」k平均アルゴリズムや他の種類の空間クラスタ化アルゴリズムも利用される。階層的クラスタ化アルゴリズムを含む他の種類のクラスタ化アルゴリズムも使用される。
【0026】
好ましくは、複数のデータオブジェクトクラスタは、二分探索k平均アルゴリズムの一連の反復を実行することによってさらに洗練される。次いで、ステップ130で、これらk個の文書クラスタまたは下位コレクションのそれぞれを縮小して、おおよそ200の直交次元を持つ縮小されたベクトル空間を生成するために、(以下で説明する)特異値分解が適用される。200次元では、サイズが扱いやすく、しかも、下位コレクションの意味解決を獲得することもできる。利用可能な計算処理能力や時間といった制約条件に応じて、異なるサイズも使用される。
【0027】
次いで、ステップ140で、k平均またはその他の適当なアルゴリズムを使って、各下位コレクションごとに(中核概念を表す)ベクトルクラスタおよびそれらの重心ベクトルを発見するために、これら縮小されたベクトル空間のそれぞれにおいてクラスタ化が実行される。代替として、ベクトルクラスタおよび重心ベクトルは、縮小されたベクトル空間にクラスタ化アルゴリズムを適用するのではなく、ステップ120で獲得されたクラスタ化データからも獲得される。これらの重心ベクトルが獲得されると、ステップ150で、これらの重心ベクトルのそれぞれに最も近い所定数の用語が探し出される。本発明の好ましい実施形態では、キーワードの数は1クラスタ当たり10に設定されるが、異なる状況では異なる数のキーワードも適当とし得る。これらは、この下位コレクションにラベル付けし、それによってそれらが含まれる概念クラスタを識別するためのキーワードとして使用される。k個のベクトル空間のそれぞれは、データ中に存在する基礎をなす概念に異なる解決を提供し、それぞれの文脈は独自のキーワード集合によって表される。
【0028】
文脈上関連する文書の下位コレクションごとにLSIベクトル空間を計算し、それぞれにおいて中核概念を表すキーワードを抽出すると、次のステップ160は、これらの空間の間の文脈的類似性を確立することである。ステップ160は、問い合わせに応答して文脈的に適当なLSIベクトル空間を選択し、サーチするのに必要である。類似性グラフネットワークを確立するために2つのグラフ/リンク尺度が作成される。ユーザ問い合わせが類似性グラフネットワークに渡され、そこで、各LSIベクトル空間ごとに適正な問い合わせが生成され、次いで、それぞれが独立に有用な文書を検索するように作用する。
【0029】
この重要なステップ160を以下で詳細に説明する。下位コレクションC、C2、...、Cは、k平均クラスタ化アルゴリズムを使って文書クラスCの区分として獲得されるk個の概念ドメインを表す。用語T、T、...、Tは、k個の概念ドメインの対応する用語集合を表す。tが、i=1、2、...、kとしたときのTの濃度を表し、V、V、...、Vが、SVD表現でのk個の用語空間の固有行列に対応するとすれば、これらのLSI空間のそれぞれにはf個の因子があり、式(4)は、i番目の概念ドメインのランクが低減された用語固有の基礎を形成する。
【0030】
【数1】

【0031】
文書集合D、D、...、Dは、k個の概念ドメインの対応する文書集合である。dは、i=1、2、...、kとしたときのDの濃度を表すものとする。さらに、U、U、...、Uは、SVD表現でのk個の文書空間の対応する固有行列であるものとする。ここで、
【0032】
【数2】

【0033】
は、i番目の概念ドメインのランクが低減された文書固有の基礎を形成する。Tij=T∩Tは、概念ドメインCとCの共通用語の集合である。また、tijはTijの濃度であり、m=V’は、概念ドメインCの用語類似性行列であり、mは、mの用語集合Qへの制限であり、Qにおいて出現する用語に対応するmの行/列だけを選択することによって獲得される(例えば、Q=Tではm=m)。用語ベクトルvの、SVDによって生成される用語空間への投影は、i番目の概念ドメインではV’vによって与えられる。
【0034】
本発明の方法は2つの異なるやり方を利用し、それらにおいては、2つの概念ドメイン間の類似性が図2aおよび2bに示すように求められ得る。第1の類似性尺度は、各概念ドメインに共通の用語の数である。共通の用語に関しては、任意の実際の意味を伝えるのではなく、文法上の構成として働く高度数の用語を除外することが必要である。これは、大部分、ステップ100で、ストップワードリストを用いてそれらの用語をフィルタリングすることによって文書を前処理する間に達成されるが、そのような前処理が実行されなかった場合には、この操作が、次に、不要な高度数の用語を除外するために実行される。
【0035】
第1の尺度は、任意の2つの概念ドメインの間の共通用語の出現度数を獲得する。この基礎をなす考え方は、多くの用語がそれらのベクトル空間に共通である場合、それらは、同じことを記述しているはずである、すなわち、それらは、類似の意味内容を持ち、類似の文脈を提供するというものである。このプロセスを、図2aを参照して説明する。共通集合Tijが空でない場合の概念ドメインCおよびCを考えると、これら2つの空間の間の近接性は、0次のものであると定義され、その度数尺度は、式(5)によって与えられる。
【0036】
【数3】

【0037】
図2aのステップ210で、下位コレクションの各対ごとに、この度数尺度が求められる。Tijが空であるとき、下位コレクションCとCの間に共通用語はない。しかしながら、CともCとも共通の用語を持つ、すなわち、TilおよびTjlが両方とも空ではない、他の何らかの空間Cが存在し得る。その場合、概念空間CおよびCは、中間の空間Cを介してリンクされる。図2bのステップ220で、これが求められる。この中間の空間にいくつかの選択肢がある場合には、ステップ230で、式(6)および(7)を使って「最強のリンク」が選択される。ここで、CとCの間の近接性は1次のものであることが示され、その度数尺度は、pを2つの空間の間の近接性とする式(7)によって与えられる類似性尺度s1を用いて、式(6)によって与えられる。
【0038】
【数4】

【0039】
前述の類似性尺度は、2つの概念空間の間に近接性を、共通用語の出現度数と共に考慮に入れる。ステップ210および230からのデータを使って、ステップ240で、直接に、またはリンクさせる下位コレクションを介して、下位コレクションの間の関係を示す類似性グラフネットワークがマップされる。
【0040】
第2の類似性の尺度は、単に、2つの概念ドメインによっていくつが共用されるかだけでなく、共通用語のセマンティクスにより大きく影響を受ける。概念ドメインのそれぞれにおける共通用語(それがいくつあっても)の間の意味関係が、それらが同じように関連しているかどうか決定するために考察される。
【0041】
図2bのステップ250で、(両方ともm×n次元の)2つの行列XとYの間の相関関係が、好ましくは、式(8)、(9)、(10)および(11)を使って求められる。
【0042】
【数5】

【0043】
式中、
【0044】
【数6】

【0045】
である。
【0046】
ステップ260で、これらの行列の一方(例えばX)が固定したまま維持され、他方(Y)が置換される(行/列)。そのような各置換ごとに、ステップ265で、マンテルの検定統計量が計算される。ステップ270で、獲得される統計量が、元のXおよびYを用いて獲得される検定統計量の値以上である回数(NGE)がカウントされる。そのような置換の合計回数がNrunsで表される。普通、5%の有意水準には約1000回の置換で十分であり、1%の有意水準には5000回の置換で十分である。次いで、ステップ275で、式(12)によって検定のp値が求められ、そのp値が、その有意水準を達成するのに使用された置換回数を考慮した所定の範囲内にある場合、マンテル検定の結果が許容できるとみなされる。1000回の置換で、検定結果を許容可能とみなすには、p値をおおよそ0.05未満とする必要がある。
【0047】
【数7】

【0048】
第1の類似性尺度に対応して、ステップ280で、式(13)によって、0次の近接性での意味尺度が求められる。
【0049】
【数8】

【0050】
同様に、ステップ285で、式(14)によって、1次の近接性の尺度が求められる。
【0051】
【数9】

【0052】
次いで、ステップ290で、最終的な意味類似性尺度s2が、やはりpを2つの空間の間の近接性とする式(15)によって与えられる。
【0053】
【数10】

【0054】
本発明の好ましい一実施形態は、LSIベクトル空間のセマンティクスを比較するとき、第2の類似性尺度を使用する。しかし、その妥当性は第1の類似性尺度(共通用語の割合)によって与えられることに留意すべきである。第2の尺度が非常に高い値(強い意味関係)を持つが、各概念ドメイン中の合計100用語のうち共通の用語は2つだけしかなかったことが判明していると仮定する。その場合、この尺度は大きな誤りを生じやすい。この状況において、第1の尺度は、この事実をはっきりと顕在化させ、意味尺度を検証するメトリックを提供する。2つの概念ドメインの間の意味類似性(またはその欠如)の明白な指示を獲得するには、両方の尺度が必要とされる。したがって、最も好ましい類似性の尺度は、これら2つの積である。
【0055】
ベクトル空間の間の文脈的類似性を求めた後、この方法で生じる類似性グラフおよび「識別概念」用語が、情報検索またはデータマイニング操作において使用される。情報検索を実行するための、その中の有用な文書が検索されるような、問い合わせと概念ドメインのベクトル空間の間の類似性。
【0056】
図3を参照すると、普通のユーザ問い合わせQは、ステップ310でユーザによって入力される
【0057】
【数11】

【0058】
における用語集合である。また、ユーザは、サーチ結果で求められる類似性の度合いを指定することもできる。より大きなサーチの自由度が求められる場合、システムは、以下で説明するように問い合わせベクトルを拡張する。次いで、ステップ320で、代表問い合わせベクトルが、LSI空間中の投影された用語ベクトルのそれぞれの正規化された和として生成される。例えば、(1)Q中の用語すべてが概念ドメイン用語集合Tに存在する、(2)いくつかの用語が存在する、または(3)全く存在しないなど、いくつかの可能な場合が考えられることに留意されたい。
【0059】
ステップ330で、概念ドメイン(すなわち下位コレクション)の用語集合に問い合わせ用語すべてが存在する下位コレクションが識別される。ステップ340で、そのような複数のドメインが存在する場合、それぞれが伝える「意味」を伴った、それらのドメインのランク付けが、どれに問い合わせするか決定するのに役立つ。ユーザが、自分が何を探しているか知っている場合、(前述のように)提供される「識別概念」用語が役に立つ。他方、決まった目標を持たない探索ユーザにとっては、このランク付けが、偶然の発見をサポートする。
【0060】
「識別概念」用語は、必然的に、問い合わせベクトルに対して(コサイン尺度が)最も近く投影された用語ベクトルに関連付けられた用語である。また、意味上、これらの用語は、問い合わせ用語にも最も近い。この概念ドメインのメンバとして、この用語集合は、ユーザがその問い合わせで何を意図したか発見しようとする際にそのドメインを表すのに最適な候補である。そのランク付けは、まさに、「識別概念」用語ベクトルと問い合わせベクトルの間のコサイン尺度の値である。ユーザが、マッチする文書を求めてどのドメインをサーチすべきか決定することができるように、ユーザにリストが提示される。図1のステップ350で、各概念ドメイン(下位コレクション)ごとに別個のリストでユーザに結果が返される。ステップ360で、ユーザが、ランク付けされた下位コレクションのリストに基づき、どの下位コレクションに問い合わせるべきか決定した後、ステップ370で、情報検索ソフトウェアは、コサインベースのベクトル空間類似性の標準LSI手法を使って、文書マッチを検索し、次いで、ステップ380で、それらがユーザに提示される。代替として、問い合わせに最適な下位コレクションの選択は、最高のランクを持つものを先に選択することにより自動的にも行われ得る。これは、より対話式のテキストマイニング環境においてよりも、厳密な情報検索システムにおいてより多く使用される傾向にあるはずである。より複雑な場合には、問い合わせ用語のいくつかが、概念ドメインの用語集合に欠けている。この場合もやはり、2つの手法が使用される。第1の手法において、プロセスは、それらの欠けている用語を無視することを選択し、単に、存在する用語だけを用いて前と同様に進む。代替の手法において、プロセスは、概念ドメイン中の既存の用語と、問い合わせに存在する存在しない用語との関係を調べる。
【0061】
前と同様に、単に、欠けている用語が無視されるだけの場合、「識別概念」用語およびランクがユーザに提示されるが、よりいっそうの注意が払われねばならない。というのは、この場合、問い合わせ用語すべてがマッチするとは限らないからである。1つの可能な解決方法は、概念用語を探し出すのに実際に使用された問い合わせ用語の割合だけそのランクを縮小することである。その場合、概念用語は、前と同様に正しく獲得される。存在しない問い合わせ用語が使用されるもう一方の場合は、実際には、次の場合の1つの具体例である。
【0062】
最悪のシナリオでは、問い合わせ用語のいずれも概念ドメインの用語集合に存在しない。ユーザが本当にこのドメインに問い合わせしようとするかどうかの疑問が生じる。1つのことは確かである。すなわち、前述の2つの場合に該当する概念ドメインがある場合、それらは、この場合に該当する任意のドメインの前に、間違いなく利用されるはずである。このドメインが問い合わせされる1つのやり方は、問い合わせ用語から開始して、このドメインに存在する同義語を発見するために、概念ドメイン全体にわたって用語の関連を調べることである。言い換えると、問い合わせ用語自体のみならず、それらに意味的に強く関連する用語も獲得するために情報空間全体が探索される。この方法を制御するには、サーチを制限するように1次関連(次数1)が課される(この場合0次は、前述の第1の場合を示唆する)。
【0063】
流れ図3に示すこの方法のこのバージョンは、ステップ320で、概念ドメインの問い合わせベクトルが、実際にそれらの問い合わせ用語を含む他の何らかの概念ドメインに類似した概念ドメインにおけるその投影された用語ベクトルの加重和として計算される点においてのみ、前述の考察と異なる。この他の概念ドメインの選択は、前述のドメイン類似性尺度に基づくものである(積尺度は、これについて適切に機能する)。問い合わせベクトルを含むと共に、問い合わせられるものに意味的にも最も近い概念ドメインが選択されると、その問い合わせドメインに拡張された問い合わせベクトルが構築される。この拡張された問い合わせベクトルを用いれば、前述のステップ330から370と同様に、「識別概念」用語を生成するのは容易である。
【0064】
分散LSI空間の計算および問い合わせにおいては、2つの主要な機能が実行される。第1の機能は、複数のLSIベクトル空間を指定する分類体系を作成することからなり、図1のステップ110から160、および任意選択で、ステップ100、ならびに使用される類似性技法に応じて、図2aまたは2bのステップで構成される。第2の機能は、図3のステップ310から370で示すように、この空間の分散ネットワークに実際に問い合わせることからなる。しかしながら、機能的観点から見れば、これら2つの機能は互いに独立であり、第1の機能は、図4に示す分散ネットワークの様々な場所で実行される。図4には、LSIハブプロセッサ410を使って様々なデータオブジェクトクラスタ化および情報問い合わせ要求が制御される、分散LSIネットワークのネットワーク構成が示されている。LSIハブプロセッサ410は、問い合わせを仲介し、類似性グラフネットワークを生成し、新着の文書に索引付けする(またはその索引を付け直す)という3つの機能を持つ。それぞれが、関連付けられたデータベース431〜433中の複数のデータオブジェクトにアクセスすることのできる、1つまたは複数のサーバ421〜423がネットワークに追加される際に、LSIハブプロセッサ410は、すべてのサーバおよびデータベース中のすべてのデータオブジェクトの包括的ネットワークグラフを作成するために、図1ならびに図2aおよび/または2bの本発明の方法に従ってデータオブジェクトの分散処理を制御する。LSIハブプロセッサ410は、前述の区分化および類似性処理方法で示すステップの一部または全部を実行することもでき、ただ単に、サーバ421〜423の1つまたは複数における処理を制御することもできることを理解すべきである。次いで、LSIハブプロセッサ410は、ユーザ端末440からの情報検索またはデータマイニング問い合わせに応答することができる。ユーザ端末440からの問い合わせに応答して、LSIハブプロセッサは、図2に示す本発明の方法を実行し、1つまたは複数のデータベース431〜433からそれらのデータオブジェクトを抽出することによってユーザ端末440に問い合わせ結果を返す。ユーザ端末440から、ユーザは、LSIハブプロセッサ410に、ユーザにさらなる柔軟性を提供する前述の拡張問い合わせを使用するよう要求することができる。
【0065】
このように、LSIハブプロセッサ410は、計算集約的なクラスタ化操作、分解操作および重心ベクトルの生成を管理する。また、LSIハブプロセッサ410は、より多数のデータオブジェクトを持つ概念ドメインを作成し、それによってその後の検索またはテキストマイニング操作をより効率的にするために、同じデータベース中の類似のクラスタの配置を指定変更することによって、データベースの間でデータをより効率よく物理的に区分化するのにも使用される。また、LSIハブプロセッサ410は、類似の意味属性を持つ文書を同じ概念ドメインに配置するために、新しい文書を、物理的または仮想的に、関連性のある区分として索引付けするのにも使用される。ユーザに結果を提示する際に、LSIハブプロセッサは、ユーザの選択に応じて、概念ドメインでグループ化された結果のランク付けリスト、または問い合わせられたドメインすべてにわたる結果のランク付けリストを提示するよう、ユーザによって要求される。
【0066】
本発明の一実施形態が、1989年以来NSF(米国立科学財団)によって資金提供された提案の要約を含むNSF賞データベースを区分化し、問い合わせるのに使用された。1989年以前に作成された賞に関する情報は、その賞がその後修正されている場合に限り利用可能である。378の異なるNSFプログラムから選択された合計22,877件の要約が、合計カウント114,569個の一意の用語と共に使用された。
【0067】
本発明の分散LSI方法は、その数が解決(またな類似性)のレベルに左右される概念クラスの集合を、各クラスにラベル付けするキーワードの集合と共に提供する。最終的な概念クラス集合の実際の選択は、ユーザが自分の目的に合わせて解決のレベルを調整するために対話プロセスである。ユーザを支援するために、アルゴリズムは、現在のクラスタのいくつかのメトリックを提供する。例えば、そのような2つの解決レベルでの(それらのキーワードによって表される)概念クラスを以下に列挙する。
【0068】
【表1】

【0069】
【表2】

【0070】
【表3】

【0071】
本発明を使って獲得された予備のクラスタおよび概念ラベルは、このアルゴリズムが、解決のレベルが上げられるときに、新しい(または隠された)概念をうまく探し出すように見えることを示している。さらに、アルゴリズムによって返される概念ラベルは、正確であり、解決のレベルが上がるにつれて洗練される。
【0072】
この場合には、分散LSIの問い合わせアルゴリズムの単純な実装が使用された。問い合わせ(用語集合)が与えられると、アルゴリズムは、分散環境において各LSI空間ごとに問い合わせ用語集合を作成し、それがさらに、カットオフスコアによって洗練される。アルゴリズムは、前述のように、類似性メトリックの集合を使用する。個々のLSI問い合わせからの結果が収集され、閾値処理されてユーザに提示され、概念で類別される。以下のNSF理事会コードのそれぞれから、250文書を含むNSF賞データベースの一部が選択された。
1. ENG 工学
2. GEO 地球科学
3. SBE 社会科学、行動科学および経済科学
4. HER 教育および人的資源
5. MPS 数理科学および物理科学
6. CSE コンピュータおよび情報科学/工学
7. BIO 生物科学
【0073】
これらの選択を通して、1750文書のコレクション全体が、意味的に不均質であることが確認された。次に、8つの異なるLSI空間、すなわち、各理事会コードに属するすべての文書に1つずつ、およびコレクション全体に最後の1つが計算された。分散問い合わせアルゴリズムが、7つのLSI空間に対して実行され、通常の問い合わせが包括的空間に対して実行された。比較のために、返される実際の文書が最終的なベンチマークを提供した。というのは、分散LSI問い合わせ機構が、より適切に働くと期待されたからである。
【0074】
主要な問い合わせは、用語{brain(脳),simulation(シミュレーション)}からなり、これが問い合わせアルゴリズムに供給された。さらに、システム全体で0.5のカットオフ(類似性)が設定された。アルゴリズムによって生成された(このカットオフを使用する)拡張された問い合わせ集合を以下に列挙する。
【0075】
【表4】

【0076】
最終的な問い合わせ結果は以下の通りであった。より大きいLSI空間に対する問い合わせは、0.5より大きい類似性スコアを持つ結果を返さなかった。しかしながら、上位10件は、低いスコアではあるが、脳シミュレーションに関連する2つの文書を含んでいた。これら2つの文書は、BIOおよびSBEからの結果において、0.5より大きい類似性スコアと共に報告された。(先には見つからなかった)別の文書が、0.5を上回るスコアと共にCSE空間から報告された。この文書は、本当は、この問い合わせに関連する、ニューラルネットワークアルゴリズムに関する要約であることが判明した。その他の空間は、0.5を上回る類似性スコアを持つ文書を返さなかった。
【0077】
以上の記述は、本発明を図示し、説明するために提示されたものにすぎない。網羅的であることも、本発明を開示通りのどんな形に限定することも意図されていない。前述の教示に照らして、多くの変更および変形が可能である。前述の適用例は、当分野の技術者が、様々な適用に関して、企図される個々の用途に適する様々な変更と共に、本発明を最も適切に利用することができるように、本発明の原理およびその実際の適用を最も適切に説明するために選択され、記述されたものである。
【図面の簡単な説明】
【0078】
【図1】本発明による文書コレクションを処理する方法を示す流れ図である。
【図2a】本発明による文書コレクションを処理する方法、特に、下位コレクションの類似性に関するデータの生成を示す流れ図である。
【図2b】本発明による文書コレクションを処理する方法、特に、下位コレクションの類似性に関するデータの生成を示す流れ図である。
【図3】本発明の方法により処理される文書コレクションに問い合わせする方法を示す流れ図である。
【図4】本発明による分散LSIシステムの一実施形態を示す概略図である。

【特許請求の範囲】
【請求項1】
情報検索およびデータマイニング操作で使用するためにデータオブジェクトのコレクションを処理する方法であって、
前記コレクション中の各データオブジェクトの各用語ごとに度数カウントを生成するステップと、
用語/データオブジェクト情報を使って、前記データオブジェクトのコレクションを、それぞれがその内に含まれる前記データオブジェクトの概念的依存関係に基づくものである、複数の下位コレクションに区分化するステップと、
各下位コレクションごとに用語/データオブジェクト行列を生成するステップと、
前記用語/データオブジェクト行列を縮小された特異値表現に分解するステップと、
各下位コレクションの重心ベクトルを決定するステップと、
各下位コレクションにおいて重心ベクトルに最も近い所定数の用語を見つけるステップと、
下位コレクション間の類似性を確立するために類似性グラフネットワークを作成するステップと
を具えたことを特徴とする方法。
【請求項2】
各データオブジェクトごとに前記用語度数カウントを生成する前に、事前選択されたストップワードの集合を除去するために文書を前処理するステップをさらに具えたことを特徴とする請求項1記載の方法。
【請求項3】
前記前処理するステップは、様々な用語の基準形式への還元をさらに具えたことを特徴とする請求項2記載の方法。
【請求項4】
前記コレクションを区分化するステップは、二分探索k平均クラスタ化アルゴリズムを使って行われることを特徴とする請求項1記載の方法。
【請求項5】
前記コレクションを区分化するステップは、k平均クラスタ化アルゴリズムを使って行われることを特徴とする請求項1記載の方法。
【請求項6】
前記コレクションを区分化するステップは、階層的クラスタ化を使って行われることを特徴とする請求項1に記載の方法。
【請求項7】
前記所定数の用語は10個であることを特徴とする請求項1に記載の方法。
【請求項8】
各下位コレクションの重心ベクトルを決定するステップは、前記下位コレクションの前記用語/データオブジェクト行列の還元された特異値表現にクラスタ化アルゴリズムを使用することを特徴とする請求項1記載の方法。
【請求項9】
各下位コレクションの重心ベクトルを決定するステップは、前記区分化するステップの結果に基づくものであることを特徴とする請求項1記載の方法。
【請求項10】
各下位コレクションごとの前記用語/データオブジェクトの前記還元された特異値表現は、おおよそ200の直交次元を持つことを特徴とする請求項1記載の方法。
【請求項11】
下位コレクション間の類似性を確立するステップは、下位コレクション間の共通用語の出現度数に基づくものであることを特徴とする請求項1記載の方法。
【請求項12】
前記類似性グラフネットワークを作成するステップは、前記下位コレクションのそれぞれにおける前記共通用語の間の意味関係に基づくものであることを特徴とする請求項1記載の方法。
【請求項13】
前記類似性グラフネットワークを作成するステップは、前記下位コレクションのそれぞれにおける、下位コレクション間の共通用語の前記出現度数と、前記共通用語間の前記意味関係との積に基づくものであることを特徴とする請求項1記載の方法。
【請求項14】
前記類似性グラフネットワークを作成するステップは、
共通用語を持たない第1の下位コレクションと第2の下位コレクションが、両方とも、1つまたは複数のリンク下位コレクションと共通の用語を持つかどうか決定するステップと、
最強のリンクを持つ前記リンク下位コレクションを選択するステップと
をさらに具えたことを特徴とする請求項11記載の方法。
【請求項15】
前記類似性グラフネットワークを作成するステップは、
第1の下位コレクションと第2の下位コレクションの間の相関関係を決定するステップと、
前記第1の下位コレクションを前記第2の下位コレクションに対して置換するステップと、
各置換ごとのマンテルの検定統計量を計算するステップと、
前記マンテルの検定統計量が、前記第1の下位コレクションと前記第2の下位コレクションの間の前記相関関係以上である回数をカウントするステップと、
前記カウントからp値を決定するステップと、
0次の近接性での尺度を計算するステップと、
1次の近接性での尺度を計算するステップと、
【数1】

である類似性尺度s2に基づいて意味関係を決定するステップと
をさらに具えたことを特徴とする請求項12記載の方法。
【請求項16】
ユーザからのユーザ問い合わせに応答した情報検索の方法であって、
データオブジェクトの概念的依存関係に基づいて、データオブジェクトのコレクションを、下位コレクション間の関係が類似性グラフネットワークによって表される複数の下位コレクションに区分化するステップと、
前記ユーザ問い合わせに基づいて問い合わせベクトルを生成するステップと、
前記類似性グラフネットワークを使って前記ユーザ問い合わせに応答する可能性の高いすべての下位コレクションを識別するステップと、
識別された各下位コレクションにおいて問い合わせベクトルに類似したデータオブジェクトを識別するステップと
を具えたことを特徴とする方法。
【請求項17】
前記データオブジェクトのコレクションを区分化するステップは、
前記コレクション中の各データオブジェクトの各用語ごとに度数カウントを生成するステップと、
用語/データオブジェクト情報を使って、前記データオブジェクトのコレクションを、複数の下位コレクションに区分化するステップと、
各下位コレクションごとに用語/データオブジェクト行列を生成するステップと、
前記用語/データオブジェクト行列を、還元された特異値表現に分解するステップと、
各下位コレクションの重心ベクトルを決定するステップと、
各下位コレクションにおいて重心ベクトルに最も近い所定数の用語を見つけるステップと、
下位コレクション間の類似性を確立するために類似性グラフネットワークを作成するステップと
をさらに具えたことを特徴とする請求項16記載の方法。
【請求項18】
前記重心ベクトルを決定するステップは、前記下位コレクションの前記用語×データオブジェクト行列の前記還元された特異値表現にクラスタ化アルゴリズムを使用することを特徴とする請求項17記載の方法。
【請求項19】
各下位コレクションの重心ベクトルを決定するステップは、前記区分化するステップの結果に基づくものであることを特徴とする請求項17記載の方法。
【請求項20】
前記類似性グラフネットワークを作成するステップは、
共通用語を持たない第1の下位コレクションと第2の下位コレクションが、両方とも、1つまたは複数のリンク下位コレクションと共通の用語を持つかどうか決定するステップと、
最強のリンクを持つ前記リンク下位コレクションを選択するステップと
をさらに具えたことを特徴とする請求項17記載の方法。
【請求項21】
前記類似性グラフネットワークを作成するステップは、
第1の下位コレクションと第2の下位コレクションの間の相関関係を決定するステップと、
前記第1の下位コレクションを前記第2の下位コレクションに対して置換するステップと、
各置換ごとのマンテルの検定統計量を計算するステップと、
前記マンテルの検定統計量が、前記第1の下位コレクションと前記第2の下位コレクションの間の前記相関関係以上である回数をカウントするステップと、
前記カウントからp値を決定するステップと、
0次の近接性での尺度を計算するステップと、
1次の近接性での尺度を計算するステップと、
【数2】

である類似性尺度s2に基づいて意味関係を決定するステップと
をさらに具えたことを特徴とする請求項17記載の方法。
【請求項22】
各データオブジェクトごとに前記用語度数カウントを生成する前に、事前選択されたストップワードの集合を除去するために文書を前処理するステップをさらに具えたことを特徴とする請求項17記載の方法。
【請求項23】
前記コレクションを区分化するステップは、二分探索k平均クラスタ化アルゴリズムを使って実行されることを特徴とする請求項16記載の方法。
【請求項24】
それぞれが前記ユーザ問い合わせに応答するデータオブジェクトを含む可能性に基づいて前記識別された下位コレクションをランク付けするステップと、
前記ランク付けされた下位コレクションのどれに問い合わせるか選択するステップと、
前記ランク付けされた下位コレクションを前記ユーザに提示するステップと、
問い合わせられる前記ランク付けされた下位コレクションのユーザ選択を入力するステップと
をさらに具えたことを特徴とする請求項16記載の方法。
【請求項25】
前記ユーザ問い合わせに基づいて問い合わせベクトルを生成するステップは、前記問い合わせ用語を実際に含む別の概念ドメインに類似した1つまたは複数の概念ドメインにおけるその投影された用語ベクトルの加重和を計算することによって前記ユーザ問い合わせを拡張することをさらに具えたことを特徴とする請求項16記載の方法。
【請求項26】
前記ユーザに、概念ドメインでランク付けされた前記識別されたデータオブジェクトを提示するステップをさらに具えたことを特徴とする請求項16記載の方法。
【請求項27】
ユーザ問い合わせに応答したデータオブジェクトのコレクションからの情報検索のシステムであって、
ユーザ問い合わせを入力する手段と、
前記データオブジェクトのコレクションを格納し、前記データオブジェクトのコレクションを、その内に含まれるデータオブジェクトの概念的依存関係に基づいて複数の下位コレクションに区分化する1つまたは複数のデータサーバと、
(i)前記複数の区分化された下位コレクションの類似性に基づいて類似性グラフネットワークを作成し、(ii)前記ユーザ問い合わせに基づいて問い合わせベクトルを生成し、(iii)前記類似性グラフネットワークに基づいて前記ユーザ問い合わせに応答する可能性が高い下位コレクションを識別し、(iv)選択された各下位コレクションにおける問い合わせベクトルに類似したデータオブジェクトの識別を調整するために各データサーバとやりとりするLSIプロセッサハブと
を具えたことを特徴とするシステム。
【請求項28】
前記識別されたデータオブジェクトを前記ユーザに提示する手段をさらに具えたことを特徴とする請求項27記載のシステム。
【請求項29】
情報検索およびデータマイニング操作で使用するためにデータオブジェクトのコレクションを処理するシステムであって、
前記コレクション中の各データオブジェクトの各用語ごとに度数カウントを生成する手段と、
用語/データオブジェクト情報を使って前記データオブジェクトのコレクションを複数の下位コレクションに区分化する手段と、
各下位コレクションごとに用語/データオブジェクト行列を生成する手段と、
前記用語/データオブジェクト行列を還元された特異値表現に分解する手段と、
各下位コレクションの重心ベクトルを決定する手段と、
各下位コレクションにおいて、重心ベクトルに最も近い所定数の用語を見つける手段と、
下位コレクション間の類似性を確立するために類似性グラフネットワークを作成する手段と
を具えたことを特徴とするシステム。

【図1】
image rotate

【図2a】
image rotate

【図2b】
image rotate

【図3】
image rotate

【図4】
image rotate


【公表番号】特表2006−525602(P2006−525602A)
【公表日】平成18年11月9日(2006.11.9)
【国際特許分類】
【出願番号】特願2006−513228(P2006−513228)
【出願日】平成16年4月23日(2004.4.23)
【国際出願番号】PCT/US2004/012462
【国際公開番号】WO2004/100130
【国際公開日】平成16年11月18日(2004.11.18)
【出願人】(399047921)テルコーディア テクノロジーズ インコーポレイテッド (61)
【Fターム(参考)】