説明

情報潮流検出・提示方法およびその装置ならびに記憶媒体

【課題】 文書データベースに含まれる文書内容の自動話題抽出、話題別整理と関連話題の的確な把握を同時に可能とする情報検索・閲覧支援装置の提供。
【解決手段】 情報検索・閲覧支援装置は、文書データベース30内の情報をデータ処理手段により検索・閲覧処理できる。データ処理手段は、データベース30内の各文書中の単語の頻度情報を抽出・解析する文書解析手段40と、各話題中の各単語の重要度、各文書の重要度を求め、頻度情報と各単語および各文書の重要度とを基に、各文書中・各単語中の各話題の強度を求める独立話題分析手段41と、各話題の強度から、各話題が同一文書中に同時に現れる強度を定めて、その強度と所定しきい値とを比較し話題の関連性判定を行なう話題関連度評価手段44とからなる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンピュータを使用して文書データベースに含まれる文書の内容の自動話題抽出、話題別整理と、話題の新規性の判定および情報潮流の検出、関連話題の的確な把握とを同時に可能とする情報検索・閲覧支援方法、情報潮流検出・提示方法およびその装置ならびに記憶媒体に関するものである。
【背景技術】
【0002】
近年の電子技術やコンピュータ技術の急速な発展に伴い、さまざまな電子文書データがデータベースとして蓄積されている。例えば、各種マニュアル、製品レポート、トラブルレポートあるいは問い合わせ記録などがデータベース化されており、これらを活用することにより効率的な対処を実現させることができる。また、これら文書データベースを活用することは、各種業務処理の効率化を図ることが可能になる。
【0003】
しかしながら、これら業務で必要となる文書データベースでは、常に最新情報が登録されているので、いつも同じ索引によって文書を整理する従来の方法では、次々と蓄積される文書内容の変化に対応できなかった。
【0004】
そこで、話題を正確に反映し、話題の分類を適正に行なうことができる文書自動分類装置が提案されている(特開平11−85797号公報、第1の従来技術)。この第1の従来技術による装置は、学習用文書から有効語を選定し、学習文書と有効語とを参照して各段落内に含まれている有効語の数を求め、段落内有効語数を用いて各有効語の組の段落内共起頻度を求める。この求めた段落内共起頻度から各有効語の有効語ベクトルが求められ、学習用文書と分類対象文書のそれぞれについて、有効語ベクトルを参照して文書ベクトルを求め、各カテゴリのフォルダベクトルと分類対象文書の文書ベクトルとを比較し、その比較結果に応じて分類対象文書が属するカテゴリが決定される。
【0005】
また、時間情報を有する文書を所定の時間間隔で分類し、分類カテゴリ別に時系列的に並べて、時間的な話題の変遷を抽出して比較する情報潮流提示方法が提案されている(特開平10−154150号、第2の従来技術)。この情報潮流提示方法は、文書入力データと既知分類カテゴリと初期値とから既知分類カテゴリに入力データを割当て計算し、入力データと初期値により入力データから新しい分類カテゴリを作成して割り当て計算し、入力データと初期値から時間に関する分類カテゴリを作成し入力データの割り当てを計算し、前記計算結果で得た分類結果の分類カテゴリを時間情報で並べるものである。
【特許文献1】特開平11−85797号
【特許文献2】特開平10−154150号
【発明の開示】
【発明が解決しようとする課題】
【0006】
しかしながら、上記第1の従来技術によれば、話題の分類を確かに適正に行えるものの、基本的に、その分類が特定の使用者の意図によって分類されているため、客観的な分類にならず、当該特定の使用者にとって使用し易くても、他の使用者には使いづらいという欠点があった。
【0007】
また、上記第2の従来技術によれば、単に、話題を決まった時間間隔で分類し、分類カテゴリに割り当てられた文書の数と文書とを時系列的に並べて、時間的な話題の変遷を抽出し、視覚化したものであって、新規な話題の発見や話題間の関連性を得ることができない欠点があった。
【0008】
本発明は、上述した欠点を解消するためになされたものであり、文書データベースに含まれる文書内容の自動話題抽出、話題別整理と関連話題の的確な把握を同時に可能とする情報検索・閲覧支援方法およびその装置ならびに記憶媒体を提供することを第1の目的としている。本発明は、新しい文書追加の多い文書データベースにおいて、その内容が時間経過とともに変化するため、話題の自動的抽出とその時間的変化の追跡により、現在の文書データベース内容のそのときの時間的変化の把握を容易にした情報潮流検出・提示方法およびその装置ならびに記憶媒体を提供することを第2の目的としている。
【課題を解決するための手段】
【0009】
上記第2の目的を達成するために、請求項1記載の発明は、記憶手段に記憶された文書データベース内の情報が時間経過に伴って変化することをデータ処理手段により追跡できる情報潮流検出・提示方法において、前記データ処理手段は、前記文書データベース更新前と更新後の各々に含まれる各文書中での各単語の出現表から、各話題中の各文書・各単語の重要度を求め、内容が互いに独立な決められた個数の話題を抽出する工程と、前記文書データベース更新後の話題の新規性を、更新前の話題との各単語の重要度による角度の最小値により計測し、その最小値を与える更新前の話題を更新前最類似話題とする工程と、前記角度が一定値以上であれば、新規な話題と判定する工程と、前記文書データベース更新後の話題から、更新前最類似話題へのリンクを作成するとともに当該リンク情報を蓄積する工程とを処理するようにしている。
【0010】
上記第2の目的を達成するために、請求項2記載の発明は、データベースを記憶する記憶手段と、そのデータベース内の情報を検索・閲覧処理できるデータ処理手段とを備えた情報潮流検出・提示装置において、前記データ処理手段は、前記文書データベース更新前と更新後の各々に含まれる各文書中での各単語の出現表から、各話題中の各文書・各単語の重要度を求め、内容が互いに独立な決められた個数の話題を抽出する手段と、前記文書データベース更新後の話題の新規性を、更新前の話題との各単語の重要度による角度の最小値により計測し、その最小値を与える更新前の話題を更新前最類似話題とする手段と、前記角度が一定値以上であれば、新規な話題と判定する手段と、前記文書データベース更新後の話題から、更新前最類似話題へのリンクを作成するとともに当該リンク情報を蓄積する手段とを備えるようにしている。
【0011】
上記第2の目的を達成するために、請求項3記載の発明は、データベース内の情報を検索・閲覧するに際して検索・閲覧支援できる情報潮流検出・提示プログラムが記憶された記憶媒体において、前記文書データベース更新前と更新後の各々に含まれる各文書中での各単語の出現表から、各話題中の各文書・各単語の重要度を求め、内容が互いに独立な決められた個数の話題を抽出する第1のプログラムと、前記文書データベース更新後の話題の新規性を、更新前の話題との各単語の重要度による角度の最小値により計測し、その最小値を与える更新前の話題を更新前最類似話題とする第2のプログラムと、前記角度が一定値以上であれば、新規な話題と判定する第3のプログラムと、前記文書データベース更新後の話題から、更新前最類似話題へのリンクを作成するとともに当該リンク情報を蓄積する第4のプログラムとを記憶し、コンピュータに上記各プログラムを格納することにより、情報潮流検出・提示方法あるいは情報潮流検出・提示装置を実現させるようにしている。
【発明の効果】
【0012】
以上説明したように本発明に係る情報検索・閲覧支援方法並びに装置によれば、文書データベースに含まれる文書内容の自動的に話題を抽出できるとともに、話題別整理と関連話題の的確な把握を同時にできることになる。
【0013】
また、本発明の情報潮流検出・提示方法並びに装置によれば、新しい文書追加の多いデータベースにおいて、その内容が時間経過とともに変化するため、話題の自動的抽出と、その時間的変化の追跡により、現在のデータベースの内容や、その時間的変化の把握を容易にすることができる。
【発明を実施するための最良の形態】
【0014】
以下、本発明の構成を図面に示す実施形態に基づいて詳細に説明する。
【0015】
上記第1の目的を達成するために、記憶手段に記憶された文書データベース内の情報をデータ処理手段により検索・閲覧処理できる方法において、データ処理手段は、前記文書データベース内の各文書中の単語の頻度情報を抽出・解析する工程と、各話題中の各単語の重要度、各文書の重要度を求め、内容が互いに独立な決められた個数の話題を抽出する工程と、前記頻度情報と各単語および各文書の重要度とを基に、各文書中・各単語中の各話題の強度を求める工程と、前記各話題の強度から、各話題が同一文書中に同時に現れる話題の関連度を定めて、その求めた関連度と所定のしきい値とを比較して話題の関連性判定を行なう工程と、各抽出話題に関する情報を整理した表示用情報を作成する工程とを処理するようにしている。したがって、内容が互いに独立な話題の抽出と話題の関連性判定の2つの工程を経ることで、異なるが関連する内容を高精度に抽出・判定する。
【0016】
上記第1の目的を達成するために、データベースを記憶する記憶手段と、そのデータベース内の情報を検索・閲覧処理できるデータ処理手段とを備えた装置において、前記データ処理手段は、前記文書データベース内の各文書中の単語の頻度情報を抽出・解析する手段と、各話題中の各単語の重要度、各文書の重要度を求め、内容が互いに独立な決められた個数の話題を抽出する手段と、前記頻度情報と各単語および各文書の重要度とを基に、各文書中・各単語中の各話題の強度を求める手段と、前記各話題の強度から、各話題が同一文書中に同時に現れる話題の関連度を定めて、その求めた関連度と所定のしきい値とを比較して話題の関連性判定を行なう手段と、各抽出話題に関する情報を整理した表示用情報を作成する手段とを処理するようにしている。
【0017】
上記第1の目的を達成するために、データベース内の情報を検索・閲覧するに際して検索・閲覧支援できるプログラムが記憶された記憶媒体において、前記文書データベース内の各文書中の単語の頻度情報を抽出・解析する第1のプログラムと、各話題中の各単語の重要度、各文書の重要度を求め、内容が互いに独立した話題を抽出する第2のプログラムと、前記頻度情報と各単語および各文書の重要度とを基に、各文書中・各単語中の各話題の強度を求める第3のプログラムと、前記各話題の強度から、各話題が同一文書中に同時に現れる話題の関連度を定めて、その求めた関連度と所定のしきい値とを比較して話題の関連性判定を行なう第4のプログラムと、各抽出話題に関する情報を整理した表示用情報を作成する第5のプログラムとを記憶し、コンピュータに上記各プログラムを格納することにより、情報検索・閲覧支援方法あるいは情報検索・閲覧支援装置を実現させるようにしている。
【0018】
[第1の実施の形態]
図1ないし図9は本発明の第1の実施に係る情報検索・閲覧支援方法を説明するための図である。ここで、図1は本発明の第1の実施の形態に係る情報検索・閲覧支援方法を実現するハードウエア構成を示すブロック図である。この図1に示すコンピュータ装置1は、主な構成として、コンピュータ本体2と、キーボード3と、マウス4と、ディスプレイ5と、その他の周辺機器(図示せず)とからなる。
【0019】
前記コンピュータ本体2は、主な構成として、プログラムにより各種制御や演算を行なう中央演算処理装置(CPU)21と、このCPU21にメモリバス22を介して接続されている主メモリ23と、バスライン24を介してCPU21に接続されているROM25と、バスライン24を介してCPU21に接続されているハードディスク装置26と、バスライン24を介してCPU21に接続されているディスプレイアダプタ27と、バスライン24を介してCPU21に接続されているキーボード・マウス・ボード28等とからなる。ディスプレイアダプタ27にはディスプレイ5が接続されており、キーボード・マウス・ボード28にはキーボード3とマウス4とが接続されている。
【0020】
また、ハードディスク装置26には、図示しないオペレーティングシステムと、本発明の実施の形態に係る情報検索・閲覧支援方法を実現するためのプログラムを含む各種プログラムと、本発明の実施の形態に係る情報検索・閲覧支援方法で対象とする文書データベース30と、文書中単語頻度表31と、単語リスト32と、話題強度表33と、話題中単語重要度表34と、話題中文書重要度表35と、文書中話題強度表36と、単語中話題強度表37と、その他必要なデータとが記憶されている。
【0021】
コンピュータ本体2の電源が投入されると、ROM25に記憶されているイニシャルロードプログラムをCPU21が実行することになり、このハードディスク装置26に記憶されている本発明の第1の実施の形態を実現するアプリケーションプログラムが主メモリ23に展開される。コンピュータ本体2のCPU21は、主メモリ23に展開された当該アプリケーションプログラムを実行することにより、本発明の実施の形態に係る情報検索・閲覧支援装置を実現されることになる。
【0022】
図2は、本発明の実施の形態に係る情報検索・閲覧支援装置を説明するための概略構成図である。この図2に示す情報検索・閲覧支援装置は、上述したとおり、CPU21が主メモリ23に展開された上記アプリケーションプログラムを実行することにより実現される。この実現された情報検索・閲覧支援装置は、図示しないデータ処理手段と、文書データベース30と、その他のデータベースとからなる。
【0023】
このデータ処理手段は、文書解析手段40と、独立話題分析手段41と、主要単語抽出手段42と、主要文書抽出手段43と、話題関連度評価手段44とから構成されている。なお、この情報検索・閲覧支援装置には、文書データベース30の他に、上記各手段40ないし手段44によって処理がなされてゆく過程で、文書中単語頻度表31、単語リスト32、話題強度表33、話題中単語重要度表34、話題中文書重要度表35、文書中話題強度表36および単語中話題強度表37などのデータベースが作成され、必要に応じてハードディスク装置26の所定の記憶領域に格納される。
【0024】
上記文書解析手段40は、文書データベース30内の各文書中の各単語の頻度情報を抽出・解析し、文書中単語頻度表31を形成するとともに、単語リスト32を形成する手段である。文書中単語頻度表の形成には、文書データベース中の大半の文書に現れる単語を単語頻度表から除くなどの単語頻度表の整形を含む。
【0025】
この文書・単語頻度表31からの情報は、独立話題分析手段41 に取り込まれるようになっている。独立話題分析手段41 は、前記文書中単語頻度表31からの情報を基に、各話題中の各単語の重要度や各文書の重要度を求めて、話題強度表33と、話題中単語重要度表34と、話題中文書重要度表35とを形成して保存・更新する。また、独立話題分析手段41 は、文書中単語頻度表31と、話題中単語重要度表34と、話題中文書重要度表35とを基に、文書中話題強度を求めて文書中話題強度表36を形成し更新するとともに、単語中話題強度を求めて単語中話題強度表37を形成し更新する手段である。なお、話題強度表33は、共通話題強度33aと、独立話題強度33bとからなる。話題中単語重要度表34は、共通話題中単語重要度表34aと、独立話題中単語重要度表34bとからなる。話題中文書重要度表35は、共通話題中文書重要度表35aと、独立話題中文書重要度表35bとからなる。文書中話題強度表36は、文書中共通話題強度表36aと、文書中独立話題強度表36bとからなる。単語中話題強度表37は、単語中共通話題強度表37aと、単語中独立話題強度表37bとから構成されている。
【0026】
また、主要単語抽出手段42は、単語リスト32と、独立話題強度表33b、独立話題中単語重要度表34bとを基に、各独立話題の主要単語を抽出する手段である。
【0027】
主要文書抽出手段43は、独立話題強度表33b、独立話題中文書重要度表35bを基に、各独立話題の主要文書を抽出する手段である。
【0028】
また、話題関連度評価手段44は、独立話題強度表33bを基に、二つの独立話題が同一文書中に同時に現れる話題の関連度を定めて、その求めた関連度と所定のしきい値とを比較して話題の関連性判定を行ない、各独立話題の関連話題を決定する手段である。
話題情報作成手段45は、独立話題強度表33b、主要単語抽出手段42、主要文書抽出手段44、話題関連度評価手段44により得られた各話題の主要文書・主要単語、関連話題から主要話題リスト110を形成するとともに、個別話題情報120も形成する。
【0029】
図3は、図2に示す装置により実行される数式を模式的に示すブロック図である。この図3において、文書中単語頻度表31には出現確率行列Aがあり、独立話題分析手段41は、まず、この行列Aと、共通話題中単語重要度Uと、共通話題中文書重要度Vと、共通話題強度Sと、単位行列Iとすると、文書中単語頻度表31の情報の最良近似(数量化III類)の計算をし(S1)、図3に示すような共通話題に関する要素(33a〜37a)を得る。なお、主要話題を抽出するときには、特異値Sが大きいほうからn個採用する。
【0030】
次に、独立話題分析手段41は、これら要素(33a〜37a)を基に、話題の独立性指標の最大化(回転Rot決定)し(S2)、図3に示すような独立話題に関する要素(33b〜37b)を得る。なお、独立性指標は、複数存在し、話題中単語重要度に対する(a)加重付き4次キュムラントKiiiiの和、(b)−(加重付き4次キュムラントKiijkの和)、(c)加重付き正接に基づく指標、(d)正規分布に基づく指標がある。同様に,話題中文書重要度に対する(a)〜(d)の指標,さらに、話題中単語重要度の加重付き4次キュムラントの和と話題中文書重要度の加重付き4次キュムラントの和などがある。また、最大化アルゴリズムも複数存在する。
【0031】
主要単語抽出手段42、主要文書抽出手段43および話題関連度評価手段44は、単語リスト32と、上記各要素(33b〜37b)を基に、各話題の主要単語、主要文書、関連話題を決定する。なお、各話題主要単語は、各話題の絶対値最大となる文書の重要度を正に正規化した場合に、4次キュムラントが正の全単語の4次キュムラントの総和の一定率が再生可能な単語群のことをいう。各話題の主要文書は、各話題の絶対値最大となる文書の重要度を正に正規化した場合に、4次キュムラントが正の全文書の4次キュムラントの総和の一定率が再生可能な文書群のことをいう。各話題の主要関連話題は、話題強度表33bすなわち話題間の共通分散行列Rot* ・S・Rotから、相関行列を求め、そのarc-cos(逆余弦) を独立話題間の関連度として定義する。この値は、2つの話題が同一文書で共通に現れる程度を示す。この関連度が一定以下の話題を関連話題としている。この結果得られた、各話題の主要単語、主要文書、関連話題、および、話題強度表33bに基づいて、話題情報作成手段45は、主要話題リスト(話題強度、主要単語リスト、個別話題情報へのリンク)と、個別話題詳細情報(主要単語リスト、関連話題リストおよびリンク、主要文書リストおよびリンク)などを作成する(S3)。なお、図4は、上記情報検索・閲覧支援装置の動作を説明するためのフローチャートである。この図4において、まず、文書解析手段40は、文書データベース30内の各文書中の各単語の出現頻度を作成する(S11)。これにより、図2に示すように、文書中単語頻度表31および単語リスト32が作成される。文書中単語頻度表作成には、文書データベースの大半の文書に出現する単語を文書中単語頻度表から除くなどの整形操作を含む。
【0032】
次に、独立話題分析手段41は、前記文書中単語頻度表31の情報を基に、各独立話題中の各単語の重要度、各文書の重要度、話題強度(話題間の強度の共分散)の決定を行なう(S12)。なお、この独立話題分析手段41で処理されるステップS12は、次の主目標と副目標を持つ。
【0033】
話題t中の各文書dの(一語当たりの)重要度をU(d,t)とし、話題t中の各単語wの(一語当たりの)重要度をV(w,t)とすると、各文書d中の単語wを、各話題tを各座標軸とするn次元空間の点に対応させ、文書d中の単語wの出現1回に対し、文書dと単語wに対応する点の間の距離の平方Σt (U(d,t)−V(w,t))2 を配置誤差とする。このとき、文書データベース30中の各文書の各単語の出現での平均配置誤差err は、数式1となる。
<数1>
err =( Σt,d,w A(d,w)(U(d,t)−V(w,t))2 /2)
÷Σd,wA(d,w)
各文書は文中の各単語の近くに、単語は各出現文書の近くに、極力配置することが望ましい。この平均誤差を最小化とするように各話題の各文書重要度と各単語の重要度を定めることがステップS12の主目標である。ただし、重要度が分布する範囲を制約する条件として、任意の話題について各単語出現での単語重要度および文書重要度の平均0、分散1で、かつ、異なる話題間では、各単語出現での単語重要度および文書重要度の共分散が0という正規直交条件を課す。
【0034】
ステップS12の副目標は、各話題の独立性、すなわち、各話題中の文書重要度および単語重要度に関する独立性の高さを最大とすることである。ここで,話題が単語重要度に対して独立性が高いとは、話題t,sでの単語の重要度が各々v,vである単語出現の確率Pr(v,v)が、話題tでの単語重要度がvである単語出現の確率Pr(v)と、話題sでの単語重要度がvである単語出現の確率Pr(v)との積で近似できることを示している。例えば、二つの話題s,tが独立でなく、相互に関連する場合には、話題sで重要な単語wは話題tでも重要となる、すなわち、単語wの話題sでの単語重要度Vs、wが大きければ話題tでの単語重要度Vt、wも大きいといった傾向が生じたり、逆に、話題sで重要な単語は話題tでは重要でないといった傾向が生じる。図8(A)は、この2つの傾向が混在している場合を示しており、斜めの線が生じている。話題が独立の場合には、このような斜めの線は生じず,図8(B)に示すように話題t(話題1)での重要度は水平になり、話題s(話題2)での重要度は垂直になる。
【0035】
このような話題の独立性の高さを示す指標としては,図3に記したように複数の指標がある。具体的指標の例としては、下記をあげることができる。
(1) 単語重要度に関する加重付き4次キュムラントKiiiiの平方和
Σ(w)・ V(t,w) −3)
(2) 単語重要度に関する加重付き正接型
Σ(w)・log(cosh(a・V(t、w)) − a0/a))
ただし、a0 は数式2で定義される。
【数2】

(3) 文書重要度に関する加重付き4次キュムラントKiiiiの平方和
Σ(d)・ U(t,d) −3)
(4)(3)と(2)の加重和
α・Σ( Σ(w)・ V(t,w) −3)
+β・ Σ(d)・ U(t,d) −3)
ただし、Dは、ΣA(d,w)を対角成分とする対角行列、Dは、ΣA(d,w)を対角成分とする対角行列である。
一般には、話題の独立性指標は、文書の重要度に関する独立性指標Tind(U;Dd)と単語の重要度に関する独立性指標Tind(V;D)の加重和で表す。
【0036】
この2つの目標(主目標・副目標)を満たすために、ステップS12は、図4に示すように、ステップS121と、ステップS122との二つのステップからなる。
【0037】
まず、ステップS121について説明する。与えられた話題数nで、平均配置誤差err 最小化を実現するU,Vの基本解U* ,V* は、各文書中の各単語の出現回数A(d,w)の文書中単語頻度行列に対する数量化III類によって得られる。その他の解については、すべて、U* ,V* に対してn×n回転行列Rotをかけて得られる。
【0038】
次に、ステップS122では、各話題の独立性を表す指標を最大とする回転行列Rotを決定することを目的とする。
【0039】
ステップS122の処理内容を図5に示すフローチャートで説明する。図5は、ステップS122のサブルーチンを示す図であり、対称アプローチによる解法を説明するための図である。この図5のサブルーチンでは、要するに、話題の独立性指標を最大とするRotを決定することを目的としている。
【0040】
次に、上述した内容を具体的に処理する図5のサブルーチンについて説明する。まず、独立話題分析手段41は、初期化を行なう(S1221)。すなわち、数式3、数式4を計算する。
<数3>
旧回転行列Rold =In (単位行列)
<数4>
回転行列Rot(Rott ・Rot=In
次に、独立話題分析手段41は、(In −Rott ・Rold )の対角成分の絶対値の最大値が所定のしきい値より小さいか否か判定する(S1222)。対角成分の絶対値の最大値が所定のしきい値より大きいと独立話題分析手段41が判断したときには(図5のS1222;NO)、独立話題分析手段41は、話題中の文書重要度、話題中の単語の重要度の更新を行なう(S1223)。このステップS1223では、U=U* ・Rot、V=V* ・Rotの計算をする。
【0041】
次に、独立話題分析手段41は、回転行列Rotの更新を行なう(S1224)。これは、次のような数式5、数式6、数式7を計算する。
<数5>
old =Rot
<数6>
Rot=f(Rot,D,D
<数7>
Rot=(Rott ・Rot)-1/2・Rot
ここで、f(X)は、採用した独立性指標により決まる行列関数である。
上記の単語重要度の加重付き4次キュムラントの平方和の場合は、数式8の計算をする。
<数8>
f(X、D、D)= X.・D・X − 3・X
ただし、X.は行列Xの各要素のn乗である。
この計算が終了したら再びステップS1222に戻る。
【0042】
対角成分の絶対値の最大値が所定のしきい値より小さいと独立話題分析手段41が判断したときには(S1222;YES)、独立話題分析手段41は、各話題tの絶対値最大の単語重要度の符号が正になるように調整する(S1225)。
【0043】
そして、独立話題分析手段41は、話題中文書重要度、単語重要度、話題強度を計算する(S1226)。すなわち、数式9、数式10、数式11の計算をする。
<数9>
U=U* ・Rot
<数10>
V=V* ・Rot
<数11>
S=Rott ・S* ・Rot
上述したステップを独立話題分析手段41が処理することにより、話題の独立性指標を最大とするRotを決定することができる。
【0044】
図6は、図4のステップ122の別のサブルーチンを示す図であり、縮小アプローチによる解法を説明するための図である。
【0045】
この図6におけるサブルーチンでも、まず、独立話題分析手段41は、初期化をする(S1221)。具体的には、z=0とし,回転ベルトルwを設定する(ただし、|w|=1)。また、回転ベクトルwold =0とし、回転行列Rot=0に設定する。
【0046】
次に、独立話題分析手段41は、|w−wold |<しきい値、または、|w+wold |>しきい値でないと判定したときには(S1222;NO)、話題中の文書重要度、話題中の単語重要度を更新する(S1223)。具体的には、Rot(I)=w、U=U* ・w、v=V* ・wの計算をする。
【0047】
ついで、独立話題分析手段41は、図6に示す数式を使用して、回転行列Rotの更新を行なう(S1224)。この計算が終了したら再びステップS1222に戻る。
【0048】
一方、独立話題分析手段41は、|w−wold |<しきい値、または、|w+wold |>しきい値であると判定したときには(S1222;YES)、各話題tの絶対値最大の単語重要度の符号が正になるように調整する(S1225)。
【0049】
そして、独立話題分析手段41は、図6に示す数式を使用して、独立話題中文書重要度35b、独立話題中単語重要度34b、独立話題強度33bを計算する(S1226)。
【0050】
このような図6のサブルーチンによっても、ステップS122を実現することができる。
【0051】
上記図4のステップS12が終了すると、独立話題分析手段41は、各文書中話題の強度、各単語中話題の強度、および、話題間の強度の相関を計算する(S13)。具体的には、数式12、数式13、数式14、数式15のような計算式によって計算を行なう。
<数12>
イ)文書中独立話題強度DTは、
DT=U・S
<数13>
ロ)単語中独立話題強度WTは、
WT=V・S
<数14>
ハ)独立話題強度共分散TTは、
TT=S・S
<数15>
ニ)独立話題強度相関RRは、
RR=dT-1/2・TT・dT-1/2
ただし、DT=TTの対角成分を対角成分とする対角行列である。
【0052】
次に、主要単語抽出手段42および主要文書抽出手段43は、単語リスト32からの情報を基に主要単語リスト、主要文書リストを抽出する(S14)。このステップS14では、具体的には、次のようにしている。各話題tについての重要単語リストの作成手順は、まず、単語wをV(w,t)について降順にソートする。このとき、w(i)をi番目の単語とし、V(w(i),t)が正である最大のiをi0とする。
【0053】
次に、次の数式を使用して抜き出し単語数の決定をおこなう。具体的には、M4(i)=Σj=1,..,i (w(j))・V(w(j),t)4 を計算し、このとき、M4(i)/M4(i0)<α・M4(i0)/M4(総単語数)を満たすiで最大なものi1を求める(αは一定有為水準で、例えば、0.9)。
【0054】
そして、話題tに関する主要単語リストを、w(1),…,w(i1)とする。
【0055】
また、重要文書リストの抽出は、文書dと文書重要度U(d,t)を使用する点を除き同様の手順で行なう。
【0056】
また、話題関連度評価手段44は、関連話題の抽出を行なう(S15)。具体的には、二つの独立話題s,tの関連性Rel(s,t)を強度ベクトル間の角度により定められる。すなわち、数式16で計算する。
<数16>
Rel(s,t)=sin-1 (RR(s,t))
この角度が一定値以上の話題の組を関連性が高い話題とする。
【0057】
話題情報作成手段45は、主要単語リスト、主要文書、関連話題に基づいて、主要話題リスト、各話題の詳細情報、および、各文書の詳細情報の作成(S17)、さらに、話題関連グラフの作成(S18)を行なう。
【0058】
具体的には、次のように処理する。主要話題リストは、各話題の強度・主要単語を話題ごとにリストしたものであり、HTMLなどによるハイパーテキストとして作成する。また、リスト上の話題の順番は、話題強度S(t,t)が大きい順などの指定順による。
【0059】
次に、指定話題については、主要話題リストの各話題に対応する情報(話題強度、主要単語)に加えて、「その話題の関連話題リスト(各関連話題の強度、話題中の重要単語リストおよび詳細情報へのリンク情報)」、「話題中の主要文書リスト(話題中の文書重要度順、各文書情報ヘのリンク情報)」をハイパーテキストで作成する。
【0060】
さらに、指定文書については、その文書中の重要度の高い話題のリスト、および、本文を、各話題の主要単語となる単語については、話題ごとに固有の色で色分けをした文書の詳細情報を作成する。
【0061】
また、話題関連グラフについては、ステップS15で得た情報から、各話題と関連話題の間を線で結びグラフとして表現する(S18)。
【0062】
これらステップにより、主要話題リスト、詳細話題情報、話題関連グラフを利用者に提示できる(S20)。
【0063】
以上のように本発明の第1の実施の形態によれば、文書データベース30に含まれる文書内容の自動的に話題を抽出できるとともに、話題別整理と関連話題の的確な把握を同時にできることになる。
【0064】
また、上述した第1の実施の形態に係る情報検索・閲覧支援方法を実現させるアプリケーションプログラムは、記憶媒体に記憶させることにより、頒布が可能になる。また、この記憶媒体に記憶された情報潮流検出・提示方法を実現させるアプリケーションプログラムをコンピュータにインストールさせることにより、上記情報潮流検出・提示方法およびその装置を実現させることができる。
【0065】
なお、上述した第1の実施の形態に係る情報検索・閲覧支援方法あるいは情報検索・閲覧支援装置を実現させるアプリケーションプログラムは、前記文書データベース内の各文書中の単語の頻度情報を抽出・解析する第1のプログラムと、各話題中の各単語の重要度、各文書の重要度を求める第2のプログラムと、前記頻度情報と各単語および各文書の重要度とを基に、各文書中・各単語中の各話題の強度を求める第3のプログラムと、前記各話題の強度から、各話題が同一文書中に同時に現れる強度を定めて、その求めた強度と所定のしきい値とを比較して話題の関連性判定を行なう第4のプログラムと、各抽出話題に関する情報を整理した表示用情報を作成する第5のプログラムとからなる。
【0066】
ここで、上記プログラムを記憶させる記憶媒体には、例えば、フロッピーディスク(登録商標)、CD−ROM、CD−R/W、DVD、ROMカートリッジ、光磁気ディスク、バッテリバックアップRAMメモリカード、フラッシュメモリカートリッジ、不揮発性RAMカード、磁気テープ、ハードディスク等が考えられる。また、他の記憶媒体としては、マイクロ波回線や光通信等の無線通信媒体とか、電話回線や光ファイバーやインターネット等の有線通信媒体とを利用することが考えられる。
【0067】
要するに、この実施の形態でいうところの記憶媒体は、何らかの手段によって、所定の処理に使用されるデジタルデータや所定の処理を実行させるためのプログラムが記録されているものをいい、コンピュータや専用プロセッサ等の処理装置に当該デジタルデータやプログラムをインストールさせた後、これを実行させることにより、所定の機能を実現させられるものであればどのようなものであってもよい。
【0068】
[第2の実施の形態]
図10に情報潮流検出・提示方法の一実施形態を示す。この情報潮流検出・提示方法は、前述したとおり、CPU21が主メモリ23に展開された第2の実施の形態を実現するアプリケーションプログラム29aを実行することにより実現される。この実現された情報検索・閲覧支援装置は、図示しないデータ処理手段と、文書データベース30と、単語リスト32と、その他のデータベースとからなる。
【0069】
このデータ処理手段は、文書解析手段40aと、独立話題分析手段41aと、話題新規性計測・判定手段42aと、話題関連性表示データ作成手段44aとから構成されている。なお、この情報潮流検出・提示装置には、文書データベース30の他に、上記各手段40a、41a、42a、44aによって処理がなされてゆく過程で、更新前文書中単語頻度表31Aと、更新後文書中単語頻度表31Bと、更新前話題中単語重要度表34Aと、更新後独立話題中単語重要度表34Bと、独立話題間関連性データベース38とからなるデータベースが作成されることになり、必要に応じてハードディスク装置26の所定の記憶領域に格納される。
【0070】
ここで、文書解析手段40aは、単語リスト32からの情報を参照し、かつ、文書データベース30を基に文書解析して、更新前文書中単語頻度表31Aと更新後文書中単語頻度表31Bとを得る手段である。
【0071】
また、独立話題分析手段41aは、更新前文書中単語頻度表31Aと更新後文書中単語頻度表31Bの各々に含まれる各文書中での各単語の出現表から、各話題中の各文書・各単語の重要度を求め、内容が互いに独立な決められた個数の話題を抽出し、更新前独立話題中単語重要度表34Aと、更新後独立話題中単語重要度表34Bとを得る手段である。
【0072】
さらに、話題新規性計測・判定手段42aは、更新後話題中単語重要度表34Bの話題の新規性を、更新前話題中単語重要度表34Aの話題との各単語の重要度による角度の最小値により計測し、その最小値を与える更新前の話題を更新前最類似話題とし、かつ、前記角度が一定値以上であれば、新規な話題と判定し、話題間関連性データベース38を作成する手段である。また、話題新規性計測中判定手段42aは、更新後話題中単語重要度表34Bの話題から、更新前最類似話題へのリンクを作成するとともに当該リンク情報を話題間関連性データベース38に蓄積する手段でもある。
【0073】
このような情報潮流検出・提示装置の動作を図4を参照して説明する。ここで、ステップS11ないしステップS13までは、上記第1の実施の形態と同様であって、文書解析手段40aでステップS11が処理される。また、独立話題分析手段41aでは、ステップS12,S13が処理される。尚、文書解析手段40aと独立話題分析手段41aとは図2の実施形態における文書解析手段40及び独立話題分析手段41に相当し、同一装置で兼用される。
【0074】
また、話題新規性計測・判定手段42aは、各話題の信号規制判定と直前類似話題とを決定する(S16)。具体的には、データベース更新後の話題中単語重要度表34Bによる更新後の話題中単語重要度行列Vと、更新前の話題中単語重要度表34Aの更新前の話題中単語重要度Vold とに基づき、更新後の話題tの新規性指標値Novelity(t) を下記数式17により求める。
<数17>
Novelity(t)=min (cos -1(Σ V(w,t)
・D (w)・Vold (w,s))
また、この最小値を与えるsを話題tの直前類似話題told と定める。
【0075】
さらに、一定更新回数前までの新規性指標の平均μと分散σ2 を計算し、これを平均、分散とする正規分布を仮定して、一定有意水準(例えば60[%])以上の新規性を保った話題を「新規」と判断する。
【0076】
また、話題関連性表示データ作成手段45aは、その話題の強度S(t,t)、新規性指標 Novelity(t)および新規性判定結果、その直前類似話題へのリンク、その話題中の主要単語リスト(話題中の単語重要度順)を含む主要話題リストや話題ごとの詳細情報画面をハイパーテキストにより作成する(S17)。画面中の話題のポイントにより、その話題の詳細情報ページへのリンクを表示できるとともに、新規性判定結果のポイントにより、直前類似話題やその話題の詳細情報へと移行可能とする。
【0077】
さらに、話題関連性表示データ作成手段45aは、指定文書に対して、「文書タイトルなどの書誌情報」、「文書中の主要話題(話題強度順、強度が一定値以上の話題のみ)(文書中話題強度、データベース中話題強度、新規性、直言話題へのリンク情報、主要単語リスト、話題詳細次へのリンク情報)」、「文書本文(文書中主要話題に属する単語は、話題ごとに色分け表示できるようにする)」を含むハイパーテキストを作成する。また、CPU21は、ステップS16で得た情報から、話題変化グラフを更新する(S19)。
【0078】
これらステップにより、話題関連性表示データリスト、話題変化グラフを利用者に提示できる(S20)。
【0079】
上述したように本発明の第2の実施の形態によれば、新しい文書追加の多いデータベースにおいて、その内容が時間経過とともに変化するため、話題の自動的抽出と、その時間的変化の追跡により、現在のデータベースの内容や、その時間的変化の把握を容易にすることができる。
【0080】
また、上述した第2の実施の形態に係る情報潮流検出・提示方法あるいは情報潮流検出・提示装置を実現させるためのアプリケーションプログラムは、記憶媒体に記憶させることにより、頒布が可能になる。また、この記憶媒体に記憶された情報潮流検出・提示方法を実現させるアプリケーションプログラムをコンピュータにインストールさせることにより、上記情報潮流検出・提示方法および情報潮流検出・提示装置を実現させることができる。
【0081】
ここで、上述した第2の実施の形態に係る情報潮流検出・提示方法あるいは情報潮流検出・提示装置を実現させるためのアプリケーションプログラムは、前記文書データベース更新前と更新後の各々に含まれる各文書中での各単語の出現表から、各話題中の各文書・各単語の重要度を求め、内容が互いに独立な決められた個数の話題を抽出する第1のプログラムと、前記文書データベース更新後の話題の新規性を、更新前の話題との各単語の重要度による角度の最小値により計測し、その最小値を与える更新前の話題を更新前最類似話題とする第2のプログラムと、前記角度が一定値以上であれば、新規な話題と判定する第3のプログラムと、前記文書データベース更新後の話題から、更新前最類似話題へのリンクを作成するとともに当該リンク情報を蓄積する第4のプログラムとから構成されている。
【0082】
上述した第2の実施の形態に係る情報潮流検出・提示方法あるいは情報潮流検出・提示装置を実現させるためのアプリケーションプログラムを記憶する記憶媒体には、第1の実施の形態で提示したものと同一のものを使用すればよい。
【0083】
なお、本発明は、上記各実施の形態に限らず、特許請求の範囲に記載した発明の要旨を逸脱しない範囲内において種々の変形や変更をすることができる。例えば、本実施形態では、情報検索・閲覧支援方法と情報潮流検出・提示方法をそれぞれ別々に実施するものとして例示しているが、これらが同時に実施され得ることは勿論である。
【図面の簡単な説明】
【0084】
【図1】本発明の第1の実施の形態に係る情報検索・閲覧支援方法を実現するハードウエア構成を示すブロック図である。
【図2】本発明の第1の実施の形態に係る情報検索・閲覧支援装置を説明するための概略構成図である。
【図3】同第1の実施の形態に係る情報検索・閲覧支援装置により実行される数式を模式的に示すブロック図である。
【図4】同第1の実施の形態に係る情報検索・閲覧支援装置の動作を説明するためのフローチャートである。
【図5】同第1の実施の形態に係る情報検索・閲覧支援装置で処理されるステップのサブルーチンを示す図である。
【図6】同第1の実施の形態に係る情報検索・閲覧支援装置で処理されるステップの他の処理方法によるサブルーチンを示す図である。
【図7】同第1の実施の形態に係る情報検索・閲覧支援装置の独立話題分析において文書および単語の話題に対する重要度について説明するための説明図である。
【図8】同第1の実施の形態に係る情報検索・閲覧支援装置の独立話題分析において話題が独立しているか否かの考え方を説明するための説明図であり、(A)は話題が相互に関連する場合、(B)は話題が独立の場合である。
【図9】同第1の実施の形態に係る情報検索・閲覧支援装置の独立話題分析において話題に対する主要文書や話題に対する文書群に特有の単語の分布を説明するための説明図である。
【図10】本発明の第2の実施の形態に係る情報潮流検出・提示方法び装置の概略構成を示す説明図である。
【符号の説明】
【0085】
30 文書データベース
31 文書中単語頻度表
31A 更新前文書中単語頻度表
31B 更新後文書中単語頻度表
32 単語リスト
33 話題強度表
33a 共通話題強度
33b 独立話題強度
34 話題中単語重要度表
34a 共通話題中単語重要度表
34b 独立話題中単語重要度表
34A 更新前話題中単語重要度
34B 更新後話題中単語重要度表
35 話題中文書重要度
35a 共通話題中文書重要度表
35b 独立話題中文書重要度表
36 文書中話題強度表
36a 文書中共通話題強度表
36b 文書中独立話題強度表
37 単語中話題強度表
37a 単語中共通話題強度表
37b 単語中独立話題強度表
38 話題間関連性データベース
40,40a 文書解析手段
41,41a 独立話題分析手段
42 主要単語抽出手段
42a 話題新規性計測・判定手段
43 主要文書抽出手段
44 話題関連度評価手段
45 話題情報作成手段
45a 話題関連性表示データ作成手段

【特許請求の範囲】
【請求項1】
記憶手段に記憶された文書データベース内の情報が時間経過に伴って変化することをデータ処理手段により追跡できる方法において、前記データ処理手段は、前記文書データベース更新前と更新後の各々に含まれる各文書中での各単語の出現表から、各話題中の各文書・各単語の重要度を求め、内容が互いに独立な決められた個数の話題を抽出する工程と、前記文書データベース更新後の話題の新規性を、更新前の話題との各単語の重要度による角度の最小値により計測し、その最小値を与える更新前の話題を更新前最類似話題とする工程と、前記角度が一定値以上であれば、新規な話題と判定する工程と、前記文書データベース更新後の話題から、更新前最類似話題へのリンクを作成するとともに当該リンク情報を蓄積する工程とを処理することを特徴とする情報潮流検出・提示方法。
【請求項2】
データベースを記憶する記憶手段と、そのデータベース内の情報を検索・閲覧処理できるデータ処理手段とを備えた装置において、前記データ処理手段は、前記文書データベース更新前と更新後の各々に含まれる各文書中での各単語の出現表から、各話題中の各文書・各単語の重要度を求め、内容が互いに独立な決められた個数の話題を抽出する手段と、前記文書データベース更新後の話題の新規性を、更新前の話題との各単語の重要度による角度の最小値により計測し、その最小値を与える更新前の話題を更新前最類似話題とする手段と、前記角度が一定値以上であれば、新規な話題と判定する手段と、前記文書データベース更新後の話題から、更新前最類似話題へのリンクを作成するとともに当該リンク情報を蓄積する手段とを備えたことを特徴とする情報潮流検出・提示装置。
【請求項3】
データベース内の情報を検索・閲覧するに際して検索・閲覧支援できるプログラムが記憶された記憶媒体において、前記文書データベース更新前と更新後の各々に含まれる各文書中での各単語の出現表から、各話題中の各文書・各単語の重要度を求め、内容が互いに独立な決められた個数の話題を抽出する第1のプログラムと、前記文書データベース更新後の話題の新規性を、更新前の話題との各単語の重要度による角度の最小値により計測し、その最小値を与える更新前の話題を更新前最類似話題とする第2のプログラムと、前記角度が一定値以上であれば、新規な話題と判定する第3のプログラムと、前記文書データベース更新後の話題から、更新前最類似話題へのリンクを作成するとともに当該リンク情報を蓄積する第4のプログラムとを記憶し、コンピュータに上記各プログラムを格納することにより、情報潮流検出・提示方法あるいは情報潮流検出・提示装置を実現させることを特徴とする記憶媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2006−277767(P2006−277767A)
【公開日】平成18年10月12日(2006.10.12)
【国際特許分類】
【出願番号】特願2006−168921(P2006−168921)
【出願日】平成18年6月19日(2006.6.19)
【分割の表示】特願2000−223775(P2000−223775)の分割
【原出願日】平成12年7月25日(2000.7.25)
【出願人】(000173809)財団法人電力中央研究所 (1,040)
【Fターム(参考)】