説明

文書情報分析装置、文書情報分析方法、文書情報分析プログラム

【課題】未知語を含むキーワードが検索条件として入力された場合にもリアルタイムに仮想的な情報要素のリレーションを作成し、そこへの簡易な問い合わせによって表記ゆれと階層的な集計を容易化する。
【解決手段】文書解析機能部3は、文書集合Pの各文書から集計対象の情報単位となる情報要素が持つ属性を抽出し、情報要素の属性名に応じたプレフィックスを各属性値に付与して属性の集合からなるタプルを全文検索エンジン4のデータベース7に格納する。情報集約機能部5は、検索条件と集計条件とからなる問い合わせ式がユーザ入力されると、データベース7の格納データ中から検索条件に合致するタプル集合を選択し、集計条件にしたがって選択されたタプル集合を集計・出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ブログやレビューなどのWebページ(電子文書、以下、文書と省略する)群に含まれる情報を集約する技術に関する。
【背景技術】
【0002】
Webから得られる様々な情報のなかには、会社や製品の評判や競合他社の動向などのように、多数の文書中の情報の断片(以下、情報要素と呼ぶ。)を集約してはじめて得られるものも数多く存在する。この情報要素を集約するタスクをここでは情報集約タスクと呼ぶ。
【0003】
この情報集約タスクの一例として、ある企業が自社の製品をリニューアルした際にWeb上からその評判を調査するタスクを説明する。製品の評判は、レビューサイトやブログなど様々なサイトに記述されることが想定される。
【0004】
この場合、企業の担当者は例えば次の作業を行う。
(1)製品名をキーワードとしてWeb検索を行う。
(2)検索結果の中からレビューらしいものを探す。
(3)各記事に書かれている評判に関する用語を集計する。
(4)各用語が、好評か不評か、どのような属性(色や形など)について書かれたのかを分類する。
(5)記事を書いた著者の性別や年代毎に用語の集計を行う。
(6)リニューアルの前後で書き込み件数などに変化があったか否かを調べる。
(7)作業(1)〜(6)に関してクロス集計を行う。
【0005】
このような作業を行うことによって、製品の担当者は「どのような年代や性別の方が、自社の製品に対してどういった評判を持っているのか?」を知ることができる。
【0006】
現状、このような情報集約タスクを行うためには、特定のアプリケーションをアドホックな方法で開発するしかなかった。すなわち、形式化されたデータに対してはリレーショナルデータベース(RDB)が広く使われているが、情報収集タスクでは大規模な文書集合を扱う必要があり、また未知語の抽出が困難であるため、情報要素を完全なタプルの形式で事前に抽出しRDBに格納することは難しい。
【0007】
そこで、情報集約のために汎用的な枠組みとして、非特許文献1は、商用の検索エンジンから取得した検索結果に対して文書解析処理を施し、この結果を仮想的なテーブルと見立てて、既存のRDB上のデータと統合利用する手法を提案している。
【先行技術文献】
【非特許文献】
【0008】
【非特許文献1】大島裕明 小山聡 田中克巳,”Web集約質問処理のための検索エンジンの関係データベースインタフェース” 情報処理学会論文誌:データベース Vol.48 No.SIG 20(TOD 36),Dec.2007
【発明の概要】
【発明が解決しようとする課題】
【0009】
しかしながら、非特許文献1の手法では、未知語には対応できるものの、ユーザが検索条件としてキーワードを入力した時点で、すべての解析処理を行うため、リアルタイムの情報集約タスクには適用できないおそれがある。
【0010】
また、RDBへの問い合わせ言語のSQL(データベース言語国際標準)では、属性値の完全一致によってグループ化を行う機能があるものの、情報要素の集計したい属性値(例えば「画面」や「液晶」など)には表記ゆれが存在するため、同一の意味を表す属性を一つのグループとして集計することが困難であった。
【0011】
さらに「男女別の好不評の評判情報」といった階層的な集計結果が欲しい場合でも、SQLによる問い合わせの返却値は、表(リレーション)であるため、取得結果から別のプログラムによって階層構造を作成する必要があった。
【0012】
本発明は、上述のような従来技術の問題点を解決するためになされたものであり、未知語を含むキーワードが検索条件として入力された場合にリアルタイムに仮想的な情報要素のリレーションを作成し、そこへの簡易な問い合わせによって表記ゆれと階層的な集計を容易化することを解決課題としている。
【課題を解決するための手段】
【0013】
そこで、本発明は、このような解決課題を解決するため、あらかじめ文書中から集計対象の情報単位となる情報要素が持つ属性を抽出し、抽出された属性の集合からなるタプルを保存手段に保存する。このとき抽出できなかった属性に関しては抽出できた属性および完全なタプル生成に必要となる特徴を保存する。その後に検索条件と集計条件からなる問い合わせ式が入力されると、保存手段の保存データ中から検索条件に合致するタプル集合を選択し、選択されたタプル集合を集計条件にしたがって集計・出力する。ここでは問い合わせ式が入力された時点で問い合わせ式と保存手段の保存データとを用いてタプルを生成する。
【0014】
本発明によれば、保存手段の保存データおよび問い合わせ式からリアルタイムに情報要素タプルを動的に生成し、仮想的なリレーションを生成する。このリレーションに検索条件および集計条件を適用し、ユーザ所望の集計結果を提示する。
【0015】
本発明の一態様は、情報要素の属性名に応じたプレフィックスを各属性値に付与して保存手段に保存する。この保存手段の保存データをプレフィックスと属性値を結合した文字列で文書検索し、検索された電子文書のタプル集合と検索条件として入力されたキーワードとが関連する度合に応じてタプル集合を選択する。したがって、単純に検索条件を含む文書を検索する場合と比べて、対象となる情報要素属性の値を1つ以上含む文書だけに文書集合を絞ることができる。
【0016】
本発明の他の態様は、集計条件中に集計用関数の名称が列記されていれば、最初に記述された集計用関数をもってタプル集合をグループ化し、二番目以降に記述された集計用関数をもって、ひとつ前に記述された集計用関数でグループ化された各グループを順次再グループ化する。これにより集計の観点を変えた任意の組合せの集計を実現する。
【発明の効果】
【0017】
本発明によれば、未知語を含むキーワードが検索条件として入力された場合にリアルタイムに仮想的な情報要素のリレーションを作成し、そこへの簡易な問い合わせによって表記ゆれと階層的な集計を容易化することができる。
【図面の簡単な説明】
【0018】
【図1】本発明の実施形態に係る文書情報分析装置の構成図。
【図2】同 検索条件の処理ステップを示すチャート図。
【図3】同 集計結果の木構造の概略図。
【図4】同 集計結果を可視化した画面図。
【発明を実施するための形態】
【0019】
以下、本発明の実施形態に係る文書情報分析装置を説明する。この分析装置の説明では、つぎの用語を用いる。
(1)情報要素
情報要素とは、集計の対象となる情報の単位を示し、複数の属性(情報要素属性)によって構成され、一つの文書中には複数の情報要素が存在する。このような情報要素属性の組を情報要素タプルと呼ぶ。すなわち、文書中に存在する各評判情報は、<評価対象、評価属性、評価表現、評価極性>の4つの情報要素属性からなる情報要素タプルで表現することができる。例えば、(公序良俗違反につき、不掲載)の「(公序良俗違反につき、不掲載)(登録商標)」に対する評判情報であれば、≪評価対象=(公序良俗違反につき、不掲載)、評価属性=操作、評価表現=直感的、評価極性=好評≫などで表現できる。
(2)文書属性
文書属性とは、文書に対して1対1に割り振られる属性を意味する。文書属性の一例としては、文書のURL、作成日、文書種別(ブログ、レビューなど)があげられる。
(3)文書集合属性
文書集合属性とは、文書に対して割り振られる属性を意味する。例えば、ある著者の記述したブログ記事すべてを文書集合にとると、著者の性別、年代などが文書集合属性に該当する。
【0020】
≪装置構成≫
図1に基づき前記分析装置の構成例を説明する。この分析装置1は、検索エンジン4と連係して文書集合Pに含まれる情報を集約する。ここでは前記分析装置1は、ユーザ端末2とインターネット経由で接続されているものとする。
【0021】
このユーザ端末2は、例えばパーソナルコンピュータ(PC)あるいは携帯電話などが該当し、前記分析装置1に文書集約タスクを要求可能なアプリケーションプログラム6を実装していればよい。この要求は、ユーザ入力から生成した問い合わせ式(検索条および集計条件)をユーザ端末2から前記分析装置1に送信して行われるものとする。
【0022】
具体的には、前記分析装置1は、コンピュータにより構成され、CPU.記憶装置(メモリ、ハードディスクドライブ装置)などの通常のコンピュータのハードウェア資源を備える。このハードウェア資源とソフトウェア資源(OS.アプリケーションなど)との協働の結果、前記装置1は文書解析機能部3,情報集約機能部5を実装する。
【0023】
文書解析機能部3は、事前処理として文書集合から情報要素を抽出する。抽出された各情報要素と各文書の文書属性および文書集合属性とを全文検索エンジン4のデータベース(例えば文書インデックスDBなど)7に格納して保存する。
【0024】
情報集約機能部5は、アプリケーションプログラム6からの要求に応じて情報要素の集約処理を実行する。すなわち、情報集約機能部5は、アプリケーションプログラム6からの問い合わせ式を、CGI(Common Gateway Interface)経由で受け取ると、検索条件を全文検索エンジン用の文書検索式に変換し、全文検索エンジン4に問い合わせる。
【0025】
この問い合わせの結果、データベース7から取得した検索結果(各文書の本文,文書属性,文書集合属性,情報要素属性集合の列)から仮想的な情報要素リレーションを生成し、集計条件に応じて集計を行って集計結果をXMLなどにシリアライズ(変換)してユーザ端末2に返信(出力)する。この集計結果は、アプリケーションプログラム6を通じてユーザ端末2に画面表示され、ユーザに提示される。
【0026】
この仮想的な情報要素リレーションの生成にあたっては、検索条件として入力されたキーワードとデータベース7に格納された情報要素とが関係する度合(スコア)を求めて検索条件に関係する情報要素を決定する。これにより予め予測できないキーワード(未知語)に対しても、その入力された時点で高速に関連情報を集計することができる。以下、前記分析装置1の処理内容を事前処理と情報要素の集約処理とに大別して説明する。
【0027】
≪事前処理の内容≫
まず、事前処理としての情報要素等の格納方法を説明する。ここでは文書解析機能部3は、情報要素の集約処理に先立って全文検索エンジン4のクローリングなどで収集された文書集合Pの各文書を解析し、分析の対象となる用語の抽出を試みる。このとき分析対象の用語が抽出できた場合には、すべての情報要素属性の値が決まった完全な情報要素タプルを生成する。
【0028】
(公序良俗違反につき、不掲載)
【0029】
表1は、このような完全な情報要素タプルの情報要素リレーション(属性集合)の一例を示している。ここでは一意に振り出されたID毎に分析対象の用語、即ち評価対象(IS)の評価属性(IP)、評価表現(IE)、評価極性(IO)、URL(DI)、作成日(DD)、文書種別(DT)、性別(BS)、年代(BG)、ブログID(BID)が記述されている。
【0030】
一方、前記分析装置1の単語辞書に分析対象の用語が登録されていなければ、未知語であるため、抽出できない。このような場合には分析の対象以外の各情報要素属性のみを事前処理で抽出する。この際に完全な情報要素タプルの生成に必要な特徴、例えば出現位置情報などを付加しておく。この一部の情報が欠落した情報要素タプルを部分情報要素タプルと呼ぶ。
【0031】
例えば表1中の”iPad”が未知語であれば、情報要素タプルの評価対象(IS)の部分は、事前処理には抽出できない。そこで、リレーションの動的生成に使用するために未知語の出現位置情報などを属性としてもたせる。このように生成した完全な情報要素タプルと部分情報要素タプルとを検索エンジン4のデータベース7に格納する。
【0032】
ただし、全文検索エンジン4のレコード単位は、文書であり、情報要素は各文書に複数出現するため、情報要素属性をデータベース7の個別フィールドに格納することができない。そこで、(a)情報要素の各属性名に対応するプレフィックスを属性値に付与する。(b)各文書に出現するすべての情報要素のすべての情報要素属性を一つのフィールドに格納する。(c)データベース7への格納順は、情報要素の出現順序とし、各情報要素間にセパレータを置く方法を用いて格納する。
【0033】
また、文書集合属性は、文書に直積展開できるため、文書属性用フィールド(複数)、文書集合属性用フィールド(複数)、情報要素属性集合列用フィールド(一つ)、部分情報要素属性集合列用フィールド(一つ)を文書本文と併せて全文検索エンジン4のデータベース7に格納する。
【0034】
(公序良俗違反につき、不掲載)
【0035】
表2は、データベース7への格納例を示している。ここではURL(DI)および作成日(DD)の列はそれぞれ文書属性用フィールドを示し、性別(BS)・年代(BG)の列はそれぞれ文書集合属性用フィールドを示し、情報要素(IComp)の列は情報要素属性集合列用フィールドを示し、部分情報要素(IPart)の列は部分情報要素属性集合列フィールドを示している。
【0036】
この情報要素属性集合列用フィールド中では、各情報要素属性名に対応するプレフィックスを「s:評価対象」「p:評価属性」「e:評価表現」「o:評価極性」「c:スコア」「b:要素間のセパレータ」で表している。また、部分情報要素属性集合列フィールド中では「c:スコア」「n:出現位置情報」で表している。情報要素、部分情報要素の「c:スコア(情報要素タプルへのなりやすさ)」と、部分情報要素の「n:出現位置」は、情報要素の集約処理で対象となる情報要素タプルの選択に利用される。
【0037】
ここで、部分情報要素(IPart)中のスコア「c」は評価対象「s」に依存しないスコア(例えば、評価表現自体が持つ重み)を示している。一方、情報要素(IComp)中のスコア「c」は評価対象「s」に依存したスコア(例えば、評価表現自体が持つ重みに加えて、評価対象からの距離を反映させたスコア)を示している。なお、本文として、文字位置とその文字位置に付随する情報(形態素、格情報、係り受け情報など)を格納しておくことも可能である。
【0038】
≪情報要素の集約処理≫
つぎに情報要素の集約処理を説明する。ここではアプリケーションプログラム6からの問い合わせ式が前記分析装置1に入力されると、情報集約機能部5は次の処理を実行する。具体的には、問い合わせ式は、式(1)のBNF(Backus−Naur Form)によって定義される。
【0039】
【数1】

【0040】
式(1)に示すように、問い合わせ式は検索条件と、複数の集計条件によって構成されている。この問い合わせ式が入力されると、情報集約機能部5は、まず検索条件を処理することで情報要素タプルを取得し、情報要素リレーションを生成する。つぎに、それらの情報タプル集合に各集計条件を適用し、各集計結果をそれぞれ木構造で出力する。この検索条件の処理方法と、集計条件の処理方法とを説明する。
【0041】
(1)検索条件の処理方法
まず、以下のタプル評価関数を定義する。
・タプル評価関数
入力:入力キーワード,本文,部分情報要素タプル
出力:スコア
この評価関数では、入力された入力キーワードと、部分情報要素タプルとが結び付いて完全な情報要素タプルとなるか否かのスコア計算を行う。この評価関数はタスクに応じて選択される。例えば入力キーワードおよび部分情報要素タプルの本文中の出現位置や、各タプルのもつ評価対象に依存しないスコアを用いることができる。ここで”本文”としては、単純な文字列に加えて、文字位置をキーとした特徴(形態素、格情報、係り受けなど)を持たせることも可能である。
【0042】
つぎに図2に基づき検索条件の処理方法(S01〜S05)を説明する。ここでは最初に情報要素への検索条件を全文検索エンジン用の文書検索式に置き換え(S01)、置き換えた文書検索式を全文検索エンジン4に投入し、全文検索エンジン4に全文検索を実行させる(S02)。
【0043】
S02の検索の結果、ヒットした各文書の本文・文書属性の集合・文書集合属性の集合・情報要素属性集合の列・部分情報要素属性集合の列をデータベース7から取得し、この取得情報から情報要素タプル集合および部分情報要素タプル集合を生成する(S03)。
【0044】
S03の生成後に入力キーワード,本文,各部分情報要素タプルを入力として、タプル評価関数を呼び出し、生成された部分情報要素タプルにスコアを付与する(S04)。
【0045】
そして、各情報要素タプルに対して、検索条件(検索ユニット)を適用し、対象となるものを取得する(S05)。このとき件数が多ければ、S04のスコア上位k件の部分情報要素を取得する。
【0046】
最後に”評価対象=NTT(登録商標)”、”評価極性=好評”の情報要素を取得するS01〜S05の処理例を説明する。ここではアプリケーションプログラム6が指定する情報要素リレーションに対する検索条件は、式(2)のように記述されているものとする。なお、式(2)中、「IS」は評価対象を示し、「IO」は評価極性を示している。
【0047】
【数2】

【0048】
S01では、前記情報要素リレーションに対する検索条件を全文検索エンジン用の文書検索式に置き換えるが、情報要素属性に対する検索条件にはプレフィックスを用いるものとし、また部分情報要素タプルを利用する必要がある属性が指定された場合は、本文への検索を併せて行う。
【0049】
ここでは式(2)の検索条件を式(3)の検索式に置き換える。式(3)の検索式中、「IComp」は情報要素を示し、「DM」は本文を示し、「IPart」は部分情報要素を示している。
【0050】
(公序良俗違反につき、不掲載)
【0051】
式(3)の検索式は、
“いずれかの情報要素タプルの評価対象が‘(公序良俗違反につき、不掲載)’であり,かついずれかの情報要素の評価極性が‘好評’である”,
または,
“本文に‘(公序良俗違反につき、不掲載)’を含み,かついずれかの部分情報要素の評価極性が‘好評’である”という条件を満たす文書をS02で検索することを意味する。
【0052】
このように情報要素属性にプレフィックスが付与されているため、単純に対象のキーワードを含む文書を検索する場合と比べて、対象となる情報要素属性の値を1つ以上含む文書だけに対象文書集合の絞込みができ、処理対象となる情報要素を少なくすることができる。
【0053】
S03では、S02の検索の結果、ヒットした各文書の本文、文書属性の集合、文書集合属性の集合、情報要素属性集合の列、部分情報要素属性集合の列をデータベース7から取得する。ここで取得した各情報要素属性集合および部分情報要素属性集合に対して、文書属性集合と文書集合属性集合とを直積展開し、情報要素タプルおよび部分情報要素タプルを生成する。
【0054】
S04では、タプル評価関数を用いて、‘(公序良俗違反につき、不掲載)’という入力キーワードとその出現位置、部分情報要素タプルの出現位置や評価対象に依存しないスコアなどから、評価対象に依存したスコアを求める。次に、入力されたキーワードを評価対象に設定し、スコア計算に利用した部分情報要素タプルの全ての情報要素属性を対応する情報要素属性に設定し、求めたスコアを設定した完全な情報要素タプルを生成する。
【0055】
S05では、データベース7から取得、もしくはS04で生成した情報要素タプルについて、スコアに応じて採否を決定する。例えばスコア上位k件を採用することのほか、スコアが閾値を超えているか否かで採否を決定することもできる。採用された場合には、評価対象に‘(公序良俗違反につき、不掲載)’が埋め込まれた情報要素タプルが生成される。これをS03で生成された情報要素タプルと合わせて検索条件を満たす情報要素の仮想的なリレーションとして出力する。
【0056】
このように本発明では、オンラインで行うタプル生成処理として、タプル評価関数の処理を行うだけなので、すべての解析をオンラインで行う場合と比べて非常に高速に情報要素リレーションを生成することができる。
【0057】
(2)集計条件の適用
BNF中のグループ化関数は次の通りとする。
・グループ化関数
入力:情報要素タプル,パラメータ
出力:情報要素タプル集合の配列
ここで式(1)の集計条件に列記された各グループ化関数は、情報要素タプル集合が与えられたときに次の処理を実行する。
(A)各情報要素タプルに対して、何らかの基準で集計キーを動的に生成する。
(B)集計キーが同じ情報要素タプルを同じグループとして一つにまとめる。
(C)必要に応じて集計キーの順序でグループをソートする。
【0058】
このような処理を実行する関数の一例として、クラスタリングが挙げられる。クラスタリングでは、用語間の類似度が高いものを一つのクラスタとして、これにIDを付与する。この結果、類似度の高いタプル集合が同じグループとして後段の処理で利用可能となる。
【0059】
すなわち、あるグループ化関数の出力となる情報要素タプル集合の配列の各要素(情報要素タプル集合)に対して、再度、次の階層のグループ化関数を実行することができる。さらに、これらを再帰的に実行することによって、図3に示すように、最終的な集計結果が木構造となる。
【0060】
図3の集計結果は、評価対象”(公序良俗違反につき、不掲載)”の情報要素タプル集合を評価極性(v)が一致するものでグループ化し、さらに各クラスタを評価極性(v)が一致するものでグループ化した結果を示している。ここでは最初のグループ化で”液晶”のグループ(タプル集合3件)と”操作”のグループ(タプル集合1件)とが生成され、次のグループ化で”液晶”のグループから”液晶、好評”のグループ(タプル集合2件)と”液晶、不評”のグループ(タプル集合1件)とが生成され、これにより木構造の集計結果が得られる。
【0061】
このように再帰的にグループ化関数を呼び出すことによって、集計の観点を変えた任意の組合せのクロス集計を実現する。また、問い合わせ式中に複数の集計条件を記述できるため、検索条件が同じで、複数の集計結果が必要な場合に一度の問い合わせで所望の集計結果を得ることもできる。
【0062】
この集計結果は、XMLなどにシリアライズ(変換)され、ユーザ端末2に返信され、アプリケーションプログラム6を通じて画面表示される。図4は、表1の情報要素リレーションに対して、式(4)の問い合わせ式によって取得したデータを可視化した画面例を示している。
【0063】
(公序良俗違反につき、不掲載)
【0064】
ここで利用しているグループ化関数は次の通りである。
・cl([属性名集合]):属性名集合で指定された属性値を、その類似度に応じてクラスタリングし、類似するタプル集合をクラスタとする。
・v(属性名):属性名で指定された属性値が完全一致するものをグループとする。
【0065】
図4の集計結果は、“(公序良俗違反につき、不掲載)”と“(公序良俗違反につき、不掲載)”の評判情報を、類似する評判(評価属性と評価極性)が縦に並ぶように各評価対象の評判を集計した結果を示している。
【0066】
このように前記分析装置1によれば、大規模な文書群から事前に完全に抽出できる情報要素に対しては事前抽出し、未知語を含み事前抽出が難しい情報要素はその一部のみを抽出しておき、検索条件と関数列で規定される集計条件からなる問い合わせ式が入力された時点で、仮想的なリレーションを作成し、これに検索条件、集計条件を適用することによって、表記ゆれを含む情報要素の多段の集計結果をリアルタイムに取得することができる。
【0067】
したがって、ユーザは仮想的な情報要素リレーションに対して、検索条件と集計条件による問い合わせを行うだけで、情報集約タスクで必要となる様々な集計結果を容易に取得することができる。
【0068】
≪プログラムなど≫
本発明は、前記分析装置1の文書解析機能部3.情報集約機能部5の一部もしくは全部として、コンピュータを機能させる文書情報分析プログラムとして構成することもできる。このプログラムによれば、前述した事前処理(情報要素等の格納方法)と、情報要素の集約処理(検索条件の処理方法・集計条件の処理方法)の一部あるいは全部をコンピュータに実行させることが可能となる。
【0069】
このプログラムは、Webサイトや電子メールなどネットワークを通じて提供することができる。また、このプログラムは、CD−ROM,DVD−ROM,CD−R,CD−RW,DVD−R,DVD−RW,MO,HDD,BD−ROM,BD−R,BD−REなどの記録媒体に記録して、保存・配布することも可能である。この記録媒体は、記録媒体駆動装置を利用して読み出され、そのプログラムコード自体が前記実施形態の処理を実現するので、該記録媒体も本発明を構成する。
【符号の説明】
【0070】
1…文書情報分析装置
2…ユーザ端末
3…文書解析機能部(文書解析機能手段)
4…全文検索エンジン
5…情報集約機能部(情報集約機能手段)
6…アプリケーションプログラム
7…データベース(保存手段)
P…文書集合

【特許請求の範囲】
【請求項1】
電子文書中に含まれる情報を集約し、該集約の結果を出力する文書情報分析装置であって、
あらかじめ電子文書中から集計対象の情報単位となる情報要素が持つ属性を抽出し、抽出された属性の集合からなるタプルを保存手段に保存する文書解析機能手段と、
検索条件と集計条件からなる問い合わせ式が入力されると、保存手段の保存データ中から検索条件に合致するタプル集合を選択し、選択されたタプル集合を集計条件にしたがって集計して出力する情報集約機能手段と、を備え、
文書解析機能手段は、あらかじめ抽出できなかった属性に関しては抽出できた属性および完全なタプル生成に必要となる特徴を保存手段に保存し、
情報集約機能手段は、問い合わせ式が入力された時点で問い合わせ式と保存手段の保存データとを用いてタプルを生成する
ことを特徴とする文書情報分析装置。
【請求項2】
文書解析機能手段は、情報要素の属性名に応じたプレフィックスを各属性値に付与して保存手段に保存する一方、
情報集約機能手段は、保存手段の保存データをプレフィックスと属性値を結合した文字列で文書検索し、検索された電子文書のタプル集合と検索条件として入力されたキーワードとが関連する度合に応じてタプル集合を選択する
ことを特徴とする請求項1記載の文書情報分析装置。
【請求項3】
情報集約機能手段は、集計条件中に集計用関数の名称が列記されていれば、最初に記述された集計用関数をもってタプル集合をグループ化し、
二番目以降に記述された集計用関数をもって、ひとつ前に記述された集計用関数でグループ化された各グループを順次再グループ化する
ことを特徴とする請求項1または2のいずれか1項に記載の文書情報分析装置。
【請求項4】
電子文書中に含まれる情報を集約し、該集約の結果を出力する装置の実行する文書情報分析方法であって、
あらかじめ電子文書中から集計対象の情報単位となる情報要素が持つ属性を抽出し、抽出された属性の集合からなるタプルを保存手段に保存する文書解析ステップと、
検索条件と集計条件からなる問い合わせ式が入力されると、保存手段の保存データ中から検索条件に合致するタプル集合を選択し、選択されたタプル集合を集計条件にしたがって集計して出力する情報集約ステップと、を有し、
文書解析ステップは、あらかじめ抽出できなかった属性に関しては抽出できた属性および完全なタプル生成に必要となる特徴を保存手段に保存し、
情報集約ステップは、問い合わせ式が入力された時点で問い合わせ式と保存手段の保存データとを用いてタプルを生成する
ことを特徴とする文書情報分析方法。
【請求項5】
文書解析ステップにおいて、情報要素の属性名に応じたプレフィックスを各属性値に付与して保存手段に保存し、
情報集約ステップにおいて、保存手段の保存データをプレフィックスと属性値を結合した文字列で文書検索し、検索された電子文書のタプル集合と検索条件として入力されたキーワードとが関連する度合に応じてタプル集合を選択する
ことを特徴とする請求項4記載の文書情報分析方法。
【請求項6】
情報集約ステップにおいて、集計条件中に集計用関数の名称が列記されていれば、最初に記述された集計用関数をもってタプル集合をグループ化し、
二番目以降に記述された集計用関数をもって、ひとつ前に記述された集計用関数でグループ化された各グループを順次再グループ化する
ことを特徴とする請求項4または5のいずれか1項に記載の文書情報分析方法。
【請求項7】
請求項1〜3のいずれか1項に記載の文書情報分析装置を構成する各手段としてコンピュータを機能させるための文書情報分析プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2012−248049(P2012−248049A)
【公開日】平成24年12月13日(2012.12.13)
【国際特許分類】
【出願番号】特願2011−120081(P2011−120081)
【出願日】平成23年5月30日(2011.5.30)
【公序良俗違反の表示】
特許法第64条第2項第4号の規定により明細書の一部または全部を不掲載とする。
特許法第64条第2項第4号の規定により図面の一部または全部を不掲載とする。
【出願人】(000004226)日本電信電話株式会社 (13,992)
【出願人】(504126835)エヌ・ティ・ティ レゾナント株式会社 (60)