文書情報分析装置、文書情報分析方法、文書情報分析プログラム

【課題】未知語を含むキーワードが検索条件として入力された場合にもリアルタイムに仮想的な情報要素のリレーションを作成し、そこへの簡易な問い合わせによって表記ゆれと階層的な集計を容易化する。
【解決手段】文書解析機能部３は、文書集合Ｐの各文書から集計対象の情報単位となる情報要素が持つ属性を抽出し、情報要素の属性名に応じたプレフィックスを各属性値に付与して属性の集合からなるタプルを全文検索エンジン４のデータベース７に格納する。情報集約機能部５は、検索条件と集計条件とからなる問い合わせ式がユーザ入力されると、データベース７の格納データ中から検索条件に合致するタプル集合を選択し、集計条件にしたがって選択されたタプル集合を集計・出力する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、ブログやレビューなどのＷｅｂページ（電子文書、以下、文書と省略する）群に含まれる情報を集約する技術に関する。
【背景技術】
【０００２】
Ｗｅｂから得られる様々な情報のなかには、会社や製品の評判や競合他社の動向などのように、多数の文書中の情報の断片（以下、情報要素と呼ぶ。）を集約してはじめて得られるものも数多く存在する。この情報要素を集約するタスクをここでは情報集約タスクと呼ぶ。
【０００３】
この情報集約タスクの一例として、ある企業が自社の製品をリニューアルした際にＷｅｂ上からその評判を調査するタスクを説明する。製品の評判は、レビューサイトやブログなど様々なサイトに記述されることが想定される。
【０００４】
この場合、企業の担当者は例えば次の作業を行う。
（１）製品名をキーワードとしてＷｅｂ検索を行う。
（２）検索結果の中からレビューらしいものを探す。
（３）各記事に書かれている評判に関する用語を集計する。
（４）各用語が、好評か不評か、どのような属性（色や形など）について書かれたのかを分類する。
（５）記事を書いた著者の性別や年代毎に用語の集計を行う。
（６）リニューアルの前後で書き込み件数などに変化があったか否かを調べる。
（７）作業（１）〜（６）に関してクロス集計を行う。
【０００５】
このような作業を行うことによって、製品の担当者は「どのような年代や性別の方が、自社の製品に対してどういった評判を持っているのか？」を知ることができる。
【０００６】
現状、このような情報集約タスクを行うためには、特定のアプリケーションをアドホックな方法で開発するしかなかった。すなわち、形式化されたデータに対してはリレーショナルデータベース（ＲＤＢ）が広く使われているが、情報収集タスクでは大規模な文書集合を扱う必要があり、また未知語の抽出が困難であるため、情報要素を完全なタプルの形式で事前に抽出しＲＤＢに格納することは難しい。
【０００７】
そこで、情報集約のために汎用的な枠組みとして、非特許文献１は、商用の検索エンジンから取得した検索結果に対して文書解析処理を施し、この結果を仮想的なテーブルと見立てて、既存のＲＤＢ上のデータと統合利用する手法を提案している。
【先行技術文献】
【非特許文献】
【０００８】
【非特許文献１】大島裕明小山聡田中克巳，”Ｗｅｂ集約質問処理のための検索エンジンの関係データベースインタフェース” 情報処理学会論文誌：データベース Vol.48 No.SIG 20(TOD 36),Dec.2007
【発明の概要】
【発明が解決しようとする課題】
【０００９】
しかしながら、非特許文献１の手法では、未知語には対応できるものの、ユーザが検索条件としてキーワードを入力した時点で、すべての解析処理を行うため、リアルタイムの情報集約タスクには適用できないおそれがある。
【００１０】
また、ＲＤＢへの問い合わせ言語のＳＱＬ（データベース言語国際標準）では、属性値の完全一致によってグループ化を行う機能があるものの、情報要素の集計したい属性値（例えば「画面」や「液晶」など）には表記ゆれが存在するため、同一の意味を表す属性を一つのグループとして集計することが困難であった。
【００１１】
さらに「男女別の好不評の評判情報」といった階層的な集計結果が欲しい場合でも、ＳＱＬによる問い合わせの返却値は、表（リレーション）であるため、取得結果から別のプログラムによって階層構造を作成する必要があった。
【００１２】
本発明は、上述のような従来技術の問題点を解決するためになされたものであり、未知語を含むキーワードが検索条件として入力された場合にリアルタイムに仮想的な情報要素のリレーションを作成し、そこへの簡易な問い合わせによって表記ゆれと階層的な集計を容易化することを解決課題としている。
【課題を解決するための手段】
【００１３】
そこで、本発明は、このような解決課題を解決するため、あらかじめ文書中から集計対象の情報単位となる情報要素が持つ属性を抽出し、抽出された属性の集合からなるタプルを保存手段に保存する。このとき抽出できなかった属性に関しては抽出できた属性および完全なタプル生成に必要となる特徴を保存する。その後に検索条件と集計条件からなる問い合わせ式が入力されると、保存手段の保存データ中から検索条件に合致するタプル集合を選択し、選択されたタプル集合を集計条件にしたがって集計・出力する。ここでは問い合わせ式が入力された時点で問い合わせ式と保存手段の保存データとを用いてタプルを生成する。
【００１４】
本発明によれば、保存手段の保存データおよび問い合わせ式からリアルタイムに情報要素タプルを動的に生成し、仮想的なリレーションを生成する。このリレーションに検索条件および集計条件を適用し、ユーザ所望の集計結果を提示する。
【００１５】
本発明の一態様は、情報要素の属性名に応じたプレフィックスを各属性値に付与して保存手段に保存する。この保存手段の保存データをプレフィックスと属性値を結合した文字列で文書検索し、検索された電子文書のタプル集合と検索条件として入力されたキーワードとが関連する度合に応じてタプル集合を選択する。したがって、単純に検索条件を含む文書を検索する場合と比べて、対象となる情報要素属性の値を１つ以上含む文書だけに文書集合を絞ることができる。
【００１６】
本発明の他の態様は、集計条件中に集計用関数の名称が列記されていれば、最初に記述された集計用関数をもってタプル集合をグループ化し、二番目以降に記述された集計用関数をもって、ひとつ前に記述された集計用関数でグループ化された各グループを順次再グループ化する。これにより集計の観点を変えた任意の組合せの集計を実現する。
【発明の効果】
【００１７】
本発明によれば、未知語を含むキーワードが検索条件として入力された場合にリアルタイムに仮想的な情報要素のリレーションを作成し、そこへの簡易な問い合わせによって表記ゆれと階層的な集計を容易化することができる。
【図面の簡単な説明】
【００１８】
【図１】本発明の実施形態に係る文書情報分析装置の構成図。
【図２】同検索条件の処理ステップを示すチャート図。
【図３】同集計結果の木構造の概略図。
【図４】同集計結果を可視化した画面図。
【発明を実施するための形態】
【００１９】
以下、本発明の実施形態に係る文書情報分析装置を説明する。この分析装置の説明では、つぎの用語を用いる。
（１）情報要素
情報要素とは、集計の対象となる情報の単位を示し、複数の属性（情報要素属性）によって構成され、一つの文書中には複数の情報要素が存在する。このような情報要素属性の組を情報要素タプルと呼ぶ。すなわち、文書中に存在する各評判情報は、＜評価対象、評価属性、評価表現、評価極性＞の４つの情報要素属性からなる情報要素タプルで表現することができる。例えば、（公序良俗違反につき、不掲載）の「（公序良俗違反につき、不掲載）（登録商標）」に対する評判情報であれば、≪評価対象＝（公序良俗違反につき、不掲載）、評価属性＝操作、評価表現＝直感的、評価極性＝好評≫などで表現できる。
（２）文書属性
文書属性とは、文書に対して１対１に割り振られる属性を意味する。文書属性の一例としては、文書のＵＲＬ、作成日、文書種別（ブログ、レビューなど）があげられる。
（３）文書集合属性
文書集合属性とは、文書に対して割り振られる属性を意味する。例えば、ある著者の記述したブログ記事すべてを文書集合にとると、著者の性別、年代などが文書集合属性に該当する。
【００２０】
≪装置構成≫
図１に基づき前記分析装置の構成例を説明する。この分析装置１は、検索エンジン４と連係して文書集合Ｐに含まれる情報を集約する。ここでは前記分析装置１は、ユーザ端末２とインターネット経由で接続されているものとする。
【００２１】
このユーザ端末２は、例えばパーソナルコンピュータ（ＰＣ）あるいは携帯電話などが該当し、前記分析装置１に文書集約タスクを要求可能なアプリケーションプログラム６を実装していればよい。この要求は、ユーザ入力から生成した問い合わせ式（検索条および集計条件）をユーザ端末２から前記分析装置１に送信して行われるものとする。
【００２２】
具体的には、前記分析装置１は、コンピュータにより構成され、ＣＰＵ．記憶装置（メモリ、ハードディスクドライブ装置）などの通常のコンピュータのハードウェア資源を備える。このハードウェア資源とソフトウェア資源（ＯＳ．アプリケーションなど）との協働の結果、前記装置１は文書解析機能部３，情報集約機能部５を実装する。
【００２３】
文書解析機能部３は、事前処理として文書集合から情報要素を抽出する。抽出された各情報要素と各文書の文書属性および文書集合属性とを全文検索エンジン４のデータベース（例えば文書インデックスＤＢなど）７に格納して保存する。
【００２４】
情報集約機能部５は、アプリケーションプログラム６からの要求に応じて情報要素の集約処理を実行する。すなわち、情報集約機能部５は、アプリケーションプログラム６からの問い合わせ式を、ＣＧＩ（ＣｏｍｍｏｎＧａｔｅｗａｙＩｎｔｅｒｆａｃｅ）経由で受け取ると、検索条件を全文検索エンジン用の文書検索式に変換し、全文検索エンジン４に問い合わせる。
【００２５】
この問い合わせの結果、データベース７から取得した検索結果（各文書の本文，文書属性，文書集合属性，情報要素属性集合の列）から仮想的な情報要素リレーションを生成し、集計条件に応じて集計を行って集計結果をＸＭＬなどにシリアライズ（変換）してユーザ端末２に返信（出力）する。この集計結果は、アプリケーションプログラム６を通じてユーザ端末２に画面表示され、ユーザに提示される。
【００２６】
この仮想的な情報要素リレーションの生成にあたっては、検索条件として入力されたキーワードとデータベース７に格納された情報要素とが関係する度合（スコア）を求めて検索条件に関係する情報要素を決定する。これにより予め予測できないキーワード（未知語）に対しても、その入力された時点で高速に関連情報を集計することができる。以下、前記分析装置１の処理内容を事前処理と情報要素の集約処理とに大別して説明する。
【００２７】
≪事前処理の内容≫
まず、事前処理としての情報要素等の格納方法を説明する。ここでは文書解析機能部３は、情報要素の集約処理に先立って全文検索エンジン４のクローリングなどで収集された文書集合Ｐの各文書を解析し、分析の対象となる用語の抽出を試みる。このとき分析対象の用語が抽出できた場合には、すべての情報要素属性の値が決まった完全な情報要素タプルを生成する。
【００２８】
（公序良俗違反につき、不掲載）
【００２９】
表１は、このような完全な情報要素タプルの情報要素リレーション（属性集合）の一例を示している。ここでは一意に振り出されたＩＤ毎に分析対象の用語、即ち評価対象（ＩＳ）の評価属性（ＩＰ）、評価表現（ＩＥ）、評価極性（ＩＯ）、ＵＲＬ（ＤＩ）、作成日（ＤＤ）、文書種別（ＤＴ）、性別（ＢＳ）、年代（ＢＧ）、ブログＩＤ（ＢＩＤ）が記述されている。
【００３０】
一方、前記分析装置１の単語辞書に分析対象の用語が登録されていなければ、未知語であるため、抽出できない。このような場合には分析の対象以外の各情報要素属性のみを事前処理で抽出する。この際に完全な情報要素タプルの生成に必要な特徴、例えば出現位置情報などを付加しておく。この一部の情報が欠落した情報要素タプルを部分情報要素タプルと呼ぶ。
【００３１】
例えば表１中の”ｉＰａｄ”が未知語であれば、情報要素タプルの評価対象（ＩＳ）の部分は、事前処理には抽出できない。そこで、リレーションの動的生成に使用するために未知語の出現位置情報などを属性としてもたせる。このように生成した完全な情報要素タプルと部分情報要素タプルとを検索エンジン４のデータベース７に格納する。
【００３２】
ただし、全文検索エンジン４のレコード単位は、文書であり、情報要素は各文書に複数出現するため、情報要素属性をデータベース７の個別フィールドに格納することができない。そこで、（ａ）情報要素の各属性名に対応するプレフィックスを属性値に付与する。（ｂ）各文書に出現するすべての情報要素のすべての情報要素属性を一つのフィールドに格納する。（ｃ）データベース７への格納順は、情報要素の出現順序とし、各情報要素間にセパレータを置く方法を用いて格納する。
【００３３】
また、文書集合属性は、文書に直積展開できるため、文書属性用フィールド（複数）、文書集合属性用フィールド（複数）、情報要素属性集合列用フィールド（一つ）、部分情報要素属性集合列用フィールド（一つ）を文書本文と併せて全文検索エンジン４のデータベース７に格納する。
【００３４】
（公序良俗違反につき、不掲載）
【００３５】
表２は、データベース７への格納例を示している。ここではＵＲＬ（ＤＩ）および作成日（ＤＤ）の列はそれぞれ文書属性用フィールドを示し、性別（ＢＳ）・年代（ＢＧ）の列はそれぞれ文書集合属性用フィールドを示し、情報要素（ＩＣｏｍｐ）の列は情報要素属性集合列用フィールドを示し、部分情報要素（ＩＰａｒｔ）の列は部分情報要素属性集合列フィールドを示している。
【００３６】
この情報要素属性集合列用フィールド中では、各情報要素属性名に対応するプレフィックスを「ｓ：評価対象」「ｐ：評価属性」「ｅ：評価表現」「ｏ：評価極性」「c:スコア」「ｂ：要素間のセパレータ」で表している。また、部分情報要素属性集合列フィールド中では「ｃ：スコア」「ｎ：出現位置情報」で表している。情報要素、部分情報要素の「ｃ：スコア（情報要素タプルへのなりやすさ）」と、部分情報要素の「ｎ：出現位置」は、情報要素の集約処理で対象となる情報要素タプルの選択に利用される。
【００３７】
ここで、部分情報要素（ＩＰａｒｔ）中のスコア「ｃ」は評価対象「ｓ」に依存しないスコア（例えば、評価表現自体が持つ重み）を示している。一方、情報要素（ＩＣｏｍｐ）中のスコア「ｃ」は評価対象「ｓ」に依存したスコア（例えば、評価表現自体が持つ重みに加えて、評価対象からの距離を反映させたスコア）を示している。なお、本文として、文字位置とその文字位置に付随する情報（形態素、格情報、係り受け情報など）を格納しておくことも可能である。
【００３８】
≪情報要素の集約処理≫
つぎに情報要素の集約処理を説明する。ここではアプリケーションプログラム６からの問い合わせ式が前記分析装置１に入力されると、情報集約機能部５は次の処理を実行する。具体的には、問い合わせ式は、式（１）のＢＮＦ（Ｂａｃｋｕｓ−ＮａｕｒＦｏｒｍ）によって定義される。
【００３９】
【数１】

【００４０】
式（１）に示すように、問い合わせ式は検索条件と、複数の集計条件によって構成されている。この問い合わせ式が入力されると、情報集約機能部５は、まず検索条件を処理することで情報要素タプルを取得し、情報要素リレーションを生成する。つぎに、それらの情報タプル集合に各集計条件を適用し、各集計結果をそれぞれ木構造で出力する。この検索条件の処理方法と、集計条件の処理方法とを説明する。
【００４１】
（１）検索条件の処理方法
まず、以下のタプル評価関数を定義する。
・タプル評価関数
入力：入力キーワード，本文，部分情報要素タプル
出力：スコア
この評価関数では、入力された入力キーワードと、部分情報要素タプルとが結び付いて完全な情報要素タプルとなるか否かのスコア計算を行う。この評価関数はタスクに応じて選択される。例えば入力キーワードおよび部分情報要素タプルの本文中の出現位置や、各タプルのもつ評価対象に依存しないスコアを用いることができる。ここで”本文”としては、単純な文字列に加えて、文字位置をキーとした特徴（形態素、格情報、係り受けなど）を持たせることも可能である。
【００４２】
つぎに図２に基づき検索条件の処理方法（Ｓ０１〜Ｓ０５）を説明する。ここでは最初に情報要素への検索条件を全文検索エンジン用の文書検索式に置き換え（Ｓ０１）、置き換えた文書検索式を全文検索エンジン４に投入し、全文検索エンジン４に全文検索を実行させる（Ｓ０２）。
【００４３】
Ｓ０２の検索の結果、ヒットした各文書の本文・文書属性の集合・文書集合属性の集合・情報要素属性集合の列・部分情報要素属性集合の列をデータベース７から取得し、この取得情報から情報要素タプル集合および部分情報要素タプル集合を生成する（Ｓ０３）。
【００４４】
Ｓ０３の生成後に入力キーワード，本文，各部分情報要素タプルを入力として、タプル評価関数を呼び出し、生成された部分情報要素タプルにスコアを付与する（Ｓ０４）。
【００４５】
そして、各情報要素タプルに対して、検索条件（検索ユニット）を適用し、対象となるものを取得する（Ｓ０５）。このとき件数が多ければ、Ｓ０４のスコア上位ｋ件の部分情報要素を取得する。
【００４６】
最後に”評価対象＝ＮＴＴ（登録商標）”、”評価極性＝好評”の情報要素を取得するＳ０１〜Ｓ０５の処理例を説明する。ここではアプリケーションプログラム６が指定する情報要素リレーションに対する検索条件は、式（２）のように記述されているものとする。なお、式（２）中、「ＩＳ」は評価対象を示し、「ＩＯ」は評価極性を示している。
【００４７】
【数２】

【００４８】
Ｓ０１では、前記情報要素リレーションに対する検索条件を全文検索エンジン用の文書検索式に置き換えるが、情報要素属性に対する検索条件にはプレフィックスを用いるものとし、また部分情報要素タプルを利用する必要がある属性が指定された場合は、本文への検索を併せて行う。
【００４９】
ここでは式（２）の検索条件を式（３）の検索式に置き換える。式（３）の検索式中、「ＩＣｏｍｐ」は情報要素を示し、「ＤＭ」は本文を示し、「ＩＰａｒｔ」は部分情報要素を示している。
【００５０】
（公序良俗違反につき、不掲載）
【００５１】
式（３）の検索式は、
“いずれかの情報要素タプルの評価対象が‘（公序良俗違反につき、不掲載）’であり，かついずれかの情報要素の評価極性が‘好評’である”，
または，
“本文に‘（公序良俗違反につき、不掲載）’を含み，かついずれかの部分情報要素の評価極性が‘好評’である”という条件を満たす文書をＳ０２で検索することを意味する。
【００５２】
このように情報要素属性にプレフィックスが付与されているため、単純に対象のキーワードを含む文書を検索する場合と比べて、対象となる情報要素属性の値を１つ以上含む文書だけに対象文書集合の絞込みができ、処理対象となる情報要素を少なくすることができる。
【００５３】
Ｓ０３では、Ｓ０２の検索の結果、ヒットした各文書の本文、文書属性の集合、文書集合属性の集合、情報要素属性集合の列、部分情報要素属性集合の列をデータベース７から取得する。ここで取得した各情報要素属性集合および部分情報要素属性集合に対して、文書属性集合と文書集合属性集合とを直積展開し、情報要素タプルおよび部分情報要素タプルを生成する。
【００５４】
Ｓ０４では、タプル評価関数を用いて、‘（公序良俗違反につき、不掲載）’という入力キーワードとその出現位置、部分情報要素タプルの出現位置や評価対象に依存しないスコアなどから、評価対象に依存したスコアを求める。次に、入力されたキーワードを評価対象に設定し、スコア計算に利用した部分情報要素タプルの全ての情報要素属性を対応する情報要素属性に設定し、求めたスコアを設定した完全な情報要素タプルを生成する。
【００５５】
Ｓ０５では、データベース７から取得、もしくはＳ０４で生成した情報要素タプルについて、スコアに応じて採否を決定する。例えばスコア上位ｋ件を採用することのほか、スコアが閾値を超えているか否かで採否を決定することもできる。採用された場合には、評価対象に‘（公序良俗違反につき、不掲載）’が埋め込まれた情報要素タプルが生成される。これをＳ０３で生成された情報要素タプルと合わせて検索条件を満たす情報要素の仮想的なリレーションとして出力する。
【００５６】
このように本発明では、オンラインで行うタプル生成処理として、タプル評価関数の処理を行うだけなので、すべての解析をオンラインで行う場合と比べて非常に高速に情報要素リレーションを生成することができる。
【００５７】
（２）集計条件の適用
ＢＮＦ中のグループ化関数は次の通りとする。
・グループ化関数
入力：情報要素タプル，パラメータ
出力：情報要素タプル集合の配列
ここで式（１）の集計条件に列記された各グループ化関数は、情報要素タプル集合が与えられたときに次の処理を実行する。
（Ａ）各情報要素タプルに対して、何らかの基準で集計キーを動的に生成する。
（Ｂ）集計キーが同じ情報要素タプルを同じグループとして一つにまとめる。
（Ｃ）必要に応じて集計キーの順序でグループをソートする。
【００５８】
このような処理を実行する関数の一例として、クラスタリングが挙げられる。クラスタリングでは、用語間の類似度が高いものを一つのクラスタとして、これにＩＤを付与する。この結果、類似度の高いタプル集合が同じグループとして後段の処理で利用可能となる。
【００５９】
すなわち、あるグループ化関数の出力となる情報要素タプル集合の配列の各要素（情報要素タプル集合）に対して、再度、次の階層のグループ化関数を実行することができる。さらに、これらを再帰的に実行することによって、図３に示すように、最終的な集計結果が木構造となる。
【００６０】
図３の集計結果は、評価対象”（公序良俗違反につき、不掲載）”の情報要素タプル集合を評価極性（ｖ）が一致するものでグループ化し、さらに各クラスタを評価極性（ｖ）が一致するものでグループ化した結果を示している。ここでは最初のグループ化で”液晶”のグループ（タプル集合３件）と”操作”のグループ（タプル集合１件）とが生成され、次のグループ化で”液晶”のグループから”液晶、好評”のグループ（タプル集合２件）と”液晶、不評”のグループ（タプル集合１件）とが生成され、これにより木構造の集計結果が得られる。
【００６１】
このように再帰的にグループ化関数を呼び出すことによって、集計の観点を変えた任意の組合せのクロス集計を実現する。また、問い合わせ式中に複数の集計条件を記述できるため、検索条件が同じで、複数の集計結果が必要な場合に一度の問い合わせで所望の集計結果を得ることもできる。
【００６２】
この集計結果は、ＸＭＬなどにシリアライズ（変換）され、ユーザ端末２に返信され、アプリケーションプログラム６を通じて画面表示される。図４は、表１の情報要素リレーションに対して、式（４）の問い合わせ式によって取得したデータを可視化した画面例を示している。
【００６３】
（公序良俗違反につき、不掲載）
【００６４】
ここで利用しているグループ化関数は次の通りである。
・cl([属性名集合])：属性名集合で指定された属性値を、その類似度に応じてクラスタリングし、類似するタプル集合をクラスタとする。
・v(属性名):属性名で指定された属性値が完全一致するものをグループとする。
【００６５】
図４の集計結果は、“（公序良俗違反につき、不掲載）”と“（公序良俗違反につき、不掲載）”の評判情報を、類似する評判（評価属性と評価極性）が縦に並ぶように各評価対象の評判を集計した結果を示している。
【００６６】
このように前記分析装置１によれば、大規模な文書群から事前に完全に抽出できる情報要素に対しては事前抽出し、未知語を含み事前抽出が難しい情報要素はその一部のみを抽出しておき、検索条件と関数列で規定される集計条件からなる問い合わせ式が入力された時点で、仮想的なリレーションを作成し、これに検索条件、集計条件を適用することによって、表記ゆれを含む情報要素の多段の集計結果をリアルタイムに取得することができる。
【００６７】
したがって、ユーザは仮想的な情報要素リレーションに対して、検索条件と集計条件による問い合わせを行うだけで、情報集約タスクで必要となる様々な集計結果を容易に取得することができる。
【００６８】
≪プログラムなど≫
本発明は、前記分析装置１の文書解析機能部３．情報集約機能部５の一部もしくは全部として、コンピュータを機能させる文書情報分析プログラムとして構成することもできる。このプログラムによれば、前述した事前処理（情報要素等の格納方法）と、情報要素の集約処理（検索条件の処理方法・集計条件の処理方法）の一部あるいは全部をコンピュータに実行させることが可能となる。
【００６９】
このプログラムは、Ｗｅｂサイトや電子メールなどネットワークを通じて提供することができる。また、このプログラムは、ＣＤ−ＲＯＭ，ＤＶＤ−ＲＯＭ，ＣＤ−Ｒ，ＣＤ−ＲＷ，ＤＶＤ−Ｒ，ＤＶＤ−ＲＷ，ＭＯ，ＨＤＤ，ＢＤ−ＲＯＭ，ＢＤ−Ｒ，ＢＤ−ＲＥなどの記録媒体に記録して、保存・配布することも可能である。この記録媒体は、記録媒体駆動装置を利用して読み出され、そのプログラムコード自体が前記実施形態の処理を実現するので、該記録媒体も本発明を構成する。
【符号の説明】
【００７０】
１…文書情報分析装置
２…ユーザ端末
３…文書解析機能部（文書解析機能手段）
４…全文検索エンジン
５…情報集約機能部（情報集約機能手段）
６…アプリケーションプログラム
７…データベース（保存手段）
Ｐ…文書集合

【特許請求の範囲】
【請求項１】
電子文書中に含まれる情報を集約し、該集約の結果を出力する文書情報分析装置であって、
あらかじめ電子文書中から集計対象の情報単位となる情報要素が持つ属性を抽出し、抽出された属性の集合からなるタプルを保存手段に保存する文書解析機能手段と、
検索条件と集計条件からなる問い合わせ式が入力されると、保存手段の保存データ中から検索条件に合致するタプル集合を選択し、選択されたタプル集合を集計条件にしたがって集計して出力する情報集約機能手段と、を備え、
文書解析機能手段は、あらかじめ抽出できなかった属性に関しては抽出できた属性および完全なタプル生成に必要となる特徴を保存手段に保存し、
情報集約機能手段は、問い合わせ式が入力された時点で問い合わせ式と保存手段の保存データとを用いてタプルを生成する
ことを特徴とする文書情報分析装置。
【請求項２】
文書解析機能手段は、情報要素の属性名に応じたプレフィックスを各属性値に付与して保存手段に保存する一方、
情報集約機能手段は、保存手段の保存データをプレフィックスと属性値を結合した文字列で文書検索し、検索された電子文書のタプル集合と検索条件として入力されたキーワードとが関連する度合に応じてタプル集合を選択する
ことを特徴とする請求項１記載の文書情報分析装置。
【請求項３】
情報集約機能手段は、集計条件中に集計用関数の名称が列記されていれば、最初に記述された集計用関数をもってタプル集合をグループ化し、
二番目以降に記述された集計用関数をもって、ひとつ前に記述された集計用関数でグループ化された各グループを順次再グループ化する
ことを特徴とする請求項１または２のいずれか１項に記載の文書情報分析装置。
【請求項４】
電子文書中に含まれる情報を集約し、該集約の結果を出力する装置の実行する文書情報分析方法であって、
あらかじめ電子文書中から集計対象の情報単位となる情報要素が持つ属性を抽出し、抽出された属性の集合からなるタプルを保存手段に保存する文書解析ステップと、
検索条件と集計条件からなる問い合わせ式が入力されると、保存手段の保存データ中から検索条件に合致するタプル集合を選択し、選択されたタプル集合を集計条件にしたがって集計して出力する情報集約ステップと、を有し、
文書解析ステップは、あらかじめ抽出できなかった属性に関しては抽出できた属性および完全なタプル生成に必要となる特徴を保存手段に保存し、
情報集約ステップは、問い合わせ式が入力された時点で問い合わせ式と保存手段の保存データとを用いてタプルを生成する
ことを特徴とする文書情報分析方法。
【請求項５】
文書解析ステップにおいて、情報要素の属性名に応じたプレフィックスを各属性値に付与して保存手段に保存し、
情報集約ステップにおいて、保存手段の保存データをプレフィックスと属性値を結合した文字列で文書検索し、検索された電子文書のタプル集合と検索条件として入力されたキーワードとが関連する度合に応じてタプル集合を選択する
ことを特徴とする請求項４記載の文書情報分析方法。
【請求項６】
情報集約ステップにおいて、集計条件中に集計用関数の名称が列記されていれば、最初に記述された集計用関数をもってタプル集合をグループ化し、
二番目以降に記述された集計用関数をもって、ひとつ前に記述された集計用関数でグループ化された各グループを順次再グループ化する
ことを特徴とする請求項４または５のいずれか１項に記載の文書情報分析方法。
【請求項７】
請求項１〜３のいずれか１項に記載の文書情報分析装置を構成する各手段としてコンピュータを機能させるための文書情報分析プログラム。

【図１】

【図２】

【図３】

【図４】

【公開番号】特開２０１２−２４８０４９（Ｐ２０１２−２４８０４９Ａ）
【公開日】平成２４年１２月１３日（２０１２．１２．１３）
【国際特許分類】

物理学 (1,541,580)
- 計算；計数 (381,677)
  - 電気的デジタルデータ処理 (228,215)
    - 特定の機能に特に適合したデジタル計算またはデータ処理の装置また... (34,028)
      - 情報検索；そのためのデータベース構造 (17,914)

【出願番号】特願２０１１−１２００８１（Ｐ２０１１−１２００８１）
【出願日】平成２３年５月３０日（２０１１．５．３０）
【公序良俗違反の表示】
特許法第６４条第２項第４号の規定により明細書の一部または全部を不掲載とする。
特許法第６４条第２項第４号の規定により図面の一部または全部を不掲載とする。
【出願人】（０００００４２２６）日本電信電話株式会社 (13,992)
【出願人】（５０４１２６８３５）エヌ・ティ・ティ　レゾナント株式会社 (60)

[ Back to top ]

文書情報分析装置、文書情報分析方法、文書情報分析プログラム

メニュー

スポンサーリンク

次の公報 »

« 前の公報

文書情報分析装置、文書情報分析方法、文書情報分析プログラム

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク