文書解析プログラム及び文書解析システム
【課題】異なる文書の集合を対象にした異なるグラフ間について、比較する手段を提供する。
【解決手段】選択処理では、グラフ選択部202が、表示装置102に、比較する複数のグラフデータを、利用者に選択させる画面を表示させる。利用者によりグラフデータP及びQが選択されると、グラフデータ記憶部212から選択されたグラフデータP及びQを取得する。比較項目選択処理では、グラフ選択部202は、利用者に、比較されるグラフデータP及びQにおいて強調表示される比較項目を選択させるために、比較項目の種類を表示装置に表示させる。比較表示処理において、比較表示制御部204は、選択処理で選択されたグラフデータP及びQ及び比較項目に基づき、グラフデータPを表示しつつ、グラフデータQとの差分を強調する比較表示を行う。
【解決手段】選択処理では、グラフ選択部202が、表示装置102に、比較する複数のグラフデータを、利用者に選択させる画面を表示させる。利用者によりグラフデータP及びQが選択されると、グラフデータ記憶部212から選択されたグラフデータP及びQを取得する。比較項目選択処理では、グラフ選択部202は、利用者に、比較されるグラフデータP及びQにおいて強調表示される比較項目を選択させるために、比較項目の種類を表示装置に表示させる。比較表示処理において、比較表示制御部204は、選択処理で選択されたグラフデータP及びQ及び比較項目に基づき、グラフデータPを表示しつつ、グラフデータQとの差分を強調する比較表示を行う。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書解析プログラム及び文書解析システムに関する。
【背景技術】
【0002】
アンケートや苦情文書に含まれる自由形式で記載される文書には、多くの有用な情報が含まれていることから、文書を解析して、製品開発にフィードバックすることが望ましい。しかしながら、その量の多さから、人手によりその解析を行うことは時間的にも費用的にも困難であり、コンピュータによる解析を行うことが試みられている。
【0003】
特許文献1は、複数の文書における単語の共起頻度から、意味ネットワークを作成することについて開示している。特許文献2は、文書からグラフを作成し、各グラフのノードに重要度、リンクに関連度が振られ、これらをグラフ間で比較することについて開示している。特許文献3は、複数の文書における単語の出現頻度に基づいてグラフを作成すると共に、部分集合を作成することについて開示している。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2001−243223号公報
【特許文献2】特開2003−330966号公報
【特許文献3】特開2009−128949号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は、異なる文書の集合を対象にした異なるグラフ間において、比較する手段を提供することを目的とする。
【課題を解決するための手段】
【0006】
請求項1に記載の発明は、文書に出現する語の文字列情報及び前記語についての出現頻度情報を有するノードデータ、並びに複数の前記ノードデータを結びつける情報を有するリンクデータをそれぞれ複数含むグラフデータを複数選択するグラフデータ選択手順と、前記選択された前記複数のグラフデータを比較表示するグラフ比較表示手順と、を処理装置に実行させるための文書解析プログラムである。
【0007】
請求項2に記載の発明は、前記複数の文書が入力される文書入力手順と、前記文書入力手順において入力された前記複数の文書に含まれる各語のうち、出現頻度の高い語である複数の第1語を抽出し、前記第1語のうちのひとつである第1特定語が含まれる文書の部分集合において、出現頻度の高い語である複数の第2語を抽出する語抽出手順と、前記部分集合の第1特定語と第2語とを結びつける情報を有するリンクデータを保存するグラフデータ保存手順と、を更に備えることを特徴とする請求項1に記載の文書解析プログラムである。
【0008】
請求項3に記載の発明は、前記グラフデータ選択手順では、前記比較において使用する比較項目を更に選択し、前記グラフ比較表示手順では、前記選択された前記比較項目に基づいて前記比較表示を行う、ことを特徴とする請求項1又は2に記載の文書解析プログラムである。
【0009】
請求項4に記載の発明は、前記グラフ比較表示手順では、前記選択された前記複数のグラフデータのうちの一のグラフデータについて、前記ノードデータに基づいて前記文字列情報を含むノードの表示と、前記リンクデータに基づいてノード間をつなぐ矢印の表示とを行う、ことを特徴とする請求項1〜3のいずれか一項に記載の文書解析プログラムである。
【0010】
請求項5に記載の発明は、前記グラフ比較表示手順では、前記一のグラフデータの前記ノードに含まれる前記文字列情報と、前記複数のグラフデータのうち他のグラフデータにおける文字列情報とが、一致する文字列情報に係る前記ノード又は前記文字列情報を強調して表示する、ことを特徴とする請求項4に記載の文書解析プログラムである。
【0011】
請求項6に記載の発明は、前記グラフ比較表示手順では、前記一のグラフデータと、前記複数のグラフデータのうち他のグラフデータとに共に出現する同一の文字列情報に係る前記語の出現頻度において、前記他のグラフデータにおける前記出現頻度の比率が高い旨又は前記出現頻度の比率が低い旨を示すよう強調して表示を行う、ことを特徴とする請求項4又は5に記載の文書解析プログラムである。
【0012】
請求項7に記載の発明は、前記グラフ比較表示手順では、前記一のグラフデータと、前記複数のグラフデータのうち他のグラフデータとに共に出現する同一の文字列情報に係る前記語の出現頻度において、前記一のグラフデータにおける前記出現頻度の順位が高い旨又は前記出現頻度の順位が低い旨を示すよう強調して表示を行う、ことを特徴とする請求項4〜6のいずれか一項に記載の文書解析プログラムである。
【0013】
請求項8に記載の発明は、前記グラフ比較表示手順では、一リンクデータに含まれる前記ノードデータを結びつける情報により組合わせられる前記文字列情報の組合わせについて、前記複数のグラフデータのうちの他のグラフデータの前記文字列情報の組合わせが、前記一のグラフデータの前記文字列情報の組合わせのいずれにおいても、前記文字列情報の組合わせの一方とのみしか一致しない場合には、前記文字列情報の組み合わせの他方の文字列情報に係るノード又は前記ノードの文字列情報を強調して表示する、ことを特徴とする請求項4〜7のいずれか一項に記載の文書解析プログラムである。
【0014】
請求項9に記載の発明は、前記グラフ比較表示手順では、前記一のグラフデータに含まれる異なる2つの文字列情報の組合わせと、前記他のグラフデータに含まれる前記文字列情報の組合わせと同一の文字列情報の組合わせのうち、前記文字列情報の組合わせの一方のみが前記リンクデータに含まれる前記ノードデータを結びつける情報により組合わせられる前記文字列情報の組合わせである場合、又は前記文字列情報の組合わせの両方が前記リンクデータに含まれる前記ノードデータを結びつける情報により組合わせられる前記文字列情報の組合わせであるが、組合わせの順番が互いに異なっている場合には、前記矢印を強調して表示する、ことを特徴とする請求項4〜8のいずれか一項に記載の文書解析プログラムである。
【0015】
請求項10に記載の発明は、前記比較された結果の表示は、前記一のグラフデータの上に、前記複数のグラフデータのうちの他のグラフデータを重ね合わせて表示することにより行う、ことを特徴とする請求項4〜9のいずれか一項に記載の文書解析プログラムである。
【0016】
請求項11に記載の発明は、前記重ね合わせた表示を行う際には、前記ノード及び前記矢印を出現、消失、変色及び拡縮のいずれかによる動的な表示を行う、ことを特徴とする請求項10に記載の文書解析プログラムである。
【0017】
請求項12に記載の発明は、前記複数のグラフデータのうちの前記一のグラフデータは、比較される他のグラフデータを含んでいる、ことを特徴とする請求項4〜11のいずれか一項に記載の文書解析プログラムである。
【0018】
請求項13に記載の発明は、前記強調のための表示は、色、線の太さ及び線の種類のいずれかを変える、又は、影、半透明、太字により表示することにより行う、ことを特徴とする請求項5〜12のいずれか一項に記載の文書解析プログラムである。
【0019】
請求項14に記載の発明は、文書に出現する語の文字列情報及び前記語についての出現頻度情報を有するノードデータ、並びに複数の前記ノードデータを結びつける情報であるリンクデータをそれぞれ複数含むグラフデータから、複数の前記グラフデータを選択するグラフ選択部と、前記選択された前記複数のグラフデータを比較して表示させる比較表示制御部と、を備える文書解析システムである。
【0020】
請求項15に記載の発明は、前記複数の文書が入力される文書入力部と、前記文書入力部により入力された前記複数の文書に含まれる各語のうち、出現頻度の高い語である複数の第1語を抽出し、前記第1語のうちのひとつである第1特定語が含まれる文書の部分集合において、出現頻度の高い語である複数の第2語を抽出する語抽出部と、前記部分集合の第1特定語と第2語とを結びつける情報を、前記グラフデータ記憶部に保存するグラフデータ保存部と、を更に備えることを特徴とする請求項14に記載の文書解析システムである。
【発明の効果】
【0021】
請求項1及び14に記載の発明によれば、異なる文書の集合を対象にした異なる複数のグラフデータについて比較表示することができる。
【0022】
請求項2及び15に記載の発明によれば、複数の文書の入力から、グラフの比較表示までを一連の処理により実現することができる。
【0023】
請求項3に記載の発明によれば、必要に応じた比較項目について比較表示することができる。
【0024】
請求項4に記載の発明によれば、一方のグラフデータについてのノードと矢印の表示に基づいて、比較表示することができる。
【0025】
請求項5に記載の発明によれば、複数のグラフデータ間において、一致する文字列情報を有するノードについて比較表示することができる。
【0026】
請求項6に記載の発明によれば、一のグラフデータと、他のグラフデータとに共に出現する同一の語の出現頻度の比率の違いについて比較表示することができる。
【0027】
請求項7に記載の発明によれば、一のグラフデータと、他のグラフデータとに共に出現する同一の語の出現頻度の順位の違いについて比較表示することができる。
【0028】
請求項8に記載の発明によれば、複数のグラフデータ間において、共起する相手の語が異なる語について比較表示することができる。
【0029】
請求項9に記載の発明によれば、複数のグラフデータ間において、共起する相手の語との関係が異なることについて比較表示することができる。
【0030】
請求項10、11及び13に記載の発明によれば、違いをより視覚的に際立たせて表示することができる。
【0031】
請求項12に記載の発明によれば、一のグラフデータと、それに含まれる一部の集合としてのグラフデータについて、視覚的に表示することができる。
【図面の簡単な説明】
【0032】
【図1】本発明の一実施形態に係る文書解析システムを示す図である。
【図2】図1の文書解析システムの機能ブロックを示す図である。
【図3】グラフデータ作成処理を示すフローチャートである。
【図4】語出現データのデータ構成を示す図である。
【図5】ノードデータのデータ構成を示す図である。
【図6】リンクデータのデータ構成を示す図である。
【図7】グラフデータ比較表示処理を示すフローチャートである。
【図8】グラフデータ選択画面の一部を示す図である。
【図9】比較項目選択画面の一部を示す図である。
【図10】単独のグラフデータPのグラフである。
【図11】グラフデータP及びQの同一語について強調表示されたグラフである。
【図12】グラフデータP及びQの出現頻度の比率差について強調表示されたグラフである。
【図13】グラフデータP及びQの出現頻度の順位について強調表示されたグラフである。
【図14】グラフデータP及びQの共起相手の差について強調表示されたグラフである。
【図15】グラフデータP及びQの共起相手の関係について強調表示されたグラフである。
【図16】グラフデータPをすべてのグラフデータの集合として場合にグラフデータQについて強調表示されたグラフである。
【発明を実施するための形態】
【0033】
図1には、本発明の一実施形態に係る文書解析システム100が示されている。文書解析システム100は、CPU(中央処理装置)、RAM(Random Access Memory)、及び磁気ディスク装置等からなるコンピュータ本体200と、コンピュータ本体200の指令により画面表示を行う表示装置102と、コンピュータ本体200へ情報を入力するための入力装置104とを備えている。ここで、表示装置102は、液晶表示装置、CRT(Cathode Ray Tube)その他の表示装置のいずれであってもよく、入力装置104には、キー入力装置、マウス等のポインティングデバイス、及びスキャナ等の画像入力装置が含まれる。
【0034】
図2には、文書解析システム100の機能ブロック図が示されている。ここでコンピュータ本体200は、内部の磁気ディスク装置に記憶されたプログラムが実行されることにより機能し、図2の202〜210の各機能ブロックはプログラムにより実現されている。図2に示されるように、コンピュータ本体200は、入力装置から入力される文書のデータを受けつける文書入力部206と、文書入力部206において入力された文書を解析し、文書に含まれる語とその出現頻度とを共に抽出する語抽出部210と、語抽出部210により抽出された語について、後述するノードデータ254及びリンクデータ256を作成し、グラフデータ記憶部212に保存するグラフデータ作成保存部218と、比較するためのグラフデータと比較項目を選択させるための画面を表示装置102に表示させ、入力装置104からの入力により選択されたグラフデータをグラフデータ記憶部212から取得するグラフ選択部202と、グラフ選択部202により選択されたグラフデータと比較項目の内容を取得し、表示装置102に比較して表示させる比較表示制御部204とを備えている。
【0035】
図3には、グラフデータ作成処理のフローチャートが示されている。グラフデータ作成処理では、まず、ステップS101の文書入力処理において、文書の入力を行う。文書の入力は、入力装置104を介して、文書入力部206にテキスト情報が入力されることにより行われるが、入力装置104としてのキー入力装置、スキャナ等以外にネットワークに接続されたコンピュータ装置等から文書が入力されてもよい。本実施形態では、入力される文書として、携帯電話に関するアンケート結果が入力されるものとしている。
【0036】
次に、ステップS102の語抽出処理において、語抽出部210が語の抽出を行う。この語抽出処理では、図4に示されるデータ構成の語出現データ252が作成される。語出現データ252は、図4に示されるように、文書に割り当てられたメッセージ番号と、語の識別子である語IDと、例えばメッセージ作成者の年齢、性別、地域等のメッセージの属性が記録される属性1、属性2及び属性3とから構成される。
【0037】
ステップS103のグラフデータ作成保存処理では、グラフデータ作成保存部218が、対象となる複数の文書の集合(「全体集合」という。)における語出現データ252から、高い出現頻度の語を特定し、更に、特定された高い出現頻度の語を含む文書の集合(「部分集合」という。)を対象として、他の高い出現頻度の語、すなわち高い頻度で共起する語を特定することを繰り返し、その特定されたそれぞれの語について、図5に示されるようなノードデータ254を作成する。ノードデータ254は、図5のデータ構成に示されるように、ノードID、語ID、語及び要素数から構成される。
【0038】
また、図6のリンクデータ256のデータ構成に示されるように、グラフデータ作成保存部218は、更に、特定された高い出現頻度の語のノードIDをソースノードIDとし、その特定された高い出現頻度の語を含む部分集合における特定された他の高い出現頻度の語、すなわち共起相手の語のノードIDをターゲットノードIDとする組合わせにリンクIDを付したリンクデータ256を作成する。作成されたノードデータ254及びリンクデータ256はグラフデータとして、グラフデータ作成保存部218により、グラフデータ記憶部212に保存される。
【0039】
次に、グラフデータ比較表示処理S200について説明する。図7には、グラフデータ比較表示処理S200のフローチャートが示されている。グラフデータ比較表示処理S200は、選択処理(ステップS210)と、比較表示処理(ステップS220)とを有しおり、ステップS210の選択処理は更に、ステップS212のグラフ選択処理と、ステップS214の比較項目選択処理とを有している。
【0040】
まず、ステップS212の選択処理では、グラフ選択部202が、表示装置102に、比較する複数のグラフデータを、利用者に選択させる画面を表示させる。図8には、その選択画面の一部が示されている。利用者によりグラフデータが選択されると、グラフデータ記憶部212から選択された複数のグラフデータを取得する。本実施形態においてはグラフデータP及びグラフデータQの2つが選択されたものとしているが、比較表示の対象は、3つ以上であってもよい。ここで、グラフデータP及びグラフデータQは、それぞれ異なる地域で実施された携帯電話に関するアンケート結果の集合である。
【0041】
次に、ステップS214の比較項目選択処理では、グラフ選択部202は、利用者に、比較されるグラフデータにおいて強調表示される比較項目を選択させるために、比較項目の種類を表示装置102に表示させる。図9には、その選択画面の一部が示されている。比較項目の種類には、同一語、同一語の出現頻度の比率差、同一語の出現頻度の順位、共起相手の差、共起関係の差等が上げられる。ここでは、「共起の組合せ」が選択されている。引き続き、ステップS220の比較表示処理において、ステップS210の選択処理で選択されたグラフデータ及び比較項目に基づき、比較結果が表示される。
【0042】
図10には、グラフデータPのグラフが単独で表示された場合について示されている。このグラフでは、グラフデータPの全体集合Aに含まれる文書において、出現頻度が高い語である語「電話」、「携帯電話」、「PHS」、「必要」及び「メール」が示され、このうち語「携帯電話」が含まれる文書の部分集合において出現頻度が高い語である語「便利」、「マナー」及び「電話」が示されている。
【0043】
図11には、グラフデータPのグラフを表示しつつ、グラフデータQとの差分を強調する比較表示のうち、比較項目として選択された「同一語」について強調表示される場合について示されている。この図に示されるように、グラフデータPのノードに含まれる語のうち、グラフデータQのノードに含まれる語と同一の語である語「電話」、「携帯電話」、「PHS」及び「便利」が、ノードの枠を示す線を太くすることにより強調表示されている。
【0044】
図12は、同一語の出現頻度の比率差が異なる場合について強調した比較表示について示している。太線で枠が描かれているノードの語は、グラフデータQにおける出現頻度の比率がグラフデータPにおける出現頻度の比率よりも高く、点線で枠が描かれているノードの語は、グラフデータQにおける出現頻度の比率がグラフデータPにおける出現頻度の比率よりも低い、ことを意味している。つまり、語「電話」は、グラフデータQの方が、グラフデータPより出現頻度が高く、語「携帯電話」、「便利」及び「PHS」は、グラフデータQの方が、グラフデータPより出現頻度が低い。
【0045】
図13は、同一語の出現頻度の順位が異なる場合について強調した比較表示について示している。図12のグラフでは、グラフデータQにおいて語「PHS」の方が語「電話」より出現頻度の順位が高いが、グラフデータPにおいてはその逆である場合について、語「PHS」と語「電話」のノードに影をつけ、その影の色を変えることにより示している。例えば、グラフデータPでは、出現頻度第3位が語「電話」で第5位が語「PHS」である場合に、グラフデータQでは、語「電話」が出現頻度第5位であり、語「PHS」が第3位である場合である。
【0046】
図14は、共起相手に差がある場合について示している。図13のグラフでは、グラフデータQには、語「携帯電話」の共起相手としての語「料金」が存在するが、データPには存在しない場合を、矢印とノードの枠を共に点線にすることにより示している。
【0047】
図15は、共起の組合わせが同じ語について、矢印の方向すなわちソースノードとターゲットノードの関係が異なる場合について示している。このグラフでは、グラフデータPには語「携帯電話」から語「便利」の矢印のみが存在するが、グラフデータQには、語「携帯電話」から語「便利」の矢印だけでなく、語「便利」から語「携帯電話」の矢印も存在する場合について、語「便利」から語「携帯電話」の矢印の先を大きく強調して示している。この他、一方のグラフデータの矢印がない場合や矢印の方向が逆である場合についても強調表示を行うことができる。
【0048】
図16は、すべてのグラフデータの集合を比較対象とした場合について示している。図には、グラフデータQ〜Uを含むすべてのグラフデータV(集合G)のノードが示され、このすべてのグラフデータと比較されるグラフデータQのノード及び矢印が太線で示されると共に、ノード内の字体を他のノード内の字体と変化させている。
【0049】
上述の実施形態においては、図面の制約等により強調表示は太線、点線、影及び太字に限られるが、画面表示においては、色彩の変更、半透明表示することによる強調表示、並びに、ノードや矢印の出現、消失、変色及び拡縮等の動的変化を利用した強調表示をすることができる。また、比較表示を行うかどうかのボタンを画面上に設置し、比較表示を行う指令を発した際に強調表示を行うこととすることにより、比較表示の有無による違いを認識し易くしてもよい。
【0050】
また、上述の実施形態においては、携帯電話のアンケート結果の文章を例としたが、解析の対象はこれに限られず、他の文章の集合であってもよいし、既にグラフ表示可能となっている語についてのデータであってもよい。
【0051】
上述の実施形態においては、一つの装置により構成されるシステムとしたが、各構成部がネットワークを介した装置に保存され、一つのシステムを構成していることとしてもよい。
【0052】
なお、上述の実施形態においては、プログラムは磁気ディスク装置に記憶されていることとしたが、CD−ROM等その他の記憶媒体に格納して提供することも可能である。
【符号の説明】
【0053】
100 文書解析システム、102 表示装置、104 入力装置、200 コンピュータ本体、202 グラフ選択部、204 比較表示制御部、206 文書入力部、210 語抽出部、212 グラフデータ記憶部、218 グラフデータ作成保存部、252 語出現データ、254 ノードデータ、256 リンクデータ。
【技術分野】
【0001】
本発明は、文書解析プログラム及び文書解析システムに関する。
【背景技術】
【0002】
アンケートや苦情文書に含まれる自由形式で記載される文書には、多くの有用な情報が含まれていることから、文書を解析して、製品開発にフィードバックすることが望ましい。しかしながら、その量の多さから、人手によりその解析を行うことは時間的にも費用的にも困難であり、コンピュータによる解析を行うことが試みられている。
【0003】
特許文献1は、複数の文書における単語の共起頻度から、意味ネットワークを作成することについて開示している。特許文献2は、文書からグラフを作成し、各グラフのノードに重要度、リンクに関連度が振られ、これらをグラフ間で比較することについて開示している。特許文献3は、複数の文書における単語の出現頻度に基づいてグラフを作成すると共に、部分集合を作成することについて開示している。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2001−243223号公報
【特許文献2】特開2003−330966号公報
【特許文献3】特開2009−128949号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は、異なる文書の集合を対象にした異なるグラフ間において、比較する手段を提供することを目的とする。
【課題を解決するための手段】
【0006】
請求項1に記載の発明は、文書に出現する語の文字列情報及び前記語についての出現頻度情報を有するノードデータ、並びに複数の前記ノードデータを結びつける情報を有するリンクデータをそれぞれ複数含むグラフデータを複数選択するグラフデータ選択手順と、前記選択された前記複数のグラフデータを比較表示するグラフ比較表示手順と、を処理装置に実行させるための文書解析プログラムである。
【0007】
請求項2に記載の発明は、前記複数の文書が入力される文書入力手順と、前記文書入力手順において入力された前記複数の文書に含まれる各語のうち、出現頻度の高い語である複数の第1語を抽出し、前記第1語のうちのひとつである第1特定語が含まれる文書の部分集合において、出現頻度の高い語である複数の第2語を抽出する語抽出手順と、前記部分集合の第1特定語と第2語とを結びつける情報を有するリンクデータを保存するグラフデータ保存手順と、を更に備えることを特徴とする請求項1に記載の文書解析プログラムである。
【0008】
請求項3に記載の発明は、前記グラフデータ選択手順では、前記比較において使用する比較項目を更に選択し、前記グラフ比較表示手順では、前記選択された前記比較項目に基づいて前記比較表示を行う、ことを特徴とする請求項1又は2に記載の文書解析プログラムである。
【0009】
請求項4に記載の発明は、前記グラフ比較表示手順では、前記選択された前記複数のグラフデータのうちの一のグラフデータについて、前記ノードデータに基づいて前記文字列情報を含むノードの表示と、前記リンクデータに基づいてノード間をつなぐ矢印の表示とを行う、ことを特徴とする請求項1〜3のいずれか一項に記載の文書解析プログラムである。
【0010】
請求項5に記載の発明は、前記グラフ比較表示手順では、前記一のグラフデータの前記ノードに含まれる前記文字列情報と、前記複数のグラフデータのうち他のグラフデータにおける文字列情報とが、一致する文字列情報に係る前記ノード又は前記文字列情報を強調して表示する、ことを特徴とする請求項4に記載の文書解析プログラムである。
【0011】
請求項6に記載の発明は、前記グラフ比較表示手順では、前記一のグラフデータと、前記複数のグラフデータのうち他のグラフデータとに共に出現する同一の文字列情報に係る前記語の出現頻度において、前記他のグラフデータにおける前記出現頻度の比率が高い旨又は前記出現頻度の比率が低い旨を示すよう強調して表示を行う、ことを特徴とする請求項4又は5に記載の文書解析プログラムである。
【0012】
請求項7に記載の発明は、前記グラフ比較表示手順では、前記一のグラフデータと、前記複数のグラフデータのうち他のグラフデータとに共に出現する同一の文字列情報に係る前記語の出現頻度において、前記一のグラフデータにおける前記出現頻度の順位が高い旨又は前記出現頻度の順位が低い旨を示すよう強調して表示を行う、ことを特徴とする請求項4〜6のいずれか一項に記載の文書解析プログラムである。
【0013】
請求項8に記載の発明は、前記グラフ比較表示手順では、一リンクデータに含まれる前記ノードデータを結びつける情報により組合わせられる前記文字列情報の組合わせについて、前記複数のグラフデータのうちの他のグラフデータの前記文字列情報の組合わせが、前記一のグラフデータの前記文字列情報の組合わせのいずれにおいても、前記文字列情報の組合わせの一方とのみしか一致しない場合には、前記文字列情報の組み合わせの他方の文字列情報に係るノード又は前記ノードの文字列情報を強調して表示する、ことを特徴とする請求項4〜7のいずれか一項に記載の文書解析プログラムである。
【0014】
請求項9に記載の発明は、前記グラフ比較表示手順では、前記一のグラフデータに含まれる異なる2つの文字列情報の組合わせと、前記他のグラフデータに含まれる前記文字列情報の組合わせと同一の文字列情報の組合わせのうち、前記文字列情報の組合わせの一方のみが前記リンクデータに含まれる前記ノードデータを結びつける情報により組合わせられる前記文字列情報の組合わせである場合、又は前記文字列情報の組合わせの両方が前記リンクデータに含まれる前記ノードデータを結びつける情報により組合わせられる前記文字列情報の組合わせであるが、組合わせの順番が互いに異なっている場合には、前記矢印を強調して表示する、ことを特徴とする請求項4〜8のいずれか一項に記載の文書解析プログラムである。
【0015】
請求項10に記載の発明は、前記比較された結果の表示は、前記一のグラフデータの上に、前記複数のグラフデータのうちの他のグラフデータを重ね合わせて表示することにより行う、ことを特徴とする請求項4〜9のいずれか一項に記載の文書解析プログラムである。
【0016】
請求項11に記載の発明は、前記重ね合わせた表示を行う際には、前記ノード及び前記矢印を出現、消失、変色及び拡縮のいずれかによる動的な表示を行う、ことを特徴とする請求項10に記載の文書解析プログラムである。
【0017】
請求項12に記載の発明は、前記複数のグラフデータのうちの前記一のグラフデータは、比較される他のグラフデータを含んでいる、ことを特徴とする請求項4〜11のいずれか一項に記載の文書解析プログラムである。
【0018】
請求項13に記載の発明は、前記強調のための表示は、色、線の太さ及び線の種類のいずれかを変える、又は、影、半透明、太字により表示することにより行う、ことを特徴とする請求項5〜12のいずれか一項に記載の文書解析プログラムである。
【0019】
請求項14に記載の発明は、文書に出現する語の文字列情報及び前記語についての出現頻度情報を有するノードデータ、並びに複数の前記ノードデータを結びつける情報であるリンクデータをそれぞれ複数含むグラフデータから、複数の前記グラフデータを選択するグラフ選択部と、前記選択された前記複数のグラフデータを比較して表示させる比較表示制御部と、を備える文書解析システムである。
【0020】
請求項15に記載の発明は、前記複数の文書が入力される文書入力部と、前記文書入力部により入力された前記複数の文書に含まれる各語のうち、出現頻度の高い語である複数の第1語を抽出し、前記第1語のうちのひとつである第1特定語が含まれる文書の部分集合において、出現頻度の高い語である複数の第2語を抽出する語抽出部と、前記部分集合の第1特定語と第2語とを結びつける情報を、前記グラフデータ記憶部に保存するグラフデータ保存部と、を更に備えることを特徴とする請求項14に記載の文書解析システムである。
【発明の効果】
【0021】
請求項1及び14に記載の発明によれば、異なる文書の集合を対象にした異なる複数のグラフデータについて比較表示することができる。
【0022】
請求項2及び15に記載の発明によれば、複数の文書の入力から、グラフの比較表示までを一連の処理により実現することができる。
【0023】
請求項3に記載の発明によれば、必要に応じた比較項目について比較表示することができる。
【0024】
請求項4に記載の発明によれば、一方のグラフデータについてのノードと矢印の表示に基づいて、比較表示することができる。
【0025】
請求項5に記載の発明によれば、複数のグラフデータ間において、一致する文字列情報を有するノードについて比較表示することができる。
【0026】
請求項6に記載の発明によれば、一のグラフデータと、他のグラフデータとに共に出現する同一の語の出現頻度の比率の違いについて比較表示することができる。
【0027】
請求項7に記載の発明によれば、一のグラフデータと、他のグラフデータとに共に出現する同一の語の出現頻度の順位の違いについて比較表示することができる。
【0028】
請求項8に記載の発明によれば、複数のグラフデータ間において、共起する相手の語が異なる語について比較表示することができる。
【0029】
請求項9に記載の発明によれば、複数のグラフデータ間において、共起する相手の語との関係が異なることについて比較表示することができる。
【0030】
請求項10、11及び13に記載の発明によれば、違いをより視覚的に際立たせて表示することができる。
【0031】
請求項12に記載の発明によれば、一のグラフデータと、それに含まれる一部の集合としてのグラフデータについて、視覚的に表示することができる。
【図面の簡単な説明】
【0032】
【図1】本発明の一実施形態に係る文書解析システムを示す図である。
【図2】図1の文書解析システムの機能ブロックを示す図である。
【図3】グラフデータ作成処理を示すフローチャートである。
【図4】語出現データのデータ構成を示す図である。
【図5】ノードデータのデータ構成を示す図である。
【図6】リンクデータのデータ構成を示す図である。
【図7】グラフデータ比較表示処理を示すフローチャートである。
【図8】グラフデータ選択画面の一部を示す図である。
【図9】比較項目選択画面の一部を示す図である。
【図10】単独のグラフデータPのグラフである。
【図11】グラフデータP及びQの同一語について強調表示されたグラフである。
【図12】グラフデータP及びQの出現頻度の比率差について強調表示されたグラフである。
【図13】グラフデータP及びQの出現頻度の順位について強調表示されたグラフである。
【図14】グラフデータP及びQの共起相手の差について強調表示されたグラフである。
【図15】グラフデータP及びQの共起相手の関係について強調表示されたグラフである。
【図16】グラフデータPをすべてのグラフデータの集合として場合にグラフデータQについて強調表示されたグラフである。
【発明を実施するための形態】
【0033】
図1には、本発明の一実施形態に係る文書解析システム100が示されている。文書解析システム100は、CPU(中央処理装置)、RAM(Random Access Memory)、及び磁気ディスク装置等からなるコンピュータ本体200と、コンピュータ本体200の指令により画面表示を行う表示装置102と、コンピュータ本体200へ情報を入力するための入力装置104とを備えている。ここで、表示装置102は、液晶表示装置、CRT(Cathode Ray Tube)その他の表示装置のいずれであってもよく、入力装置104には、キー入力装置、マウス等のポインティングデバイス、及びスキャナ等の画像入力装置が含まれる。
【0034】
図2には、文書解析システム100の機能ブロック図が示されている。ここでコンピュータ本体200は、内部の磁気ディスク装置に記憶されたプログラムが実行されることにより機能し、図2の202〜210の各機能ブロックはプログラムにより実現されている。図2に示されるように、コンピュータ本体200は、入力装置から入力される文書のデータを受けつける文書入力部206と、文書入力部206において入力された文書を解析し、文書に含まれる語とその出現頻度とを共に抽出する語抽出部210と、語抽出部210により抽出された語について、後述するノードデータ254及びリンクデータ256を作成し、グラフデータ記憶部212に保存するグラフデータ作成保存部218と、比較するためのグラフデータと比較項目を選択させるための画面を表示装置102に表示させ、入力装置104からの入力により選択されたグラフデータをグラフデータ記憶部212から取得するグラフ選択部202と、グラフ選択部202により選択されたグラフデータと比較項目の内容を取得し、表示装置102に比較して表示させる比較表示制御部204とを備えている。
【0035】
図3には、グラフデータ作成処理のフローチャートが示されている。グラフデータ作成処理では、まず、ステップS101の文書入力処理において、文書の入力を行う。文書の入力は、入力装置104を介して、文書入力部206にテキスト情報が入力されることにより行われるが、入力装置104としてのキー入力装置、スキャナ等以外にネットワークに接続されたコンピュータ装置等から文書が入力されてもよい。本実施形態では、入力される文書として、携帯電話に関するアンケート結果が入力されるものとしている。
【0036】
次に、ステップS102の語抽出処理において、語抽出部210が語の抽出を行う。この語抽出処理では、図4に示されるデータ構成の語出現データ252が作成される。語出現データ252は、図4に示されるように、文書に割り当てられたメッセージ番号と、語の識別子である語IDと、例えばメッセージ作成者の年齢、性別、地域等のメッセージの属性が記録される属性1、属性2及び属性3とから構成される。
【0037】
ステップS103のグラフデータ作成保存処理では、グラフデータ作成保存部218が、対象となる複数の文書の集合(「全体集合」という。)における語出現データ252から、高い出現頻度の語を特定し、更に、特定された高い出現頻度の語を含む文書の集合(「部分集合」という。)を対象として、他の高い出現頻度の語、すなわち高い頻度で共起する語を特定することを繰り返し、その特定されたそれぞれの語について、図5に示されるようなノードデータ254を作成する。ノードデータ254は、図5のデータ構成に示されるように、ノードID、語ID、語及び要素数から構成される。
【0038】
また、図6のリンクデータ256のデータ構成に示されるように、グラフデータ作成保存部218は、更に、特定された高い出現頻度の語のノードIDをソースノードIDとし、その特定された高い出現頻度の語を含む部分集合における特定された他の高い出現頻度の語、すなわち共起相手の語のノードIDをターゲットノードIDとする組合わせにリンクIDを付したリンクデータ256を作成する。作成されたノードデータ254及びリンクデータ256はグラフデータとして、グラフデータ作成保存部218により、グラフデータ記憶部212に保存される。
【0039】
次に、グラフデータ比較表示処理S200について説明する。図7には、グラフデータ比較表示処理S200のフローチャートが示されている。グラフデータ比較表示処理S200は、選択処理(ステップS210)と、比較表示処理(ステップS220)とを有しおり、ステップS210の選択処理は更に、ステップS212のグラフ選択処理と、ステップS214の比較項目選択処理とを有している。
【0040】
まず、ステップS212の選択処理では、グラフ選択部202が、表示装置102に、比較する複数のグラフデータを、利用者に選択させる画面を表示させる。図8には、その選択画面の一部が示されている。利用者によりグラフデータが選択されると、グラフデータ記憶部212から選択された複数のグラフデータを取得する。本実施形態においてはグラフデータP及びグラフデータQの2つが選択されたものとしているが、比較表示の対象は、3つ以上であってもよい。ここで、グラフデータP及びグラフデータQは、それぞれ異なる地域で実施された携帯電話に関するアンケート結果の集合である。
【0041】
次に、ステップS214の比較項目選択処理では、グラフ選択部202は、利用者に、比較されるグラフデータにおいて強調表示される比較項目を選択させるために、比較項目の種類を表示装置102に表示させる。図9には、その選択画面の一部が示されている。比較項目の種類には、同一語、同一語の出現頻度の比率差、同一語の出現頻度の順位、共起相手の差、共起関係の差等が上げられる。ここでは、「共起の組合せ」が選択されている。引き続き、ステップS220の比較表示処理において、ステップS210の選択処理で選択されたグラフデータ及び比較項目に基づき、比較結果が表示される。
【0042】
図10には、グラフデータPのグラフが単独で表示された場合について示されている。このグラフでは、グラフデータPの全体集合Aに含まれる文書において、出現頻度が高い語である語「電話」、「携帯電話」、「PHS」、「必要」及び「メール」が示され、このうち語「携帯電話」が含まれる文書の部分集合において出現頻度が高い語である語「便利」、「マナー」及び「電話」が示されている。
【0043】
図11には、グラフデータPのグラフを表示しつつ、グラフデータQとの差分を強調する比較表示のうち、比較項目として選択された「同一語」について強調表示される場合について示されている。この図に示されるように、グラフデータPのノードに含まれる語のうち、グラフデータQのノードに含まれる語と同一の語である語「電話」、「携帯電話」、「PHS」及び「便利」が、ノードの枠を示す線を太くすることにより強調表示されている。
【0044】
図12は、同一語の出現頻度の比率差が異なる場合について強調した比較表示について示している。太線で枠が描かれているノードの語は、グラフデータQにおける出現頻度の比率がグラフデータPにおける出現頻度の比率よりも高く、点線で枠が描かれているノードの語は、グラフデータQにおける出現頻度の比率がグラフデータPにおける出現頻度の比率よりも低い、ことを意味している。つまり、語「電話」は、グラフデータQの方が、グラフデータPより出現頻度が高く、語「携帯電話」、「便利」及び「PHS」は、グラフデータQの方が、グラフデータPより出現頻度が低い。
【0045】
図13は、同一語の出現頻度の順位が異なる場合について強調した比較表示について示している。図12のグラフでは、グラフデータQにおいて語「PHS」の方が語「電話」より出現頻度の順位が高いが、グラフデータPにおいてはその逆である場合について、語「PHS」と語「電話」のノードに影をつけ、その影の色を変えることにより示している。例えば、グラフデータPでは、出現頻度第3位が語「電話」で第5位が語「PHS」である場合に、グラフデータQでは、語「電話」が出現頻度第5位であり、語「PHS」が第3位である場合である。
【0046】
図14は、共起相手に差がある場合について示している。図13のグラフでは、グラフデータQには、語「携帯電話」の共起相手としての語「料金」が存在するが、データPには存在しない場合を、矢印とノードの枠を共に点線にすることにより示している。
【0047】
図15は、共起の組合わせが同じ語について、矢印の方向すなわちソースノードとターゲットノードの関係が異なる場合について示している。このグラフでは、グラフデータPには語「携帯電話」から語「便利」の矢印のみが存在するが、グラフデータQには、語「携帯電話」から語「便利」の矢印だけでなく、語「便利」から語「携帯電話」の矢印も存在する場合について、語「便利」から語「携帯電話」の矢印の先を大きく強調して示している。この他、一方のグラフデータの矢印がない場合や矢印の方向が逆である場合についても強調表示を行うことができる。
【0048】
図16は、すべてのグラフデータの集合を比較対象とした場合について示している。図には、グラフデータQ〜Uを含むすべてのグラフデータV(集合G)のノードが示され、このすべてのグラフデータと比較されるグラフデータQのノード及び矢印が太線で示されると共に、ノード内の字体を他のノード内の字体と変化させている。
【0049】
上述の実施形態においては、図面の制約等により強調表示は太線、点線、影及び太字に限られるが、画面表示においては、色彩の変更、半透明表示することによる強調表示、並びに、ノードや矢印の出現、消失、変色及び拡縮等の動的変化を利用した強調表示をすることができる。また、比較表示を行うかどうかのボタンを画面上に設置し、比較表示を行う指令を発した際に強調表示を行うこととすることにより、比較表示の有無による違いを認識し易くしてもよい。
【0050】
また、上述の実施形態においては、携帯電話のアンケート結果の文章を例としたが、解析の対象はこれに限られず、他の文章の集合であってもよいし、既にグラフ表示可能となっている語についてのデータであってもよい。
【0051】
上述の実施形態においては、一つの装置により構成されるシステムとしたが、各構成部がネットワークを介した装置に保存され、一つのシステムを構成していることとしてもよい。
【0052】
なお、上述の実施形態においては、プログラムは磁気ディスク装置に記憶されていることとしたが、CD−ROM等その他の記憶媒体に格納して提供することも可能である。
【符号の説明】
【0053】
100 文書解析システム、102 表示装置、104 入力装置、200 コンピュータ本体、202 グラフ選択部、204 比較表示制御部、206 文書入力部、210 語抽出部、212 グラフデータ記憶部、218 グラフデータ作成保存部、252 語出現データ、254 ノードデータ、256 リンクデータ。
【特許請求の範囲】
【請求項1】
文書に出現する語の文字列情報及び前記語についての出現頻度情報を有するノードデータ、並びに複数の前記ノードデータを結びつける情報を有するリンクデータをそれぞれ複数含むグラフデータを複数選択するグラフデータ選択手順と、
前記選択された前記複数のグラフデータを比較表示するグラフ比較表示手順と、を処理装置に実行させるための文書解析プログラム。
【請求項2】
前記複数の文書が入力される文書入力手順と、
前記文書入力手順において入力された前記複数の文書に含まれる各語のうち、出現頻度の高い語である複数の第1語を抽出し、前記第1語のうちのひとつである第1特定語が含まれる文書の部分集合において、出現頻度の高い語である複数の第2語を抽出する語抽出手順と、
前記部分集合の第1特定語と第2語とを結びつける情報を有するリンクデータを保存するグラフデータ保存手順と、
を更に備えることを特徴とする請求項1に記載の文書解析プログラム。
【請求項3】
前記グラフデータ選択手順では、前記比較において使用する比較項目を更に選択し、
前記グラフ比較表示手順では、前記選択された前記比較項目に基づいて前記比較表示を行う、ことを特徴とする請求項1又は2に記載の文書解析プログラム。
【請求項4】
前記グラフ比較表示手順では、前記選択された前記複数のグラフデータのうちの一のグラフデータについて、前記ノードデータに基づいて前記文字列情報を含むノードの表示と、前記リンクデータに基づいてノード間をつなぐ矢印の表示とを行う、ことを特徴とする請求項1〜3のいずれか一項に記載の文書解析プログラム。
【請求項5】
前記グラフ比較表示手順では、前記一のグラフデータの前記ノードに含まれる前記文字列情報と、前記複数のグラフデータのうち他のグラフデータにおける文字列情報とが、一致する文字列情報に係る前記ノード又は前記文字列情報を強調して表示する、ことを特徴とする請求項4に記載の文書解析プログラム。
【請求項6】
前記グラフ比較表示手順では、前記一のグラフデータと、前記複数のグラフデータのうち他のグラフデータとに共に出現する同一の文字列情報に係る前記語の出現頻度において、前記他のグラフデータにおける前記出現頻度の比率が高い旨又は前記出現頻度の比率が低い旨を示すよう強調して表示を行う、ことを特徴とする請求項4又は5に記載の文書解析プログラム。
【請求項7】
前記グラフ比較表示手順では、前記一のグラフデータと、前記複数のグラフデータのうち他のグラフデータとに共に出現する同一の文字列情報に係る前記語の出現頻度において、前記一のグラフデータにおける前記出現頻度の順位が高い旨又は前記出現頻度の順位が低い旨を示すよう強調して表示を行う、ことを特徴とする請求項4〜6のいずれか一項に記載の文書解析プログラム。
【請求項8】
前記グラフ比較表示手順では、一リンクデータに含まれる前記ノードデータを結びつける情報により組合わせられる前記文字列情報の組合わせについて、前記複数のグラフデータのうちの他のグラフデータの前記文字列情報の組合わせが、前記一のグラフデータの前記文字列情報の組合わせのいずれにおいても、前記文字列情報の組合わせの一方とのみしか一致しない場合には、前記文字列情報の組み合わせの他方の文字列情報に係るノード又は前記ノードの文字列情報を強調して表示する、ことを特徴とする請求項4〜7のいずれか一項に記載の文書解析プログラム。
【請求項9】
前記グラフ比較表示手順では、前記一のグラフデータに含まれる異なる2つの文字列情報の組合わせと、前記他のグラフデータに含まれる前記文字列情報の組合わせと同一の文字列情報の組合わせのうち、前記文字列情報の組合わせの一方のみが前記リンクデータに含まれる前記ノードデータを結びつける情報により組合わせられる前記文字列情報の組合わせである場合、又は前記文字列情報の組合わせの両方が前記リンクデータに含まれる前記ノードデータを結びつける情報により組合わせられる前記文字列情報の組合わせであるが、組合わせの順番が互いに異なっている場合には、前記矢印を強調して表示する、ことを特徴とする請求項4〜8のいずれか一項に記載の文書解析プログラム。
【請求項10】
前記比較された結果の表示は、前記一のグラフデータの上に、前記複数のグラフデータのうちの他のグラフデータを重ね合わせて表示することにより行う、ことを特徴とする請求項4〜9のいずれか一項に記載の文書解析プログラム。
【請求項11】
前記重ね合わせた表示を行う際には、前記ノード及び前記矢印を出現、消失、変色及び拡縮のいずれかによる動的な表示を行う、ことを特徴とする請求項10に記載の文書解析プログラム。
【請求項12】
前記複数のグラフデータのうちの前記一のグラフデータは、比較される他のグラフデータを含んでいる、ことを特徴とする請求項4〜11のいずれか一項に記載の文書解析プログラム。
【請求項13】
前記強調のための表示は、色、線の太さ及び線の種類のいずれかを変える、又は、影、半透明、太字により表示することにより行う、ことを特徴とする請求項5〜12のいずれか一項に記載の文書解析プログラム。
【請求項14】
文書に出現する語の文字列情報及び前記語についての出現頻度情報を有するノードデータ、並びに複数の前記ノードデータを結びつける情報であるリンクデータをそれぞれ複数含むグラフデータから、複数の前記グラフデータを選択するグラフ選択部と、
前記選択された前記複数のグラフデータを比較して表示させる比較表示制御部と、を備える文書解析システム。
【請求項15】
前記複数の文書が入力される文書入力部と、
前記文書入力部により入力された前記複数の文書に含まれる各語のうち、出現頻度の高い語である複数の第1語を抽出し、前記第1語のうちのひとつである第1特定語が含まれる文書の部分集合において、出現頻度の高い語である複数の第2語を抽出する語抽出部と、
前記部分集合の第1特定語と第2語とを結びつける情報を、前記グラフデータ記憶部に保存するグラフデータ保存部と、
を更に備えることを特徴とする請求項14に記載の文書解析システム。
【請求項1】
文書に出現する語の文字列情報及び前記語についての出現頻度情報を有するノードデータ、並びに複数の前記ノードデータを結びつける情報を有するリンクデータをそれぞれ複数含むグラフデータを複数選択するグラフデータ選択手順と、
前記選択された前記複数のグラフデータを比較表示するグラフ比較表示手順と、を処理装置に実行させるための文書解析プログラム。
【請求項2】
前記複数の文書が入力される文書入力手順と、
前記文書入力手順において入力された前記複数の文書に含まれる各語のうち、出現頻度の高い語である複数の第1語を抽出し、前記第1語のうちのひとつである第1特定語が含まれる文書の部分集合において、出現頻度の高い語である複数の第2語を抽出する語抽出手順と、
前記部分集合の第1特定語と第2語とを結びつける情報を有するリンクデータを保存するグラフデータ保存手順と、
を更に備えることを特徴とする請求項1に記載の文書解析プログラム。
【請求項3】
前記グラフデータ選択手順では、前記比較において使用する比較項目を更に選択し、
前記グラフ比較表示手順では、前記選択された前記比較項目に基づいて前記比較表示を行う、ことを特徴とする請求項1又は2に記載の文書解析プログラム。
【請求項4】
前記グラフ比較表示手順では、前記選択された前記複数のグラフデータのうちの一のグラフデータについて、前記ノードデータに基づいて前記文字列情報を含むノードの表示と、前記リンクデータに基づいてノード間をつなぐ矢印の表示とを行う、ことを特徴とする請求項1〜3のいずれか一項に記載の文書解析プログラム。
【請求項5】
前記グラフ比較表示手順では、前記一のグラフデータの前記ノードに含まれる前記文字列情報と、前記複数のグラフデータのうち他のグラフデータにおける文字列情報とが、一致する文字列情報に係る前記ノード又は前記文字列情報を強調して表示する、ことを特徴とする請求項4に記載の文書解析プログラム。
【請求項6】
前記グラフ比較表示手順では、前記一のグラフデータと、前記複数のグラフデータのうち他のグラフデータとに共に出現する同一の文字列情報に係る前記語の出現頻度において、前記他のグラフデータにおける前記出現頻度の比率が高い旨又は前記出現頻度の比率が低い旨を示すよう強調して表示を行う、ことを特徴とする請求項4又は5に記載の文書解析プログラム。
【請求項7】
前記グラフ比較表示手順では、前記一のグラフデータと、前記複数のグラフデータのうち他のグラフデータとに共に出現する同一の文字列情報に係る前記語の出現頻度において、前記一のグラフデータにおける前記出現頻度の順位が高い旨又は前記出現頻度の順位が低い旨を示すよう強調して表示を行う、ことを特徴とする請求項4〜6のいずれか一項に記載の文書解析プログラム。
【請求項8】
前記グラフ比較表示手順では、一リンクデータに含まれる前記ノードデータを結びつける情報により組合わせられる前記文字列情報の組合わせについて、前記複数のグラフデータのうちの他のグラフデータの前記文字列情報の組合わせが、前記一のグラフデータの前記文字列情報の組合わせのいずれにおいても、前記文字列情報の組合わせの一方とのみしか一致しない場合には、前記文字列情報の組み合わせの他方の文字列情報に係るノード又は前記ノードの文字列情報を強調して表示する、ことを特徴とする請求項4〜7のいずれか一項に記載の文書解析プログラム。
【請求項9】
前記グラフ比較表示手順では、前記一のグラフデータに含まれる異なる2つの文字列情報の組合わせと、前記他のグラフデータに含まれる前記文字列情報の組合わせと同一の文字列情報の組合わせのうち、前記文字列情報の組合わせの一方のみが前記リンクデータに含まれる前記ノードデータを結びつける情報により組合わせられる前記文字列情報の組合わせである場合、又は前記文字列情報の組合わせの両方が前記リンクデータに含まれる前記ノードデータを結びつける情報により組合わせられる前記文字列情報の組合わせであるが、組合わせの順番が互いに異なっている場合には、前記矢印を強調して表示する、ことを特徴とする請求項4〜8のいずれか一項に記載の文書解析プログラム。
【請求項10】
前記比較された結果の表示は、前記一のグラフデータの上に、前記複数のグラフデータのうちの他のグラフデータを重ね合わせて表示することにより行う、ことを特徴とする請求項4〜9のいずれか一項に記載の文書解析プログラム。
【請求項11】
前記重ね合わせた表示を行う際には、前記ノード及び前記矢印を出現、消失、変色及び拡縮のいずれかによる動的な表示を行う、ことを特徴とする請求項10に記載の文書解析プログラム。
【請求項12】
前記複数のグラフデータのうちの前記一のグラフデータは、比較される他のグラフデータを含んでいる、ことを特徴とする請求項4〜11のいずれか一項に記載の文書解析プログラム。
【請求項13】
前記強調のための表示は、色、線の太さ及び線の種類のいずれかを変える、又は、影、半透明、太字により表示することにより行う、ことを特徴とする請求項5〜12のいずれか一項に記載の文書解析プログラム。
【請求項14】
文書に出現する語の文字列情報及び前記語についての出現頻度情報を有するノードデータ、並びに複数の前記ノードデータを結びつける情報であるリンクデータをそれぞれ複数含むグラフデータから、複数の前記グラフデータを選択するグラフ選択部と、
前記選択された前記複数のグラフデータを比較して表示させる比較表示制御部と、を備える文書解析システム。
【請求項15】
前記複数の文書が入力される文書入力部と、
前記文書入力部により入力された前記複数の文書に含まれる各語のうち、出現頻度の高い語である複数の第1語を抽出し、前記第1語のうちのひとつである第1特定語が含まれる文書の部分集合において、出現頻度の高い語である複数の第2語を抽出する語抽出部と、
前記部分集合の第1特定語と第2語とを結びつける情報を、前記グラフデータ記憶部に保存するグラフデータ保存部と、
を更に備えることを特徴とする請求項14に記載の文書解析システム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【公開番号】特開2011−39938(P2011−39938A)
【公開日】平成23年2月24日(2011.2.24)
【国際特許分類】
【出願番号】特願2009−188648(P2009−188648)
【出願日】平成21年8月17日(2009.8.17)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】
【公開日】平成23年2月24日(2011.2.24)
【国際特許分類】
【出願日】平成21年8月17日(2009.8.17)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】
[ Back to top ]