グラフ生成装置及びグラフ生成プログラム
【課題】指定された語が含まれる文を抽出した集合に対して当該文に含まれる語同士の関係を指定された語を含んでグラフに示す場合に比べて、語同士の関係が煩雑に示されるのを抑制する、グラフ生成装置及びグラフ生成プログラムを提供する。
【解決手段】全データ記憶部44に、アンケートが記憶されており、検索語が設定されると、抽出部45が、全データ記憶部44に記憶されているアンケートのコメントの文から、検索語が含まれる文を検索し、検索語が含まれる文により構成される部分集合を抽出する。検索語を除外するように指示されると、検索語を除外して、グラフ生成部48で有向グラフを生成して、表示部50に表示する。さらに絞り込み検索を行う場合は、同様に、先に設定された検索語及び今回設定された検索語の両語を除外して、グラフ生成部48で有向グラフを生成して、表示部50に表示する。
【解決手段】全データ記憶部44に、アンケートが記憶されており、検索語が設定されると、抽出部45が、全データ記憶部44に記憶されているアンケートのコメントの文から、検索語が含まれる文を検索し、検索語が含まれる文により構成される部分集合を抽出する。検索語を除外するように指示されると、検索語を除外して、グラフ生成部48で有向グラフを生成して、表示部50に表示する。さらに絞り込み検索を行う場合は、同様に、先に設定された検索語及び今回設定された検索語の両語を除外して、グラフ生成部48で有向グラフを生成して、表示部50に表示する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、グラフ生成装置及びグラフ生成プログラムに関する。
【背景技術】
【0002】
特許文献1には、設定されたキーワードに応じて検索対象文書群から前記キーワードを持つ文書を検索結果文書として検出すること、ある単語が前記検索結果文書群中のいくつの文書に表れるかを意味する単語の文書頻度を検出すること、前記単語が検索対象文書群全体においていくつの文書に出現するかを意味する単語の全体文書頻度を検出すること、前記単語の文書頻度と単語の全体文書頻度との比を意味する頻度比を導出すること、前記文書頻度を所定の関係で頻度クラスに区分分けして各単語の文書頻度に応じて各単語を頻度クラスに対応させること、各頻度クラスから適当数の単語を単語の頻度比の大きさ順位特徴語として抽出すること、抽出された特徴語をグラフ形式またはリスト形式で表示することとよちなることを特徴とする文献検索支援方法が記載されている。
【0003】
特許文献2には、複数の文単位を含んでなる解析対象の文単位集合において出現する語をグラフ表示するグラフ表示装置において、文単位に対応づけて当該文単位に出現する語を記憶する記憶手段と、文単位集合中の文単位に出現する語について当該文単位集合における頻度を記憶手段を参照して計算する頻度計算手段と、上記頻度計算手段が計算した頻度を参照して、上記文単位集合において頻度が上位のL(2以上の整数)個以下の語を特定する語特定手段と、上記語特定手段で特定された語の各々について、上記文単位集合あら、当該語を含む文単位からなる部分集合を導出する部分集合導出手段と、上記部分集合に対応する語および導出もとの文単位集合に対応する語から導出先の部分集合に対応する語へのリンクを表示する表示手段とを有し、上記部分集合導出手段は、ルートの文単位集合から開始して繰り返し部分集合を導出することを特徴とするグラフ表示装置が記載されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開平10−074210号公報
【特許文献2】特開2009−128949号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は、指定された語が含まれる文を抽出した集合に対して当該文に含まれる語同士の関係を指定された語を含んでグラフに示す場合に比べて、語同士の関係が煩雑に示されるのを抑制する、グラフ生成装置及びグラフ生成プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するために、請求項1に記載のグラフ生成装置は、複数の文により構成される全体集合から、指定された指定語が含まれる文により構成される部分集合を抽出する抽出手段と、前記部分集合を構成する文から前記指定語以外の語の出現頻度を計数し、計数した出現頻度に応じて、前記指定語以外の語同士の関係を示すグラフを予め定められた規則により生成する生成手段と、前記生成手段により生成された前記グラフを出力する出力手段と、を備える。
【0007】
請求項2に記載のグラフ生成装置は、請求項1に記載のグラフ生成装置において、前記生成手段により前記グラフの生成を行った後、前記指定語と異なる他の指定語がさらに指定された場合は、前記抽出手段は前記部分集合からさらに前記異なる他の指定語が含まれる文により構成される部分集合を抽出し、前記生成手段は、前記異なる他の指定語が含まれる文により構成される部分集合を構成する文から前記指定語以外でかつ前記異なる他の指定語以外の語の出現頻度を計数し、計数した出現頻度に応じて、前記指定語以外でかつ前記異なる他の指定語以外の語同士の関係を示すグラフを前記予め定められた規則により生成する。
【0008】
請求項3に記載のグラフ生成装置は、請求項1に記載のグラフ生成装置において、前記生成手段により前記グラフの生成を行った後、前記指定語と異なる他の指定語がさらに指定された場合は、前記生成手段は、前記部分集合を構成する文から前記指定語以外でかつ前記異なる他の指定語以外の語の出現頻度を計数し、計数した出現頻度に応じて、前記指定語以外でかつ前記異なる他の指定語以外の語同士の関係を示すグラフを前記予め定められた規則により生成する。
【0009】
請求項4に記載のグラフ生成装置は、請求項1から請求項3のいずれか1項に記載のグラフ生成装置において、前記全体集合を構成する文から語の出現頻度を計数し、計数した出現頻度が高い順に前記指定語を指定する指定手段を備える。
【0010】
請求項5に記載のグラフ生成装置は、請求項1から請求項3のいずれか1項に記載のグラフ生成装置において、前記指定語を利用者に指定させる指定手段を備える。
【0011】
請求項6に記載のグラフ生成装置は、請求項1から請求項5のいずれか1項に記載のグラフ生成装置において、前記生成手段が前記予め定められた規則により生成する前記グラフは、有向グラフである。
【0012】
請求項7に記載のグラフ生成装置は、請求項1から請求項6のいずれか1項に記載のグラフ生成装置において、対象となる語に対応する同義語を利用者に設定させる同義語設定手段と、前記同義語設定手段に設定させた対象となる語及び当該対象となる語に対応する同義語を記憶する記憶手段と、を備え、前記生成手段は、前記記憶手段に記憶された対象となる語及び当該対象となる語に対応する同義語を1つの語として、前記予め定められた規則により前記グラフを生成する。
【0013】
請求項8に記載のグラフ生成プログラムは、複数の文により構成される全体集合から、指定された指定語が含まれる文により構成される部分集合を抽出手段により抽出するステップと、前記部分集合を構成する文から前記指定語以外の語の出現頻度を計数し、計数した出現頻度に応じて、前記指定語以外の語同士の関係を示すグラフを予め定められた規則によって生成手段により生成するステップと、前記生成手段により生成された前記グラフを出力手段により出力するステップと、を備えた処理をコンピュータに実行させるためのものである。
【発明の効果】
【0014】
請求項1及び請求項8に記載の発明によれば、指定された語が含まれる文を抽出した集合に対して当該文に含まれる語同士の関係を指定された語を含んでグラフに示す場合に比べて、語同士の関係が煩雑に示されるのを抑制する。
【0015】
請求項2に記載の発明によれば、本構成を有しない場合に比べて、さらに指定語が指定された場合の語同士の関係が煩雑に示されるのを抑制する。
【0016】
請求項3に記載の発明によれば、本構成を有しない場合に比べて、さらに指定語が指定された場合の語同士の関係が煩雑に示されるのを抑制する。
【0017】
請求項4に記載の発明によれば、出現頻度が高い順に基づいて指定後を指定しない場合に比べて、出現頻度が高い語に対してどのような事が語られているのかの把握が容易になる。
【0018】
請求項5に記載の発明によれば、利用者に指定後を指定させない場合に比べて、利用者の指定する語に対してどのような事が語られているのかの把握が容易になる。
【0019】
請求項6に記載の発明によれば、他の種類のグラフで示す場合に比べて、語同士の関係が煩雑に示されるのを抑制する。
【0020】
請求項7に記載の発明によれば、対象となる語及び当該対象となる語に対応する同義語を1つの語として扱わない場合に比べて、語同士の関係が煩雑に示されるのを抑制する。
【図面の簡単な説明】
【0021】
【図1】本実施の形態に係る有向グラフを生成するための基本的な構成を備えたグラフ生成装置の概略構成の一例を示すブロック図である。
【図2】本実施の形態に係るグラフ生成装置の動作の一例を模式的に説明するための説明図である。
【図3】本実施の形態に係るグラフ生成装置の制御部で実行される処理の具体的一例を示すフローチャートである。
【図4】本実施の形態に係る語出現データの一例を説明するための説明図である。
【図5】本実施の形態に係る係り受け関係を含む語出現データの具体的一例を説明するための説明図である。
【図6】本実施の形態に係るノードデータ及びリンクデータの一例を説明するための説明図である。
【図7】本実施の形態に係るグラフ生成装置で生成された有向グラフの具体的一例を示したグラフである。
【図8】第1の実施の形態に係るグラフ生成装置の概略構成の具体的一例を示すブロック図である。
【図9】第1の実施の形態に係る全データ記憶部に記憶されている携帯電話に関するアンケートのデータの具体的一例を説明するための説明図である。
【図10】第1の実施の形態に係るグラフ生成装置の制御部で実行される処理の具体的一例を示すフローチャートである。
【図11】第1の実施の形態のグラフ生成装置で「携帯」という語を含まないで生成・表示される有向グラフの具体的一例を示す有向グラフである。
【図12】第1の実施の形態のグラフ生成装置で「便利」という語を含んで生成・表示される有向グラフの具体的一例を示す有向グラフである。
【図13】第1の実施の形態のグラフ生成装置で「便利」という語を含まないで生成・表示される有向グラフの具体的一例を示す有向グラフである。
【図14】第1の実施の形態のグラフ生成装置で「マナー」という語を含んで生成・表示される有向グラフの具体的一例を示す有向グラフである。
【図15】第1の実施の形態のグラフ生成装置で「マナー」という語を含まないで生成・表示される有向グラフの具体的一例を示す有向グラフである。
【図16】第1の実施の形態のグラフ生成装置で「私」という語を含んで生成・表示される有向グラフの具体的一例を示す有向グラフである。
【図17】第1の実施の形態のグラフ生成装置で検索された「携帯」、「便利」、「マナー」、及び「私」を含むコメントの提示の具体的一例を説明するための説明図ある。
【図18】第1の実施の形態のグラフ生成装置で生成される有向グラフのその他の具体的一例を示す有向グラフである。
【図19】第2の実施の形態に係るグラフ生成装置の概略構成の具体的一例を示すブロック図である。
【図20】第2の実施の形態に係るグラフ生成装置の制御部で実行される処理の具体的一例を示すフローチャートである。
【図21】第2の実施の形態に係るグラフ生成装置の同義語記憶部に記憶される同義語のリストについて説明するための説明図である。
【図22】第2の実施の形態に係るグラフ生成装置において図21に示した同義語のリストが適用された場合に生成される有向グラフの具体的一例を示す有向グラフである。
【図23】第2の実施の形態に係るグラフ生成装置の同義語記憶部に記憶される段階的に適用するための同義語のリストについて説明するための説明図である。
【図24】第2の実施の形態に係るグラフ生成装置において図23に示した同義語のリストが適用された場合に生成される有向グラフの具体的一例を示す有向グラフである。
【発明を実施するための形態】
【0022】
以下、図面を参照して本発明の実施の形態を詳細に説明する。なお、本実施の形態のグラフ生成装置は、具体的一例として、有向グラフを生成して表示する表示装置である。
【0023】
まず、本実施の形態のグラフ生成装置で有向グラフを生成するための原理的な構成について説明する。有向グラフを生成するための基本的な構成を備えたグラフ生成装置を図1に示す。
【0024】
図1に示した本実施の形態のグラフ生成装置10は、例えば、アンケートの回答を解析目的として、回答内に含まれる自由形式のコメント(1または複数の文からなる文単位)等の傾向を当該コメントに含まれる語同士の関係を示すグラフを生成してユーザに対して提示する。なお、自由形式のコメントに併せて、固定形式の回答(選択肢、または固定語)を用いてもよい。
【0025】
本実施の形態では、図2に示すように、表示する語と、語の間の関係(リンク)とを特定する。具体的には次の処理により特定を行う。
【0026】
(1)コメントの集合(全体集合)に含まれる語の頻度を求める。
【0027】
(2)頻度の高い順にL個の部分集合を作る。以下では、Lを幅と呼ぶことがある。
【0028】
(3)部分集合の各々について、処理(2)を行う。これをM回繰り返す。以下では、Mを深さと呼ぶこともある。
【0029】
このようにして部分集合を幅L、深さMで導出し、導出した部分集合の作成に用いた語を表示対象の語として選択し、導入元の集合から導入先の集合への関係を導入元の集合から特定された語から、導入先の集合から特定された語へのリンクとし、特定した語及びリンクからなるグラフを生成して表示する。
【0030】
図1に示すように、本実施の形態のグラフ生成装置10は、制御部12、全データ記憶部14、形態解析部16、グラフ生成部18、及び表示部20を備えて構成されている。
【0031】
制御部12は、グラフ生成装置10全体の制御を行うものであり、具体的には、CPU22、ROM24、及びRAM26を含んで構成されている。CPU22で実行される制御の制御プログラム25は、ROM24に格納されている。なお、本実施の形態では、制御プログラム25は、予め格納されている構成としているがこれに限らず、制御プログラム25をCD−ROMやリムーバブルディスク等の記録媒体等に記憶しておき記録媒体から制御部12にインストールするようにしてもよいし、インターネット等の通信回線を介して外部装置から制御部10にインストールするようにしてもよい。RAM26は、CPU22で制御プログラム25を実行する際の作業用の領域を確保するものである。
【0032】
全データ記憶部14は、アンケートの回答等、コメントを含む全データを記憶する機能を有するものである。
【0033】
形態解析部16は、アンケートに含まれるコメントを解析し、有向グラフを生成するための元となる語出現データを生成し、記憶する機能を有するものである。形態解析部16は、語出現データ生成部28及び語出現データ記憶部30を含んで構成されており、さらに語出現データ生成部28は、単語分解部32及び係り受け関係抽出部33を有して構成されている。
【0034】
本実施の形態の語出現データとは、例えば、図4に示すデータ構造の語出現データである。図4に示した例では、語出現データはコメント番号、語ID、コメント(アンケートの回答)に付与された複数の属性の値を含むが、これに限定されない。属性は、性別、年齢(年齢範囲)、居住地範囲等である。1のコメントにN個の異なり語が含まれる場合には、N個の語出現データが準備される。準備対象の語を名詞等の品詞で限定してもよい。
【0035】
語出現データの具体的な例は、図4に示した例に限定されない。より好ましい具体的一例を図5に示す。図5に示した語出現データは、コメント番号、述部を受け部とする係り受け関係、コメント(文)、属性値(「fact」欄)を含んで構成されている。例えば、最上行のデータは、コメント番号が5137で、述部(受け部)が「よい」で名詞部(係り部)が「メンバー」である。係り部が助詞の「は」、「が」、「を」、「に」、及び「で」等で区分して表示されるので、係り受け関係を参照するだけで全体としての意味内容の把握が容易になる。このように、係り受け関係が示された語出現データを用いることが好ましいため、本実施の形態では、図5に示した係り受け関係が示された語出現データを用いている。
【0036】
語出現データ生成部28の単語分解部32は、全データ記憶部14に記憶されているコメントを1文毎に、単語に分解して形態素解析を行う機能を有しており、係り受け関係抽出部33は、単語分解部32で分解された単語の係り受け関係を抽出する機能を有している。なお、形態素解析及び係り受け関係の抽出等は周知の手法を用いて行えばよい。
【0037】
語出現データ記憶部30は、語出現データ生成部28により生成された語出現データを記憶する機能を有するものである。
【0038】
グラフ生成部18は、語出現データ記憶部30に記憶されている語出現データに基づいて有向グラフを生成する機能を有するものであり、頻度計算部34、語特定部36、及び部分集合導出部38を含んで構成されている。
【0039】
頻度計算部34は、対象語の各々が出現するコメントが、対象となる集合内にいくつあるかを計算するものであり、典型的には、語ID毎に当該語出現データを含む語出現データの個数を計算するものであるが、これに限定されない。語毎のコメント数のヒストグラムを生成するものであれば、どのような手法を採用してもよい。
【0040】
語特定部36は、頻度計算部34で計算された語の頻度に基づいて、頻度が1位からL位までのL個の語を特定する。
【0041】
部分集合導出部38は、図2を参照して説明した手順で指定された集合から部分集合を導出していくものであり、その際、頻度計算部34に対して導入元の集合を指定し、語特定部36から特定された語を取得する。部分集合導出部38は、特定した語から図6(a)に一例を示すノードデータを取得し、また部分集合の導入元および導入先に基づいて図6(b)に一例を示すリンクデータを取得する。ノードデータはノードID、語ID、語(文字列)、ノードに対応する部分集合に含まれるコメントの個数(要素数)等を含むが、これに限定されない。リンクデータは、リンクID、ソースノード(親、導出元)のノードID、ターゲットノード(子、導出先)のノードIDを含むが、これに限定されない。
【0042】
有向グラフ生成部39は、部分集合導出部38からノードデータおよびリンクデータを取得して有向グラフのネットワーク構造を決定し、表示部20は、有向グラフの表示を行う。ネットワーク構造は予め定められた手法により決定され、特に限定されないが、例えば、「キーグラフ」(http://www2.kke.co.jp/keygraph)やAT&T社の「GraphViz」(http://www.graphviz.org)等のネットワーク構造を表示(可視化)するツールを利用すればよい。表示部20の表示例(有向グラフの例)を図9に示す。図9に示すように、有向グラフは、対象となるコメント集合全体において出現する語をリンクで結びつけるものである。語(ノード)やリンクの大きさ、太さ、色等をコメントの頻度等に応じて可変させてもよい。
【0043】
本実施の形態のグラフ生成装置10の動作例を説明する。図3は、グラフ生成装置10の動作例を示したフローチャートであり、当該フローチャートに示した処理は、グラフ生成装置10の制御部12で実行される。
【0044】
ステップ100では、全データ記憶部14から1文を取り出し、次のステップ102では、単語分解部32で当該1文を単語に分解し、次のステップ104では、さらに係り受け関係抽出部33で係り受け関係を抽出して語出現データを生成する。そして、生成した語出現データを次のステップ106では、語出現データ記憶部30に記憶させる。
【0045】
次のステップ108では全データ記憶部14に記憶されている全文に対して上記ステップ100〜106の処理を行ったか否かを判断する。未だ行っていない場合は、否定されてステップ100に戻り、本処理を繰り返し、行った(終了した)場合は、肯定されてステップ110へ進む。
【0046】
なお本実施の形態では、上記ステップ100〜108の処理を形態解析処理と称する。
【0047】
ステップ110では、コメントの全体集合を頻度計算の対象に設定する。次のステップ112では、頻度計算部34で各語の頻度を計算する。次のステップ114では、語特定部36で頻度が上位のL個以下の語を選択し、次のステップ116では、部分集合導出部38で選択語について当該語を含む部分集合を抽出し、探索する。例えば、深さ優先(バックトラック法)で部分集合を探索する場合には、図6(a)(L=2の例)に示すように、1〜Nの部分集合を探索し、最上位の1個の語を選択していく。幅優先で部分集合を探索する場合には、図6(b)(L=2の例)に示すように1〜Nの部分集合を探索していく。次のステップ118では、ノード/リンクデータを生成して記憶する。ノード/リンクデータの記憶箇所は、語出現データ記憶部30を用いてもよいし、他の記憶部(例えばグラフ生成部18内に設けられた記憶部)を用いてもよい。
【0048】
次のステップ120では、選択語に対応する部分集合を頻度計算の対象に設定し、次のステップ122では、終了条件が満たされるかどうかを判断する。終了条件が満たされない場合は、否定されてステップ112に戻り、本処理を繰り返し、満たされた場合は、肯定されてステップ124へ進む。なお、終了条件は、指定された深さまで語が特定され終わった場合や、上限数の語が特定された場合や、下限数以上のメッセージを含む集合が無くなった場合等が挙げられるが、これに限定されず、予め定めておけばよい。
【0049】
次のステップ124では、有向グラフ生成部39がノードデータ及びリンクデータを用いて予め定められたグラフ生成手法(上述の「キーグラフ」や「GraphViz」等)を用いて有向グラフを生成し、次のステップ126では、生成された有向グラフを表示部20に表示させる。
【0050】
なお本実施の形態では、上記ステップ110〜124の処理をグラフ生成処理と称する。
【0051】
本実施の形態のグラフ生成装置10により生成された有向グラフとして、携帯電話に関する自由形式のアンケートの回答であるコメントの集合から生成した有向グラフの具体的一例を図7に示す。図7中では、出現頻度が高く他の語と多くの関係を持つ上位5つの語を二重丸で囲んで示している。有向グラフのリンクをたどることにより、どのようなことが語られているのかが把握される。図7に示した例では、有向グラフ上に分布された語の配置に基づいてどのような事柄が話題になっているかを把握することが容易になる。
【0052】
[第1の実施の形態]
次に、上述した有向グラフを生成するための原理的構成を備えた本実施の形態のグラフ生成装置(図8、グラフ生成装置40)の構成及びその動作について詳細に説明する。なお、具体的一例として、携帯電話に関するアンケートに含まれるコメントを解析した有向グラフを生成する場合について詳細に説明する。
【0053】
図8に、本実施の形態のグラフ生成装置40の概略構成を示す。なお、本実施の形態のグラフ生成装置40は、上述のグラフ生成装置10と略同様の構成を含むため、略同様の構成、及びその動作については詳細な説明を省略する。
【0054】
本実施の形態のグラフ生成装置40は、制御部42、ユーザインターフェイス部43、全データ記憶部44、抽出部45、形態解析部46、グラフ生成部48、及び表示部50を含んで構成されている。
【0055】
グラフ生成装置40の制御部42はグラフ生成装置10の制御部12に対応し、全データ記憶部44は全データ記憶部14に対応し、形態解析部46は形態解析部16に対応し、グラフ生成部48はグラフ生成部18に対応し、表示部50は表示部20に対応する。
【0056】
また、制御部42に含まれるCPU52はCPU22に対応し、ROM54はROM24に対応し、RAM56はRAM26に対応する。本実施の形態の制御プログラム55は、制御プログラム25と同様にROM54に記憶される。
【0057】
また、図8では図示を省略したが、形態解析部46は、上述の形態解析部16と同様に、単語分解部及び係り受け関係抽出部33を含む語出現データ生成部と、語出現データ記憶部と、を含んで構成されている。グラフ生成部48は、上述のグラフ生成部18と同様に、頻度計算部と、語特定部と、部分集合導出部と、有向グラフ生成部39と、を含んで構成されている。
【0058】
本実施の形態のユーザインターフェイス部43は、ユーザが検索語等の設定を行うための機能を有するものである。具体的一例としては、キーボード、タッチパネル、及びディスプレイ等が挙げられる。
【0059】
全データ記憶部44には、全データ記憶部14と同様に、アンケートの回答等、コメントを含む全データを記憶する機能を有するものである。全データ記憶部44にデータを記憶させるには、ユーザインターフェイス部43によりユーザがデータを入力するようにしてもよいし、データが記録されている記録媒体から取得するようにしてもよいし、インターネット等の通信回線を介して外部装置から取得するようにしてもよい。全データ記憶部44に記憶されている携帯電話に関するアンケートのデータの具体的一例を図9に示す。図9に示した携帯電話に関するアンケートのデータは、コメントの番号を示すコメントIDと、属性として性別及び年齢、及びコメントを含んで構成されている。
【0060】
抽出部45は、検索語が設定されると共に、当該検索語を含む文を全データ記憶部44に記憶されているコメントから抽出する機能を有するものである。
【0061】
次に、本実施の形態のグラフ生成装置40の動作例を説明する。図10は、グラフ生成装置40の動作例を示したフローチャートであり、当該フローチャートに示した処理は、グラフ生成装置40の制御部42で実行される。なお、図10は、全データから語を含む文を検索し、検索結果の文により構成される部分集合から有向グラフを生成し、表示するための処理を示しており、予め全データ記憶部44に全データが記憶されており、形態解析部46により語出現データが生成され、形態解析部46の語出現データ記憶部(図示省略)に記憶された状態になっている。
【0062】
ステップ200では、抽出部45に検索語を設定する。検索語の設定方法は、ユーザによりユーザインターフェイス部43によって指定された語を検索語として設定してもよいがこれに限らず、頻度計算部34により、全データ記憶部44に記憶されている全文から語の頻度を計算し、頻度の高い順に検索語として設定するようにしてもよい。語の頻度に基づいてどのように検索語として設定するかについては予め定めておけばよい。なお、頻度が高いものから順に検索語として設定することにより、表示される有向グラフが煩雑になることが抑制される効果が高い。
【0063】
次のステップ202では、抽出部45により、設定された検索語を含む文を全データ記憶部44から抽出する。次のステップ204では、抽出した文により構成される集合(部分集合)を対象に設定し、まず、検索語を除外せずにグラフ生成処理を実行する。具体的には、図3に示したステップ110〜124のグラフ生成処理を行い、当該検索語を含む語同士の関係を示す有向グラフを生成する。そして、次のステップ206では、生成された有向グラフを表示部50に表示させる。生成、表示される有向グラフの具体的一例が図7に示した有向グラフである。
【0064】
次のステップ208では、検索語を除外するか否かを判断する。ユーザはステップ206の処理により表示部50に示された有向グラフ(ここでは図7に示した有向グラフ)を参照し、煩雑で分かりづらい等の理由により表示を変更したい場合等、検索語を除外した語同士の関係を示す有向グラフを生成して表示させるよう、ユーザインターフェイス部43により指示する。当該指示がなされた場合は、ステップ208で肯定され、ステップ210へ進む。
【0065】
次のステップ210では、抽出した文により構成される集合(部分集合)を対象に設定し、検索語を除外してグラフ生成処理を実行する。具体的には、図3に示したステップ110〜124のグラフ生成処理を行うが、検索を行った検索語を除いたその他の語の頻度を計算する等して、当該検索語を除くその他の語同士の関係を示す有向グラフを生成する。そして、次のステップ212では、生成された有向グラフを表示部50に表示させる。
【0066】
本実施の形態のグラフ生成装置40において、全データ記憶部44に記憶されているアンケートを「携帯」という語で検索した場合に生成される有向グラフの具体的一例を図11に示す。なお、本実施の形態の有向グラフでは、出現頻度が高く他の語と多くの関係を持つ上位5つの語を二重丸で囲んで示している。図11と図7とを比較するとわかるように、「携帯」という語が除外された図11の方が語同士の関係が煩雑に示されるのが抑制されており、「携帯」についてどのような事が語られているのかが容易に把握される。図11に示した有向グラフから、「メール」、「マナー」、「便利」、「子供」、及び「親」が「携帯」での大きな話題となっていることがわかる。
【0067】
次のステップ214では、再検索を行うか否か判断する。ユーザはステップ212の処理により表示部50に示された有向グラフ(図11に示した有向グラフ)を参照し、さらに絞り込みを行いたい場合等、さらに検索を行いたい場合は、その旨をユーザインターフェイス部43により指示する。当該指示がなされない場合(または、検索を行わない旨の指示がユーザによりなされた場合)は、ステップ214で否定されて本処理を終了する。一方、再検索するように指示された場合は、ステップ214で肯定されてステップ200に戻り、本処理を繰り返す。
【0068】
さらに具体的一例として、「便利」という語が検索語に設定されて本処理を繰り返す場合について説明する。ステップ200〜204の処理により「便利」という語を含んで有向グラフを生成し、ステップ206で表示する。「便利」という語を含んで生成・表示される有向グラフの具体的一例を図12に示す。
【0069】
さらに、次のステップ208で肯定されると、次のステップ210で「便利」という語を除外して有向グラフを生成し、ステップ212で表示する。「便利」という語を含まずに生成・表示される有向グラフの具体的一例を図13に示す。図12と図13とを比較すると、図13の方が「便利」についてどのような事が語られているのかが容易に把握される。図13に示した有向グラフから、「マナー」、「必要」、「私」、「連絡」、及び「メール」が「便利」での大きな話題となっていることがわかる。
【0070】
さらに、次のステップ214で肯定されて検索を繰り返す場合について説明する。具体的一例として、「マナー」という語が検索語に設定されて本処理を繰り返す場合について説明する。上述したように、ステップ200〜204の処理により「マナー」という語を含んで有向グラフを生成し、ステップ206で表示する。「マナー」という語を含んで生成・表示される有向グラフの具体的一例を図14に示す。
【0071】
さらに、次のステップ208で肯定されると、次のステップ210で「マナー」という語を除外して有向グラフを生成し、ステップ212で表示する。「マナー」という語を含まずに生成・表示される有向グラフの具体的一例を図15に示す。図14と図15とを比較すると、図15の方が「マナー」についてどのような事が語られているのかが容易に把握される。図15に示した有向グラフから、「悪さ」、「私」、「電話」、「メール」、及び「最近」が「マナー」での大きな話題となっていることがわかる。
【0072】
さらに、次のステップ214で再び肯定されて検索を繰り返す場合について説明する。具体的一例として、「私」という語が検索語に設定されて本処理を繰り返す場合について説明する。上述したように、ステップ200〜204の処理により「私」という語を含んで有向グラフを生成し、ステップ206で表示する。「私」という語を含んで生成・表示される有向グラフの具体的一例を図16に示す。図16に示した有向グラフから、「私」、「使用」、「コメント」、「以前」、及び「発信源」が「私」での大きな話題となっていることがわかる。表示部50に示された有向グラフにより、ユーザが検索語を除外した表示やさらなる絞り込みが必要ではないと判断した場合は、その旨がユーザインターフェイス部43により指示される。本実施の形態では、図16に示した有向グラフを表示した後、その旨がユーザにより指示される。そこで、次のステップ208では、否定されて本処理を終了する。
【0073】
なお、本処理を終了する前に、表示されている有向グラフ(図16)に対応する原文のコメントの文章を表示部20に提示させて、ユーザに内容を確認させるようにしてもよい。図17に、本実施の形態のグラフ生成装置で検索された「携帯」、「便利」、「マナー」、及び「私」を含むコメントの提示の具体的一例を示す。
【0074】
以上説明したように、本実施の形態では、全データ記憶部44に、全データ(携帯電話に関するアンケート、全体集合)が記憶されており、検索語が設定されると、抽出部45が、全データ記憶部44に記憶されているアンケートのコメントの文から、検索語が含まれる文を検索し、検索語が含まれる文により構成される部分集合を抽出する。検索語を除外するように指示されると、検索語を除外して、グラフ生成部48で有向グラフを生成して、表示部50に表示する。さらに検索を行う(絞り込み検索を行う)場合は、同様に、先に設定された検索語及び今回設定された検索語の両語を除外して、グラフ生成部48で有向グラフを生成して、表示部50に表示する。
【0075】
これにより、指定された語が含まれる文を抽出した集合に対して当該文に含まれる語同士の関係を指定された語を含んでグラフに示す場合に比べて、語同士の関係が煩雑に示されるのが抑制される。検索語は、全ての文に含まれており、頻度が高いことはユーザも認識しているため、有向グラフ上に表示されなくても問題なく、頻度が高い語を使用しないことにより、語同士の関係が煩雑に示されるのが抑制され、検索語に関して語られている事柄が容易に把握されるようになる。
【0076】
このように本実施の形態では、検索語を除外して、グラフ生成部48で有向グラフを生成して、表示部50に表示するようにしているため、当該有向グラフ注意は、当該検索語が表示されず、語同士の関係が煩雑に示されるのを抑制しているがさらに、その他の語(ユーザにより指定された語等)を有向グラフの表示から除外するようにしてもよい。例えば「携帯」という語で検索した結果の有向グラフ(図11)において、「便利」という語を非表示とする場合、ステップ202で抽出された、「携帯」という語で検索された文により構成される部分集合に対してステップ210で、「携帯」と「便利」という語を除外して有向グラフを生成するようにすればよい。この有向グラフの具体的一例を図18に示す。図18に示した有向グラフにより、「携帯」で検索された文(コメント)において、「便利」という語に関して語られている事柄が容易に把握されるようになる。
【0077】
なお、本実施の形態では、生成された有向グラフを表示部50に表示させるようにしているがこれに限らず、インターネット等の通信回線を介して他の装置(コンピュータ)等に出力するようにしてもよいし、プリントアウトして出力するようにしてもよい。また、表示部50は、ユーザインターフェイス部43と共用であってもよい。
【0078】
また、本実施の形態では、有向グラフを生成するグラフ生成装置40について説明したがこれに限らず、棒グラフ等その他の種類のグラフを生成するものであってもよくグラフの種類は限定されない。なお、有向グラフでは、検索により生成されたグラフ同士の見かけの形状が大きく異なるため(例えば、図11と図13とを参照)有向グラフを生成する場合に、より効果が高くなる。
【0079】
[第2の実施の形態]
次に、第1の実施の形態のグラフ生成装置40の機能に加えて、対象となる語に対応する同義語を定義して有向グラフを生成する機能を備えたグラフ生成装置の構成及びその動作について詳細に説明する。
【0080】
図19に、本実施の形態のグラフ生成装置の概略構成を示す。なお、本実施の形態のグラフ生成装置60は、設定された同義語を記憶する同義語記憶部62をさらに備えると共に、設定された同義語を1つの語として扱って形態解析部66、設定された同義語を1つの語として扱って有向グラフを生成するグラフ生成部68を備えている。また、対象となる語に対応する同義語を定義して有向グラフを生成する処理を行うための制御プログラム65がROM54に記憶されている。なお、その他の構成については、第1の実施の形態の10と略同様であるため、略同様の構成、及びその動作については詳細な説明を省略する。
【0081】
次に、本実施の形態のグラフ生成装置60の動作例を説明する。図20は、グラフ生成装置40の動作例を示したフローチャートであり、当該フローチャートに示した処理は、グラフ生成装置60の制御部42で実行される。
【0082】
ステップ300は、第1の実施の形態のグラフ生成装置40で実行される処理のステップ200に対応し、同様にして検索語を設定する。
【0083】
次のステップ302では、同義語を設定するか否か判断する。同義語の設定方法は、ユーザによりユーザインターフェイス部43によって設定させるようにするとよい。例えば、ユーザにより同義語を設定する対象となる語に対応する同義語を1個または複数個、定義させることにより設定させるようにしてもよいし、予め定められ、同義語記憶部62に記憶されている同義語のリストから選択させるようにしてもよい。なお、ユーザにより対象となる語を指定させ、当該対象となる語に対応する同義語を指定させた場合は、これを同義語のリストとして同義語記憶部62に記憶する。
【0084】
同義語記憶部62に記憶される同義語のリストの具体的一例を図21に示す。図21に示した例は、ユーザが「子供」という対象となる語に対応して、「子ども」、「幼児」、「小学生」、「中学生」、「高校生」、「大学生」、「学生」、「子供たち」、「子供達」等の語を同義語として定義した場合の同義語のリストである。これにより、同義語のリストに示された語は一括して「子供*」という代表名(語)として扱われる(「子供*」という語にみなされる)ようになる。
【0085】
ステップ302で否定された場合(同義語を設定しない場合)は、ステップ306へ進み、一方、ステップ302で肯定された場合は、ステップ304へ進み、ステップ304では、同義語を設定し、記憶した後、ステップ306へ進む。
【0086】
ステップ304以降の処理である、ステップ306〜ステップ318の各処理は、各々、第1の実施の形態のグラフ生成装置40で実行される処理のステップ202〜214に対応している。従って、同義語を設定しない場合は、第1の実施の形態と同様の処理が行われる。
【0087】
一方、同義語が設定された場合では、第1の実施の形態と略同様の処理が行われるが、ステップ308及びステップ314では、同義語のリストに基づいて代表名の語を用いて有向グラフを生成する。上述の図21に示した同義語のリストが適用された場合に生成される有向グラフの具体的一例を図22に示す。
【0088】
以上説明したように、本実施の形態では、同義語が設定されると、グラフ生成部68は、同義語記憶部62に記憶されている同義語のリストに基づいて、同義語のリストに記載されている語を全て、代表名の語とみなして有向グラフを生成し、表示部50に表示する。
【0089】
このように本実施の形態では、同じ概念の語を同義語として設定し、一括して扱うため、さらに、語同士の関係が煩雑に示されるのが抑制される。なお、煩雑さが抑制されるものの、複数の語を一括して扱うため、粗くなる場合がある。細かな表示を行うか、煩雑さを抑制するかは、生成された有向グラフを見て適宜、利用者が判断して、同義語の設定を行うか否かを指示するようにすればよい。
【0090】
また、同義語として定義された語に含まれる語(例えば、図21に示した同義語のリストでは「学生」という語等)について、どのような事柄が語られているのかを参照したい場合等に対しては、段階的に同義語の設定がなされるように同義語のリストを生成し、同義語記憶部62に記憶させておけばよい。ユーザが、使用する同義語のリスト(定義)の適用を設定するようにすればよい。段階的に適用するための同義語のリストの例を図23に示す。図23に示した同義語のリストにおいて、代表名「子供(達)*」の同義語のリスト及び代表名「学生*」の同義語のリストを適用して有向グラフを作成した場合の具体的一例を図24に示す。このようにすることにより、有向グラフ中に「子供(達)*」という語と「学生*」という語とが表示されるため、例えば「学生*」と「学校」との関係等が容易に把握されるようになる。
【符号の説明】
【0091】
10、40、60 グラフ生成装置
12、42 制御部
14、44 全データ記憶部
16、46、66 形態解析部
18、48、68 グラフ生成部
20、50 表示部
25、45、65 制御プログラム
43 ユーザインターフェイス部
45 抽出部
62 同義語記憶部
【技術分野】
【0001】
本発明は、グラフ生成装置及びグラフ生成プログラムに関する。
【背景技術】
【0002】
特許文献1には、設定されたキーワードに応じて検索対象文書群から前記キーワードを持つ文書を検索結果文書として検出すること、ある単語が前記検索結果文書群中のいくつの文書に表れるかを意味する単語の文書頻度を検出すること、前記単語が検索対象文書群全体においていくつの文書に出現するかを意味する単語の全体文書頻度を検出すること、前記単語の文書頻度と単語の全体文書頻度との比を意味する頻度比を導出すること、前記文書頻度を所定の関係で頻度クラスに区分分けして各単語の文書頻度に応じて各単語を頻度クラスに対応させること、各頻度クラスから適当数の単語を単語の頻度比の大きさ順位特徴語として抽出すること、抽出された特徴語をグラフ形式またはリスト形式で表示することとよちなることを特徴とする文献検索支援方法が記載されている。
【0003】
特許文献2には、複数の文単位を含んでなる解析対象の文単位集合において出現する語をグラフ表示するグラフ表示装置において、文単位に対応づけて当該文単位に出現する語を記憶する記憶手段と、文単位集合中の文単位に出現する語について当該文単位集合における頻度を記憶手段を参照して計算する頻度計算手段と、上記頻度計算手段が計算した頻度を参照して、上記文単位集合において頻度が上位のL(2以上の整数)個以下の語を特定する語特定手段と、上記語特定手段で特定された語の各々について、上記文単位集合あら、当該語を含む文単位からなる部分集合を導出する部分集合導出手段と、上記部分集合に対応する語および導出もとの文単位集合に対応する語から導出先の部分集合に対応する語へのリンクを表示する表示手段とを有し、上記部分集合導出手段は、ルートの文単位集合から開始して繰り返し部分集合を導出することを特徴とするグラフ表示装置が記載されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開平10−074210号公報
【特許文献2】特開2009−128949号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は、指定された語が含まれる文を抽出した集合に対して当該文に含まれる語同士の関係を指定された語を含んでグラフに示す場合に比べて、語同士の関係が煩雑に示されるのを抑制する、グラフ生成装置及びグラフ生成プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するために、請求項1に記載のグラフ生成装置は、複数の文により構成される全体集合から、指定された指定語が含まれる文により構成される部分集合を抽出する抽出手段と、前記部分集合を構成する文から前記指定語以外の語の出現頻度を計数し、計数した出現頻度に応じて、前記指定語以外の語同士の関係を示すグラフを予め定められた規則により生成する生成手段と、前記生成手段により生成された前記グラフを出力する出力手段と、を備える。
【0007】
請求項2に記載のグラフ生成装置は、請求項1に記載のグラフ生成装置において、前記生成手段により前記グラフの生成を行った後、前記指定語と異なる他の指定語がさらに指定された場合は、前記抽出手段は前記部分集合からさらに前記異なる他の指定語が含まれる文により構成される部分集合を抽出し、前記生成手段は、前記異なる他の指定語が含まれる文により構成される部分集合を構成する文から前記指定語以外でかつ前記異なる他の指定語以外の語の出現頻度を計数し、計数した出現頻度に応じて、前記指定語以外でかつ前記異なる他の指定語以外の語同士の関係を示すグラフを前記予め定められた規則により生成する。
【0008】
請求項3に記載のグラフ生成装置は、請求項1に記載のグラフ生成装置において、前記生成手段により前記グラフの生成を行った後、前記指定語と異なる他の指定語がさらに指定された場合は、前記生成手段は、前記部分集合を構成する文から前記指定語以外でかつ前記異なる他の指定語以外の語の出現頻度を計数し、計数した出現頻度に応じて、前記指定語以外でかつ前記異なる他の指定語以外の語同士の関係を示すグラフを前記予め定められた規則により生成する。
【0009】
請求項4に記載のグラフ生成装置は、請求項1から請求項3のいずれか1項に記載のグラフ生成装置において、前記全体集合を構成する文から語の出現頻度を計数し、計数した出現頻度が高い順に前記指定語を指定する指定手段を備える。
【0010】
請求項5に記載のグラフ生成装置は、請求項1から請求項3のいずれか1項に記載のグラフ生成装置において、前記指定語を利用者に指定させる指定手段を備える。
【0011】
請求項6に記載のグラフ生成装置は、請求項1から請求項5のいずれか1項に記載のグラフ生成装置において、前記生成手段が前記予め定められた規則により生成する前記グラフは、有向グラフである。
【0012】
請求項7に記載のグラフ生成装置は、請求項1から請求項6のいずれか1項に記載のグラフ生成装置において、対象となる語に対応する同義語を利用者に設定させる同義語設定手段と、前記同義語設定手段に設定させた対象となる語及び当該対象となる語に対応する同義語を記憶する記憶手段と、を備え、前記生成手段は、前記記憶手段に記憶された対象となる語及び当該対象となる語に対応する同義語を1つの語として、前記予め定められた規則により前記グラフを生成する。
【0013】
請求項8に記載のグラフ生成プログラムは、複数の文により構成される全体集合から、指定された指定語が含まれる文により構成される部分集合を抽出手段により抽出するステップと、前記部分集合を構成する文から前記指定語以外の語の出現頻度を計数し、計数した出現頻度に応じて、前記指定語以外の語同士の関係を示すグラフを予め定められた規則によって生成手段により生成するステップと、前記生成手段により生成された前記グラフを出力手段により出力するステップと、を備えた処理をコンピュータに実行させるためのものである。
【発明の効果】
【0014】
請求項1及び請求項8に記載の発明によれば、指定された語が含まれる文を抽出した集合に対して当該文に含まれる語同士の関係を指定された語を含んでグラフに示す場合に比べて、語同士の関係が煩雑に示されるのを抑制する。
【0015】
請求項2に記載の発明によれば、本構成を有しない場合に比べて、さらに指定語が指定された場合の語同士の関係が煩雑に示されるのを抑制する。
【0016】
請求項3に記載の発明によれば、本構成を有しない場合に比べて、さらに指定語が指定された場合の語同士の関係が煩雑に示されるのを抑制する。
【0017】
請求項4に記載の発明によれば、出現頻度が高い順に基づいて指定後を指定しない場合に比べて、出現頻度が高い語に対してどのような事が語られているのかの把握が容易になる。
【0018】
請求項5に記載の発明によれば、利用者に指定後を指定させない場合に比べて、利用者の指定する語に対してどのような事が語られているのかの把握が容易になる。
【0019】
請求項6に記載の発明によれば、他の種類のグラフで示す場合に比べて、語同士の関係が煩雑に示されるのを抑制する。
【0020】
請求項7に記載の発明によれば、対象となる語及び当該対象となる語に対応する同義語を1つの語として扱わない場合に比べて、語同士の関係が煩雑に示されるのを抑制する。
【図面の簡単な説明】
【0021】
【図1】本実施の形態に係る有向グラフを生成するための基本的な構成を備えたグラフ生成装置の概略構成の一例を示すブロック図である。
【図2】本実施の形態に係るグラフ生成装置の動作の一例を模式的に説明するための説明図である。
【図3】本実施の形態に係るグラフ生成装置の制御部で実行される処理の具体的一例を示すフローチャートである。
【図4】本実施の形態に係る語出現データの一例を説明するための説明図である。
【図5】本実施の形態に係る係り受け関係を含む語出現データの具体的一例を説明するための説明図である。
【図6】本実施の形態に係るノードデータ及びリンクデータの一例を説明するための説明図である。
【図7】本実施の形態に係るグラフ生成装置で生成された有向グラフの具体的一例を示したグラフである。
【図8】第1の実施の形態に係るグラフ生成装置の概略構成の具体的一例を示すブロック図である。
【図9】第1の実施の形態に係る全データ記憶部に記憶されている携帯電話に関するアンケートのデータの具体的一例を説明するための説明図である。
【図10】第1の実施の形態に係るグラフ生成装置の制御部で実行される処理の具体的一例を示すフローチャートである。
【図11】第1の実施の形態のグラフ生成装置で「携帯」という語を含まないで生成・表示される有向グラフの具体的一例を示す有向グラフである。
【図12】第1の実施の形態のグラフ生成装置で「便利」という語を含んで生成・表示される有向グラフの具体的一例を示す有向グラフである。
【図13】第1の実施の形態のグラフ生成装置で「便利」という語を含まないで生成・表示される有向グラフの具体的一例を示す有向グラフである。
【図14】第1の実施の形態のグラフ生成装置で「マナー」という語を含んで生成・表示される有向グラフの具体的一例を示す有向グラフである。
【図15】第1の実施の形態のグラフ生成装置で「マナー」という語を含まないで生成・表示される有向グラフの具体的一例を示す有向グラフである。
【図16】第1の実施の形態のグラフ生成装置で「私」という語を含んで生成・表示される有向グラフの具体的一例を示す有向グラフである。
【図17】第1の実施の形態のグラフ生成装置で検索された「携帯」、「便利」、「マナー」、及び「私」を含むコメントの提示の具体的一例を説明するための説明図ある。
【図18】第1の実施の形態のグラフ生成装置で生成される有向グラフのその他の具体的一例を示す有向グラフである。
【図19】第2の実施の形態に係るグラフ生成装置の概略構成の具体的一例を示すブロック図である。
【図20】第2の実施の形態に係るグラフ生成装置の制御部で実行される処理の具体的一例を示すフローチャートである。
【図21】第2の実施の形態に係るグラフ生成装置の同義語記憶部に記憶される同義語のリストについて説明するための説明図である。
【図22】第2の実施の形態に係るグラフ生成装置において図21に示した同義語のリストが適用された場合に生成される有向グラフの具体的一例を示す有向グラフである。
【図23】第2の実施の形態に係るグラフ生成装置の同義語記憶部に記憶される段階的に適用するための同義語のリストについて説明するための説明図である。
【図24】第2の実施の形態に係るグラフ生成装置において図23に示した同義語のリストが適用された場合に生成される有向グラフの具体的一例を示す有向グラフである。
【発明を実施するための形態】
【0022】
以下、図面を参照して本発明の実施の形態を詳細に説明する。なお、本実施の形態のグラフ生成装置は、具体的一例として、有向グラフを生成して表示する表示装置である。
【0023】
まず、本実施の形態のグラフ生成装置で有向グラフを生成するための原理的な構成について説明する。有向グラフを生成するための基本的な構成を備えたグラフ生成装置を図1に示す。
【0024】
図1に示した本実施の形態のグラフ生成装置10は、例えば、アンケートの回答を解析目的として、回答内に含まれる自由形式のコメント(1または複数の文からなる文単位)等の傾向を当該コメントに含まれる語同士の関係を示すグラフを生成してユーザに対して提示する。なお、自由形式のコメントに併せて、固定形式の回答(選択肢、または固定語)を用いてもよい。
【0025】
本実施の形態では、図2に示すように、表示する語と、語の間の関係(リンク)とを特定する。具体的には次の処理により特定を行う。
【0026】
(1)コメントの集合(全体集合)に含まれる語の頻度を求める。
【0027】
(2)頻度の高い順にL個の部分集合を作る。以下では、Lを幅と呼ぶことがある。
【0028】
(3)部分集合の各々について、処理(2)を行う。これをM回繰り返す。以下では、Mを深さと呼ぶこともある。
【0029】
このようにして部分集合を幅L、深さMで導出し、導出した部分集合の作成に用いた語を表示対象の語として選択し、導入元の集合から導入先の集合への関係を導入元の集合から特定された語から、導入先の集合から特定された語へのリンクとし、特定した語及びリンクからなるグラフを生成して表示する。
【0030】
図1に示すように、本実施の形態のグラフ生成装置10は、制御部12、全データ記憶部14、形態解析部16、グラフ生成部18、及び表示部20を備えて構成されている。
【0031】
制御部12は、グラフ生成装置10全体の制御を行うものであり、具体的には、CPU22、ROM24、及びRAM26を含んで構成されている。CPU22で実行される制御の制御プログラム25は、ROM24に格納されている。なお、本実施の形態では、制御プログラム25は、予め格納されている構成としているがこれに限らず、制御プログラム25をCD−ROMやリムーバブルディスク等の記録媒体等に記憶しておき記録媒体から制御部12にインストールするようにしてもよいし、インターネット等の通信回線を介して外部装置から制御部10にインストールするようにしてもよい。RAM26は、CPU22で制御プログラム25を実行する際の作業用の領域を確保するものである。
【0032】
全データ記憶部14は、アンケートの回答等、コメントを含む全データを記憶する機能を有するものである。
【0033】
形態解析部16は、アンケートに含まれるコメントを解析し、有向グラフを生成するための元となる語出現データを生成し、記憶する機能を有するものである。形態解析部16は、語出現データ生成部28及び語出現データ記憶部30を含んで構成されており、さらに語出現データ生成部28は、単語分解部32及び係り受け関係抽出部33を有して構成されている。
【0034】
本実施の形態の語出現データとは、例えば、図4に示すデータ構造の語出現データである。図4に示した例では、語出現データはコメント番号、語ID、コメント(アンケートの回答)に付与された複数の属性の値を含むが、これに限定されない。属性は、性別、年齢(年齢範囲)、居住地範囲等である。1のコメントにN個の異なり語が含まれる場合には、N個の語出現データが準備される。準備対象の語を名詞等の品詞で限定してもよい。
【0035】
語出現データの具体的な例は、図4に示した例に限定されない。より好ましい具体的一例を図5に示す。図5に示した語出現データは、コメント番号、述部を受け部とする係り受け関係、コメント(文)、属性値(「fact」欄)を含んで構成されている。例えば、最上行のデータは、コメント番号が5137で、述部(受け部)が「よい」で名詞部(係り部)が「メンバー」である。係り部が助詞の「は」、「が」、「を」、「に」、及び「で」等で区分して表示されるので、係り受け関係を参照するだけで全体としての意味内容の把握が容易になる。このように、係り受け関係が示された語出現データを用いることが好ましいため、本実施の形態では、図5に示した係り受け関係が示された語出現データを用いている。
【0036】
語出現データ生成部28の単語分解部32は、全データ記憶部14に記憶されているコメントを1文毎に、単語に分解して形態素解析を行う機能を有しており、係り受け関係抽出部33は、単語分解部32で分解された単語の係り受け関係を抽出する機能を有している。なお、形態素解析及び係り受け関係の抽出等は周知の手法を用いて行えばよい。
【0037】
語出現データ記憶部30は、語出現データ生成部28により生成された語出現データを記憶する機能を有するものである。
【0038】
グラフ生成部18は、語出現データ記憶部30に記憶されている語出現データに基づいて有向グラフを生成する機能を有するものであり、頻度計算部34、語特定部36、及び部分集合導出部38を含んで構成されている。
【0039】
頻度計算部34は、対象語の各々が出現するコメントが、対象となる集合内にいくつあるかを計算するものであり、典型的には、語ID毎に当該語出現データを含む語出現データの個数を計算するものであるが、これに限定されない。語毎のコメント数のヒストグラムを生成するものであれば、どのような手法を採用してもよい。
【0040】
語特定部36は、頻度計算部34で計算された語の頻度に基づいて、頻度が1位からL位までのL個の語を特定する。
【0041】
部分集合導出部38は、図2を参照して説明した手順で指定された集合から部分集合を導出していくものであり、その際、頻度計算部34に対して導入元の集合を指定し、語特定部36から特定された語を取得する。部分集合導出部38は、特定した語から図6(a)に一例を示すノードデータを取得し、また部分集合の導入元および導入先に基づいて図6(b)に一例を示すリンクデータを取得する。ノードデータはノードID、語ID、語(文字列)、ノードに対応する部分集合に含まれるコメントの個数(要素数)等を含むが、これに限定されない。リンクデータは、リンクID、ソースノード(親、導出元)のノードID、ターゲットノード(子、導出先)のノードIDを含むが、これに限定されない。
【0042】
有向グラフ生成部39は、部分集合導出部38からノードデータおよびリンクデータを取得して有向グラフのネットワーク構造を決定し、表示部20は、有向グラフの表示を行う。ネットワーク構造は予め定められた手法により決定され、特に限定されないが、例えば、「キーグラフ」(http://www2.kke.co.jp/keygraph)やAT&T社の「GraphViz」(http://www.graphviz.org)等のネットワーク構造を表示(可視化)するツールを利用すればよい。表示部20の表示例(有向グラフの例)を図9に示す。図9に示すように、有向グラフは、対象となるコメント集合全体において出現する語をリンクで結びつけるものである。語(ノード)やリンクの大きさ、太さ、色等をコメントの頻度等に応じて可変させてもよい。
【0043】
本実施の形態のグラフ生成装置10の動作例を説明する。図3は、グラフ生成装置10の動作例を示したフローチャートであり、当該フローチャートに示した処理は、グラフ生成装置10の制御部12で実行される。
【0044】
ステップ100では、全データ記憶部14から1文を取り出し、次のステップ102では、単語分解部32で当該1文を単語に分解し、次のステップ104では、さらに係り受け関係抽出部33で係り受け関係を抽出して語出現データを生成する。そして、生成した語出現データを次のステップ106では、語出現データ記憶部30に記憶させる。
【0045】
次のステップ108では全データ記憶部14に記憶されている全文に対して上記ステップ100〜106の処理を行ったか否かを判断する。未だ行っていない場合は、否定されてステップ100に戻り、本処理を繰り返し、行った(終了した)場合は、肯定されてステップ110へ進む。
【0046】
なお本実施の形態では、上記ステップ100〜108の処理を形態解析処理と称する。
【0047】
ステップ110では、コメントの全体集合を頻度計算の対象に設定する。次のステップ112では、頻度計算部34で各語の頻度を計算する。次のステップ114では、語特定部36で頻度が上位のL個以下の語を選択し、次のステップ116では、部分集合導出部38で選択語について当該語を含む部分集合を抽出し、探索する。例えば、深さ優先(バックトラック法)で部分集合を探索する場合には、図6(a)(L=2の例)に示すように、1〜Nの部分集合を探索し、最上位の1個の語を選択していく。幅優先で部分集合を探索する場合には、図6(b)(L=2の例)に示すように1〜Nの部分集合を探索していく。次のステップ118では、ノード/リンクデータを生成して記憶する。ノード/リンクデータの記憶箇所は、語出現データ記憶部30を用いてもよいし、他の記憶部(例えばグラフ生成部18内に設けられた記憶部)を用いてもよい。
【0048】
次のステップ120では、選択語に対応する部分集合を頻度計算の対象に設定し、次のステップ122では、終了条件が満たされるかどうかを判断する。終了条件が満たされない場合は、否定されてステップ112に戻り、本処理を繰り返し、満たされた場合は、肯定されてステップ124へ進む。なお、終了条件は、指定された深さまで語が特定され終わった場合や、上限数の語が特定された場合や、下限数以上のメッセージを含む集合が無くなった場合等が挙げられるが、これに限定されず、予め定めておけばよい。
【0049】
次のステップ124では、有向グラフ生成部39がノードデータ及びリンクデータを用いて予め定められたグラフ生成手法(上述の「キーグラフ」や「GraphViz」等)を用いて有向グラフを生成し、次のステップ126では、生成された有向グラフを表示部20に表示させる。
【0050】
なお本実施の形態では、上記ステップ110〜124の処理をグラフ生成処理と称する。
【0051】
本実施の形態のグラフ生成装置10により生成された有向グラフとして、携帯電話に関する自由形式のアンケートの回答であるコメントの集合から生成した有向グラフの具体的一例を図7に示す。図7中では、出現頻度が高く他の語と多くの関係を持つ上位5つの語を二重丸で囲んで示している。有向グラフのリンクをたどることにより、どのようなことが語られているのかが把握される。図7に示した例では、有向グラフ上に分布された語の配置に基づいてどのような事柄が話題になっているかを把握することが容易になる。
【0052】
[第1の実施の形態]
次に、上述した有向グラフを生成するための原理的構成を備えた本実施の形態のグラフ生成装置(図8、グラフ生成装置40)の構成及びその動作について詳細に説明する。なお、具体的一例として、携帯電話に関するアンケートに含まれるコメントを解析した有向グラフを生成する場合について詳細に説明する。
【0053】
図8に、本実施の形態のグラフ生成装置40の概略構成を示す。なお、本実施の形態のグラフ生成装置40は、上述のグラフ生成装置10と略同様の構成を含むため、略同様の構成、及びその動作については詳細な説明を省略する。
【0054】
本実施の形態のグラフ生成装置40は、制御部42、ユーザインターフェイス部43、全データ記憶部44、抽出部45、形態解析部46、グラフ生成部48、及び表示部50を含んで構成されている。
【0055】
グラフ生成装置40の制御部42はグラフ生成装置10の制御部12に対応し、全データ記憶部44は全データ記憶部14に対応し、形態解析部46は形態解析部16に対応し、グラフ生成部48はグラフ生成部18に対応し、表示部50は表示部20に対応する。
【0056】
また、制御部42に含まれるCPU52はCPU22に対応し、ROM54はROM24に対応し、RAM56はRAM26に対応する。本実施の形態の制御プログラム55は、制御プログラム25と同様にROM54に記憶される。
【0057】
また、図8では図示を省略したが、形態解析部46は、上述の形態解析部16と同様に、単語分解部及び係り受け関係抽出部33を含む語出現データ生成部と、語出現データ記憶部と、を含んで構成されている。グラフ生成部48は、上述のグラフ生成部18と同様に、頻度計算部と、語特定部と、部分集合導出部と、有向グラフ生成部39と、を含んで構成されている。
【0058】
本実施の形態のユーザインターフェイス部43は、ユーザが検索語等の設定を行うための機能を有するものである。具体的一例としては、キーボード、タッチパネル、及びディスプレイ等が挙げられる。
【0059】
全データ記憶部44には、全データ記憶部14と同様に、アンケートの回答等、コメントを含む全データを記憶する機能を有するものである。全データ記憶部44にデータを記憶させるには、ユーザインターフェイス部43によりユーザがデータを入力するようにしてもよいし、データが記録されている記録媒体から取得するようにしてもよいし、インターネット等の通信回線を介して外部装置から取得するようにしてもよい。全データ記憶部44に記憶されている携帯電話に関するアンケートのデータの具体的一例を図9に示す。図9に示した携帯電話に関するアンケートのデータは、コメントの番号を示すコメントIDと、属性として性別及び年齢、及びコメントを含んで構成されている。
【0060】
抽出部45は、検索語が設定されると共に、当該検索語を含む文を全データ記憶部44に記憶されているコメントから抽出する機能を有するものである。
【0061】
次に、本実施の形態のグラフ生成装置40の動作例を説明する。図10は、グラフ生成装置40の動作例を示したフローチャートであり、当該フローチャートに示した処理は、グラフ生成装置40の制御部42で実行される。なお、図10は、全データから語を含む文を検索し、検索結果の文により構成される部分集合から有向グラフを生成し、表示するための処理を示しており、予め全データ記憶部44に全データが記憶されており、形態解析部46により語出現データが生成され、形態解析部46の語出現データ記憶部(図示省略)に記憶された状態になっている。
【0062】
ステップ200では、抽出部45に検索語を設定する。検索語の設定方法は、ユーザによりユーザインターフェイス部43によって指定された語を検索語として設定してもよいがこれに限らず、頻度計算部34により、全データ記憶部44に記憶されている全文から語の頻度を計算し、頻度の高い順に検索語として設定するようにしてもよい。語の頻度に基づいてどのように検索語として設定するかについては予め定めておけばよい。なお、頻度が高いものから順に検索語として設定することにより、表示される有向グラフが煩雑になることが抑制される効果が高い。
【0063】
次のステップ202では、抽出部45により、設定された検索語を含む文を全データ記憶部44から抽出する。次のステップ204では、抽出した文により構成される集合(部分集合)を対象に設定し、まず、検索語を除外せずにグラフ生成処理を実行する。具体的には、図3に示したステップ110〜124のグラフ生成処理を行い、当該検索語を含む語同士の関係を示す有向グラフを生成する。そして、次のステップ206では、生成された有向グラフを表示部50に表示させる。生成、表示される有向グラフの具体的一例が図7に示した有向グラフである。
【0064】
次のステップ208では、検索語を除外するか否かを判断する。ユーザはステップ206の処理により表示部50に示された有向グラフ(ここでは図7に示した有向グラフ)を参照し、煩雑で分かりづらい等の理由により表示を変更したい場合等、検索語を除外した語同士の関係を示す有向グラフを生成して表示させるよう、ユーザインターフェイス部43により指示する。当該指示がなされた場合は、ステップ208で肯定され、ステップ210へ進む。
【0065】
次のステップ210では、抽出した文により構成される集合(部分集合)を対象に設定し、検索語を除外してグラフ生成処理を実行する。具体的には、図3に示したステップ110〜124のグラフ生成処理を行うが、検索を行った検索語を除いたその他の語の頻度を計算する等して、当該検索語を除くその他の語同士の関係を示す有向グラフを生成する。そして、次のステップ212では、生成された有向グラフを表示部50に表示させる。
【0066】
本実施の形態のグラフ生成装置40において、全データ記憶部44に記憶されているアンケートを「携帯」という語で検索した場合に生成される有向グラフの具体的一例を図11に示す。なお、本実施の形態の有向グラフでは、出現頻度が高く他の語と多くの関係を持つ上位5つの語を二重丸で囲んで示している。図11と図7とを比較するとわかるように、「携帯」という語が除外された図11の方が語同士の関係が煩雑に示されるのが抑制されており、「携帯」についてどのような事が語られているのかが容易に把握される。図11に示した有向グラフから、「メール」、「マナー」、「便利」、「子供」、及び「親」が「携帯」での大きな話題となっていることがわかる。
【0067】
次のステップ214では、再検索を行うか否か判断する。ユーザはステップ212の処理により表示部50に示された有向グラフ(図11に示した有向グラフ)を参照し、さらに絞り込みを行いたい場合等、さらに検索を行いたい場合は、その旨をユーザインターフェイス部43により指示する。当該指示がなされない場合(または、検索を行わない旨の指示がユーザによりなされた場合)は、ステップ214で否定されて本処理を終了する。一方、再検索するように指示された場合は、ステップ214で肯定されてステップ200に戻り、本処理を繰り返す。
【0068】
さらに具体的一例として、「便利」という語が検索語に設定されて本処理を繰り返す場合について説明する。ステップ200〜204の処理により「便利」という語を含んで有向グラフを生成し、ステップ206で表示する。「便利」という語を含んで生成・表示される有向グラフの具体的一例を図12に示す。
【0069】
さらに、次のステップ208で肯定されると、次のステップ210で「便利」という語を除外して有向グラフを生成し、ステップ212で表示する。「便利」という語を含まずに生成・表示される有向グラフの具体的一例を図13に示す。図12と図13とを比較すると、図13の方が「便利」についてどのような事が語られているのかが容易に把握される。図13に示した有向グラフから、「マナー」、「必要」、「私」、「連絡」、及び「メール」が「便利」での大きな話題となっていることがわかる。
【0070】
さらに、次のステップ214で肯定されて検索を繰り返す場合について説明する。具体的一例として、「マナー」という語が検索語に設定されて本処理を繰り返す場合について説明する。上述したように、ステップ200〜204の処理により「マナー」という語を含んで有向グラフを生成し、ステップ206で表示する。「マナー」という語を含んで生成・表示される有向グラフの具体的一例を図14に示す。
【0071】
さらに、次のステップ208で肯定されると、次のステップ210で「マナー」という語を除外して有向グラフを生成し、ステップ212で表示する。「マナー」という語を含まずに生成・表示される有向グラフの具体的一例を図15に示す。図14と図15とを比較すると、図15の方が「マナー」についてどのような事が語られているのかが容易に把握される。図15に示した有向グラフから、「悪さ」、「私」、「電話」、「メール」、及び「最近」が「マナー」での大きな話題となっていることがわかる。
【0072】
さらに、次のステップ214で再び肯定されて検索を繰り返す場合について説明する。具体的一例として、「私」という語が検索語に設定されて本処理を繰り返す場合について説明する。上述したように、ステップ200〜204の処理により「私」という語を含んで有向グラフを生成し、ステップ206で表示する。「私」という語を含んで生成・表示される有向グラフの具体的一例を図16に示す。図16に示した有向グラフから、「私」、「使用」、「コメント」、「以前」、及び「発信源」が「私」での大きな話題となっていることがわかる。表示部50に示された有向グラフにより、ユーザが検索語を除外した表示やさらなる絞り込みが必要ではないと判断した場合は、その旨がユーザインターフェイス部43により指示される。本実施の形態では、図16に示した有向グラフを表示した後、その旨がユーザにより指示される。そこで、次のステップ208では、否定されて本処理を終了する。
【0073】
なお、本処理を終了する前に、表示されている有向グラフ(図16)に対応する原文のコメントの文章を表示部20に提示させて、ユーザに内容を確認させるようにしてもよい。図17に、本実施の形態のグラフ生成装置で検索された「携帯」、「便利」、「マナー」、及び「私」を含むコメントの提示の具体的一例を示す。
【0074】
以上説明したように、本実施の形態では、全データ記憶部44に、全データ(携帯電話に関するアンケート、全体集合)が記憶されており、検索語が設定されると、抽出部45が、全データ記憶部44に記憶されているアンケートのコメントの文から、検索語が含まれる文を検索し、検索語が含まれる文により構成される部分集合を抽出する。検索語を除外するように指示されると、検索語を除外して、グラフ生成部48で有向グラフを生成して、表示部50に表示する。さらに検索を行う(絞り込み検索を行う)場合は、同様に、先に設定された検索語及び今回設定された検索語の両語を除外して、グラフ生成部48で有向グラフを生成して、表示部50に表示する。
【0075】
これにより、指定された語が含まれる文を抽出した集合に対して当該文に含まれる語同士の関係を指定された語を含んでグラフに示す場合に比べて、語同士の関係が煩雑に示されるのが抑制される。検索語は、全ての文に含まれており、頻度が高いことはユーザも認識しているため、有向グラフ上に表示されなくても問題なく、頻度が高い語を使用しないことにより、語同士の関係が煩雑に示されるのが抑制され、検索語に関して語られている事柄が容易に把握されるようになる。
【0076】
このように本実施の形態では、検索語を除外して、グラフ生成部48で有向グラフを生成して、表示部50に表示するようにしているため、当該有向グラフ注意は、当該検索語が表示されず、語同士の関係が煩雑に示されるのを抑制しているがさらに、その他の語(ユーザにより指定された語等)を有向グラフの表示から除外するようにしてもよい。例えば「携帯」という語で検索した結果の有向グラフ(図11)において、「便利」という語を非表示とする場合、ステップ202で抽出された、「携帯」という語で検索された文により構成される部分集合に対してステップ210で、「携帯」と「便利」という語を除外して有向グラフを生成するようにすればよい。この有向グラフの具体的一例を図18に示す。図18に示した有向グラフにより、「携帯」で検索された文(コメント)において、「便利」という語に関して語られている事柄が容易に把握されるようになる。
【0077】
なお、本実施の形態では、生成された有向グラフを表示部50に表示させるようにしているがこれに限らず、インターネット等の通信回線を介して他の装置(コンピュータ)等に出力するようにしてもよいし、プリントアウトして出力するようにしてもよい。また、表示部50は、ユーザインターフェイス部43と共用であってもよい。
【0078】
また、本実施の形態では、有向グラフを生成するグラフ生成装置40について説明したがこれに限らず、棒グラフ等その他の種類のグラフを生成するものであってもよくグラフの種類は限定されない。なお、有向グラフでは、検索により生成されたグラフ同士の見かけの形状が大きく異なるため(例えば、図11と図13とを参照)有向グラフを生成する場合に、より効果が高くなる。
【0079】
[第2の実施の形態]
次に、第1の実施の形態のグラフ生成装置40の機能に加えて、対象となる語に対応する同義語を定義して有向グラフを生成する機能を備えたグラフ生成装置の構成及びその動作について詳細に説明する。
【0080】
図19に、本実施の形態のグラフ生成装置の概略構成を示す。なお、本実施の形態のグラフ生成装置60は、設定された同義語を記憶する同義語記憶部62をさらに備えると共に、設定された同義語を1つの語として扱って形態解析部66、設定された同義語を1つの語として扱って有向グラフを生成するグラフ生成部68を備えている。また、対象となる語に対応する同義語を定義して有向グラフを生成する処理を行うための制御プログラム65がROM54に記憶されている。なお、その他の構成については、第1の実施の形態の10と略同様であるため、略同様の構成、及びその動作については詳細な説明を省略する。
【0081】
次に、本実施の形態のグラフ生成装置60の動作例を説明する。図20は、グラフ生成装置40の動作例を示したフローチャートであり、当該フローチャートに示した処理は、グラフ生成装置60の制御部42で実行される。
【0082】
ステップ300は、第1の実施の形態のグラフ生成装置40で実行される処理のステップ200に対応し、同様にして検索語を設定する。
【0083】
次のステップ302では、同義語を設定するか否か判断する。同義語の設定方法は、ユーザによりユーザインターフェイス部43によって設定させるようにするとよい。例えば、ユーザにより同義語を設定する対象となる語に対応する同義語を1個または複数個、定義させることにより設定させるようにしてもよいし、予め定められ、同義語記憶部62に記憶されている同義語のリストから選択させるようにしてもよい。なお、ユーザにより対象となる語を指定させ、当該対象となる語に対応する同義語を指定させた場合は、これを同義語のリストとして同義語記憶部62に記憶する。
【0084】
同義語記憶部62に記憶される同義語のリストの具体的一例を図21に示す。図21に示した例は、ユーザが「子供」という対象となる語に対応して、「子ども」、「幼児」、「小学生」、「中学生」、「高校生」、「大学生」、「学生」、「子供たち」、「子供達」等の語を同義語として定義した場合の同義語のリストである。これにより、同義語のリストに示された語は一括して「子供*」という代表名(語)として扱われる(「子供*」という語にみなされる)ようになる。
【0085】
ステップ302で否定された場合(同義語を設定しない場合)は、ステップ306へ進み、一方、ステップ302で肯定された場合は、ステップ304へ進み、ステップ304では、同義語を設定し、記憶した後、ステップ306へ進む。
【0086】
ステップ304以降の処理である、ステップ306〜ステップ318の各処理は、各々、第1の実施の形態のグラフ生成装置40で実行される処理のステップ202〜214に対応している。従って、同義語を設定しない場合は、第1の実施の形態と同様の処理が行われる。
【0087】
一方、同義語が設定された場合では、第1の実施の形態と略同様の処理が行われるが、ステップ308及びステップ314では、同義語のリストに基づいて代表名の語を用いて有向グラフを生成する。上述の図21に示した同義語のリストが適用された場合に生成される有向グラフの具体的一例を図22に示す。
【0088】
以上説明したように、本実施の形態では、同義語が設定されると、グラフ生成部68は、同義語記憶部62に記憶されている同義語のリストに基づいて、同義語のリストに記載されている語を全て、代表名の語とみなして有向グラフを生成し、表示部50に表示する。
【0089】
このように本実施の形態では、同じ概念の語を同義語として設定し、一括して扱うため、さらに、語同士の関係が煩雑に示されるのが抑制される。なお、煩雑さが抑制されるものの、複数の語を一括して扱うため、粗くなる場合がある。細かな表示を行うか、煩雑さを抑制するかは、生成された有向グラフを見て適宜、利用者が判断して、同義語の設定を行うか否かを指示するようにすればよい。
【0090】
また、同義語として定義された語に含まれる語(例えば、図21に示した同義語のリストでは「学生」という語等)について、どのような事柄が語られているのかを参照したい場合等に対しては、段階的に同義語の設定がなされるように同義語のリストを生成し、同義語記憶部62に記憶させておけばよい。ユーザが、使用する同義語のリスト(定義)の適用を設定するようにすればよい。段階的に適用するための同義語のリストの例を図23に示す。図23に示した同義語のリストにおいて、代表名「子供(達)*」の同義語のリスト及び代表名「学生*」の同義語のリストを適用して有向グラフを作成した場合の具体的一例を図24に示す。このようにすることにより、有向グラフ中に「子供(達)*」という語と「学生*」という語とが表示されるため、例えば「学生*」と「学校」との関係等が容易に把握されるようになる。
【符号の説明】
【0091】
10、40、60 グラフ生成装置
12、42 制御部
14、44 全データ記憶部
16、46、66 形態解析部
18、48、68 グラフ生成部
20、50 表示部
25、45、65 制御プログラム
43 ユーザインターフェイス部
45 抽出部
62 同義語記憶部
【特許請求の範囲】
【請求項1】
複数の文により構成される全体集合から、指定された指定語が含まれる文により構成される部分集合を抽出する抽出手段と、
前記部分集合を構成する文から前記指定語以外の語の出現頻度を計数し、計数した出現頻度に応じて、前記指定語以外の語同士の関係を示すグラフを予め定められた規則により生成する生成手段と、
前記生成手段により生成された前記グラフを出力する出力手段と、
を備えたグラフ生成装置。
【請求項2】
前記生成手段により前記グラフの生成を行った後、前記指定語と異なる他の指定語がさらに指定された場合は、前記抽出手段は前記部分集合からさらに前記異なる他の指定語が含まれる文により構成される部分集合を抽出し、前記生成手段は、前記異なる他の指定語が含まれる文により構成される部分集合を構成する文から前記指定語以外でかつ前記異なる他の指定語以外の語の出現頻度を計数し、計数した出現頻度に応じて、前記指定語以外でかつ前記異なる他の指定語以外の語同士の関係を示すグラフを前記予め定められた規則により生成する請求項1に記載のグラフ生成装置。
【請求項3】
前記生成手段により前記グラフの生成を行った後、前記指定語と異なる他の指定語がさらに指定された場合は、前記生成手段は、前記部分集合を構成する文から前記指定語以外でかつ前記異なる他の指定語以外の語の出現頻度を計数し、計数した出現頻度に応じて、前記指定語以外でかつ前記異なる他の指定語以外の語同士の関係を示すグラフを前記予め定められた規則により生成する請求項1に記載のグラフ生成装置。
【請求項4】
前記全体集合を構成する文から語の出現頻度を計数し、計数した出現頻度が高い順に前記指定語を指定する指定手段を備えた、請求項1から請求項3のいずれか1項に記載のグラフ生成装置。
【請求項5】
前記指定語を利用者に指定させる指定手段を備えた、請求項1から請求項3のいずれか1項に記載のグラフ生成装置。
【請求項6】
前記生成手段が前記予め定められた規則により生成する前記グラフは、有向グラフである請求項1から請求項5のいずれか1項に記載のグラフ生成装置。
【請求項7】
対象となる語に対応する同義語を利用者に設定させる同義語設定手段と、
前記同義語設定手段に設定させた対象となる語及び当該対象となる語に対応する同義語を記憶する記憶手段と、
を備え、前記生成手段は、前記記憶手段に記憶された対象となる語及び当該対象となる語に対応する同義語を1つの語として、前記予め定められた規則により前記グラフを生成する、
請求項1から請求項6のいずれか1項に記載のグラフ生成装置。
【請求項8】
複数の文により構成される全体集合から、指定された指定語が含まれる文により構成される部分集合を抽出手段により抽出するステップと、
前記部分集合を構成する文から前記指定語以外の語の出現頻度を計数し、計数した出現頻度に応じて、前記指定語以外の語同士の関係を示すグラフを予め定められた規則によって生成手段により生成するステップと、
前記生成手段により生成された前記グラフを出力手段により出力するステップと、
を備えた処理をコンピュータに実行させるためのグラフ生成プログラム。
【請求項1】
複数の文により構成される全体集合から、指定された指定語が含まれる文により構成される部分集合を抽出する抽出手段と、
前記部分集合を構成する文から前記指定語以外の語の出現頻度を計数し、計数した出現頻度に応じて、前記指定語以外の語同士の関係を示すグラフを予め定められた規則により生成する生成手段と、
前記生成手段により生成された前記グラフを出力する出力手段と、
を備えたグラフ生成装置。
【請求項2】
前記生成手段により前記グラフの生成を行った後、前記指定語と異なる他の指定語がさらに指定された場合は、前記抽出手段は前記部分集合からさらに前記異なる他の指定語が含まれる文により構成される部分集合を抽出し、前記生成手段は、前記異なる他の指定語が含まれる文により構成される部分集合を構成する文から前記指定語以外でかつ前記異なる他の指定語以外の語の出現頻度を計数し、計数した出現頻度に応じて、前記指定語以外でかつ前記異なる他の指定語以外の語同士の関係を示すグラフを前記予め定められた規則により生成する請求項1に記載のグラフ生成装置。
【請求項3】
前記生成手段により前記グラフの生成を行った後、前記指定語と異なる他の指定語がさらに指定された場合は、前記生成手段は、前記部分集合を構成する文から前記指定語以外でかつ前記異なる他の指定語以外の語の出現頻度を計数し、計数した出現頻度に応じて、前記指定語以外でかつ前記異なる他の指定語以外の語同士の関係を示すグラフを前記予め定められた規則により生成する請求項1に記載のグラフ生成装置。
【請求項4】
前記全体集合を構成する文から語の出現頻度を計数し、計数した出現頻度が高い順に前記指定語を指定する指定手段を備えた、請求項1から請求項3のいずれか1項に記載のグラフ生成装置。
【請求項5】
前記指定語を利用者に指定させる指定手段を備えた、請求項1から請求項3のいずれか1項に記載のグラフ生成装置。
【請求項6】
前記生成手段が前記予め定められた規則により生成する前記グラフは、有向グラフである請求項1から請求項5のいずれか1項に記載のグラフ生成装置。
【請求項7】
対象となる語に対応する同義語を利用者に設定させる同義語設定手段と、
前記同義語設定手段に設定させた対象となる語及び当該対象となる語に対応する同義語を記憶する記憶手段と、
を備え、前記生成手段は、前記記憶手段に記憶された対象となる語及び当該対象となる語に対応する同義語を1つの語として、前記予め定められた規則により前記グラフを生成する、
請求項1から請求項6のいずれか1項に記載のグラフ生成装置。
【請求項8】
複数の文により構成される全体集合から、指定された指定語が含まれる文により構成される部分集合を抽出手段により抽出するステップと、
前記部分集合を構成する文から前記指定語以外の語の出現頻度を計数し、計数した出現頻度に応じて、前記指定語以外の語同士の関係を示すグラフを予め定められた規則によって生成手段により生成するステップと、
前記生成手段により生成された前記グラフを出力手段により出力するステップと、
を備えた処理をコンピュータに実行させるためのグラフ生成プログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【図22】
【図23】
【図24】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【図22】
【図23】
【図24】
【公開番号】特開2011−170614(P2011−170614A)
【公開日】平成23年9月1日(2011.9.1)
【国際特許分類】
【出願番号】特願2010−33720(P2010−33720)
【出願日】平成22年2月18日(2010.2.18)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】
【公開日】平成23年9月1日(2011.9.1)
【国際特許分類】
【出願日】平成22年2月18日(2010.2.18)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】
[ Back to top ]