共起表現抽出装置及び共起表現抽出方法
【課題】従来の頻度に基づいた共起表現抽出では、一般的な語同士の冗長な共起表現が多く取り出されてしまう問題点がある。冗長な組合せを取り除く方法の一つとして差分解析が考えられるが、意見の種類などの事前知識を用いることができない場合、差分をとる層は必ずしも自明ではないという問題があった。
【解決手段】本発明では、ウェブ掲示板の書き込みのように時系列情報を持つテキストデータから抽出される候補語に対して時間変化を基準に特徴区間を付与し、特徴区間と非特徴区間のテキストで差分解析を行うことで、冗長な組合せを大きく削減した共起抽出を実現する装置を提案する。
【解決手段】本発明では、ウェブ掲示板の書き込みのように時系列情報を持つテキストデータから抽出される候補語に対して時間変化を基準に特徴区間を付与し、特徴区間と非特徴区間のテキストで差分解析を行うことで、冗長な組合せを大きく削減した共起抽出を実現する装置を提案する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、テキストマイニングの分野において大量の時系列テキストから冗長な表現を除いた有効な共起表現の抽出を行う共起表現抽出装置及び共起抽出方法に関する。
【背景技術】
【0002】
近年、ウェブ掲示板などでますます大量のテキストが電子的に蓄えられている。例えば薄型テレビに関するある風評の掲示板では1年間で20,000件を越える記事が書き込まれており、含まれる文章の数は100,000文を上回っている。これらの大量のテキストは話題の対象に関する重要な知見を含んでいると考えられる一方、その大量さから人間がすべてを監視し客観的に知識を抽出することは非常に難しくなっている。そのため、大量のテキストの具体的な内容を把握するための方法として、テキストマイニングの手法は重要な技術であると言える。このテキストマイニング技術を用いてウェブサイトから話題を抽出する方法も多く提案されており、例えば、キーワード抽出とキーワードの階層化を用いて具体的な話題を抽出する技術が行われている(特許文献1参照)。
【0003】
ここで、テキストから内容についての知識を得るためのよりシンプルな手法として、共起表現の抽出が挙げられる。共起表現の抽出は、一般的に頻出する表現と共に共起する表現であって、例えば、テキストに頻出する単語と基に共起する単語を抽出することによって、テキストの内容を表す単語の組合せを自動抽出する手法である。このような手法を用いることで、大量のテキストから一定の基準で共起表現を抽出することが可能となり、テキストの話題を具体的に知ることができる。
【0004】
一方、テキストにおいて出現頻度の高い単語は一般的な語である場合が多い。よって従来の頻度に基づいた共起表現抽出方法では、上位の一般的な語の同士の冗長な共起表現が多く取り出され、重要な話題を見逃してしまう可能性が高い。
【0005】
冗長な組合せの例として、あるメーカーのテレビについて風評ウェブサイト掲示板から頻度の高い共起表現を抽出した結果を図14に示す。図14では「録画−HDD」「LAN−HDD」といった具体的な話題を表す組合せも抽出されているものの、大半は「う−こと」など意味のない組合せになってしまっていることが分かる。
【0006】
このような冗長な表現を取り除く有力な方法の1つとして差分解析が挙げられる。差分解析は注目するテキストとその他のテキストにおいて出現頻度の差が大きい単語を抽出する手法である。差分解析により注目するテキストとその他のテキストの両方に現れる一般的な語を取り除き、注目するテキストに偏って現れる特徴的な単語のみを抽出することが可能になる。
【0007】
通常、差分解析における注目するテキストとその他のテキストは、テキストに関する事前知識を用いて決定される。代表的な例としては、意見ラベルに注目した差分解析が挙げられる。例えばあるアンケートの意見ラベル「要望・悪い意見」の記述に特有の話題を抽出したい場合、「要望・悪い意見」のテキストと「良い意見・その他の感想」のテキストで差分解析を行うことが有効であると考えられる。
【0008】
しかし、例えば風評ウェブサイトの掲示板のようなテキストにおいて共起表現の抽出を行う際には、同様の差分解析を用いることは難しい。
【0009】
風評ウェブサイトの掲示板のテキストでは、必ずしも記事に「良い意見」「悪い意見」といったラベルが付与されていないことがあり、単純に差分解析を行えない場合が考えられる。前述のようにウェブサイト上のテキストは大量に存在するため、記事のすべてにラベルを付与されることは難しい。
【0010】
風評ウェブサイトの掲示板の記事全てにラベルが付与されているケースとしては、書き手が自ら記事にラベルを付与している場合が考えられる。近年の掲示板ではこのような書き込み方法が採用されていることも多く、サイト内のすべての記事に意見ラベルが付与されていることも期待できる。しかし、仮にすべての記事に対して意見ラベルが付与されている場合でも、風評ウェブサイトの性質から書き込まれた記事の多くは「感想」や「質問」であり、「良い意見」といったその他のテキストが非常に少量しか存在しない場合が多い。テキストの量がアンバランスである場合には差分解析は有効に機能しないことが多いため、書き手により意見ラベルが与えられている場合でも差分解析を用いることは難しいと言える。
【0011】
前述のように、テレビのような製品に関する風評であればメーカー間の差分解析による抽出も考えられる。しかし、単語の抽出と異なり、共起表現の抽出ではメーカーの特有の単語と一般的な単語の組合せが多く生じてしまい、結果的には多くの冗長な組合せが生じてしまう。
【0012】
ここで、図15にて、テレビについての風評ウェブサイト掲示板から、差分解析によりあるメーカーに特有の共起表現を抽出した結果を示す。製品Aは注目したメーカーの製品である。製品Aを含む共起表現の組合せは、他のメーカーの記事ではほとんど出現しないため、ここではメーカーに特有の共起表現として抽出される。しかし、実際には製品Aと共起する語には一般的な語が多く含まれているため、図15に示すように、多くの冗長な組合せを含んでしまっている。
【0013】
一方で、メーカーに特有な語同士の共起表現のみを抽出した場合、例えば「製品A−故障」といった重要な話題を見落としてしまう可能性がある。
【0014】
他の事前知識を利用した差分解析においても同様の問題が発生するため、風評ウェブサイトの掲示板のようなテキストから差分解析を用いて冗長な共起表現を取り除くことは難しい。
【0015】
以上の説明から、従来では、風評ウェブサイトの掲示板のような大量の時系列テキストデータに対して従来の頻度や差分解析により共起表現の抽出を行った場合、冗長な組合せが多く取り出されてしまい、重要な話題が見逃されてしまう可能性が高いという問題があった。
【先行技術文献】
【特許文献】
【0016】
【特許文献1】特開2008−40636号
【発明の概要】
【発明が解決しようとする課題】
【0017】
本発明はこのような問題を考慮してなされたもので、ウェブ掲示板の書き込みのように時系列情報を持つテキストデータから抽出される候補語に対して時間変化を基準に特徴区間を付与し、特徴区間と非特徴区間のテキストで差分解析を行うことで、冗長な組合せを大きく削減した共起抽出を実現する共起表現抽出装置を提供することを目的とする。
【課題を解決するための手段】
【0018】
上記目的を達成するために、本発明の共起表現抽出装置は、「記事IDと記事内容と記事が生成された時間情報を含む時系列テキストデータを格納する時系列テキストデータ格納部と、抽出対象となる単語の品詞情報を格納した対象品詞格納部と、前記時系列テキストデータ格納部の記事内容から、前記対象品詞格納部に格納された前記品詞情報に該当する単語であって、かつ出現頻度が高い候補語を抽出する頻出候補語抽出部と、前記頻出候補語抽出部にて抽出された候補語を含むリストを格納する頻出候補単語リスト格納部と、特徴区間を定義するフィルタを格納した特徴区間フィルタ格納部と、前記候補語ごとに、前記時間情報に対応する複数の区間において前記時系列テキストデータ中の記事内容中に前記候補語が出現する出現率の変化を示す時系列ヒストグラムを求めるともに、前記時系列ヒストグラム及び前記フィルタを用いて時間的に特徴のある区間を示す区間情報を付与する特徴区間付与部と、前記特徴区間付与部にて区間情報を付与された各単語を格納する特徴区間付き単語リスト格納部と、前記特徴区間付き単語リスト格納部にて格納された前記単語および区間情報に基づき、前記時系列テキストデータの区間の間で差分解析を行って、頻出する単語と共に共起する単語を抽出する共起表現と前記共起表現が特徴的に出現している特徴区間を示す共起表現リストを抽出する区間差分解析部と、前記共起表現リストを表示する結果表示部と、を具備する」ことを特徴としている。
【0019】
また、本発明の共起表現抽出方法は、「記事IDと記事内容と記事が生成された時間情報を含む時系列テキストデータの記事内容から、抽出対象となる単語の品詞情報に該当する単語であって、かつ出現頻度が高い候補語を抽出する工程と、前記抽出された候補語ごとに、前記時間情報に対応する複数の区間において、前記時系列テキストデータ中の記事内容中に前記候補語が出現する出現率の変化を示す時系列ヒストグラムを求める工程と、前記候補語ごとに、前記時系列ヒストグラム及び特徴区間を定義するフィルタを用いて時間的に特徴のある区間を示す区間情報を付与する工程と、前記区間情報を付与された候補語および区間情報に基づき、前記時系列テキストデータの区間の間で差分解析を行って、頻出する単語と共に共起する単語を抽出する共起表現と前記共起表現が特徴的に出現している特徴区間を示す共起表現リストを抽出する工程と、前記共起表現リストを表示する工程と、を具備する」ことを特徴としている。
【発明の効果】
【0020】
本発明によれば、大量の時系列テキストデータにおける共起表現抽出において、自動的に冗長な組合せを取り除き重要な組合せを抽出することができる。
【図面の簡単な説明】
【0021】
【図1】本発明の実施形態に係る共起表現抽出装置の全体構成を示すブロック図。
【図2】本発明の実施形態に係る時系列テキストデータを形態素解析して得られた記事内容の例を示すテーブル。
【図3】本発明の実施形態に係る頻出候補単語リスト格納部に格納されている頻出候補語リストの例を示すテーブル。
【図4】本発明の実施形態に係る対象品詞格納部の例を示すテーブル。
【図5】本発明の実施形態に係る特徴区間付き単語リスト格納部に格納されているリストの例を示すテーブル。
【図6】本発明の実施形態に係る頻出候補抽出部の処理を示すフローチャート図。
【図7】本発明の実施形態に係る特徴区間付与部の処理を示すフローチャート図。
【図8】本発明の実施形態に係る時系列ヒストグラムの例を示す図。
【図9】本発明の実施形態に係る時系列ヒストグラム生成S53の処理を示すフローチャート図。
【図10】本発明の実施形態に係る特徴区間フィルタの例を示す図。
【図11】本発明の実施形態に係る区間差分解析部の処理を示すフローチャート図。
【図12】本発明の実施形態に係る結果表示部にて表示された例を示すテーブル。
【図13】本発明の実施形態に係る区間差分改正部の詳細な処理を示すフローチャート図。
【図14】従来技術における風評ウェブサイト掲示板から頻度の高い共起表現を抽出した例を示すテーブル。
【図15】従来技術における差分解析により得られた特有の共起表現を抽出した例を示すテーブル。
【発明を実施するための形態】
【0022】
以下、本発明の実施形態について図面を用いて説明する。
【実施例】
【0023】
図1は、本発明の一実施形態に係る共起表現抽出装置1の全体構成例を示すブロック図である。図1に示されるように、本発明の実施形態に係る共起表現抽出装置1は、時系列テキストデータ格納部11、頻出候補語抽出部12、頻出候補単語リスト格納部13、対象品詞格納部14、特徴区間付与部15、特徴区間付き単語リスト格納部16、特徴区間フィルタ格納部17、区間差分解析部18、および結果表示部19から構成されている。
【0024】
時系列テキストデータ格納部11は、時系列テキストデータを格納する。時系列テキストデータとは、記事のIDと記事内容と記事が生成された時間情報からなるデータを示す。図2に本発明の実施形態に係る時系列テキストデータの例を示す。図2に示すように、時系列テキストデータ格納部11は、ID、時間帯、記事内容の項目を有するテーブルが保存されている。ここで記事内容は形態素解析により語尾の変化などを吸収した形で単語に切り分けられていることが望ましい。
【0025】
頻出候補語抽出部12は、注目する区間全ての時系列テキストデータの記事内容に出現する単語の出現回数を計算し、後述の対象品詞格納部14に格納されている対象品詞であり、かつ出現回数がある閾値以上を満たす単語を頻出候補単語として抽出する。
【0026】
頻出候補単語リスト格納部13は、頻出候補単語抽出部12により抽出された単語とその出現回数を格納する。頻出候補語格納部13に格納されている頻出候補語リストの例を図3に示す。
【0027】
図3に示すように、頻出候補単語リスト格納部13は、順位、頻出候補語及び出現回数の項目を有するテーブルが保存されている。頻出候補単語リスト格納部13では、対象品詞を話題や評価を表す品詞に限ることで、共起表現の抽出に用いる候補語を削減することができる。また、後述するように、ある程度冗長な組合せを減らすことが可能になっている。また単語の最低出現回数を小さくしておくことで、綴りの間違えや珍しい固有名詞のみを候補語から除くことができ、同様にある程度冗長な組合せを減らすことが可能になっている。
【0028】
対象品詞格納部14は、共起表現の候補として抽出するべき対象品詞を格納する。この対象品詞は、例えば話題として用いられる名詞や具体的な評価を表す形容詞などを選択しておくと、冗長な組合せの候補が削減できるため好適である。図4に対象品詞の例を示す。
【0029】
図4に示すように、対象品詞格納部14は、<>内の名称は形態素解析において品詞を表す名称で、例えば<名>は名詞、<形>は形容詞を表している。ここで、二つの品詞が「/」で繋がれた場合には、この品詞が組み合わさった場合の複合語を1語と扱い取り出すことになる。例えば<頭>/<名>では接頭語と名詞の組合せを表しており、例として「新システム」や「他メーカー」などが挙げられる。このように対象品詞を設定することで、例えば接頭語の「新」や「他」など単独では意味を持ちにくい語を削除することが可能になり、冗長な組合せが発生しにくくなる。
【0030】
特徴区間付与部15は、候補語読込部151、ヒストグラム生成部152、フィルタ作用部153にて構成されている。
【0031】
特徴区間付与部15は、後述の特徴区間フィルタ格納部17に格納されている特徴区間フィルタを読み込み、頻出候補単語リスト格納部13に格納されている頻出候補語を順番に選択し、各頻出候補語の出現に基づく時系列ヒストグラムを生成し、時系列ヒストグラムが特徴区間フィルタの基準を満たしている区間を特徴区間として単語に付与する。
【0032】
具体的には、候補語読込部151は、後述するように、頻出候補単語格納リスト格納部13の頻出候補語を順番に選択する。また、ヒストグラム生成部152は、後述するように、候補語読込部151にて選択された各候補語の一定区間ごとの出現率を計算し、時系列テキストデータ格納部11を読み込んで、時間情報と出現率からなる時系列ヒストグラムを一時的に各候補語に付与する。フィルタ作用部153は、後述するように、特徴区間フィルタ格納部17に格納されている特徴区間フィルタを読み込み、ヒストグラム生成部152にて候補語に付与された時系列ヒストグラムの時間情報と出現率を用いて、時系列ヒストグラムから特徴区間を抽出して候補語に付与し、特徴区間付き単語リスト格納部16に出力する。
【0033】
特徴区間付き単語リスト格納部16は、特徴区間付与部15により特徴区間を付与された単語を格納する。
【0034】
ここで、特徴区間付き単語リスト格納部16に格納されている特徴区間付き単語リストの例を図5に示す。ここで特徴区間「w*」は各頻出候補語が特徴的に出現する区間を表している。特徴区間数は、各頻出候補語の特徴区間の数を表している。
【0035】
図5に示すように、ユーザが最低区間数を設定することで、特徴的に出現する回数が少なく重要でないと考えられる頻出候補語を候補から削除することができ、共起表現抽出時にある程度冗長な組合せを減らすことが可能になっている。例えば最小区間数を10と設定すると、図5の例では「購入」、「テレビ」、「価格」が特徴区間付き単語リストから除外されることになる。
【0036】
特徴区間フィルタ格納部17は、単語の出現に基づく時系列ヒストグラムにおける特徴区間を定義するフィルタを格納する。特徴区間フィルタとして、例えば選択された単語のある区間での出現回数が、その単語の出現回数の平均と標準偏差の和を大きく上回った区間を特徴区間として抽出するというフィルタが考えられる。
【0037】
区間差分解析部18は、特徴区間付き単語リスト格納部16に格納された特徴区間付き単語を選択し、時系列テキストデータ格納部11に格納された各特徴区間と非特徴区間における時系列テキストデータを用いて差分解析を行うことで、各特徴区間に特有の共起表現を抽出する。
【0038】
結果表示部19は区間差分解析部18により抽出された共起表現と特徴区間を表示する。
【0039】
以下、共起表現抽出装置1における動作を図面を用いて説明する。なお、本発明形態においては時系列テキストデータの記事内容は図2のように形態素解析済みの形で得られており、記事内容中の各単語には対応する品詞が付与されているものとする。また、時系列テキストデータは2007年1月7日から2008年5月18日までの72週間が対象であるとする。
【0040】
図6は、頻出候補語抽出部12における処理の具体例を示すフローチャートである。
【0041】
まず、頻出候補語抽出部12は、全ての時系列テキストデータの記事内容中で選択されていない単語が存在するか否かを判断する(S21)。もし記事内容に選択する単語があって選択されていない単語が存在すれば(S21のYes)、頻出候補語抽出部12は、時系列テキストデータ格納部11に格納されている記事内容から、未だに選択されていない単語を選択する(S22)。
【0042】
次に、頻出候補語抽出部12は、選択された単語の品詞が対象品詞格納部14に格納されている対象品詞であるか否かを判断する(S23)。もし対象品詞であれば(S23のYes)、頻出候補語抽出部12は、選択された単語がすでに頻出候補語リストに登録済みか否かを判断する(S24)。一方、選択された単語が対象品詞でない場合には(S23のNo)、頻出候補語抽出部12は、全ての時系列テキストデータの記事内容中で選択されていない単語が存在するか否かを判断する(S21)。
【0043】
さらに、頻出候補語抽出部12は、選択された単語がすでに頻出候補語リストに登録済みか否かを判断する(S24)。もし選択された単語がすでに頻出候補語リストに登録されていなければ(S24のNo)、頻出候補語抽出部12は、選択された単語を頻出候補語リストに加え、出現回数を1回とする(S25)。一方、選択された単語が登録済みであれば(S24のYes)、頻出候補語抽出部12は、選択された単語の頻出候補語リスト上の出現回数に1を加える(S26)。
【0044】
もし記事内容に選択する単語がなくて全ての単語が選択済みであれば(S21のNo)、頻出候補語抽出部12は、出現回数がユーザの設定した最低出現回数を下回った単語を頻出候補語リストから除外する(S27)。
【0045】
そして、頻出候補語抽出部12は、単語とその出現回数からなる頻出候補語リストを頻出候補語リスト格納部13に格納し、処理を終了する(S28)。
【0046】
以上の処理により、時系列テキストデータから頻出候補語リストを抽出することができる。
【0047】
図7は、特徴区間付与部15における処理の具体例を示すフローチャートである。
【0048】
まず、特徴区間付与部15の候補単語読込部151は、時系列テキストデータ格納部111を読み込み、頻出候補単語格納部13に格納されている頻出候補単語の中で選択されていない単語が存在するか否かを判断する(S51)。もし選択されていない単語が存在すれば(S51のYes)、特徴区間付与部15の候補単語読込部151は、頻出候補単語格納部13に格納されている頻出候補単語を1つ選択する(S52)。ここでは選択された単語をajで表す。一方、もし全ての単語が選択済みであれば(S51のNo)、特徴区間付与部15の候補単語読込部151は、処理を終了する。
【0049】
次に、特徴区間付与部15のヒストグラム生成部152は、選択された単語の時系列ヒストグラムを図9のフローによって生成する(S53)。時系列ヒストグラムは、選択された単語がどの時期にどの程度出現したかを時系列で表したものである。時系列ヒストグラムの一例を図8に示す。図8の例では横軸は時間、縦軸は出現率となっている。
【0050】
図8の時系列ヒストグラムを生成する手段について、図9のフローチャートを用いて説明する。
【0051】
まず、特徴区間付与部15のヒストグラム生成部152は、共起表現抽出の対象となる時系列テキストデータの含まれる区間を候補区間に分割する(S531)。候補区間の長さは図8の横軸の1点に相当する。本実施例では時系列テキストデータの区間は72週間であるため、候補区間の長さを1週間とすると候補区間の数は72となる。この例では2007年1月7日から数えて第i週の候補区間を以下の式で表すこととする。
【数1】
【0052】
次に、特徴区間付与部15のヒストグラム生成部152は、未選択の候補区間が存在するか否かを判別する(S532)。もし未選択の候補区間が存在した場合には(S532のYes)、特徴区間付与部15のヒストグラム生成部152は、1つの候補区間を選択する(S533)。ここでは候補区間Wiが選択されたとする。一方、全ての候補区間が選択済みの場合には(S533のNo)、特徴区間付与部15のヒストグラム生成部152は、処理を終了する。
【0053】
また、特徴区間付与部15のヒストグラム生成部152は、選択された候補区間に含まれる時系列テキストデータを抽出する(S534)。この抽出には時系列テキストデータの時間情報を用いる。
【0054】
さらに、特徴区間付与部15のヒストグラム生成部152は、選択された候補区間において、S52において選択された単語aの出現率FRi^(aj)を計算する(S535)。ここでFRi^(aj)は、例えば候補区間iに含まれる時系列テキストデータ数fiと、同じく候補区間iに出現する単語aj数fi^(aj)を用いて以下の式で表される。
【数2】
【0055】
以上の処理により、単語ajに関する出現率の時系列ヒストグラムが生成される。
【0056】
図7に戻って、特徴区間付与部15のフィルタ作用部153は、特徴区間フィルタ格納部17に格納されている特徴区間フィルタにより、単語ajに関する出現率の時系列ヒストグラムを検査することで、基準を満たす特徴区間を決定する。なお、特徴区間付与部15のフィルタ作用部153は、時系列ヒストグラムの平均と標準偏差の値を求めておく。(S54)。
【0057】
ここで、特徴区間フィルタ格納部17に保存されている特徴区間フィルタと検査方法の具体例を図10に示す。図10に示すように、特徴区間フィルタはある単語の出現率が平均と標準偏差の和を上回ったときの区間を特徴区間として抽出する。図10の例では、単語ajの出現率について検査を行い出現率がフィルタの条件を満たした候補区間i1、i2、i3を特徴区間としている。この特徴区間フィルタは、単語ajに関する議論が急激に盛り上がった場合を特徴区間とみなすことを表している。ウェブサイトの掲示板のようなテキストデータでは、ある書き込みに対してレスと呼ばれる書き込みが連続して連なるケースがあるため、このようなフィルタは現実的であると言える。
【0058】
図7に戻って、特徴区間付与部15のフィルタ作用部153は、抽出された特徴区間の数がユーザが設定した最小区間数以上であるか否かを判別する(S55)。もし特徴区間の数が最小区間数以上である場合には(S55のYes)、特徴区間付与部15のフィルタ作用部153は、単語ajに特徴区間を付与し特徴区間付き単語リスト格納部に出力する(S56)。ここで、前述の議論が急激に盛り上がった場合を特徴区間とみなす特徴区間フィルタを用いた場合には、最小区間数は、72週間でajが何回話題として盛り上がったときにS56に進むかを表す数になる。ユーザは、例えば最小区間数を18とすることで月に1度程度盛り上がるajを特徴区間付き単語リストに出力するといった設定が可能である。話題として急激に頻度が上がることが少ないajは特徴区間付き単語リストには含まれないため、共起表現抽出に用いる冗長な候補を削減することが可能である。
【0059】
一方、もし特徴区間の数が最小区間数未満である場合には(S55のNo)、S51に戻る。
【0060】
以上の処理により、頻出候補語リストから、図5に示すような単語が特徴的に出現する特徴区間を付与した特徴区間付き単語リストを出力することができる。ここで、特徴区間付き単語とは、単語が特徴的に出現する特徴区間と頻出候補語を組み合わせたものをいう。
【0061】
図11は、区間差分解析部18における処理の具体例を示すフローチャートである。
【0062】
まず、区間差分解析部18は、特徴区間付き単語リスト格納部16に格納されている特徴区間付き単語リスト中で選択されていない単語が存在するか否かを判断する(S81)。もし選択されていない単語が存在すれば(S81のYes)、区間差分解析部18は、未選択の特徴区間付き単語を1つ選択する(S82)。ここでは選択された単語をAjとする。一方、全ての単語が選択済みであれば(S81のNo)、区間差分解析部18は、処理を終了する。
【0063】
次に、区間差分解析部18は、選択された特徴区間付き単語を用いて、各特徴区間に特有の共起表現リストを抽出し、結果表示部19に出力する(S83)。
【0064】
この処理により結果表示部19に出力される共起表現リストの例を図12に示す。
【0065】
図12に示すように、結果表示部19では、抽出された共起表現とその共起表現が特徴的に出現している特徴区間が示されている。ここで、特徴区間内の括弧内の4つの数字(A/B/C/D)は、Aが特徴区間における共起表現の出現頻度、Bが単語1の特徴区間における出現頻度、Cが単語2の特徴区間における出現頻度、Dが特徴区間内の全テキスト数を表している。例えば、「USB−HDD」の共起表現に注目すると、この共起表現はW56とW59とW71の3つの特徴区間で特徴的に出現していることが分かる。「USB−HDD」の単語1と単語2はそれぞれ「USB」「HDD」となり、例えばW56において「USB−HDD」は42回、「USB」は59回、「HDD」は104回、全テキストは1546文であったことが分かる。一般的には「USB」は様々な用いられ方をするデバイス名であるが、特徴区間W56では「USB」が出現した59回のうち「HDD」と42回共起しており、「USB−HDD」が特に話題になっていたことが分かる。
【0066】
また、図12の例を抽出するための特徴区間特有話題抽出ステップS83の具体的な処理について、図13のフローチャートを用いて説明する。
【0067】
まず、区間差分解析部18は、単語に付与されている特徴区間の中で未選択のものがあるか否かを判断する(S831)。もし特徴区間の中で未選択のものがあれば(S831のYes)、区間差分解析部18は、未選択の特徴区間を1つ選択する(S832)。ここでは選択された特徴区間をWiとする。一方、もしすべての特徴区間が選択済みであれば(S831のNo)、区間差分解析部18は、処理を終了する。
【0068】
次に、区間差分解析部18は、選択された特徴区間における共起頻度と、非特徴区間における共起頻度の差分D(Aj, B)を計算する(S833)。ここで非特徴区間とは、Ajに特徴区間として付与されている区間を除いた全ての候補区間を表している。差分D(Aj, B)は例えば以下の式を用いて計算される。ただし、以下の式において、特徴区間Wiにおけるテキスト数をf_Wi、Wiにおける単語Ajと単語Bが共起する回数をf_Wi^(Aj∩B)、非特徴区間におけるテキスト数をf_N、非特徴区間で単語Ajと単語Bが共起する回数をf_N^(Aj∩B)としている。
【数3】
【0069】
さらに、区間差分解析部18は、差分D(Aj, B)があらかじめ定められた最小共起率差よりも大きいか否かを判断する(S834)。もしD(Aj, B)が最小共起率差よりも大きければ(S834のYes)、区間差分解析部18は、共起表現と選択されている特徴区間Wiを結果表示部19に出力する(S835)。一方で、もしD(Aj, B)が最小共起率差未満であれば(S834のNo)、S831に戻る。
【0070】
以上の処理により、特徴区間付き単語リストから、差分解析により特徴区間に特徴的に出現する共起表現を抽出することができる。特徴区間と非特徴区間の差分解析を行うことで、フィルタの条件を満たした記事に特有の共起表現を抽出していることになる。
【0071】
以上のように、本実施例では、フィルタは話題が急激に盛り上がった区間を特徴区間としているため、本処理を行うことで話題が盛り上がった区間でどのようなことが話題になっているかを抽出できると考えられる。また同一の掲示板情報の異なる区間を用いて差分解析を行っているため、掲示板の全テキストで共通に出現する共起表現は削除されることになり、冗長な組合せを大きく削減することができる。
【0072】
(比較例)
実際に、従来技術によって得られた図14や図15の結果と本発明によって得られた図12の結果を比較すると、本発明によって、数万にも及ぶ組合せの中から、有効な12組の共起表現が抽出できていることが分かる。
【0073】
なお、本発明は、上記した各実施の形態には限定されず、種々変形して実施できることは言うまでもない。例えば、上記実施形態では、特徴区間フィルタ格納部17において、特徴区間フィルタとして出現率の急激な増加を表すために出現率の平均と標準偏差を用いたが、ここに統計的な検定の基準を用いることも可能である。また急激な変化だけでなく、段階的な変化を特徴区間とする特徴区間フィルタを用いることも可能である。また区間差分解析部18において、特徴区間と非特徴区間の差分を計算したが、例えば特徴区間同士を比較し差分解析を行うことも可能である。
【0074】
要するに、本発明は上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記各実施形態に開示されている複数の構成要素の適宜な組合せにより、種々の形態を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を省略してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【符号の説明】
【0075】
1…共起表現抽出装置
11…時系列テキストデータ格納部
12…頻出候補語抽出部
13…頻出候補単語リスト格納部
14…対象品詞格納部
15…特徴区間付与部
16…特徴区間付き単語リスト格納部
17…特徴区間フィルタ格納部
18…区間差分解析部
19…結果表示部
151…候補単語読込部
152…ヒストグラム生成部
153…フィルタ作用部
【技術分野】
【0001】
本発明は、テキストマイニングの分野において大量の時系列テキストから冗長な表現を除いた有効な共起表現の抽出を行う共起表現抽出装置及び共起抽出方法に関する。
【背景技術】
【0002】
近年、ウェブ掲示板などでますます大量のテキストが電子的に蓄えられている。例えば薄型テレビに関するある風評の掲示板では1年間で20,000件を越える記事が書き込まれており、含まれる文章の数は100,000文を上回っている。これらの大量のテキストは話題の対象に関する重要な知見を含んでいると考えられる一方、その大量さから人間がすべてを監視し客観的に知識を抽出することは非常に難しくなっている。そのため、大量のテキストの具体的な内容を把握するための方法として、テキストマイニングの手法は重要な技術であると言える。このテキストマイニング技術を用いてウェブサイトから話題を抽出する方法も多く提案されており、例えば、キーワード抽出とキーワードの階層化を用いて具体的な話題を抽出する技術が行われている(特許文献1参照)。
【0003】
ここで、テキストから内容についての知識を得るためのよりシンプルな手法として、共起表現の抽出が挙げられる。共起表現の抽出は、一般的に頻出する表現と共に共起する表現であって、例えば、テキストに頻出する単語と基に共起する単語を抽出することによって、テキストの内容を表す単語の組合せを自動抽出する手法である。このような手法を用いることで、大量のテキストから一定の基準で共起表現を抽出することが可能となり、テキストの話題を具体的に知ることができる。
【0004】
一方、テキストにおいて出現頻度の高い単語は一般的な語である場合が多い。よって従来の頻度に基づいた共起表現抽出方法では、上位の一般的な語の同士の冗長な共起表現が多く取り出され、重要な話題を見逃してしまう可能性が高い。
【0005】
冗長な組合せの例として、あるメーカーのテレビについて風評ウェブサイト掲示板から頻度の高い共起表現を抽出した結果を図14に示す。図14では「録画−HDD」「LAN−HDD」といった具体的な話題を表す組合せも抽出されているものの、大半は「う−こと」など意味のない組合せになってしまっていることが分かる。
【0006】
このような冗長な表現を取り除く有力な方法の1つとして差分解析が挙げられる。差分解析は注目するテキストとその他のテキストにおいて出現頻度の差が大きい単語を抽出する手法である。差分解析により注目するテキストとその他のテキストの両方に現れる一般的な語を取り除き、注目するテキストに偏って現れる特徴的な単語のみを抽出することが可能になる。
【0007】
通常、差分解析における注目するテキストとその他のテキストは、テキストに関する事前知識を用いて決定される。代表的な例としては、意見ラベルに注目した差分解析が挙げられる。例えばあるアンケートの意見ラベル「要望・悪い意見」の記述に特有の話題を抽出したい場合、「要望・悪い意見」のテキストと「良い意見・その他の感想」のテキストで差分解析を行うことが有効であると考えられる。
【0008】
しかし、例えば風評ウェブサイトの掲示板のようなテキストにおいて共起表現の抽出を行う際には、同様の差分解析を用いることは難しい。
【0009】
風評ウェブサイトの掲示板のテキストでは、必ずしも記事に「良い意見」「悪い意見」といったラベルが付与されていないことがあり、単純に差分解析を行えない場合が考えられる。前述のようにウェブサイト上のテキストは大量に存在するため、記事のすべてにラベルを付与されることは難しい。
【0010】
風評ウェブサイトの掲示板の記事全てにラベルが付与されているケースとしては、書き手が自ら記事にラベルを付与している場合が考えられる。近年の掲示板ではこのような書き込み方法が採用されていることも多く、サイト内のすべての記事に意見ラベルが付与されていることも期待できる。しかし、仮にすべての記事に対して意見ラベルが付与されている場合でも、風評ウェブサイトの性質から書き込まれた記事の多くは「感想」や「質問」であり、「良い意見」といったその他のテキストが非常に少量しか存在しない場合が多い。テキストの量がアンバランスである場合には差分解析は有効に機能しないことが多いため、書き手により意見ラベルが与えられている場合でも差分解析を用いることは難しいと言える。
【0011】
前述のように、テレビのような製品に関する風評であればメーカー間の差分解析による抽出も考えられる。しかし、単語の抽出と異なり、共起表現の抽出ではメーカーの特有の単語と一般的な単語の組合せが多く生じてしまい、結果的には多くの冗長な組合せが生じてしまう。
【0012】
ここで、図15にて、テレビについての風評ウェブサイト掲示板から、差分解析によりあるメーカーに特有の共起表現を抽出した結果を示す。製品Aは注目したメーカーの製品である。製品Aを含む共起表現の組合せは、他のメーカーの記事ではほとんど出現しないため、ここではメーカーに特有の共起表現として抽出される。しかし、実際には製品Aと共起する語には一般的な語が多く含まれているため、図15に示すように、多くの冗長な組合せを含んでしまっている。
【0013】
一方で、メーカーに特有な語同士の共起表現のみを抽出した場合、例えば「製品A−故障」といった重要な話題を見落としてしまう可能性がある。
【0014】
他の事前知識を利用した差分解析においても同様の問題が発生するため、風評ウェブサイトの掲示板のようなテキストから差分解析を用いて冗長な共起表現を取り除くことは難しい。
【0015】
以上の説明から、従来では、風評ウェブサイトの掲示板のような大量の時系列テキストデータに対して従来の頻度や差分解析により共起表現の抽出を行った場合、冗長な組合せが多く取り出されてしまい、重要な話題が見逃されてしまう可能性が高いという問題があった。
【先行技術文献】
【特許文献】
【0016】
【特許文献1】特開2008−40636号
【発明の概要】
【発明が解決しようとする課題】
【0017】
本発明はこのような問題を考慮してなされたもので、ウェブ掲示板の書き込みのように時系列情報を持つテキストデータから抽出される候補語に対して時間変化を基準に特徴区間を付与し、特徴区間と非特徴区間のテキストで差分解析を行うことで、冗長な組合せを大きく削減した共起抽出を実現する共起表現抽出装置を提供することを目的とする。
【課題を解決するための手段】
【0018】
上記目的を達成するために、本発明の共起表現抽出装置は、「記事IDと記事内容と記事が生成された時間情報を含む時系列テキストデータを格納する時系列テキストデータ格納部と、抽出対象となる単語の品詞情報を格納した対象品詞格納部と、前記時系列テキストデータ格納部の記事内容から、前記対象品詞格納部に格納された前記品詞情報に該当する単語であって、かつ出現頻度が高い候補語を抽出する頻出候補語抽出部と、前記頻出候補語抽出部にて抽出された候補語を含むリストを格納する頻出候補単語リスト格納部と、特徴区間を定義するフィルタを格納した特徴区間フィルタ格納部と、前記候補語ごとに、前記時間情報に対応する複数の区間において前記時系列テキストデータ中の記事内容中に前記候補語が出現する出現率の変化を示す時系列ヒストグラムを求めるともに、前記時系列ヒストグラム及び前記フィルタを用いて時間的に特徴のある区間を示す区間情報を付与する特徴区間付与部と、前記特徴区間付与部にて区間情報を付与された各単語を格納する特徴区間付き単語リスト格納部と、前記特徴区間付き単語リスト格納部にて格納された前記単語および区間情報に基づき、前記時系列テキストデータの区間の間で差分解析を行って、頻出する単語と共に共起する単語を抽出する共起表現と前記共起表現が特徴的に出現している特徴区間を示す共起表現リストを抽出する区間差分解析部と、前記共起表現リストを表示する結果表示部と、を具備する」ことを特徴としている。
【0019】
また、本発明の共起表現抽出方法は、「記事IDと記事内容と記事が生成された時間情報を含む時系列テキストデータの記事内容から、抽出対象となる単語の品詞情報に該当する単語であって、かつ出現頻度が高い候補語を抽出する工程と、前記抽出された候補語ごとに、前記時間情報に対応する複数の区間において、前記時系列テキストデータ中の記事内容中に前記候補語が出現する出現率の変化を示す時系列ヒストグラムを求める工程と、前記候補語ごとに、前記時系列ヒストグラム及び特徴区間を定義するフィルタを用いて時間的に特徴のある区間を示す区間情報を付与する工程と、前記区間情報を付与された候補語および区間情報に基づき、前記時系列テキストデータの区間の間で差分解析を行って、頻出する単語と共に共起する単語を抽出する共起表現と前記共起表現が特徴的に出現している特徴区間を示す共起表現リストを抽出する工程と、前記共起表現リストを表示する工程と、を具備する」ことを特徴としている。
【発明の効果】
【0020】
本発明によれば、大量の時系列テキストデータにおける共起表現抽出において、自動的に冗長な組合せを取り除き重要な組合せを抽出することができる。
【図面の簡単な説明】
【0021】
【図1】本発明の実施形態に係る共起表現抽出装置の全体構成を示すブロック図。
【図2】本発明の実施形態に係る時系列テキストデータを形態素解析して得られた記事内容の例を示すテーブル。
【図3】本発明の実施形態に係る頻出候補単語リスト格納部に格納されている頻出候補語リストの例を示すテーブル。
【図4】本発明の実施形態に係る対象品詞格納部の例を示すテーブル。
【図5】本発明の実施形態に係る特徴区間付き単語リスト格納部に格納されているリストの例を示すテーブル。
【図6】本発明の実施形態に係る頻出候補抽出部の処理を示すフローチャート図。
【図7】本発明の実施形態に係る特徴区間付与部の処理を示すフローチャート図。
【図8】本発明の実施形態に係る時系列ヒストグラムの例を示す図。
【図9】本発明の実施形態に係る時系列ヒストグラム生成S53の処理を示すフローチャート図。
【図10】本発明の実施形態に係る特徴区間フィルタの例を示す図。
【図11】本発明の実施形態に係る区間差分解析部の処理を示すフローチャート図。
【図12】本発明の実施形態に係る結果表示部にて表示された例を示すテーブル。
【図13】本発明の実施形態に係る区間差分改正部の詳細な処理を示すフローチャート図。
【図14】従来技術における風評ウェブサイト掲示板から頻度の高い共起表現を抽出した例を示すテーブル。
【図15】従来技術における差分解析により得られた特有の共起表現を抽出した例を示すテーブル。
【発明を実施するための形態】
【0022】
以下、本発明の実施形態について図面を用いて説明する。
【実施例】
【0023】
図1は、本発明の一実施形態に係る共起表現抽出装置1の全体構成例を示すブロック図である。図1に示されるように、本発明の実施形態に係る共起表現抽出装置1は、時系列テキストデータ格納部11、頻出候補語抽出部12、頻出候補単語リスト格納部13、対象品詞格納部14、特徴区間付与部15、特徴区間付き単語リスト格納部16、特徴区間フィルタ格納部17、区間差分解析部18、および結果表示部19から構成されている。
【0024】
時系列テキストデータ格納部11は、時系列テキストデータを格納する。時系列テキストデータとは、記事のIDと記事内容と記事が生成された時間情報からなるデータを示す。図2に本発明の実施形態に係る時系列テキストデータの例を示す。図2に示すように、時系列テキストデータ格納部11は、ID、時間帯、記事内容の項目を有するテーブルが保存されている。ここで記事内容は形態素解析により語尾の変化などを吸収した形で単語に切り分けられていることが望ましい。
【0025】
頻出候補語抽出部12は、注目する区間全ての時系列テキストデータの記事内容に出現する単語の出現回数を計算し、後述の対象品詞格納部14に格納されている対象品詞であり、かつ出現回数がある閾値以上を満たす単語を頻出候補単語として抽出する。
【0026】
頻出候補単語リスト格納部13は、頻出候補単語抽出部12により抽出された単語とその出現回数を格納する。頻出候補語格納部13に格納されている頻出候補語リストの例を図3に示す。
【0027】
図3に示すように、頻出候補単語リスト格納部13は、順位、頻出候補語及び出現回数の項目を有するテーブルが保存されている。頻出候補単語リスト格納部13では、対象品詞を話題や評価を表す品詞に限ることで、共起表現の抽出に用いる候補語を削減することができる。また、後述するように、ある程度冗長な組合せを減らすことが可能になっている。また単語の最低出現回数を小さくしておくことで、綴りの間違えや珍しい固有名詞のみを候補語から除くことができ、同様にある程度冗長な組合せを減らすことが可能になっている。
【0028】
対象品詞格納部14は、共起表現の候補として抽出するべき対象品詞を格納する。この対象品詞は、例えば話題として用いられる名詞や具体的な評価を表す形容詞などを選択しておくと、冗長な組合せの候補が削減できるため好適である。図4に対象品詞の例を示す。
【0029】
図4に示すように、対象品詞格納部14は、<>内の名称は形態素解析において品詞を表す名称で、例えば<名>は名詞、<形>は形容詞を表している。ここで、二つの品詞が「/」で繋がれた場合には、この品詞が組み合わさった場合の複合語を1語と扱い取り出すことになる。例えば<頭>/<名>では接頭語と名詞の組合せを表しており、例として「新システム」や「他メーカー」などが挙げられる。このように対象品詞を設定することで、例えば接頭語の「新」や「他」など単独では意味を持ちにくい語を削除することが可能になり、冗長な組合せが発生しにくくなる。
【0030】
特徴区間付与部15は、候補語読込部151、ヒストグラム生成部152、フィルタ作用部153にて構成されている。
【0031】
特徴区間付与部15は、後述の特徴区間フィルタ格納部17に格納されている特徴区間フィルタを読み込み、頻出候補単語リスト格納部13に格納されている頻出候補語を順番に選択し、各頻出候補語の出現に基づく時系列ヒストグラムを生成し、時系列ヒストグラムが特徴区間フィルタの基準を満たしている区間を特徴区間として単語に付与する。
【0032】
具体的には、候補語読込部151は、後述するように、頻出候補単語格納リスト格納部13の頻出候補語を順番に選択する。また、ヒストグラム生成部152は、後述するように、候補語読込部151にて選択された各候補語の一定区間ごとの出現率を計算し、時系列テキストデータ格納部11を読み込んで、時間情報と出現率からなる時系列ヒストグラムを一時的に各候補語に付与する。フィルタ作用部153は、後述するように、特徴区間フィルタ格納部17に格納されている特徴区間フィルタを読み込み、ヒストグラム生成部152にて候補語に付与された時系列ヒストグラムの時間情報と出現率を用いて、時系列ヒストグラムから特徴区間を抽出して候補語に付与し、特徴区間付き単語リスト格納部16に出力する。
【0033】
特徴区間付き単語リスト格納部16は、特徴区間付与部15により特徴区間を付与された単語を格納する。
【0034】
ここで、特徴区間付き単語リスト格納部16に格納されている特徴区間付き単語リストの例を図5に示す。ここで特徴区間「w*」は各頻出候補語が特徴的に出現する区間を表している。特徴区間数は、各頻出候補語の特徴区間の数を表している。
【0035】
図5に示すように、ユーザが最低区間数を設定することで、特徴的に出現する回数が少なく重要でないと考えられる頻出候補語を候補から削除することができ、共起表現抽出時にある程度冗長な組合せを減らすことが可能になっている。例えば最小区間数を10と設定すると、図5の例では「購入」、「テレビ」、「価格」が特徴区間付き単語リストから除外されることになる。
【0036】
特徴区間フィルタ格納部17は、単語の出現に基づく時系列ヒストグラムにおける特徴区間を定義するフィルタを格納する。特徴区間フィルタとして、例えば選択された単語のある区間での出現回数が、その単語の出現回数の平均と標準偏差の和を大きく上回った区間を特徴区間として抽出するというフィルタが考えられる。
【0037】
区間差分解析部18は、特徴区間付き単語リスト格納部16に格納された特徴区間付き単語を選択し、時系列テキストデータ格納部11に格納された各特徴区間と非特徴区間における時系列テキストデータを用いて差分解析を行うことで、各特徴区間に特有の共起表現を抽出する。
【0038】
結果表示部19は区間差分解析部18により抽出された共起表現と特徴区間を表示する。
【0039】
以下、共起表現抽出装置1における動作を図面を用いて説明する。なお、本発明形態においては時系列テキストデータの記事内容は図2のように形態素解析済みの形で得られており、記事内容中の各単語には対応する品詞が付与されているものとする。また、時系列テキストデータは2007年1月7日から2008年5月18日までの72週間が対象であるとする。
【0040】
図6は、頻出候補語抽出部12における処理の具体例を示すフローチャートである。
【0041】
まず、頻出候補語抽出部12は、全ての時系列テキストデータの記事内容中で選択されていない単語が存在するか否かを判断する(S21)。もし記事内容に選択する単語があって選択されていない単語が存在すれば(S21のYes)、頻出候補語抽出部12は、時系列テキストデータ格納部11に格納されている記事内容から、未だに選択されていない単語を選択する(S22)。
【0042】
次に、頻出候補語抽出部12は、選択された単語の品詞が対象品詞格納部14に格納されている対象品詞であるか否かを判断する(S23)。もし対象品詞であれば(S23のYes)、頻出候補語抽出部12は、選択された単語がすでに頻出候補語リストに登録済みか否かを判断する(S24)。一方、選択された単語が対象品詞でない場合には(S23のNo)、頻出候補語抽出部12は、全ての時系列テキストデータの記事内容中で選択されていない単語が存在するか否かを判断する(S21)。
【0043】
さらに、頻出候補語抽出部12は、選択された単語がすでに頻出候補語リストに登録済みか否かを判断する(S24)。もし選択された単語がすでに頻出候補語リストに登録されていなければ(S24のNo)、頻出候補語抽出部12は、選択された単語を頻出候補語リストに加え、出現回数を1回とする(S25)。一方、選択された単語が登録済みであれば(S24のYes)、頻出候補語抽出部12は、選択された単語の頻出候補語リスト上の出現回数に1を加える(S26)。
【0044】
もし記事内容に選択する単語がなくて全ての単語が選択済みであれば(S21のNo)、頻出候補語抽出部12は、出現回数がユーザの設定した最低出現回数を下回った単語を頻出候補語リストから除外する(S27)。
【0045】
そして、頻出候補語抽出部12は、単語とその出現回数からなる頻出候補語リストを頻出候補語リスト格納部13に格納し、処理を終了する(S28)。
【0046】
以上の処理により、時系列テキストデータから頻出候補語リストを抽出することができる。
【0047】
図7は、特徴区間付与部15における処理の具体例を示すフローチャートである。
【0048】
まず、特徴区間付与部15の候補単語読込部151は、時系列テキストデータ格納部111を読み込み、頻出候補単語格納部13に格納されている頻出候補単語の中で選択されていない単語が存在するか否かを判断する(S51)。もし選択されていない単語が存在すれば(S51のYes)、特徴区間付与部15の候補単語読込部151は、頻出候補単語格納部13に格納されている頻出候補単語を1つ選択する(S52)。ここでは選択された単語をajで表す。一方、もし全ての単語が選択済みであれば(S51のNo)、特徴区間付与部15の候補単語読込部151は、処理を終了する。
【0049】
次に、特徴区間付与部15のヒストグラム生成部152は、選択された単語の時系列ヒストグラムを図9のフローによって生成する(S53)。時系列ヒストグラムは、選択された単語がどの時期にどの程度出現したかを時系列で表したものである。時系列ヒストグラムの一例を図8に示す。図8の例では横軸は時間、縦軸は出現率となっている。
【0050】
図8の時系列ヒストグラムを生成する手段について、図9のフローチャートを用いて説明する。
【0051】
まず、特徴区間付与部15のヒストグラム生成部152は、共起表現抽出の対象となる時系列テキストデータの含まれる区間を候補区間に分割する(S531)。候補区間の長さは図8の横軸の1点に相当する。本実施例では時系列テキストデータの区間は72週間であるため、候補区間の長さを1週間とすると候補区間の数は72となる。この例では2007年1月7日から数えて第i週の候補区間を以下の式で表すこととする。
【数1】
【0052】
次に、特徴区間付与部15のヒストグラム生成部152は、未選択の候補区間が存在するか否かを判別する(S532)。もし未選択の候補区間が存在した場合には(S532のYes)、特徴区間付与部15のヒストグラム生成部152は、1つの候補区間を選択する(S533)。ここでは候補区間Wiが選択されたとする。一方、全ての候補区間が選択済みの場合には(S533のNo)、特徴区間付与部15のヒストグラム生成部152は、処理を終了する。
【0053】
また、特徴区間付与部15のヒストグラム生成部152は、選択された候補区間に含まれる時系列テキストデータを抽出する(S534)。この抽出には時系列テキストデータの時間情報を用いる。
【0054】
さらに、特徴区間付与部15のヒストグラム生成部152は、選択された候補区間において、S52において選択された単語aの出現率FRi^(aj)を計算する(S535)。ここでFRi^(aj)は、例えば候補区間iに含まれる時系列テキストデータ数fiと、同じく候補区間iに出現する単語aj数fi^(aj)を用いて以下の式で表される。
【数2】
【0055】
以上の処理により、単語ajに関する出現率の時系列ヒストグラムが生成される。
【0056】
図7に戻って、特徴区間付与部15のフィルタ作用部153は、特徴区間フィルタ格納部17に格納されている特徴区間フィルタにより、単語ajに関する出現率の時系列ヒストグラムを検査することで、基準を満たす特徴区間を決定する。なお、特徴区間付与部15のフィルタ作用部153は、時系列ヒストグラムの平均と標準偏差の値を求めておく。(S54)。
【0057】
ここで、特徴区間フィルタ格納部17に保存されている特徴区間フィルタと検査方法の具体例を図10に示す。図10に示すように、特徴区間フィルタはある単語の出現率が平均と標準偏差の和を上回ったときの区間を特徴区間として抽出する。図10の例では、単語ajの出現率について検査を行い出現率がフィルタの条件を満たした候補区間i1、i2、i3を特徴区間としている。この特徴区間フィルタは、単語ajに関する議論が急激に盛り上がった場合を特徴区間とみなすことを表している。ウェブサイトの掲示板のようなテキストデータでは、ある書き込みに対してレスと呼ばれる書き込みが連続して連なるケースがあるため、このようなフィルタは現実的であると言える。
【0058】
図7に戻って、特徴区間付与部15のフィルタ作用部153は、抽出された特徴区間の数がユーザが設定した最小区間数以上であるか否かを判別する(S55)。もし特徴区間の数が最小区間数以上である場合には(S55のYes)、特徴区間付与部15のフィルタ作用部153は、単語ajに特徴区間を付与し特徴区間付き単語リスト格納部に出力する(S56)。ここで、前述の議論が急激に盛り上がった場合を特徴区間とみなす特徴区間フィルタを用いた場合には、最小区間数は、72週間でajが何回話題として盛り上がったときにS56に進むかを表す数になる。ユーザは、例えば最小区間数を18とすることで月に1度程度盛り上がるajを特徴区間付き単語リストに出力するといった設定が可能である。話題として急激に頻度が上がることが少ないajは特徴区間付き単語リストには含まれないため、共起表現抽出に用いる冗長な候補を削減することが可能である。
【0059】
一方、もし特徴区間の数が最小区間数未満である場合には(S55のNo)、S51に戻る。
【0060】
以上の処理により、頻出候補語リストから、図5に示すような単語が特徴的に出現する特徴区間を付与した特徴区間付き単語リストを出力することができる。ここで、特徴区間付き単語とは、単語が特徴的に出現する特徴区間と頻出候補語を組み合わせたものをいう。
【0061】
図11は、区間差分解析部18における処理の具体例を示すフローチャートである。
【0062】
まず、区間差分解析部18は、特徴区間付き単語リスト格納部16に格納されている特徴区間付き単語リスト中で選択されていない単語が存在するか否かを判断する(S81)。もし選択されていない単語が存在すれば(S81のYes)、区間差分解析部18は、未選択の特徴区間付き単語を1つ選択する(S82)。ここでは選択された単語をAjとする。一方、全ての単語が選択済みであれば(S81のNo)、区間差分解析部18は、処理を終了する。
【0063】
次に、区間差分解析部18は、選択された特徴区間付き単語を用いて、各特徴区間に特有の共起表現リストを抽出し、結果表示部19に出力する(S83)。
【0064】
この処理により結果表示部19に出力される共起表現リストの例を図12に示す。
【0065】
図12に示すように、結果表示部19では、抽出された共起表現とその共起表現が特徴的に出現している特徴区間が示されている。ここで、特徴区間内の括弧内の4つの数字(A/B/C/D)は、Aが特徴区間における共起表現の出現頻度、Bが単語1の特徴区間における出現頻度、Cが単語2の特徴区間における出現頻度、Dが特徴区間内の全テキスト数を表している。例えば、「USB−HDD」の共起表現に注目すると、この共起表現はW56とW59とW71の3つの特徴区間で特徴的に出現していることが分かる。「USB−HDD」の単語1と単語2はそれぞれ「USB」「HDD」となり、例えばW56において「USB−HDD」は42回、「USB」は59回、「HDD」は104回、全テキストは1546文であったことが分かる。一般的には「USB」は様々な用いられ方をするデバイス名であるが、特徴区間W56では「USB」が出現した59回のうち「HDD」と42回共起しており、「USB−HDD」が特に話題になっていたことが分かる。
【0066】
また、図12の例を抽出するための特徴区間特有話題抽出ステップS83の具体的な処理について、図13のフローチャートを用いて説明する。
【0067】
まず、区間差分解析部18は、単語に付与されている特徴区間の中で未選択のものがあるか否かを判断する(S831)。もし特徴区間の中で未選択のものがあれば(S831のYes)、区間差分解析部18は、未選択の特徴区間を1つ選択する(S832)。ここでは選択された特徴区間をWiとする。一方、もしすべての特徴区間が選択済みであれば(S831のNo)、区間差分解析部18は、処理を終了する。
【0068】
次に、区間差分解析部18は、選択された特徴区間における共起頻度と、非特徴区間における共起頻度の差分D(Aj, B)を計算する(S833)。ここで非特徴区間とは、Ajに特徴区間として付与されている区間を除いた全ての候補区間を表している。差分D(Aj, B)は例えば以下の式を用いて計算される。ただし、以下の式において、特徴区間Wiにおけるテキスト数をf_Wi、Wiにおける単語Ajと単語Bが共起する回数をf_Wi^(Aj∩B)、非特徴区間におけるテキスト数をf_N、非特徴区間で単語Ajと単語Bが共起する回数をf_N^(Aj∩B)としている。
【数3】
【0069】
さらに、区間差分解析部18は、差分D(Aj, B)があらかじめ定められた最小共起率差よりも大きいか否かを判断する(S834)。もしD(Aj, B)が最小共起率差よりも大きければ(S834のYes)、区間差分解析部18は、共起表現と選択されている特徴区間Wiを結果表示部19に出力する(S835)。一方で、もしD(Aj, B)が最小共起率差未満であれば(S834のNo)、S831に戻る。
【0070】
以上の処理により、特徴区間付き単語リストから、差分解析により特徴区間に特徴的に出現する共起表現を抽出することができる。特徴区間と非特徴区間の差分解析を行うことで、フィルタの条件を満たした記事に特有の共起表現を抽出していることになる。
【0071】
以上のように、本実施例では、フィルタは話題が急激に盛り上がった区間を特徴区間としているため、本処理を行うことで話題が盛り上がった区間でどのようなことが話題になっているかを抽出できると考えられる。また同一の掲示板情報の異なる区間を用いて差分解析を行っているため、掲示板の全テキストで共通に出現する共起表現は削除されることになり、冗長な組合せを大きく削減することができる。
【0072】
(比較例)
実際に、従来技術によって得られた図14や図15の結果と本発明によって得られた図12の結果を比較すると、本発明によって、数万にも及ぶ組合せの中から、有効な12組の共起表現が抽出できていることが分かる。
【0073】
なお、本発明は、上記した各実施の形態には限定されず、種々変形して実施できることは言うまでもない。例えば、上記実施形態では、特徴区間フィルタ格納部17において、特徴区間フィルタとして出現率の急激な増加を表すために出現率の平均と標準偏差を用いたが、ここに統計的な検定の基準を用いることも可能である。また急激な変化だけでなく、段階的な変化を特徴区間とする特徴区間フィルタを用いることも可能である。また区間差分解析部18において、特徴区間と非特徴区間の差分を計算したが、例えば特徴区間同士を比較し差分解析を行うことも可能である。
【0074】
要するに、本発明は上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記各実施形態に開示されている複数の構成要素の適宜な組合せにより、種々の形態を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を省略してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【符号の説明】
【0075】
1…共起表現抽出装置
11…時系列テキストデータ格納部
12…頻出候補語抽出部
13…頻出候補単語リスト格納部
14…対象品詞格納部
15…特徴区間付与部
16…特徴区間付き単語リスト格納部
17…特徴区間フィルタ格納部
18…区間差分解析部
19…結果表示部
151…候補単語読込部
152…ヒストグラム生成部
153…フィルタ作用部
【特許請求の範囲】
【請求項1】
記事IDと記事内容と記事が生成された時間情報を含む時系列テキストデータを格納する時系列テキストデータ格納部と、
抽出対象となる単語の品詞情報を格納した対象品詞格納部と、
前記時系列テキストデータ格納部の記事内容から、前記対象品詞格納部に格納された前記品詞情報に該当する単語であって、かつ出現頻度が高い候補語を抽出する頻出候補語抽出部と、
前記頻出候補語抽出部にて抽出された候補語を含むリストを格納する頻出候補単語リスト格納部と、
特徴区間を定義するフィルタを格納した特徴区間フィルタ格納部と、
前記候補語ごとに、前記時間情報に対応する複数の区間において前記時系列テキストデータ中の記事内容中に前記候補語が出現する出現率の変化を示す時系列ヒストグラムを求めるともに、前記時系列ヒストグラム及び前記フィルタを用いて時間的に特徴のある区間を示す区間情報を付与する特徴区間付与部と、
前記特徴区間付与部にて区間情報を付与された各単語を格納する特徴区間付き単語リスト格納部と、
前記特徴区間付き単語リスト格納部にて格納された前記単語および区間情報に基づき、前記時系列テキストデータの区間の間で差分解析を行って、頻出する単語と共に共起する単語を抽出する共起表現と前記共起表現が特徴的に出現している特徴区間を示す共起表現リストを抽出する区間差分解析部と、
前記共起表現リストを表示する結果表示部と、
を具備することを特徴とする共起表現抽出装置。
【請求項2】
前記区間差分解析部は、選択された単語に付与された特徴区間に含まれるテキストとその他の区間に含まれるテキストを用いて差分解析を行うことを特徴とする請求項1記載の共起表現抽出装置。
【請求項3】
前記特徴区間付与部は、選択された単語に対して前記フィルタにより決定される基準を満たした区間の時間情報を付与することを特徴とする請求項1の共起表現抽出装置。
【請求項4】
前記特徴区間付与部は、
前記頻出候補単語リスト格納部の候補語を順番に選択する候補語読込部と、
前記候補語読込部にて選択された各候補語の一定区間ごとの出現率を計算し、前記時系列テキストデータに基づいて、時間情報と出現率からなる時系列ヒストグラムを各候補語に付与するヒストグラム生成部と、
前記フィルタに基づき、前記ヒストグラム生成部にて候補語に付与された時系列ヒストグラムの時間情報と出現率を用いて、前記時系列ヒストグラムから特徴区間を抽出して前記候補語に付与するフィルタ作用部と、
を具備することを特徴とする請求項1記載の共起表現抽出装置。
【請求項5】
記事IDと記事内容と記事が生成された時間情報を含む時系列テキストデータの記事内容から、抽出対象となる単語の品詞情報に該当する単語であって、かつ出現頻度が高い候補語を抽出する工程と、
前記抽出された候補語ごとに、前記時間情報に対応する複数の区間において、前記時系列テキストデータ中の記事内容中に前記候補語が出現する出現率の変化を示す時系列ヒストグラムを求める工程と、
前記候補語ごとに、前記時系列ヒストグラム及び特徴区間を定義するフィルタを用いて時間的に特徴のある区間を示す区間情報を付与する工程と、
前記区間情報を付与された候補語および区間情報に基づき、前記時系列テキストデータの区間の間で差分解析を行って、頻出する単語と共に共起する単語を抽出する共起表現と前記共起表現が特徴的に出現している特徴区間を示す共起表現リストを抽出する工程と、
前記共起表現リストを表示する工程と、
を具備することを特徴とする共起表現抽出方法。
【請求項1】
記事IDと記事内容と記事が生成された時間情報を含む時系列テキストデータを格納する時系列テキストデータ格納部と、
抽出対象となる単語の品詞情報を格納した対象品詞格納部と、
前記時系列テキストデータ格納部の記事内容から、前記対象品詞格納部に格納された前記品詞情報に該当する単語であって、かつ出現頻度が高い候補語を抽出する頻出候補語抽出部と、
前記頻出候補語抽出部にて抽出された候補語を含むリストを格納する頻出候補単語リスト格納部と、
特徴区間を定義するフィルタを格納した特徴区間フィルタ格納部と、
前記候補語ごとに、前記時間情報に対応する複数の区間において前記時系列テキストデータ中の記事内容中に前記候補語が出現する出現率の変化を示す時系列ヒストグラムを求めるともに、前記時系列ヒストグラム及び前記フィルタを用いて時間的に特徴のある区間を示す区間情報を付与する特徴区間付与部と、
前記特徴区間付与部にて区間情報を付与された各単語を格納する特徴区間付き単語リスト格納部と、
前記特徴区間付き単語リスト格納部にて格納された前記単語および区間情報に基づき、前記時系列テキストデータの区間の間で差分解析を行って、頻出する単語と共に共起する単語を抽出する共起表現と前記共起表現が特徴的に出現している特徴区間を示す共起表現リストを抽出する区間差分解析部と、
前記共起表現リストを表示する結果表示部と、
を具備することを特徴とする共起表現抽出装置。
【請求項2】
前記区間差分解析部は、選択された単語に付与された特徴区間に含まれるテキストとその他の区間に含まれるテキストを用いて差分解析を行うことを特徴とする請求項1記載の共起表現抽出装置。
【請求項3】
前記特徴区間付与部は、選択された単語に対して前記フィルタにより決定される基準を満たした区間の時間情報を付与することを特徴とする請求項1の共起表現抽出装置。
【請求項4】
前記特徴区間付与部は、
前記頻出候補単語リスト格納部の候補語を順番に選択する候補語読込部と、
前記候補語読込部にて選択された各候補語の一定区間ごとの出現率を計算し、前記時系列テキストデータに基づいて、時間情報と出現率からなる時系列ヒストグラムを各候補語に付与するヒストグラム生成部と、
前記フィルタに基づき、前記ヒストグラム生成部にて候補語に付与された時系列ヒストグラムの時間情報と出現率を用いて、前記時系列ヒストグラムから特徴区間を抽出して前記候補語に付与するフィルタ作用部と、
を具備することを特徴とする請求項1記載の共起表現抽出装置。
【請求項5】
記事IDと記事内容と記事が生成された時間情報を含む時系列テキストデータの記事内容から、抽出対象となる単語の品詞情報に該当する単語であって、かつ出現頻度が高い候補語を抽出する工程と、
前記抽出された候補語ごとに、前記時間情報に対応する複数の区間において、前記時系列テキストデータ中の記事内容中に前記候補語が出現する出現率の変化を示す時系列ヒストグラムを求める工程と、
前記候補語ごとに、前記時系列ヒストグラム及び特徴区間を定義するフィルタを用いて時間的に特徴のある区間を示す区間情報を付与する工程と、
前記区間情報を付与された候補語および区間情報に基づき、前記時系列テキストデータの区間の間で差分解析を行って、頻出する単語と共に共起する単語を抽出する共起表現と前記共起表現が特徴的に出現している特徴区間を示す共起表現リストを抽出する工程と、
前記共起表現リストを表示する工程と、
を具備することを特徴とする共起表現抽出方法。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【公開番号】特開2010−224823(P2010−224823A)
【公開日】平成22年10月7日(2010.10.7)
【国際特許分類】
【出願番号】特願2009−70819(P2009−70819)
【出願日】平成21年3月23日(2009.3.23)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】
【公開日】平成22年10月7日(2010.10.7)
【国際特許分類】
【出願日】平成21年3月23日(2009.3.23)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】
[ Back to top ]