説明

具体主題の有無判定装置、方法、及びプログラム

【課題】文書が具体主題を有するか否かを判定する。
【解決手段】名詞句抽出部12で、具体主題の候補となる名詞句を抽出し、意味カテゴリ付与部18で、名詞句各々に意味カテゴリを付与し、エントロピー算出部20で、付与された意味カテゴリの偏りを示すエントロピーを第1の素性として算出する。また、視覚的特徴算出部24で、入力された文書が縦長か横長かを示す第2の素性を算出する。素性ベクトル生成部26で、第1の素性及び第2の素性を並べた素性ベクトルを生成し、具体主題が既知の学習用文書の素性ベクトルを用いて学習された分類器に入力して、入力された文書が具体主題を有するか否かを判定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、具体主題の有無判定装置、方法、及びプログラムに係り、特に、テキストデータとして入力された文書が、固有表現または具体的な物を示す主題である具体主題を有するか否かを判定する具体主題の有無判定装置、方法、及びプログラムに関する。
【背景技術】
【0002】
従来、文書中の単語の頻度やカテゴリなどを利用し、内容に応じて文書を分類する技術が提案されている(例えば、非特許文献1参照)。従来のシステムでは、単語の頻度やカテゴリなどの情報を利用してベクトルを生成し、コサイン類似度などで内容が類似している文書毎に分類している。
【0003】
例えば、図9の文書(A)「今日商品Zを買いました。マンガビューアとして買ったので、それ以外のことにはほとんど利用していません。ですが、マンガビューアとして利用する点においては現時点で最強のマシンだと思います。」、及び文書(B)「表参道のA社にすごい人だかり!何かと思ったら商品Zが売り出されてたのね。ちょっとのぞいてみたけれど、つやつや綺麗で、格好よいマシン。インタフェースは商品Yと同じで、サクサク動く。アプリも多そう。」では、「商品Z」や「マシン」など同じ単語が頻出している。同図の文書(C)「昨日もらったお魚の名前が判明したよ。ドクターフィッシュっていうらしい。足とか指とかつけておくと、古い角質を食べてくれてツルツルになるらしい。痛くないのかな?メダカみたいに見えたんだけどなぁ…。」は他の文書(A)及び(B)と同じ単語が出現していない。このような場合には、従来のシステムでは、文書(A)、(B)は同じグループに、文書(C)は別のグループに分類する。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】成田宏和、太田学、片山薫、石川博、「Web文書検索のための非排他的クラスタリング手法の提案」DEWS2003、2−P−01、2003
【発明の概要】
【発明が解決しようとする課題】
【0005】
ここで、文書がXについて書かれている場合、Xを文書の「主題」と呼び、特に、主題が「固有表現」または「具体的な物」である場合、これを「具体主題」と呼ぶ。また、具体主題は、文書内において名詞句で表記される。例えば、図10の文書(A)「今日商品Zを買いました。マンガビューアとして買ったので、それ以外のことにはほとんど利用していません。ですが、マンガビューアとして利用する点においては現時点で最強のマシンだと思います。」の主題は「商品Z」であり、同図の文書(B)「今日商品Zを買いました。年末セールにはもちろん参戦する予定です。ボーナスでマンガを大人買いしたし、ダウンコート買う予定だし。そうそう、古くなってきたマシンも新しくしたいのですよね。」の主題は「買い物」である。また、「商品Z」は具体的な物を指すため具体主題であるが、「買い物」は場所や物のような具体的な物を指さないため、具体主題ではない。このように、同じような単語が頻出する文書であっても、具体主題を有する文書と有さない文書とがある。例えば、図10の文書(A)は具体主題を有する文書であり、文書(B)は具体主題を有さない文書である。文書に同じような単語(例えば、「商品Z」)が含まれているが、具体主題について書かれているのは文書(A)のみである。
【0006】
しなしながら、従来のシステムのように単語の頻度やカテゴリを利用するだけでは、具体主題を有するか否かで文書を分類することはできない、という問題がある。例えば、図10の文書の場合、従来システムでは、文書(A)及び文書(B)は同じグループに分類されてしまい、具体主題の有無という観点で文書(A)及び文書(B)を別々のグループに分類することができない。
【0007】
本発明は、上記問題点に鑑みてなされたものであり、文書が具体主題を有するか否かを判定することができる具体主題の有無判定装置、方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
上記目的を達成するために、本発明の具体主題の有無判定装置は、入力された文書から名詞句を抽出する名詞句抽出手段と、前記名詞句抽出手段により抽出された名詞句の各々に該名詞句の意味に基づくカテゴリを付与し、前記名詞句の各々に付与されたカテゴリの偏りを示す第1の素性を算出する第1の素性算出手段と、前記入力された文書に含まれる各文の文字数及び改行数に基づいて、該文書が縦長か横長かを示す第2の素性を算出する第2の素性算出手段と、前記第1の素性及び前記第2の素性を並べた素性列と、固有表現または具体的な物を示す主題である具体主題が既知の学習用文書の素性列を用いて学習された分類器とに基づいて、前記入力された文書が具体主題を有するか否かを判定する判定手段と、を含んで構成されている。
【0009】
本発明の具体主題の有無判定装置によれば、名詞句抽出手段が、入力された文書から名詞句を抽出する。そして、第1の素性算出手段が、名詞句抽出手段により抽出された名詞句の各々に該名詞句の意味に基づくカテゴリを付与し、名詞句の各々に付与されたカテゴリの偏りを示す第1の素性を算出する。名詞句の意味に基づくカテゴリの偏りは、話題に一貫性のある文書か否かを表すものであるため、第1の素性は、その文書が具体主題を有するか否かを示す素性となる。
【0010】
また、第2の素性算出手段が、入力された文書に含まれる各文の文字数及び改行数に基づいて、該文書が縦長か横長かを示す第2の素性を算出する。具体主題を有する文書か否かにより、文書が縦長か横長かという視覚的特徴が異なる傾向があるため、第2の素性は、その文書が具体主題を有するか否かを示す素性となる。
【0011】
そして、判定手段が、第1の素性及び第2の素性を並べた素性列と、固有表現または具体的な物を示す主題である具体主題が既知の学習用文書の素性列を用いて学習された分類器とに基づいて、入力された文書が具体主題を有するか否かを判定する。
【0012】
このように、具体主題を有する文書が備える性質を示す素性として、第1の素性及び第2の素性を用いるため、入力された文書が具体主題を有するか否かを適切に判定することができる。
【0013】
また、前記第1の素性算出手段は、大量の語彙を該語彙の意味に基づくカテゴリに分類した辞書を用いて前記名詞句にカテゴリを付与し、前記辞書の全カテゴリ数に対する前記名詞句の各々に付与された全カテゴリ数に応じた値を前記第1の素性として算出することができる。
【0014】
また、前記第2の素性算出手段は、前記各文の文字数の最大値より前記改行数の方が大きい場合には縦長を示す値、前記各文の文字数の最大値より前記改行数の方が小さい場合には横長を示す値を、前記第2の素性として算出することができる。
【0015】
また、本発明の具体主題の有無判定方法は、入力された文書から名詞句を抽出し、抽出された名詞句の各々に該名詞句の意味に基づくカテゴリを付与し、前記名詞句の各々に付与されたカテゴリの偏りを示す第1の素性を算出し、前記入力された文書に含まれる各文の文字数及び改行数に基づいて、該文書が縦長か横長かを示す第2の素性を算出し、前記第1の素性及び前記第2の素性を並べた素性列と、固有表現または具体的な物を示す主題である具体主題が既知の学習用文書の素性列を用いて学習された分類器とに基づいて、前記入力された文書が具体主題を有するか否かを判定する方法である。
【0016】
また、本発明の具体主題の有無判定プログラムは、コンピュータを、上記具体主題の有無判定装置を構成する各手段として機能させるためのプログラムである。
【発明の効果】
【0017】
以上説明したように、本発明の具体主題の有無判定装置、方法、及びプログラムによれば、具体主題を有する文書が備える性質を示す素性として、名詞句の意味カテゴリの偏りに基づく第1の素性、及び文書が縦長か横長かという視覚的特徴を示す第2の素性を用いるため、入力された文書が具体主題を有するか否かを適切に判定することができる、という効果が得られる。
【図面の簡単な説明】
【0018】
【図1】本実施の形態の具体主題の有無判定装置の概略構成を示すブロック図である。
【図2】入力文書の一例を示す図である。
【図3】名詞句抽出部により抽出された名詞句の一例を示す図である。
【図4】意味カテゴリ付与部により付与された意味カテゴリの一例を示す図である。
【図5】エントロピー算出部により算出されたエントロピーの一例を示す図である。
【図6】文書の視覚的特徴を説明するための図である。
【図7】視覚的特徴算出部により算出された素性の一例を示す図である。
【図8】本実施の形態の具体主題の有無判定装置における具体主題の有無判定処理ルーチンの内容を示すフローチャートである。
【図9】具体主題を説明するための文書の一例を示す図である。
【図10】具体主題の有無を説明するための文書の一例を示す図である。
【発明を実施するための形態】
【0019】
以下、図面を参照して本発明の実施の形態を詳細に説明する。
【0020】
図1に示すように、本実施の形態の具体主題の有無判定装置10は、CPUと、RAMと、後述する具体主題の有無判定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。このコンピュータは、機能的には、入力された文書(テキストデータ)から具体主題の候補となる名詞句を抽出する名詞句抽出部12と、名詞句各々及び文書の特徴である素性を抽出する素性抽出部16と、予め具体主題が既知の文書を用いて学習された分類器28と、を含んだ構成で表すことができる。
【0021】
素性抽出部16は、具体主題を有する文書が備える性質を示す素性(特徴量)を抽出する。素性抽出部16は、名詞句各々に意味カテゴリを付与する意味カテゴリ付与部18と、意味カテゴリの偏りをエントロピーで表した第1の素性を算出するエントロピー算出部20と、入力された文書の視覚的特徴を示す第2の素性を算出する視覚的特徴算出部24と、第1の素性及び第2の素性から素性ベクトルを生成する素性ベクトル生成部26と、を含んだ構成で表すことができる。
【0022】
なお、意味カテゴリ付与部18及びエントロピー算出部20が本発明の第1の素性算出手段の一例であり、視覚的特徴算出部24が本発明の第2の素性算出手段の一例である。
【0023】
名詞句抽出部12は、入力された文書に対して形態素解析を行った上で、所定の名詞句を抽出する。主題は名詞句であるため、入力された文書に含まれる全ての名詞句が、主題の候補となる。ここでは、固有表現を含む名詞句、及び1つ以上の名詞が連続して具体的な物を示す名詞句を、入力された文書の具体主題の候補として抽出する。
【0024】
固有表現を含む名詞句は、例えば、人名、地名、組織名などの固有物を表す表現であって、既存の固有表現抽出技術により抽出することができる。固有表現抽出技術としては、例えば、「今村賢治、斎藤邦子、浅野久子、「テキストからの知識抽出の基盤となる日本語基本解析技術」、NTT技術ジャーナル、社団法人電気通信協会、pp.20−23 (2008)」等に記載の技術を用いることができる。また、サ変名詞、動作名詞など、名詞の形態素情報も合わせて取得してもよい。
【0025】
また、1つ以上の名詞が連続して具体的な物を示す名詞句としては、例えば、「マンガ」及び「ビューア」という名詞が連続して、1つの具体的な物を示す名詞句「マンガビューア」等がある。「マンガ」及び「ビューア」も各々具体的な物を示す名詞であるため、この場合、1つ以上の名詞が連続して具体的な物を示す名詞句として、「マンガ」、「ビューア」及び「マンガビューア」が各々抽出される。
【0026】
図2に示すように、入力されたテキストAが「今日商品Zを買いました。マンガビューアとして買ったので、それ以外のことにはほとんど利用していません。ですが、マンガビューアとして利用する点においては現時点で最強のマシンだと思います。」であった場合には、名詞句抽出部12において、図3に示すように、「今日」、「商品Z」、「マンガビューア」及び「マシン」が抽出される。
【0027】
意味カテゴリ付与部18は、名詞句抽出部12で抽出された名詞句各々が該当する日本語語彙大系(「日本語語彙大系 CD−ROM版」、岩波書店、1999)の意味カテゴリのクラスを抽出する。日本語語彙大系は、日本語の語彙30万語を3,000種類の意味属性で分類した日本語辞書である。具体的には、日本語語彙大系を検索して当該名詞句に付与された意味カテゴリのクラス(意味カテゴリの番号(識別ID))を抽出して名詞句に付与する。図4に、意味カテゴリ付与部18で付与された意味カテゴリの一例を示す。ここで、「マシン」のように意味カテゴリ欄が空欄になっているものは、該当する意味カテゴリが存在しない(どの意味カテゴリのクラスにも属さない)ことを示す。
【0028】
エントロピー算出部20は、名詞句に付与された意味カテゴリの偏りを示す第1の素性を算出する。意味カテゴリの偏りの度合いは、話題に一貫性のある文書かどうかを表す。文書中に出現する日本語語彙大系の意味カテゴリが偏っていれば、具体主題を有する文書である傾向が強く、具体主題を有さない文書では意味カテゴリが分散している傾向が強い。この傾向を利用して、具体主題を有する文書が備える性質を示す素性として、意味カテゴリの偏りを示す第1の素性を算出する。
【0029】
具体的には、名詞句抽出部12で抽出された名詞句に付与された意味カテゴリのクラスの総頻度を算出し、下記(1)式によりエントロピーを求め、このエントロピーを第1の素性とする。
【0030】
【数1】

【0031】
ここで、cは日本語語彙大系の意味カテゴリの番号、Bは名詞句抽出部12で抽出された名詞句の総数、mは日本語語彙大系の意味カテゴリの総数を表す。図5に、エントロピー算出部20で算出された文書毎のエントロピーの一例を示す。なお、上記の「マシン」のように該当する意味カテゴリが存在しない名詞句については、抽出された名詞句の総数にはカウントするが、意味カテゴリの頻度P(c)には反映されない。
【0032】
視覚的特徴算出部24は、入力された文書の視覚的特徴を第2の素性として算出する。文書の視覚的特徴は、文書が扱う話題による文書の構造上の特性を表しており、特に書式が定まっていない文書の場合、リストや同じ文の繰り返し、つぶやき等の多い文書は縦長になり易い傾向がある。一方、何か特定の事柄について記述されている文書の場合、横長の文書になり易い傾向がある。例えば、図6に示すように、横長の文書(A)は具体主題「商品Z」について書かれており、縦長の文書(B)は具体主題を有していない。この傾向を利用して、具体主題を有する文書が備える性質を示す素性として、文書の視覚的特徴を示す第2の素性を算出する。
【0033】
具体的には、文書の各文の文字数、及び改行数をカウントし、文書に含まれる文のうち、文字数が最大となる最大文を抽出する。そして、文書の最大文の文字数及び改行数が、
(最大文の文字数)<(改行数) ならば、縦長
(最大文の文字数)>(改行数) ならば、横長
と判定し、縦長(0)か横長(1)かを示す情報を第2の素性として算出する。図7に、視覚的特徴算出部24で算出された文書毎の視覚的特徴の一例を示す。
【0034】
素性ベクトル生成部26は、エントロピー算出部20で算出された第1の素性と、視覚的特徴算出部24で算出された第2の素性とを並べた素性ベクトルを生成する。例えば、テキストAについて、第1の素性であるエントロピーが「0.00123」、第2の素性である視覚的特徴が「1」の場合、テキストAの素性ベクトルは、(0.00123,1)となる。なお、素性ベクトルの要素の並び順や構成等はこの例に限定されない。
【0035】
分類器28は、素性抽出部16で抽出した素性ベクトルを入力とし、機械学習により予め定められた分類ルールに基づいて、入力された素性ベクトルに対応する文書が具体主題を有するか否かを判別する。分類ルールは、テキストmの素性ベクトルα(m)を入力としたときに、テキストmが具体主題を有する可能性を示す値score(m)を返す関数のようなものであり、この関数をf( )とすると、
f(α(m))=score(m)
となる。
【0036】
この分類ルールf( )は、教師あり機械学習法を用いて予め学習しておく。例えば、人手で具体主題を有するか否かを示すラベルを付与するなどした、具体主題の有無が既知の学習用文書について、素性抽出部16で抽出された素性ベクトルと、文書に付されたラベルとを学習データとして利用し、分類ルールf( )を構成する関数のパラメタを学習する。例えば、「J. Lafferty, A. McCallum and F. Pereira, Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data, In Proc. of ICML-2001, Pages 282-289, 2001」等に記載された既知の機械学習により、入力された文書が具体主題を有するか否かを判定するための分類ルールを学習する。
【0037】
次に、図8を参照して、本実施の形態の具体主題の有無判定装置10において実行される具体主題の有無判定処理ルーチンについて説明する。本ルーチンは、予め学習データを用いて分類ルールを学習して分類器が生成された状態でスタートする。
【0038】
ステップ100で、文書(テキストデータ)が入力されると、次に、ステップ102で、入力された文書に対して形態素解析を行った上で、固有表現を含む名詞句、及び1つ以上の名詞が連続して具体的な物を示す名詞句を、入力された文書の具体主題の候補として抽出する。
【0039】
次に、ステップ104で、上記ステップ102で抽出された名詞句について、日本語語彙大系を検索して当該名詞句に付与された意味カテゴリのクラス(意味カテゴリの番号(識別ID))を抽出して付与する。
【0040】
次に、ステップ106で、上記ステップ104で名詞句に付与された意味カテゴリのクラスの総頻度を算出し、第1の素性として、(1)式に従ってエントロピーを算出する。
【0041】
次に、ステップ108で、文書の各文の文字数、及び改行数をカウントし、文書に含まれる文のうち、文字数が最大となる最大文を抽出し、文書の最大文の文字数及び改行数が、(最大文の文字数)<(改行数) ならば、縦長、(最大文の文字数)>(改行数)ならば、横長と判定し、縦長(0)か横長(1)かを示す情報を第2の素性として算出する。
【0042】
次に、ステップ110で、上記ステップ106で算出した第1の素性と、上記ステップ108で算出した第2の素性とを並べた素性ベクトルを生成する。
【0043】
次に、ステップ112で、上記ステップ110で生成した素性ベクトルを分類器に入力し、分類器の出力する値score(m)に基づいて、入力された文書が具体主題を有するか否かを判定し、判定結果を出力して、処理を終了する。
【0044】
なお、本ルーチンでは、第1の素性を先に算出してから第2の素性を算出する処理としたが、第2の素性を先に算出してから第1の素性を算出してもよいし、第1の素性の算出と第2の素性の算出とを並行処理するようにしてもよい。
【0045】
以上説明したように、本実施の形態の具体主題の有無判定装置によれば、具体主題を有する文書が備える性質を示す素性として、名詞句に付与された意味カテゴリの偏りに基づく素性、及び文書が縦長か横長かという視覚的特徴を示す素性を用いるため、入力された文書が具体主題を有するか否かを適切に判定することができる。
【0046】
また、上記実施の形態で用いた第1の素性及び第2の素性に、各名詞句または名詞句に含まれる名詞の形態素情報を素性として加えてもよい。
【0047】
また、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
【0048】
また、本願明細書中において、プログラムが予めインストールされている実施の形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
【符号の説明】
【0049】
10 具体主題の有無判定装置
12 名詞句抽出部
16 素性抽出部
18 意味カテゴリ付与部
20 エントロピー算出部
24 視覚的特徴算出部
26 素性ベクトル生成部
28 分類器

【特許請求の範囲】
【請求項1】
入力された文書から名詞句を抽出する名詞句抽出手段と、
前記名詞句抽出手段により抽出された名詞句の各々に該名詞句の意味に基づくカテゴリを付与し、前記名詞句の各々に付与されたカテゴリの偏りを示す第1の素性を算出する第1の素性算出手段と、
前記入力された文書に含まれる各文の文字数及び改行数に基づいて、該文書が縦長か横長かを示す第2の素性を算出する第2の素性算出手段と、
前記第1の素性及び前記第2の素性を並べた素性列と、固有表現または具体的な物を示す主題である具体主題が既知の学習用文書の素性列を用いて学習された分類器とに基づいて、前記入力された文書が具体主題を有するか否かを判定する判定手段と、
を含む具体主題の有無判定装置。
【請求項2】
前記第1の素性算出手段は、大量の語彙を該語彙の意味に基づくカテゴリに分類した辞書を用いて前記名詞句にカテゴリを付与し、前記辞書の全カテゴリ数に対する前記名詞句の各々に付与された全カテゴリ数に応じた値を前記第1の素性として算出する請求項1記載の具体主題の有無判定装置。
【請求項3】
前記第2の素性算出手段は、前記各文の文字数の最大値より前記改行数の方が大きい場合には縦長を示す値、前記各文の文字数の最大値より前記改行数の方が小さい場合には横長を示す値を、前記第2の素性として算出する請求項1または請求項2記載の具体主題の有無判定装置。
【請求項4】
入力された文書から名詞句を抽出し、
抽出された名詞句の各々に該名詞句の意味に基づくカテゴリを付与し、前記名詞句の各々に付与されたカテゴリの偏りを示す第1の素性を算出し、
前記入力された文書に含まれる各文の文字数及び改行数に基づいて、該文書が縦長か横長かを示す第2の素性を算出し、
前記第1の素性及び前記第2の素性を並べた素性列と、固有表現または具体的な物を示す主題である具体主題が既知の学習用文書の素性列を用いて学習された分類器とに基づいて、前記入力された文書が具体主題を有するか否かを判定する
具体主題の有無判定方法。
【請求項5】
コンピュータを、請求項1〜請求項3のいずれか1項記載の具体主題の有無判定装置を構成する各手段として機能させるための具体主題の有無判定プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2012−173809(P2012−173809A)
【公開日】平成24年9月10日(2012.9.10)
【国際特許分類】
【出願番号】特願2011−32544(P2011−32544)
【出願日】平成23年2月17日(2011.2.17)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】