説明

単語抽出方法、装置、およびプログラム

【課題】 高精度な未知語抽出を行う。
【解決手段】 単語選別部40は、形態素解析部30による形態素解析結果、統計的単語分割部20による統計的単語分割結果、テキスト中の文字列の統計量、文字列長、の少なくとも1つの情報を用いて、統計的単語分割された文字列から単語として不適切なものを所定の条件によって除いて単語の選別を行い、選別された単語を未知語として抽出する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、テキスト中に含まれる未知語を抽出する単語抽出方法および装置に関するものである。
【背景技術】
【0002】
世の中には新しい単語が生まれ続けている。そのため、人間が新たな単語を理解するためであったり、計算機で電子化されたテキストを適切に処理するためには、既存の辞書へ新たな単語を補うことが必要となる。
【0003】
そこで、従来技術1として、与えられた文書全体における任意の文字列に対する重要度を計算し、無意味な文字列を除いて、重要度で順序付けされたキーワードの候補リストを作成するものがある(特許文献1)。
【0004】
この技術では、辞書が不要で、テキストさえあればキーワードを得ることが可能であるが、統計量に依存しているため、テキスト中の文字列の出現数に不適切な偏りがあった場合、例えば名詞と助詞が連接されている文字列が抽出され、抽出精度に問題となる場合がある。
【0005】
また、従来技術2として、形態素解析結果を行い、単名詞の文書中の統計量から複合名詞を求めるものがある(非特許文献1)。
【0006】
この技術では、抽出される単語は複合名詞に限定されており、名詞以外の語も含まれる単語連続や、形態素解析の辞書にないために解析を誤って名詞とはならない場合については抽出できない問題がある。
【特許文献1】特許第3416918号
【非特許文献1】中川裕志、森辰則、湯本紘彰、「出現頻度と連接頻度に基づく専門用語抽出」、自然言語処理、Vol.10、No.1、pp.27−45、2003.
【発明の開示】
【発明が解決しようとする課題】
【0007】
上述した従来技術1は、文字列統計量による単語抽出を行った場合に、テキスト中の単語の出現状況によっては、単語として不適切なものとそうでないものとを効果的に区別するのが難しいという問題がある。また、従来技術2は、形態素解析の結果を元に単語抽出を行った場合は、抽出される単語を名詞などの特定のパターンに限定しないとうまく単語が抽出できないという問題がある。
【0008】
本発明の目的は、高精度な未知語抽出を行うことができる単語抽出方法、装置、およびプログラムを提供することにある。
【課題を解決するための手段】
【0009】
本発明の単語抽出方法は、入力されたテキストの統計的単語分割結果および形態素解析結果と、さらにテキスト中の文字列の統計量と文字列長の少なくとも1つの情報とを用いてテキスト中の文字列から単語として不適切なものを所定の条件により除いて単語を選別し、選別された単語を未知語として出力する。
【発明の効果】
【0010】
本発明によれば、文字列統計量による単語分割の結果を用いることで形態素解析の結果のみでは得ることが難しい未知語を抽出することができ、形態素解析の結果を用いることで文字列統計量の単語分割のみでは単語として不適切なものの抽出を防ぐことができ、文字列統計量と単語分割形態素解析の両方の利点を生かした高精度な未知語抽出を行うことができる。
【発明を実施するための最良の形態】
【0011】
次に、本発明の実施の形態について図面を参照して説明する。
【0012】
図1を参照すると、本発明の一実施形態の単語抽出装置1はテキスト入力部10と統計的単語分割部20と形態素解析部30と単語選別部40と未知語出力部50とから構成される。なお、各部における処理結果は不図示のメモリ(バッファ)に格納される。
【0013】
テキスト入力部10は、単語抽出対象となるテキストを入力する(ステップ101)。例えば、図4のテキストが入力されたとする。この入力テキストは、同じ分野や、同じ作成日などのように複数の文書をまとめて扱えるよう、1文書ごとに1行で書かれたファイルとして読み込まれている。なお、説明の便宜上“…”により省略している。
【0014】
統計的単語分割部20は、この処理用に事前に準備したテキストにおける文字列の統計量を元に、入力テキストの各文字列の単語スコアを計算し、入力テキスト全体での単語スコアの総和が最大となる単語並びを求める(ステップ102)。事前に準備したテキストの統計量を元に単語分割を行うので、例えば、事前準備するテキストが、ある分野もしくはある時期に作成されたものに限定されれば、分野や時期に特化した単語分割がなされるので、汎用的な形態素解析では抽出の難しい単語を抽出することができる。
【0015】
具体的には、参考文献1にあるように、事前準備したテキストから出現頻度や出現する文書数やテキスト中の文書数などの統計量をあらかじめ計算しておき、統計量を用いて入力テキストの各文字列の単語スコアを計算する。なお、事前準備したテキストとして入力テキストを用いる場合、その規模が小さいと単語スコアを適切に計算できない場合があるので、入力テキストの統計量と入力テキストとは異なる別のテキストの統計量を何らかの重み付けした上で計算しておいても構わない。
【0016】
例えば、参考文献1の方法で、入力テキストと入力テキストとは異なる新聞記事のテキスト1年分を事前準備したテキストとして統計量を計算しておき、それを用いて図4の入力テキストの単語分割を行うと、図5のような統計的単語分割結果が得られる。
【参考文献1】
【0017】
足立貴行、永田昌明、「話題語抽出抽出機能を持ったニュースストリーム閲覧システム」、言語処理学会第10回年次大会発表論文集、pp.115−118、2004.
【0018】
形態素解析部30は、汎用的な形態素解析器を用いて、入力されたテキストの単語分割と品詞付与を行う(ステップ103)。例えば、図4の入力テキストを形態素解析すると、図6のような形態素解析結果が得られる。
【0019】
単語選別部40は、入力テキストに対し、統計的単語分割部20から得た情報と、形態素解析部30から得た情報と、入力テキスト中の文字列の統計量と文字列長を用いて、単語としてふさわしい未知語を選別する(ステップ104)。
【0020】
単語選別部40は、図3に示すように、統計的単語分割結果から未知語候補となる文字列を抽出する未知語候補リストを作成する未知語候補リスト作成部41と、形態素解析結果から名詞連続の文字列を抽出する除外リストを作成する除外リスト作成部42と、除外リストを用いて未知語候補リストを絞り込む既知名詞絞込み部43と、入力テキストの文字列統計量から未知語候補リストを絞り込む、統計量による絞込み部44と、形態素解析結果から未知語候補リストを絞り込む、形態素解析結果による絞込み部45とを有する。
【0021】
まず、未知語候補リスト作成部41は、統計的単語分割結果から、各単語の文字列リストを作成する。なお、単語の文字列リストは同じ表記の重複を許さず、ある文字列が別の文字列の入れ子となるものを除外しておく。入れ子を除去するのは、あらかじめ単語を減らして処理を簡略にするだけでなく、単語として不適切である細かい文字列を除外するためでもある。
【0022】
例えば、「お、台場、に、ある、船の科学館、で、展示、い、て、公開」がリストとして得られるが(この例では句点は除外している)、「に、ある、で、い、て」は他の文字列(不図示)にも出現していたとすれば、入れ子が除去され、「お、台場、船の科学館」が未知語候補リストとして得られる。
【0023】
次に、除外リスト作成部42は、形態素解析結果から、入力テキストの形態素解析結果の品詞の並びが特定のパターンとなる表記のリストを作成する。ここでは、あらかじめ名詞やそれに順ずるものが連続した単語の文字列リストを作成する。これは、後の既知名詞絞込み部43において、未知語候補リストから形態素解析結果のみからでも得ることが容易な単語を除外するために使う。なお、単語の文字列リストは同じ表記の重複を許さない。また、冗長な処理を省略するため、ある文字列が別の文字列の入れ子となるものを除外しておいても構わない。
【0024】
例えば、形態素解析結果から除外リストとして抽出する文字列の品詞が名詞や名詞接尾辞である連続単語であったとすると、「お台場、船、科学、館、科学館、展示、公開」が抽出される。なお、「科学」と「館」は「科学館」の入れ子なので除外すると「お台場、船、科学館、展示、公開」が除外リストとして得られる。なお、本実施形態では、除外リスト作成部42で形態素解析結果から除外リストを作成しているが、代わりに既存の辞書から名詞などの特定の見出し語を抽出したものを除外リストとしてもかまわない。
【0025】
次に、既知名詞絞込み部43は、統計的単語分割結果から得られた未知語候補リストを形態素解析結果から得られた除外リストと付き合わせて、形態素解析結果から得られた文字列リストの部分文字列になっているものを除外する。これにより、形態素解析結果のみから容易に得ることができる単語を除外する。
【0026】
例えば、未知語候補リストが「お、台場、船の科学館」で、除外リストが「お台場、船、科学館、展示、公開」であるので、未知語候補リストの「お」や「台場」は除外リストの「お台場」の部分文字列となっているので除外される。結果、「船の科学館」が既知名詞絞込み済みの未知語候補リストとなる。
【0027】
次に、統計量による絞込み部44は、既知名詞絞込み済みの未知語候補リストの文字列について、入力テキスト中の文字列の統計量を求め、入力テキストのある文書に偏って出現する文字列を高い値とするスコアを計算し、スコアが所定の閾値以上のものを選択する。スコアとしては、例えば、tf*idf(その文字列の出現頻度(tf)とその文字列が出現する文書数(df)の逆数(idf)を掛け合わせたもの)もしくは、ridf(参考文献2)などが考えられるが、同様の性質の計算方法であれば、これに限定されない。また、ある程度のその文字列が出現する文書数が少ないものは、偏って出現しているかを正確に計算できない場合が多いので、その文字列が出現する文書数が所定の閾値以上のものを選択する。なお、極端に短い文字列は誤って分割された結果であることが多いので、その文字列の文字列長が所定の閾値以上のものを選択する。例えば、スコアはridfを使用し、スコアの閾値を0.7、文字列が出現する文書数の閾値=3、文字列長の閾値が=2であった場合、「船の科学館」の出現頻度=9、文字列の出現する文書数=3、テキスト中の総文書数=627から、ridf=1.57となり、全て、閾値以上となるので、「船の科学館」が選択される。
【参考文献2】
【0028】
北研二、津田和彦、獅々堀正幹、「情報検索アルゴリズム」、共立出版、pp.43−45、2002年1月1日初版発行
【0029】
次に、形態素解析による絞込み部45は、残った文字列リストの文字列について、形態素解析結果を調べて、その情報を使って除外したり選択したりする。
【0030】
例えば、文字列に対応する形態素解析結果の表記と品詞のパターンが特定のパターン(ここでは、品詞列のパターンとして“名詞(連続)+助詞”、“助詞+名詞(連続)”となるもの)を除外したり、文字列の先頭とその前の文字との間、末尾とその後の文字との間が形態素解析の単語区切りでも同じものとなっているものを選択したり、文字列に対応する形態素解析結果が複数単語となっているものについて少なくとも1語は名詞を含むものを選択する。
【0031】
例えば、「船の科学館」は“名詞連続+助詞”や“助詞+名詞連続”でなく、先頭と末尾の区切りは形態素解析結果と一致しており、「船」、「科学」が名詞であるので、「船の科学館」は選択される。
【0032】
未知語出力部50は、単語選別部40で除外や選別されて最終的に残った文字列リストを未知語のリストとして出力装置(プリンタ、ディスプレイ等)に出力する(ステップ105)。例えば「船の科学館」は未知語として出力される。
【0033】
なお、本発明の単語抽出方法は専用のハードウェアにより実現されるもの以外に、その機能を実現するためのプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行するものであってもよい。コンピュータ読み取り可能な記録媒体とは、フレキシブルディスク、光磁気ディスク、CD−ROM等の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置を指す。さらに、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間の間、動的にプログラムを保持するもの(伝送媒体もしくは伝送波)、その場合のサーバとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含む。
【図面の簡単な説明】
【0034】
【図1】本発明の一実施の形態の単語抽出装置の構成を示すブロック図である。
【図2】図1の単語抽出装置の処理手順の概要を示すフローチャートである。
【図3】単語選別部の構成を示すブロック図である。
【図4】テキストの一例を示す図である。
【図5】統計的単語分割結果の一例を示す図である。
【図6】形態素解析結果の一例を示す図である。
【符号の説明】
【0035】
1 単語抽出装置
10 テキスト入力部
20 統計的単語分割部
30 形態素解析部
40 単語選別部
41 未知語候補リスト作成部
42 除外リスト作成部
43 既知名詞絞込み部
44 統計量による絞込み部
45 形態素解析結果による絞込み部
50 未知語出力部
101〜105 ステップ

【特許請求の範囲】
【請求項1】
テキスト中に含まれる未知語を抽出する、単語抽出装置における単語抽出方法において、単語選別手段が、入力されたテキストの統計的単語分割結果および形態素解析結果と、さらにテキスト中の文字列の統計量と文字列長の少なくとも1つの情報とを用いてテキスト中の文字列から単語として不適切なものを所定の条件により除いて単語を選別し、選別された単語を未知語として抽出することを特徴とする単語抽出方法。
【請求項2】
前記所定の条件が、統計的単語分割された文字列に対し、入力テキストの形態素解析結果の品詞の並びが特定のパターンとなる表記に該文字列が含まれている、該文字列が、あらかじめ準備した文字列のリストに含まれている、該文字列に対応する形態素解析結果の表記と品詞のパターンが特定のパターンである、該文字列の先頭と末尾が形態素解析の単語区切りと異なっている、該文字列に対応する形態素解析結果が複数の単語となっている場合に1語も名詞になるものが含まれていない、該文字列に対するテキストにおける文字列の統計量の値が閾値未満である、該文字列の文字列長が閾値未満であるのいずれかである、請求項1に記載の単語抽出方法。
【請求項3】
入力されたテキストの統計的単語分割結果から未知語候補を抽出するステップと、文字列が列挙された除外リストから前記未知語の候補を絞り込むステップと、入力されたテキストの文字列統計量から前記未知語候補をさらに絞り込むステップと、入力されたテキストの形態素解析結果から前記未知語候補を最終的に絞り込むステップを含む、請求項1または2に記載の単語抽出方法。
【請求項4】
単語の抽出対象となるテキストを入力するテキスト入力手段と
入力されたテキストを文字列統計量に基づく単語分割を行う統計的単語分割手段と
入力されたテキストを形態素解析する形態解析手段と、
形態素解析結果および統計的単語分割結果と、さらにテキスト中の文字列の統計量と文字列長の少なくとも1つの情報とを用いてテキスト中の文字列から単語として不適切なものを所定の条件により除いて単語を選別し、選別された単語を未知語として抽出する未知語抽出手段と、
抽出された単語を未知語として出力する未知語出力手段と、
を有する単語抽出装置。
【請求項5】
単語の抽出対象となるテキストを入力する手順と
入力されたテキストを文字列統計量に基づく単語分割を行う手順と
入力されたテキストを形態素解析する手順と、
形態素解析結果および統計的単語分割結果と、さらにテキスト中の文字列の統計量と文字列長の少なくとも1つの情報とを用いてテキスト中の文字列から単語として不適切なものを所定の条件により除いて単語を選別し、選別された単語を未知語として抽出する手順と、
抽出された単語を未知語として出力する手順と、
をコンピュータに実行させるための単語抽出プログラム。



【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate