説明

プログラム及び文書処理装置並びに文書処理方法

【課題】文書データから抽出された共起表現について、同義の共起表現を共通の表現でまとめ、ユーザによる文書データの分析作業の効率化を実現させる。
【解決手段】本発明の一態様において、コンピュータ2に、第1記憶手段17aに記憶されている文書データ181〜18nを形態素解析し、形態素解析データを作成する機能3、第2記憶手段17bに記憶されている共起パターン24に基づいて、形態素解析データの中から複数の共起表現を抽出する共起抽出機能6、複数の共起表現のそれぞれに含まれている複数の自立語であり、この複数の自立語に用言が含まれている場合にはこの用言の自立語を終止形とした場合の組み合わせが同一の場合に、複数の共起表現を共通の表現でまとめる機能14、文書データ181〜18nと共通の表現とを関係付けた分析データ34を第3記憶手段17gに記憶する機能15を実現させるためのプログラム1aが提供される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書データの分析作業に用いられるプログラム及び文書処理装置並びに文書処理方法に関する。
【背景技術】
【0002】
大量の文書データの内容を把握するために、文書データ中の自立語または共起表現を抽出する試みが、以前より行われている。
【0003】
抽出された自立語または共起表現は、抽出頻度順にリスト表示される場合がある。また、抽出された単語または共起表現についてコレスポンデス分析を行って、抽出された自立語または共起表現と属性との対応関係を距離として表示した二次元マップが作成される場合もある。
【0004】
特許文献1(特開2003−263446号公報)では、文書について形態素解析された結果の中から特定の単語の並びを抽出し、抽出された結果から特定の情報を抽出する複数表現分析装置が開示されている。
【0005】
特許文献2(特開2002−342321号公報)では、文書について形態素解析された結果の中から特定の単語の並びを抽出し、同一の文書から同じ単語の並びが特定数以上出現した場合に、用語として抽出する用語抽出装置が開示されている。
【0006】
特許文献3(特開2001−290833号公報)では、形態素解析によって分割された単語に基づいて共起情報記憶手段に記憶された共起情報を参照し、文章のトピックを抽出する文章処理装置が開示されている。
【0007】
この特許文献3の装置は、「貿易」と「輸入」とが共起する、「貿易」と「輸出」とが共起する、という共起情報から、「貿易」と「輸入」と「輸出」とを同じトピック「貿易」にまとめる。
【0008】
特許文献4(特開平8−329090号公報)では、係り側文節と受け側文節の共起関係の情報を複数のレコードに収容し、記憶する共起辞書装置が開示されている。
【0009】
特許文献5(特開平10−91628号公報)では、助詞情報などが不完全な文において、形態素解析処理結果の各文節間の係り受け関係から共起関係データを抽出し、係り受け関係を認識する構文解析システムが開示されている。
【特許文献1】特開2003−263446号公報
【特許文献2】特開2002−342321号公報
【特許文献3】特開2001−290833号公報
【特許文献4】特開平8−329090号公報
【特許文献5】特開平10−91628号公報
【発明の開示】
【発明が解決しようとする課題】
【0010】
多数の文書データから多数の共起表現が抽出され、この多数の共起表現の中に同義の共起表現が多数含まれている場合、共起表現に基づいてこの多数の文書データの内容を把握する作業が煩雑になる場合がある。したがって、同義の共起表現については共通の表現で表すことが望まれる。
【0011】
上記特許文献1では、文書からあるパターンと一致した個所を抽出し、抽出結果を意味情報ごとに関連付け、同じ意味情報を有する抽出結果をまとめる(特許文献1の段落[0028])。しかしながら、この特許文献1には、具体的にどのような場合に、複数の共起表現を同義であるとしてまとめるかについては記載されていない。
【0012】
上記特許文献2では、文書中の辞書に未登録の用語を抽出することが記載されているが、複数の共起表現を抽出し、この複数の共起表現が同義の場合にまとめることに関しては記載されていない。
【0013】
上記特許文献3では、文章が単語に分割され、共起し易い単語を単語クラスタにまとめることが記載されている。しかしながら、共起表現自体を抽出し、この抽出された共起表現のうち同義の共起表現をまとめる具体的な手法に関しては記載されていない。
【0014】
上記特許文献4では、係り側文節と受け側文節の共起関係の情報を複数のレコードに収容し、記憶する共起辞書装置について記載されている。しかしながら、共起表現自体を抽出すること、およびこの抽出された共起表現のうち同義の共起表現をまとめる具体的な手法に関しては記載されていない。
【0015】
上記特許文献5では、助詞情報などが不完全な文において、係り受けの解析を行う構文解析システムについて記載されている。しかしながら、この特許文献5においても、抽出された共起表現のうち同義の共起表現をまとめる具体的な手法に関しては記載されていない。
【0016】
本発明は、以上のような実情に鑑みてなされたもので、文書データから共起表現を抽出し、同義の共起表現を共通の表現でまとめるプログラム及び文書処理装置並びに文書処理方法を提供することを目的とする。
【課題を解決するための手段】
【0017】
本発明の例では、コンピュータに、第1記憶手段に記憶されている文書データを形態素解析し、形態素解析データを作成する機能、第2記憶手段に記憶されている共起パターンに基づいて、形態素解析データの中から複数の共起表現を抽出する共起抽出機能、複数の共起表現のそれぞれに含まれている複数の自立語であり、この複数の自立語に用言が含まれている場合にはこの用言の自立語を終止形とした場合の組み合わせが同一の場合に、複数の共起表現を共通の表現でまとめる機能、文書データと共通の表現とを関係付けた分析データを第3記憶手段に記憶する機能
を実現させるためのプログラムが提供される。
【発明の効果】
【0018】
本発明により、文書データから抽出された共起表現について、同義の共起表現を共通の表現でまとめることができ、ユーザによる文書データの分析作業を効率化させることができる。
【発明を実施するための最良の形態】
【0019】
以下、図面を参照しながら本発明の実施の形態について説明する。なお、以下の各実施の形態において、同様の部分については同様の符号を付して説明を省略する。
【0020】
(第1の実施の形態)
本実施の形態では、共起表現を抽出し、共起表現に含まれている複数の自立語を抽出し、複数の自立語について体言の場合はその体言の自立語、用言の場合はこの用言の自立語の終止形を求め、この複数の自立語(用言の場合にはその終止形)の組み合わせを求める。
【0021】
そして、本実施の形態では、複数の共起表現について自立語(用言の場合はその終止形)の組み合わせが同じ場合、この複数の共起表現を共通の表現でまとめる。
【0022】
これにより、複数の単語を含む共起表現において、この複数の単語の並び順に関係なく同義としてまとめることができる。なお、以下において、同義の表現(単語、共起表現を含む)を共通の表現にまとめることを集約という。
【0023】
図1は、本実施の形態に係る文書処理プログラムをコンピュータに適用させた場合の例を示すブロック図である。
【0024】
記録媒体1に記録されている文書処理プログラム1aをコンピュータ2が読み込み、実行する。これにより、コンピュータ2は、文書処理装置としての機能を実現する。
【0025】
具体的には、コンピュータ2は、文書処理プログラム1aにしたがって、形態素解析機能3、分割機能4、共起パターン設定機能5、共起抽出機能6、自立語設定機能7、自立語抽出機能8、同義語設定機能9、同義語集約機能10、削除設定機能11、削除機能12、共通表現設定機能13、表現集約機能14、書込機能15、表示制御機能16を実現する。
【0026】
また、コンピュータ2は、記憶部17a〜17gを具備する。
【0027】
なお、本実施の形態において、各機能の間におけるデータの受け渡しは、データを渡す側の機能とデータを受ける側の機能とが共通にアクセス可能な図示しない記憶部を介して行われるとしてもよい。すなわち、データを渡す側の機能は共通にアクセス可能な記憶部にデータを書き込み、データを受ける側の機能は共通にアクセス可能な記憶部からデータを読み出すことにより、必要なデータを取得するとしてもよい。
【0028】
記憶部17aは、分析対象の文書データ181〜18nを記憶する。
【0029】
文書データ181は、図2に示すように、例えばアンケートの回答者(記述者、被験者)が自由に記述した自由記述文などのような自由記述データ191を含む。また、文書データ181は、回答者に関する属性情報などのような自由記述データ191の属性データ201、自由記述データ191と関係する選択式アンケートの回答データ211など、自由記述データ191と関係付けて参照されるデータを含む。
【0030】
なお、他の文書データ182〜18nについても、同様に、それぞれ自由記述データ192〜19n、属性データ202〜20n、回答データ212〜21nを含む。
【0031】
形態素解析機能3は、図3に示すように、記憶部17aに記憶されている文書データ181内の自由記述データ191に対して形態素解析を実行し、形態素解析結果を示す形態素解析データ221を作成する。同様に、形態素解析機能4は、記憶部17aに記憶されている文書データ182〜18n内の自由記述データ192〜19nに対して形態素解析を実行し、形態素解析結果を示す形態素解析データ222〜22nを作成する。
【0032】
形態素解析データ221〜22nは、それぞれ自由記述データ191〜19nの内容を単語に分割し、各単語に品詞を付したデータである。
【0033】
分割機能4は、図4に示すように、形態素解析データ221を句読点にしたがって分割した分割データ231,232を作成する。同様に、分割機能4は、形態素解析データ222〜22nを句読点にしたがって分割した分割データ233〜23mを作成する。また、分割機能4は、句読点にしたがって自由記述データ191〜19nを分割する。
【0034】
なお、本実施の形態では、形態素解析機能4によって形態素解析を行った後、分割機能4によって句読点にしたがった分割を行うとしている。しかしながら、これとは逆に、分割機能4によって句読点にしたがって自由記述データ191〜19nを分割した後、形態素解析機能4によって形態素解析を行うとしてもよい。
【0035】
共起パターン設定機能5は、ユーザから共起表現の可能性の高い品詞の組み合わせを表す共起パターンの設定、削除、修正を受け付け、設定、削除、修正に応じた内容で共起パターンデータ24を記憶部17bに記憶する。
【0036】
本実施の形態において、共起表現は、係り受け関係にある複数の表現(文節)を含むとする。2つまたは3つの表現からなる共起表現では、この2つまたは3つの表現の間で意味的つながりが強い。また、共起表現は、文章と比べて短いため、自由記述においても同じ表現が繰り返し使用される確率が高く、大量の文書データ181〜18nの内容を的確に把握するために有効な情報単位である。
【0037】
図5は、共起パターンデータ24の例を示す図である。共起パターンデータ24では、品詞の組み合わせ、表現の組み合わせ、品詞と表現の組み合わせなどを用いて共起パターンが設定されている。
【0038】
例えば、共起パターンデータ24では、「形容詞+名詞」「名詞+付属語+動詞」「名詞+付属語+形容動詞」「形容動詞+名詞」などのように、品詞の組み合わせにより、共起表現の可能性の高いパターンが特定されている。
【0039】
また、例えば、この共起パターンデータ24では、「名詞+が+形容詞」などのように、品詞と「が」のような単語との組み合わせにより、共起表現の可能性の高いパターンが特定されている。
【0040】
また、例えば、共起パターンデータ24では、「タッチ+パネル」などのように、単語の組み合わせにより、共起表現の可能性の高いパターンが特定されているとしてもよい。
【0041】
その他にも、共起パターンデータ24は、「名詞+の(格助詞の一種)+名詞」「名詞+格助詞+名詞」「漢字2文字以上からなる名詞+名詞」「形容詞+名詞」「大きい(形容詞の一種)+名詞」などのパターンを含む。
【0042】
文節は一つの自立語と、その自立語に付属する付属語がある場合はその一つまたは複数の付属語からなる。本実施の形態において、共起表現は、2つまたは3つの表現(文節)からなるとしたが、2つまたは3つの表現は、それぞれの文節の自立語部分のみを共起パターンデータ24として設定し、各文節の付属語の有無および付属語の内容は問わないとしてもよい。
【0043】
共起抽出機能6は、記憶部17bに記憶されている共起パターンデータ24に基づいて、分割データ231〜23mの中から共起表現を抽出し、共起表現データを作成する。
【0044】
図6は、共起表現データの例を示す図である。この共起表現データ25は、例えば「文字表示」「文字の表示」などのような、共起パターンデータ24に基づいて共起表現と判断された表現を含む。
【0045】
自立語パターン設定機能7は、ユーザから文書分析に用いるために抽出対象とする自立語の設定、削除、修正を受け付け、設定、削除、修正に応じた内容で自立語設定データ26を記憶部17cに記憶する。
【0046】
図7は、自立語設定データ26の例を示す図である。例えば、自立語設定データ26は、文書分析においてキーワードとなる重要な単語などを含む。なお、自立語設定データ26は、例えば、抽出する単語、品詞、表現を含むとしてもよい。
【0047】
自立語抽出機能8は、記憶部17cに記憶されている自立語設定データ26に基づいて、分割データ231〜23mの中から自立語を抽出し、自立語抽出データを作成する。
【0048】
図8は、自立語抽出データの例を示す図である。自立語抽出データ27は、自立語設定データ26に設定されている自立語のうち分割データ231〜23m内に存在する自立語を含む。
【0049】
同義語パターン設定機能9は、ユーザから、複数の同義語を共通の表現に集約するための設定、削除、修正を受け付け、設定、削除、修正に応じた内容で同義語設定データ28を記憶部17dに記憶する。
【0050】
図9は、同義語設定データ28の例を示す図である。
【0051】
この同義語設定データ28において、同じ行における変換対象の表現は、集約表現(左端の共通の表現)にまとめられる。
【0052】
なお、ある行の集約表現がさらに他の行で変換対象の表現として設定されている場合には、ある行の集約表現は、他の行の集約表現にまとめられるとする。
【0053】
同義語集約機能10は、図10に示すように、記憶部17dに記憶されている同義語設定データ28に基づいて、共起表現データ25と自立語抽出データ27とにおける同義語の集約を行い、同義語集約データ29を作成する。
【0054】
すなわち、同義語集約機能10は、共起表現データ25と自立語抽出データ27とに含まれている表現であり上記図9の変換対象の表現を、集約表現に置き換える。
【0055】
削除設定機能11は、ユーザから文書分析に用いない表現の設定、削除、修正を受け付け、設定、削除、修正に応じた内容で削除設定データ30を記憶部17eに記憶する。
【0056】
図11は、削除設定データ30の例を示す図である。
【0057】
削除設定データ30では、削除対象の表現と、この削除対象の表現の品詞と、この削除対象表現が共起表現のどの位置に存在する場合に削除を実行するかを示す設定とを含む。
【0058】
例えば、削除設定データ30では、共起表現の1番目(1文節目)に名詞として「場合」が現れる場合には、この共起表現を削除する旨が設定されている。
【0059】
また、削除設定データ30では、共起表現の2番目(2文節目)に動詞として「できる」が現れる場合には、この共起表現を削除する旨が設定されている。
【0060】
また、削除設定データ30では、品詞を限定することなく、共起表現「連絡切符」を削除する旨が設定されている。
【0061】
削除機能8は、図12に示すように、記憶部17eに記憶されている削除設定データ30に基づいて、同義語集約データ29の中から分析に用いられない表現を含む共起表現または自立語を削除し、分析に用いられる共起表現または自立語のみを含む削除結果データ31を作成する。
【0062】
共通表現設定機能13は、ユーザから、同義の共起表現を共通の表現に集約する規則の設定、削除、修正を受け付け、設定、削除、修正に応じた内容に応じた共通表現設定データ32を記憶部17fに記憶する。
【0063】
この共通表現設定データ32では、互いに対比される共起表現がそれぞれ2つの自立語を含み、この対比される共起表現のそれぞれに含まれている2つの自立語(用言の場合はその終止形)の組み合わせが同じ場合、この共起表現内での自立語(文節)の順序、自立語の活用部分、共起表現に含まれている付属語が異なっていても、同義(同じ内容)であると判断し、互いに対比される共起表現を共通の表現で集約する旨が設定されている。
【0064】
なお、共通表現設定データ32では、同義と判断された共起表現のうち出現頻度の一番高い表現を共通の表現に用いる旨が設定されているとしてもよい。
【0065】
また、共通表現設定データ32では、共通の表現として用いる品詞・付属語・活用語尾パターンが設定されているとしてもよい。例えば、共通の表現として「名詞+が(格助詞)+形容詞終止形」というパターンを用いる旨が設定されており、集約される共起表現における自立語の活用しない部分が「文字」「大き」の場合、共通の表現は「文字が大きい」となる。
【0066】
表現集約機能14は、図13に示すように、記憶部17fに記憶されている共通表現設定データ32に基づいて、削除結果データ31に含まれている同義の共起表現を集約して共通の表現に変換し、集約結果および集約された共起表現の数を表す表現集約データ33を作成する。
【0067】
書込機能15は、自由記述データ191〜19n、属性データ201〜20n、回答データ211〜21nを含む文書データ181〜18n、形態素解析データ221〜22n、分割データ233〜23m、共起表現データ25、自立語抽出データ27、同義語集約データ29、削除結果データ31、表現集約データ33について、互いに関連する項目及びデータ要素間で関連付けを行った分析データ34を作成し、分析データ34を記憶部17gに書き込む。
【0068】
表示制御機能16は、記憶部17gに記憶されている分析データ34に基づいて、文書データ181〜18nの分析に有効な事項を表示装置35に表示させるための制御を実行する。
【0069】
以下に、本実施の形態について、具体例を挙げて説明する。
【0070】
文書データ181〜18nには、自由記述データ191〜19nに加えて、属性データ201〜20n、アンケート選択式設問に対する回答データ211〜21nなど、自由記述データ191〜19nの分析結果と合わせて参照したい各種データが含まれている。
【0071】
形態素解析機能3は、文書データ181〜18nのうち分析対象となる部分を形態素解析する。形態素解析は、文章を単語に分け品詞を付与する処理である。例えば、「銀行のATMのタッチパネルはO.Kなのに、駅の券売機のタッチパネルはダメな時が多い。」という自由記述データ191を形態素解析により単語に分割し品詞を付与すると、「/銀行[名詞]・の[付属語]/ATM[名詞]・の[付属語]/タッチ[名詞]/パネル[名詞]・は[付属語]/O.K[英語]・なのに[付属語]/、[読点]/駅[名詞]・の[付属語]/券売機[名詞]・の[付属語]/タッチ[名詞]/パネル[名詞]・は[付属語]/ダメ[形容動詞]・な[付属語]/時[名詞]・が[付属語]/多[形容詞]・い[活用語尾]/。[句点]」という形態素解析データ221が作成される。
【0072】
分割機能4は、形態素解析データ221〜22nおよび自由記述データ191〜19nを句読点で区切った分割データ231〜23nを作成する。分割データ231〜23nの文章は、形態素解析データ221〜22nの文章よりも短い。このため、分割データ231〜23n内では、同じ表現が現れる可能性が高くなる。
【0073】
共起パターン設定機能5は、分割データ231〜23n内に隣接して現れるパターンにより共起表現を判定し抽出するために、ユーザから共起パターンの追加・削除・修正を受け付ける。
【0074】
正式な文法にしたがって文章が記述されている場合、隣接する表現の品詞パターンにより文法的に正しい共起表現を高確率に抽出することが可能である。しかしながら、口語的な文章の場合には、文法的に正しくない共起表現が抽出される場合がある。そこで、口語的な文章を高精度に分析するために、ユーザは、共起表現である可能性の高い共起パターンを追加登録し、逆に有効に情報抽出を行うことが困難な共起パターンを削除・修正する。これにより、共起表現を柔軟に抽出することが可能となる。
【0075】
設定される共起パターンは、「名詞+の(格助詞)+名詞」「名詞+格助詞+名詞」「漢字2文字以上からなる名詞+名詞」「大きい(形容詞)+名詞」などのように、品詞の組み合わせを設定してもよく、品詞だけでなく表現を設定してもよい。また、「名詞(+付属語の有無不問)+名詞」のように、文節中の自立語部分のみで判定するようなパターンを共起パターンとして設定してもよい。
【0076】
また、抽出される共起パターンを設定するばかりでなく、一部の除外したいパターンを合わせて設定可能としてもよい。例えば、「形容詞+名詞」を抽出対象のパターンとして設定した上で、「形容詞+こと(名詞)」は抽出しない旨を設定してもよい。同様に、「形容詞+名詞」を抽出対象のパターンとして設定した上で「形容詞+こと」は抽出しない旨を設定してもよい。
【0077】
共起抽出機能6は、分割データ231〜23nを分析し、共起表現を抽出する。共起表現とは、係り受け関係にある複数の表現(文節)からなる。
【0078】
例えば、上記の例文中で、「銀行のATM」「タッチパネル」はそれぞれ2つの表現で構成されるが、意味的つながりが強く、共起表現と判断できる。
【0079】
2つの表現(2文節)または3つの表現(3文節)を含む共起表現は、単語(「銀行」「ATM」「タッチ」「パネル」など)と比較して長い表現であるために意味内容を把握しやすい。一方で、2つの表現(2文節)または3つの表現(3文節)からなる共起表現は、一般的な自由記述文に比べて短いため、複数の自由記述文内で同じ表現が使われる可能性が高く、大量の文書データ181〜18nの内容把握に有効な情報単位となる。
【0080】
例えば、共起抽出機能6は、分割データ231〜23n内に「名詞+の(格助詞)+名詞」(「銀行のATM」など)の共起パターンが現れた場合、共起表現である可能性が高いので、共起表現として抽出する。このように、分割データ231〜23n内の隣接する品詞の組み合わせに基づいて共起表現か否かを判断することにより、処理時間の短縮化を図ることが可能であり、口語的な文章からも柔軟に共起表現を抽出可能である。
【0081】
自立語設定機能7は、ユーザから、抽出する自立語(単語)のパターン(品詞または表現)の追加・削除・修正を受け付ける。
【0082】
一般的に、自立語には、名詞、動詞、形容詞、形容動詞、副詞、接続詞、感動詞などがあるが、全ての自立語が分析対象の自由記述文の内容を的確に表すとは限らない。また、日本語の自立語には該当しないが、英語表記が分析対象の自由記述文の内容を的確に表す場合もある。そこで、ユーザは、抽出する自立語のパターンを追加・削除・修正可能する。これにより、分析方針に合わせた柔軟な自立語の抽出が可能となる。
【0083】
なお、自立語設定データ26は、品詞により抽出される自立語を特定してもよい。また、自立語設定データ26は、例えば、「漢字で表現されている名詞を抽出対象とする」などのように、品詞と表現とにより抽出される自立語を特定してもよい。
【0084】
また、抽出されるパターンを設定するばかりでなく、一部の除外したいパターンを合わせて設定してもよい。例えば、名詞を抽出対象として設定した上で、「こと(名詞)」「もの(名詞)」は抽出しない旨を設定し、「こと」「もの」を除く名詞のみを抽出するような設定を行ってもよい。
【0085】
自立語抽出機能8は、設定された自立語(単語)を抽出する。自立語抽出機能8によって自立語を抽出することにより、「金額(名詞)」「老人(名詞)」「子ども(名詞)」など、共起表現よりも短い表現であるが回答者の意識の向いている表現を抽出することができ、分析対象の自由記述文の内容を漏れなく把握することが可能となる。
【0086】
同義語設定機能9は、上記図9に示すような同義語設定を受け付ける。
【0087】
同義語集約機能10は、抽出された共起表現及び抽出された自立語について、ユーザ(分析者)の設定に基づく同義語の集約を行い、抽出した共起表現や自立語の表記を変更する。このようなユーザ設定による同義語の集約を行うことにより、分析対象の自由記述文からの内容抽出及び内容把握を効率的に行うことができる。
【0088】
削除設定機能11は、ユーザから、単語レベル・共起表現レベルで削除対象の表現を受け付ける。
【0089】
削除機能12は、同義語集約データ29の中から、設定された削除対象の表現を削除する。これにより、ユーザの要求に合った分析結果を得ることができる。
【0090】
共通表現設定機能13は、共起表現の集約規則の設定を受け付ける。
【0091】
表現集約機能14は、抽出された多数の共起表現のうち同義の共起表現を集約する。本実施の形態において、表現集約機能14は、2文節共起の集約にあたり、第一文節の自立語(用言の場合はその終止形)及び第二文節の自立語(用言の場合はその終止形)の組み合わせが同じ共起表現を、共起表現内での文節の順番、自立語の活用部分、付属語が異なっても同じ内容を示すとみなし、一つの共通の表現に集約する。
【0092】
例えば、
文字が大きい(/文字[名詞]・が[付属語]/大き[形容詞]・い[活用語尾])
文字も大きい(/文字[名詞]・も[付属語]/大き[形容詞]・い[活用語尾])
文字の大きさ(/文字[名詞]・の[付属語]/大き[形容詞]・さ[活用語尾])
大きい文字(/大き[形容詞]・い[活用語尾]/文字[名詞]・が[付属語])
の全てにおいて、自立語「文字(名詞)」と「大きい(形容詞)」とが含まれる。自立語の間にはさまれている付属語、および「大きい」の活用語尾部分は異なっているが、自立語(用言の場合はその終止形)は「文字(名詞)」と「大きい(形容詞)」であり共通する。
【0093】
上記の4つの共起表現「文字が大きい」「文字も大きい」「文字の大きさ」「大きい文字」は意味が全く同じではない。しかしながら、回答者の意識は「文字の大きさ」にあり、文字のサイズについて単に大小ではなくて大きいことに意識が向いている、という点で同様とみなせる内容である。
【0094】
アンケート回答の整理などの場合、このような情報は同じ内容とみなして集約し、回答のグループ分けを行うことが有効である。
【0095】
本実施の形態では、これらの共起表現を分けて集計・提示するのではなくて、「文字が大きい」という共通の表現に集約し、集計・提示することで、有効な情報集約が可能となる。
【0096】
なお、共通の表現は、集約される共起表現のうち出現頻度が一番高い表現としてもよい。また、共通の表現について、例えば「名詞+が(格助詞)+形容詞終止形」などのように、品詞・付属語・活用語尾のパターンを決めておき、このパターンにしたがって、例えば「文字が大きい」などのように、共通の表現を作成するとしてもよい。
【0097】
書込機能15は、抽出され集約された共起表現を含む表現集約データ33と、他の関連するデータとを関係付けた分析データ34を作成する。
【0098】
表示制御機能16は、分析データ34の内容を様々な形態で表示装置35に表示させる。
【0099】
図14は、本実施の形態に係る文書処理プログラム1aによる処理の例を示すフローチャートである。
【0100】
ステップS1において、形態素解析機能3は、文書データ181〜18nの自由記述データ191〜19nに対して形態素解析を実行し、形態素解析データ221〜22nを作成する。
【0101】
ステップS2において、分割機能4は、形態素解析データ221〜22nを句読点にしたがって分割した分割データ231〜23nを作成する。
【0102】
なお、自由記述データ191〜19nを句読点にしたがって分割した後、形態素解析を実行するとしてもよい。
【0103】
ステップS3aにおいて、共起抽出機能6は、分割データ231〜23nから共起表現を抽出し、共起表現データを作成する。
【0104】
また、ステップS3bにおいて、自立語抽出機能8は、分割データ231〜23nから設定されている自立語を抽出し、自立語抽出データ27を作成する。
【0105】
なお、ステップS3a,S3bの実行順序は、ステップS3a実行後にステップS3bを実行してもよく、逆の順序でもよく、並列に実行されるとしてもよい。
【0106】
ステップS4において、同義語集約機能10は、抽出された共起表現と抽出された自立語に対して同義語の集約を行い、同義語集約データ29を作成する。
【0107】
ステップS5において、削除機能12は、同義語集約データ29の中から削除対象として設定されている表現を削除し、削除結果データ31を作成する。
【0108】
ステップS6において、表現集約機能14は、削除結果データ31に対して、共起表現に含まれている自立語(用言の場合にはその終止形)の組み合わせが同一の場合に、この共起表現を共通の表現に変換して集約を行い、表現集約データ33を作成する。
【0109】
ステップS7において、書込機能15は、表現集約データ33と各種データとの関係付けを行い、分析データ34を作成する。
【0110】
ステップS8において、表示制御機能16は、分析データを様々な形態で表示装置35に表示させるための制御を実行する。
【0111】
以上説明した本実施の形態においては、2文節の共起表現の集約について、第一文節の自立語(用言の場合はその終止形)及び第二文節の自立語(用言の場合はその終止形)の組み合わせが同じ共起表現が、文節の順番、活用部分、付属語が異なっていても同じ内容を示すとみなされ、一つの共通の表現に集約される。
【0112】
これにより、良好な共起表現の集約を行うことができ、大量の文書データ181〜18nについて効率的かつ正確な分析を行うことができる。すなわち、大量の文書データ181〜18nの内容が端的な表現で抽出され、ユーザは、アンケート回答などの大量のデータをすべて読む必要がないため、大量のデータの内容を容易に把握することができる。
【0113】
また、本実施の形態においては、2文節または3文節からなる共起表現のみではなく自立語も文書内容として抽出される。
【0114】
これにより、共起表現よりも短い表現であり回答者の意識の向いている表現を抽出することができ、分析対象の文書の内容を漏れなく把握することができる。
【0115】
また、本実施の形態においては、ユーザが同じ意味内容とみなしたい同義語が集約される。これにより、分析対象の自由記述文からの内容抽出及び内容把握を効率的に行うことができる。
【0116】
また、本実施の形態においては、分析に必要のない表現が削除されるため、ユーザの要求に合った分析結果を得ることができる。
【0117】
また、本実施の形態においては、形態素解析データ221〜22nを句読点で分割して作成された分割データ231〜23nから共起表現が抽出される。これにより、分割データとして同じ表現が現れる可能性が高くなり、共起表現の原文(分割データ)参照を効率よく行うことができる。
【0118】
本実施の形態では、分析に必要のない表現を削除することができ、抽出された表現について同義語集約が行われ、抽出された共起表現について集約が行われるため、大量のデータについてのグループ分けが容易となる。
【0119】
(第2の実施の形態)
本実施の形態においては、上記第1の実施の形態の変形例について説明する。
【0120】
本実施の形態において、共起抽出機能6は、構文解析を行って係り受け関係を認識し、共起表現を抽出する。
【0121】
構文解析を行うことにより、文章中の離れた位置にある表現(文節)についても共起表現として抽出可能となる。
【0122】
例えば「大きな操作しやすい券売機」という文章を構文解析することで、「大きな」と「券売機」とは位置が接していないが、「大きな券売機」「操作しやすい券売機」という共起表現を抽出することができる。
【0123】
したがって、本実施の形態においては、より適切に共起表現を抽出することができる。
【0124】
(第3の実施の形態)
本実施の形態では、上記第1または第2の実施の形態に係る分析データ34の表示形態について説明する。
【0125】
図15は、本実施の形態に係る分析データ34の表示形態の第1例を示す図である。
【0126】
この図15では、集約後の共通の表現とその出現頻度とが表示されている。また、抽出され共通の表現に集約された共起表現とその出現頻度(共起頻度)とが表示されている。また、共起表現ごとに、その共起表現に含まれている単語とその単語の品詞とが表示されている。この図15では、共通の表現及び共起表現とは、出現頻度の高い順に表示されている。
【0127】
なお、共通の表現とともに同義語集約された後の自立語を表示してもよく、共起表現とともに抽出された自立語を表示してもよい。
【0128】
このように、抽出された情報を出現頻度の高い順に表示することにより、ユーザは大量の自由記述データ191〜19nの中で数多く記述されている内容を効率的に把握することができる。
【0129】
また、この図15の表示内容と合わせて、自由記述データ191〜19nのうちユーザに指定された自由記述文を表示するとしてもよい。これにより、大量の文書内容を集約して把握しつつ、実際の表記も把握することができ、テキストマイニングの辞書作成などに有効な情報が提供される。
【0130】
図16は、本実施の形態に係る分析データ34の表示形態の第2例を示す図である。
【0131】
この図16では、自由記述文を句読点で区切った内容、句読点で区切った内容に対する形態素解析の内容、句読点で区切った内容の文節数、句読点で区切った内容の出現頻度、句読点で区切った内容から抽出された共起表現が表示されている。
【0132】
複数回現れる句読点で区切った内容と、その句読点で区切った内容から抽出される共起表現、自立語を合わせて観察することにより、抽出対象とする共起パターンの見直しまたは削除すべき表現の見直しを効率的に行うことができる。
【0133】
図17は、本実施の形態に係る分析データ34の表示形態の第3例を示す図である。
【0134】
この図17では、抽出された共起表現「タッチパネル」について、この共起表現が抽出された自由記述文、この自由記述文から抽出された他の共起表現、自由記述文に関する例えば「性別」「年齢」などの属性データ、抽出された共起表現「タッチパネル」の単語とその品詞が表示されている。
【0135】
このように、共起表現と合わせて自由記述文、属性、他の共起表現を表示することにより文書データ181〜18nの内容の背景を効率的に把握することができる。
【0136】
上記図15から図17の表示形式について、共通の表現、抽出された共起表現、集約された自立語、抽出された自立語(単語)を分けずに表示するとしてもよい。
【0137】
また、共通の表現、抽出された共起表現、集約された自立語、抽出された自立語を組み合わせて表示する場合、ユーザの選択により表示内容について各種の限定(例えば、自立語は名詞のみ、共起表現は「名詞+格助詞+形容詞」のみなど)を行ってもよい。
【0138】
自立語と共起表現を合わせて表示することで、共起表現に満たない自立語も漏れなく、共起表現と合わせて効率的に把握することができる。
【0139】
図18は、本実施の形態に係る分析データ34の表示形態の第4例を示す図である。
【0140】
この図18では、共通の表現、抽出された共起表現、集約された自立語、抽出された自立語について、全体での集計結果及び各種の属性別の集計結果が表示されている。例えば出現頻度が高い方から一定数の表現が表示されている。なお、自立語の品詞または共起パターン別に表示を行ってもよい。この図18では、名詞が表示されている。属性別の表示内容について、他の属性で現れない部分をマークして表示することにより、ユーザは、属性ごとの特徴を容易に把握することができる。
【0141】
図19は、本実施の形態に係る分析データ34の表示形態の第5例を示す図である。
【0142】
この図19では、共通の表現、抽出された共起表現、集約された自立語、抽出された自立語について、各種の属性別の集計結果のうち全体での集計結果では抽出されているがその属性では抽出されていない表現が表示されている。例えば、出現頻度の高い方から一定数の表現が並べられ、この状態において全体の集計結果と各属性の集計結果とが比較され、全体での集計結果では抽出されているがその属性では抽出されていない表現が表示される。なお、自立語の品詞または共起パターン別に表示を行ってもよい。この図19では、名詞が表示されている。このように、各属性で現れないが他の属性で現れる表現を表示することにより、ユーザは属性ごとの特徴を容易に把握することができる。
【0143】
さらに、他の表示形態として、分析データ34について、共通の表現、抽出された共起表現、抽出された自立語を品詞や共起パターンを限定することなく表示する。これにより、自由記述文の分析方針が明白になっていない段階などにおいて、大量の文章で表現されている内容を効率的に把握することができる。
【0144】
一方で、抽出された共起表現を品詞の組み合わせパターン別で表示するとしてもよく、または抽出された自立語を品詞別で表示するとしてもよい。例えば抽出された名詞だけを表示した場合には、ユーザは大量の自由記述文で言及されている項目を効率的に把握することができる。
【0145】
自由記述文が何かに関する評価の調査について記述されている場合、抽出された自立語のうち形容詞または形容動詞のみ、または抽出された共起表現のうち「名詞+格助詞+形容詞」の共起パターンのみを表示することで、ユーザは自由記述文中で表現されている評価を効率的に把握することができる。
【0146】
なお、上記各実施の形態で説明した文書処理プログラム1aは、例えば磁気ディスク(フレキシブルディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリなどの記録媒体に書き込んで、コンピュータ2に適用可能である。また、上記文書処理プログラム1aは、通信媒体により伝送してコンピュータ2に適用することも可能である。コンピュータ2は、上記文書処理プログラム1aを読み込み、上記文書処理プログラム1aによって動作が制御されることにより、上記の機能を実現する。
【0147】
上記各実施の形態において、ソフトウェアにより実現される機能は、ハードウェアによって実現されるとしてもよい。
【0148】
上記各実施の形態において、文書処理プログラム1aは、複数のコンピュータに分散して配置され、複数のコンピュータ間で互いに連携しつつ処理が実行されるとしてもよい。
【0149】
上記各実施の形態において、各構成要素は、同様の動作を実現可能であれば自由に変形可能であり、配置を変更させてもよく、自由に組み合わせることが可能であり、分割することも可能である。
【0150】
例えば、各記憶部17a〜17g及び各機能間でデータを受け渡しするために用いられる記憶部は、自由に組み合わせてもよい。また、各記憶部17a〜17g及び各機能間でデータを受け渡しするために用いられる記憶部は、コンピュータ2に内蔵されているメモリなどでもよく、コンピュータ2に対して備えられる外付けのハードディスクなどでもよい。
【0151】
上記各実施の形態においては、共起表現に含まれている自立語(用言の場合はその終止形)の組み合わせが同一の場合に、共起表現の集約を行うとしている。しかしながら、例えば、単語がサ行変格活用動詞(する)などのように単語全体が活用しない場合には、共起表現に含まれている複数の単語または自立語における活用しない部分の組み合わせが同一の場合に、共起表現の集約を行うとしてもよい。
【0152】
また、自立語が用言の場合、この用言の自立語の終止形の変わりに、未然形、連体形など他の活用で、組み合わせが同一か否か判断するとしてもよい。
【0153】
以下に、一般的な各種用語の意味について説明する。
【0154】
一般的には、共起表現とは、係り受け関係にある複数文節からなる表現を意味する。
【0155】
係り受けとは、「主語と述語(太郎は帰った)」「修飾と被修飾(家に帰った)」「補助の関係(歩いてくる)」「並立の関係(赤と白)」「接続・被接続の関係(雨なので濡れた)」などの文節間の関係を意味する。
【0156】
単語は、意味の一まとまりを表し、文法上の働きを持つ言語の最小単位である。
【0157】
文節は、文を意味上の判断が可能なレベルで区切った最小単位である。文節は、自立語から始まり、この自立語に付属する付属語がある場合はこの付属語を伴い、次の自立語の前で終わる。
【0158】
自立語は、単独で一文節を構成することができる単語である。自立語は、その一語だけでもその意味内容がわかる。
【0159】
付属語には、助詞、助動詞などの種別がある。付属語は、その一語のみではその意味内容がわからない。
【0160】
体言は、概念を表し、活用がない単語である。体言には、名詞、代名詞、数詞などの種別がある。
【0161】
用言は、活用する単語のうち、動詞、形容詞、形容動詞に属する単語である。
【産業上の利用可能性】
【0162】
本発明は、文書データの分析に用いられるプログラム及び文書処理装置並びに文書処理方法の分野に有効である。
【図面の簡単な説明】
【0163】
【図1】本発明の第1の実施の形態に係る文書処理プログラムをコンピュータに適用させた場合の例を示すブロック図。
【図2】文書データの例を示す図。
【図3】形態素解析データの例を示す図。
【図4】分割データの例を示す図。
【図5】共起パターンデータの例を示す図。
【図6】共起表現データの例を示す図。
【図7】自立語設定データの例を示す図。
【図8】自立語抽出データの例を示す図。
【図9】同義語設定データの例を示す図。
【図10】同義語集約機能による同義語集約データの作成状態の例を示すブロック図。
【図11】削除設定データの例を示す図
【図12】削除機能による削除結果データの作成状態の例を示すブロック図。
【図13】表現集約機能による表現集約データの作成状態の例を示すブロック図。
【図14】同実施の形態に係る文書処理プログラムによる処理の例を示すフローチャート。
【図15】本発明の第3の実施の形態に係る分析データの表示形態の第1例を示す図。
【図16】同実施の形態に係る分析データの表示形態の第2例を示す図。
【図17】同実施の形態に係る分析データの表示形態の第3例を示す図。
【図18】同実施の形態に係る分析データの表示形態の第4例を示す図。
【図19】同実施の形態に係る分析データの表示形態の第5例を示す図。
【符号の説明】
【0164】
1…記録媒体、1a…文書処理プログラム、2…コンピュータ、3…形態素解析機能、4…分割機能、5…共起パターン設定機能、6…共起抽出機能、7…自立語設定機能、8…自立語抽出機能、9…同義語設定機能、10…同義語集約機能、11…削除設定機能、12…削除機能、13…共通表現設定機能、14…表現集積機能、15…書込機能、16…表示制御機能、17a〜17g…記憶部、181〜18n…文書データ、191〜19n…自由記述データ、201〜20n…属性データ、211〜21n…回答データ、221〜22n…形態素解析データ、231〜23n…分割データ、24…共起パターンデータ、25…共起表現データ、26…自立語設定データ、27…自立語抽出データ、28…同義語設定データ、29…同義語集約データ、30…削除設定データ、31…削除結果データ、32…共通表現設定データ、33…表現集約データ、34…分析データ、35…表示装置

【特許請求の範囲】
【請求項1】
コンピュータに、
第1記憶手段に記憶されている文書データを形態素解析し、形態素解析データを作成する機能、
第2記憶手段に記憶されている共起パターンに基づいて、前記形態素解析データの中から複数の共起表現を抽出する共起抽出機能、
前記複数の共起表現のそれぞれに含まれている複数の自立語であり、この複数の自立語に用言が含まれている場合にはこの用言の自立語を終止形とした場合の組み合わせが同一の場合に、前記複数の共起表現を共通の表現でまとめる機能、
前記文書データと前記共通の表現とを関係付けた分析データを第3記憶手段に記憶する機能
を実現させるためのプログラム。
【請求項2】
請求項1記載のプログラムにおいて、
前記形態素解析データは、前記文書データを単語で区切り、前記単語ごとに品詞種別を付したデータであり、
前記共起パターンは、品詞種別の組み合わせにより共起関係が設定されている
ことを特徴とするプログラム。
【請求項3】
請求項1または請求項2記載のプログラムにおいて、
前記共起抽出機能は、前記形態素解析データに対して構文解析を実行して単語の係り受け関係を表す構文解析データを作成し、前記共起パターンと前記構文解析データとに基づいて、前記形態素解析データの中から複数の共起表現を抽出する
ことを特徴とするプログラム。
【請求項4】
請求項1乃至請求項3のいずれか1項に記載のプログラムにおいて、
コンピュータに、
前記文書データから所定の自立語を抽出する機能
をさらに実現させ、
前記分析データは、前記文書データと前記自立語と前記共通の表現とを関係付けたデータである
ことを特徴とするプログラム。
【請求項5】
請求項1乃至請求項4のいずれか1項に記載のプログラムにおいて、
コンピュータに、
前記複数の共起表現のうち第4記憶手段に記憶されている除外パターンと一致する共起表現を削除する機能
をさらに実現させ、
前記分析データは、前記除外パターンと一致しない共起表現を含む
ことを特徴とするプログラム。
【請求項6】
請求項1乃至請求項5のいずれか1項に記載のプログラムにおいて、
コンピュータに、
前記分析データに基づいて、前記共通の表現を、出現頻度順に表示するための制御を行う機能
をさらに実現させることを特徴とするプログラム。
【請求項7】
請求項1乃至請求項6のいずれか1項に記載のプログラムにおいて、
前記分析データは、前記文書データと前記共通の表現と前記複数の共起表現とを関係付けたデータであり、
コンピュータに、
前記分析データに基づいて、前記共通の表現と前記複数の共起表現とを表示するための制御を行う機能
をさらに実現させることを特徴とするプログラム。
【請求項8】
請求項1乃至請求項7のいずれか1項に記載のプログラムにおいて、
コンピュータに、
前記形態素解析データを、句読点を基準として区切って複数の分割データを作成する機能
をさらに実現させ、
前記共起抽出機能は、前記複数の分割データごとに、複数の共起表現を抽出し、
前記分析データは、前記複数の分割データと前記共通の表現とを関係付けたデータである
ことを特徴とするプログラム。
【請求項9】
請求項1乃至請求項8のいずれか1項に記載のプログラムにおいて、
前記分析データは、前記文書データに関する属性データを含み、
コンピュータに、
前記属性データに応じて、前記分析データの内容を表示するための制御を行う機能
をさらに実現させることを特徴とするプログラム。
【請求項10】
第1記憶手段に記憶されている文書データを形態素解析し、形態素解析データを作成する手段と、
第2記憶手段に記憶されている共起パターンに基づいて、前記形態素解析データの中から複数の共起表現を抽出する共起抽出手段と、
前記複数の共起表現のそれぞれに含まれている複数の自立語であり、この複数の自立語に用言が含まれている場合にはこの用言の自立語を終止形とした場合の組み合わせが同一の場合に、前記複数の共起表現を共通の表現でまとめる手段と、
前記文書データと前記共通の表現とを関係付けた分析データを第3記憶手段に記憶する手段と
を具備する文書処理装置。
【請求項11】
コンピュータシステムによって実現される文書処理方法において、
第1記憶手段に記憶されている文書データを形態素解析し、形態素解析データを作成し、
第2記憶手段に記憶されている共起パターンに基づいて、前記形態素解析データの中から複数の共起表現を抽出し、
前記複数の共起表現のそれぞれに含まれている複数の自立語であり、この複数の自立語に用言が含まれている場合にはこの用言の自立語を終止形とした場合の組み合わせが同一の場合に、前記複数の共起表現を共通の表現でまとめ、
前記文書データと前記共通の表現とを関係付けた分析データを第3記憶手段に記憶する
ことを特徴とする文書処理方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate


【公開番号】特開2006−72483(P2006−72483A)
【公開日】平成18年3月16日(2006.3.16)
【国際特許分類】
【出願番号】特願2004−252407(P2004−252407)
【出願日】平成16年8月31日(2004.8.31)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)
【Fターム(参考)】