文章情報グループ判別支援装置

【課題】容易に、精度良く複数の文章情報グループに対する文章情報の帰属性の判別を支援する技術を提供する。
【解決手段】形態素解析手段１２は、文章情報から文情報を判別し、各文情報を形態素に分割した後、各文情報に含まれている品詞情報を文情報中における出現順に判別することによって、文章情報に含まれている品詞情報を出現順に判別する。評価情報作成手段１３は、文章情報に含まれている品詞情報の出現順から、品詞Ｎグラムを出現順に抽出する。そして、抽出した品詞Ｎグラムの出現順と、記憶手段２０の品詞Ｎグラム確率情報データベース２３に品詞Ｎグラムに対して文章情報グループ毎に記憶されている品詞Ｎグラム確率情報に基づいて、文章情報に対する文章情報グループ毎の評価情報を作成する。グループ判別手段１４は、文章情報に対する文章情報グループ毎の評価情報に基づいて、文章情報が帰属する文章情報グループを判別する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、複数の文章情報グループに対する文章情報の帰属性の判別を支援する文章情報グループ帰属性判別支援技術に関する。
【背景技術】
【０００２】
近年、インターネットに存在するＷｅｂページ、掲示板、ブログ（Ｂｌｏｇ）等には、論説（コラム）や日記、ニュース（時事解説）に関する意見など様々な種類の文章情報が掲載されている。インターネットの利用者がこれらの文章情報を閲覧することができるようにするために、キーワードの一致やＷｅｂのリンク構造解析による重要度評価を用いた検索エンジンが提供されている。しかしながら、この従来の検索エンジンでは、文章情報のコンテンツ種別（例えば、コラムや日記）や文体種別（例えば、論説調や口語調）を考慮して文章情報を検索することができない。例えば、ある話題について「かたいコラム系」あるいは「やわらかい日記系」の文章情報を検索することができない。
このような背景の下で、文章情報のコンテンツ種別を判別する技術が提案されている（特許文献１参照）。特許文献１に記載されている技術は、文章情報中に出現する単語および単語の出現頻度に基づいて、文章情報のコンテンツ種別（例えば、紹介文章や感想文章）を判別するものである。
【特許文献１】特開２００５−２７５７５７号公報
【発明の開示】
【発明が解決しようとする課題】
【０００３】
特許文献１に記載されている技術では、文章情報のコンテンツ種別を判別するために、文章情報の特徴情報として単語および単語の出現頻度を用いている。このため、文章情報のコンテンツ種別を精度良く判別するためには、大量の学習データを必要とする。また、単語そのものをコンテンツ種別の特徴情報として用いるため、文章情報に含まれている単語（文章情報の内容や話題）に対する依存性が高く、汎用性に欠ける。
本発明は、このような点に鑑みて創案されたものであり、コンテンツ種別が異なる文章情報グループや文体種別が異なる文章情報グループ等に対する文章情報の帰属性の判別を容易に精度良く支援することができる技術を提供することを目的とする。
【課題を解決するための手段】
【０００４】
前記目的を達成するための一つの発明は、入力手段と、記憶手段と、管理手段と、形態素解析手段と、評価情報作成手段を備えている。
記憶手段には、文章情報と形態素解析辞書が記憶される。形態素解析辞書には、文章情報を形態素に分割し、品詞情報を判別するための辞書情報が記憶されている。
形態素解析手段は、記憶手段に記憶されている形態素辞書を用いて、文章情報を形態素（文章情報を構成しているｎ個の単語）に分割し、形態素に対応する品詞情報を文章情報中における出現順に判別する。形態素解析手段では、公知の種々の形態素解析手法を用いることができる。なお、文章情報が複数の文情報により構成されている場合には、文情報毎に形態素解析を行うのが好ましい。文章情報を文情報に区分する手法としては、公知の種々の手法を用いることができる。
また、記憶手段には、文章情報（学習文章情報）中に出現した、連続するＮ個の品詞情報の配列（品詞Ｎグラム）に対応する文章情報グループ毎の品詞情報出現確率情報（品詞Ｎグラム確率情報）が記憶される。文章情報グループとしては、異なる種別それぞれに含まれる適宜の文章情報グループが設定される。例えば、１つの種別である文章情報のコンテンツ種別に含まれる「コラム系文章情報グループ」と「日記系文章情報グループ」、他の種別である文章情報の文体種別に含まれる「論説調文章情報グループ」と「口語調文章情報グループ」が設定される。連続する品詞情報の数Ｎとしては、［１≦Ｎ≦ｎ］（ｎ：文章情報に含まれる品詞情報の総数）の範囲の任意の整数を選択することができるが、評価情報作成手段による評価情報作成処理の容易性や評価情報の精度等を考慮すると、２以上の整数、好適には２または３の整数が設定される。
「連続するＮ個の品詞情報の配列（品詞Ｎグラム）に対する文章情報グループ毎の品詞情報出現確率情報（品詞Ｎグラム確率情報）」は、典型的には、帰属する文章情報グループが既知の複数の学習文章情報を用いて作成された、同じ文章情報グループに帰属する学習文章情報中における連続する品詞Ｎグラムの品詞Ｎグラム出現確率が用いられる。同じ文章情報グループに帰属する文章情報中における品詞Ｎグラムの品詞Ｎグラム出現確率は、当該文章情報グループの特徴を表している。品詞Ｎグラムに対する文章情報グループ毎の品詞Ｎグラム出現確率は、例えば、文章情報グループに共通の品詞Ｎグラム確率情報データベースとして構成することもできるし、文章情報グループ毎の品詞Ｎグラム確率情報データベースとして構成することもできる。
評価情報作成手段は、形態素解析手段によって判別した、文章情報に含まれている品詞情報の出現順から、連続するＮ個の品詞情報の配列（品詞Ｎグラム）を出現順に抽出する。文章情報に含まれている連続するＮ個の品詞情報の配列（品詞Ｎグラム）を出現順に抽出する方法としては、例えば、文頭から文末方向に連続するｎ個の品詞情報の配列を抽出する処理を、文章情報に含まれている品詞情報の出現順に実行する方法が用いられる。そして、出現順に抽出した品詞Ｎグラムと、記憶手段に、品詞Ｎグラムに対して文章情報グループ毎に記憶されている品詞Ｎグラム確率情報に基づいて、文章情報に対する文章情報グループ毎の評価情報を作成する。文章情報に対する文章情報グループ毎の評価情報としては、典型的には、文章情報から出現順に抽出した品詞Ｎグラムそれぞれに対する文章情報グループ毎の品詞Ｎグラム確率情報を記憶手段から読み出し、文章情報グループ毎に順次乗算することによって作成することができる。なお、対数で表された品詞Ｎグラム確率情報が品詞Ｎグラム確率情報データベースに記憶されている場合には、記憶手段から読み出した品詞Ｎグラム確率情報を加算することによって作成される。評価情報作成手段としては、複数の文章情報グループに共通の評価情報作成手段を用いることもできるが、文章情報グループ毎の評価情報作成手段を用いることもできる。文章情報グループ毎の評価情報作成手段を用いると、変更、追加、削除等を文章情報グループ毎に容易に行うことができる。
管理手段は、入力手段により入力される文章情報あるいは記憶手段に記憶されている文章情報に対する評価情報作成要求情報が入力されると、入力手段から入力された文章情報あるいは記憶手段に記憶されている文章情報に対する文章情報グループ毎の評価情報を、形態素解析手段および評価情報作成手段を用いて作成し、記憶手段に記憶する。作成された文章情報に対する文章情報グループ毎の評価情報は種々の用途に使用することができる。
本発明では、文章情報に含まれている連続するＮ個の品詞情報の配列（品詞Ｎグラム）から、品詞Ｎグラム確率情報を用いて文章情報に対する文章情報グループ毎の評価情報を作成するため、文章情報が帰属する文章情報グループの判別を支援する評価情報を容易に精度良く作成することができる。
【０００５】
他の発明は、入力手段と、記憶手段と、管理手段と、形態素解析手段と、評価情報作成手段と、出力手段を備えている
記憶手段、形態素解析手段、評価情報作成手段としては、前述した記憶手段、形態素解析手段、評価情報作成手段と同様の構成のものを用いることができる。管理手段は、入力手段から文章情報グループ毎の設定評価情報を含む出力要求情報が入力されると、形態素解析手段および評価情報作成手段を用いて作成した、記憶手段に記憶されている各文章情報に対する文章情報グループ毎の評価情報と、入力された出力要求情報に含まれている文章情報グループ毎の設定評価情報に基づいて、記憶手段に記憶されている文章情報の中から、入力された出力要求情報に含まれている文章情報グループ毎の設定評価情報に該当する文章情報を選択する。そして、選択した文章情報を出力手段から出力する。文章情報グループ毎の設定評価情報に該当する文章情報を選択する方法としては、例えば、文章情報グループ毎の設定評価情報と各文章情報に対して作成された文章情報グループ毎の評価情報が設定された条件に適合する文章情報を選択する方法を用いることができる。記憶手段に記憶されている文章情報に対する文章情報グループ毎の評価情報は、予め作成して記憶手段に記憶しておいてもよいし、出力要求情報が入力された時に作成してもよい。
本発明では、文章情報に対する文章情報グループ毎の評価情報が設定された条件に適合する文章情報、すなわち、各文章情報グループに対して所望の帰属性を有する文章情報を容易に選択することができる。
【０００６】
他の形態では、入力手段は、原点から各文章情報グループに対応する座標軸が引かれた２次元平面上で指示された点の各座標値を、文章情報グループ毎の設定評価情報として入力する。２次元平面を用いて文章情報グループ毎の設定評価情報を入力する場合には、例えば、直交する一方の座標軸に沿って一つの種別に含まれる文章情報グループに対応する座標軸を引き、直交する他方の座標軸に沿って異なる種別に含まれる文章情報グループに対応する座標軸を引くのが好ましい。さらに、文章情報に対する文章情報グループ毎の評価情報は、一つの種別に含まれる複数の文章情報グループに対応する評価情報のうち最も大きい評価情報を選択し（他の評価情報は「０」とみなす）、異なる種別に含まれる複数の文章情報グループに対応する評価情報のうち最も大きい評価情報を選択する（他の評価情報は「０」とみなす）のが好ましい。これにより、文章情報を示す文章情報識別情報（例えば、２次元平面上の点）を前述した２次元平面上に配置することが可能となる。この場合、設定評価情報に該当する文章情報を選択する方法としては、例えば、作成された文章情報グループ毎の評価情報と入力された文章情報グループ毎の設定評価情報との間の距離が最も短い１または複数の文章情報を選択する方法、作成された文章情報グループ毎の評価情報と入力された文章情報グループ毎の設定評価情報との間の距離が設定範囲内である文章情報を選択する方法、２次元平面を分割領域に分割し、作成された文章情報グループ毎の評価情報が、入力された文章情報グループ毎の設定評価情報が存在する分割領域内に含まれる文章情報を選択する方法等を用いることができる。
本形態では、文章情報グループ毎の設定評価情報を容易に入力することができる。
【０００７】
さらに他の形態では、管理手段は、入力手段から検索情報と文章情報グループ毎の設定評価情報を含む出力要求情報が入力されると、記憶手段に記憶されており、入力された出力要求情報に含まれている検索情報を含む文章情報の中から、入力された出力要求情報に含まれている文章情報グループ毎の設定評価情報に該当する文章情報を選択する。検索情報としては、典型的には、キーワードが用いられる。
本形態では、キーワード等の検索情報を用いることにより、所望の文章情報をより容易に選択することができる。
【０００８】
さらに他の発明は、入力手段と、記憶手段と、管理手段と、形態素解析手段と、評価情報作成手段と、出力手段を備えている。
記憶手段、形態素解析手段、評価情報作成手段としては、前述した記憶手段、形態素解析手段、評価情報作成手段と同様の構成のものを用いることができる。管理手段は、入力手段から出力要求情報が入力されると、形態素解析手段および評価情報作成手段を用いて作成した、記憶手段に記憶されている各文章情報に対する文章情報グループ毎の評価情報を出力手段から出力する。記憶手段に記憶されている文章情報に対する文章情報グループ毎の評価情報は、予め作成して記憶手段に記憶しておいてもよいし、出力要求情報が入力された時に作成してもよい。各文章情報に対する文章情報グループ毎の評価情報を出力手段から出力する方法としては、適宜の方法を用いることができる。好適には、各文章情報に対する文章情報グループ毎の評価情報を判別可能に出力手段から出力する方法が用いられる。文章情報グループ毎の評価情報を判別可能に出力手段から出力する方法には、同じ種別に含まれる複数の文章情報グループのうちの少なくとも１つに対する評価情報を判別可能に出力手段から出力する方法が含まれる。「評価情報を判別可能に出力手段から出力する」という記載は、利用者が評価情報を判別することができるように出力手段から出力する構成を意味し、例えば、評価情報を数字で出力する態様、評価情報が座標軸として引かれているグラフ上の点として出力する態様等が用いられる。
本発明では、利用者は、各文章情報に対する文章情報グループ毎の評価情報を容易に判別することができる。
【０００９】
他の形態では、管理手段は、原点から各文章情報グループに対応する座標軸が引かれた２次元平面上に各文章情報を示す文章情報識別情報（例えば、点）が配置されるように出力する。この場合、２次元平面には、例えば、直交する一方の座標軸に沿って一つの種別に含まれる文章情報グループに対応する座標軸を引き、直交する他方の座標軸に沿って異なる種別に含まれる文章情報グループに対応する座標軸を引くのが好ましい。そして、文章情報に対する文章情報毎の評価情報は、一つの種別に含まれる複数の文章情報グループに対応する評価情報のうち最も大きい評価情報を選択し（他の評価情報は「０」とみなす）、異なる種別に含まれる複数の文章情報グループに対応する評価情報のうち最も大きい評価情報を選択する（他の評価情報は「０」とみなす）のが好ましい。これにより、文章情報を示す文章情報識別情報（例えば、２次元平面上の点）を、文章情報に対する文章情報グループ毎の評価情報を判別可能に２次元平面上に出力することができる。
本形態では、利用者は、各文章情報に対する文章情報グループ毎の評価情報をより容易に判別することができる。
【００１０】
さらに他の形態では、管理手段は、入力手段から検索情報と出力要求情報が入力されると、記憶手段に記憶されており、入力された出力要求情報に含まれている検索情報を含む文章情報に対する文章情報グループ毎の評価情報を出力手段から出力する。
本形態では、キーワード等の検索情報を用いることにより、所望の文章情報に対する文章情報グループ毎の評価情報を判別することができる。
【００１１】
さらに他の発明は、入力手段と、記憶手段と、管理手段と、形態素解析手段と、評価情報作成手段と、グループ判別手段と、出力手段を備えている。
記憶手段、形態素解析手段、評価情報作成手段としては、前述した記憶手段、形態素解析手段、評価情報作成手段と同様の構成のものを用いることができる。グループ判別手段は、評価情報作成手段によって作成された文章情報に対する文章情報グループ毎の評価情報に基づいて、文章情報が帰属する文章情報グループを判別する。管理手段は、入力手段から設定文章情報グループを含む出力要求情報が入力されると、形態素解析手段、評価情報作成手段およびグループ判別手段を用いて判別した、記憶手段に記憶されている各文章情報が帰属する文章情報グループが、入力された出力要求情報に含まれている設定文章情報グループと一致する文章情報を選択する。そして、選択した文章情報を出力手段から出力する。
文章情報に対する文章情報グループ毎の評価情報に基づいて、文章情報が帰属する文章情報グループを判別する方法としては、適宜の方法を用いることができる。例えば、文章情報に対する文章情報グループ毎の評価情報のうち最も大きい評価情報が作成された文章情報グループを、当該文章情報が帰属する文章情報グループであることを判別する方法を用いることができる。
本発明では、設定した文章情報グループに帰属する文章情報を容易に精度良く選択することができる。
【００１２】
他の形態では、管理手段は、入力手段から検索情報と設定文章情報グループを含む出力要求情報が入力されると、記憶手段に記憶されており、入力された出力要求情報に含まれている検索情報を含む文章情報が帰属する文章情報グループが、入力された出力要求情報に含まれている設定文章情報グループと一致する文章情報を出力手段から出力する。
本形態では、キーワード等の検索情報を用いることにより、所望の文章情報をより容易に選択することができる。
【００１３】
さらに他の形態では、記憶手段には、連続するＮ個の品詞情報（品詞Ｎグラム）に対する文章情報グループ毎の品詞情報出現確率情報（品詞Ｎグラム確率情報）および、連続するＭ個（Ｍ＝１，・・・，Ｎ−１）それぞれの個数の品詞情報の配列（品詞Ｍグラム）に対する文章情報グループ毎の品詞情報出現確率情報（品詞Ｍグラム確率情報）が記憶されている。
そして、評価情報作成手段は、文章情報に含まれている品詞Ｎグラムに対する品詞Ｎグラム確率情報が記憶手段に記憶されている場合には、記憶手段に記憶されている品詞Ｎグラム確率情報を当該品詞Ｎグラムに対する品詞Ｎグラム確率情報として決定する（用いる）。一方、文章情報に含まれている品詞Ｎグラムに対する品詞Ｎグラム確率情報が記憶手段に記憶されていない場合には、品詞Ｍグラム（Ｍ＝１・・・，Ｎ−１）それぞれに対する品詞Ｍグラム確率情報を用いて補間処理を行う。
補間処理手法としては、公知の種々の手法を用いることができる、例えば、［Ｎ＝２］（品詞２グラム）が選択されており、文章情報中における出現順がｉ版目の品詞２グラム（ｘ［ｉ］，ｘ［ｉ＋１］）に対する品詞２グラム確率情報が記憶手段に記憶されていない場合には、品詞２グラム（ｘ［ｉ］，ｘ［ｉ＋１］）を構成している品詞１グラムｘ[ｉ]と品詞１グラムｘ[ｉ＋１]それぞれに対する品詞１グラム確率情報を用いて補間処理を行う。そして、補間処理によって得た値を、当該品詞２グラム（ｘ[ｉ]，ｘ[ｉ＋１]）に対する品詞２グラム確率情報として決定する（用いる）。
本形態では、判別対象である文章情報に含まれている品詞Ｎグラムに対する品詞Ｎグラム確率情報が記憶手段に記憶されていない場合でも、補間処理によって当該品詞Ｎグラムに対する品詞Ｎグラム確率情報を決定することができるため、全ての品詞Ｎグラムを網羅した大量の学習文章情報を用いて品詞Ｎグラム確率情報を作成する必要がない。
【００１４】
さらに他の形態では、評価情報作成手段は、文章情報に含まれている品詞Ｎグラムそれぞれに対して決定した文章情報グループ毎の品詞Ｎグラム確率情報を文章情報グループ毎に乗算することによって、文章情報に対する文章情報グループ毎の評価情報を作成する。なお、品詞Ｎグラム確率情報が対数で表されている場合には、品詞Ｎグラム確率情報の乗算は、対数で表された品詞Ｎグラム確率情報の加算によって実行される。
本形態では、文章情報に対する文章情報グループ毎の評価情報を容易に、精度良く作成することができる。
【００１５】
さらに他の形態では、評価情報作成手段は、文章情報に対して作成した文章情報グループ毎の評価情報を、文章情報に含まれている形態素または品詞情報の全数（延べ数）で除算した評価情報を文章情報に対する文章情報グループ毎の評価情報（正規化評価情報）として用いる。
本形態では、文章情報に対する文章情報グループ毎の評価情報の信頼性を高めることができる。
【００１６】
さらに他の発明は、コンピュータに前述した管理手段、形態素解析手段、評価情報作成手段あるいはグループ判別手段のいずれかの処理を実行させるためのプログラムである。
本発明のプログラムを用いることにより、前述した各発明と同様の効果を得ることができる。
【００１７】
さらに他の発明は、コンピュータに前述した管理手段、形態素解析手段、評価情報作成手段あるいはグループ判別手段のいずれかの処理を実行させるためのプログラムが記録された記憶媒体である。
本発明の記憶媒体を用いることにより、前述した各発明と同様の効果を得ることができる。
【発明の効果】
【００１８】
本発明を用いることにより、コンテンツの種別が異なる文章情報グループや文体種別が異なる文章情報グループ等に対し、入力された文章情報の前記複数の文章情報グループへの帰属性の判別を容易に精度良く支援することができる。
【発明を実施するための最良の形態】
【００１９】
先ず、本発明の概念を説明する。
ブログ等に掲載される文章情報には、コンテンツ種別や文体種別が異なる様々の文章情報が含まれている。例えば、コンテンツ種別が異なる文章情報としては、コラム系の文章情報、日記系の文章情報、ニュース系の文章情報等が含まれる。また、文体種別が異なる文章情報としては、かたい表現の論説調の文章情報、やわらかい表現の口語調の文章情報等が含まれる。このため、コンテンツ種別の文章情報グループや文体種別の文章情報グループに対する文章情報の帰属性の判別を支援する技術の開発が要望されている。
ここで、文章情報に含まれている特定の単語（キーワード）を用いて、コンテンツ種別や文体種別等の文章情報グループに対する文章情報の帰属性を判別するための特徴情報を抽出するには、膨大な量のパラメータが必要であるため、現実的でない。また、キーワード（例えば、単語）を特徴情報として文章情報グループに対する文章情報の帰属性を判別する方法では、キーワードに対する依存性（例えば、文章情報の内容や話題）に対する依存性が高いため、汎用性に欠ける。
そこで、本発明者は、文章情報に含まれている連続するＮ個の品詞情報の配列（文章情報を構成している品詞情報の総数（延べ数）をｎとした場合、１≦Ｎ≦ｎ）を用いて、コンテンツ種別や文体種別等の文章情報グループに対する文章情報の帰属性を判別するための特徴情報を抽出する手法について検討した。
本発明では、連続するＮ個の品詞情報の配列（以下では、「品詞Ｎグラム」という）とベイズ法（事後確率最大化）を用いて、文章情報グループに対する文章情報の帰属性を判別した。なお、ベイズ法は公知であるため、本明細書では、ベイズ法に関する詳細な説明は省略する。
【００２０】
ベイズの定理より、文章情報が連続するｎ個の品詞情報の配列Ｘ（ｘ[１]，・・・，ｘ[ｎ]）により構成されている場合に、この文章情報がｍ個の文章情報グループＳのいずれかに帰属する確率（事後確率）［Ｐ(Ｓ｜Ｘ)］は、連続するｎ個の品詞情報の配列Ｘ（ｘ[１]，・・・，ｘ[ｎ]）が出現する確率［Ｐ(Ｘ)］、ｍ個の文章情報グループＳのいずれかに帰属する文章情報が出現する事前確率［Ｐ(Ｓ)］、ｍ個の文章情報グループＳのいずれかに帰属する文章が出現した条件下で連続するｎ個の品詞情報の配列Ｘ（ｘ[１]，・・・，ｘ[ｎ]）が出現する事後確率［Ｐ(Ｘ｜Ｓ)］を用いて以下の［式１］で表される。
【数１】

［式１］

したがって、以下の［式２］により、事後確率［Ｐ(Ｓ｜Ｘ)］を最大にする《Ｓ》を求めればよい。
【数２】

［式２］
ここで、事前確率［Ｐ(Ｓ)］が文章情報グループに関係なく一様（等確率）である場合には、［式２］は以下の［式３］で近似される。
【数３】

［式３］
さらに、文章情報中において、連続するｎ個の品詞情報の配列Ｘ（ｘ[１]，・・・，ｘ[ｎ]）が互いに独立であると仮定すると、［式３］は以下の［式４］で表される。
【数４】

［式４］
この［式４］により、品詞１グラム（１個の品詞情報）を用いて、文章情報グループに対する文章情報の帰属性を判別するための評価情報（評価値）を作成する評価情報作成手段を構成する。
また、文章情報中において、品詞２グラム（連続する２個の品詞情報の配列）（ｘ[ｉ]，ｘ[ｉ＋１]）が互いに独立であると仮定すると、［式３］は以下の［式５］で表される。
【数５】

［式５］
すなわち、品詞２グラム（連続する２個の品詞情報の配列）を用いる場合には、［式５］を用いて、文章情報グループに対する文章情報の帰属性を判別するための評価情報（評価値）を作成する評価情報作成手段を構成する。
このように、本発明では、文章情報に含まれている連続するｎ個の品詞情報の配列に対し、品詞Ｎグラムの出現確率を用いて文章情報に対する文章情報グループ毎の評価情報を作成する。そして、作成した評価情報のうち最も大きい評価情報を有する文章情報グループを当該文章情報が帰属する文章情報グループとして判別する。
【００２１】
次に、本発明の実施の形態を、図面を参照して説明する。
なお、本明細書では、「文章情報グループ帰属性判別支援装置」という記載は、複数の文章情報グループに対する文章情報の帰属性（文章情報がいずれの文章情報グループに帰属するか）を利用者が判別できるように支援する装置を意味するものとして用いている。文章情報グループに対する文章情報の帰属性を利用者が判別できるように支援する手法としては、文章情報が帰属する文章情報グループを出力する手法と、文章情報が帰属する文章情報グループを判別するための評価情報を出力する手法を用いることができる。すなわち、本発明の「文章情報グループ帰属性判別支援装置」は、文章情報に対する文章情報グループ毎の評価情報（複数の文章情報グループそれぞれに対する文章情報の帰属性を示す情報）に基づいて判別した文章情報グループを出力することによって利用者による文章情報グループに対する文章情報の帰属性の判別を支援するように構成され、あるいは、文章情報に対する文章情報グループ毎の評価情報を出力することによって利用者による文章情報グループに対する文章情報の帰属性の判別を支援するように構成される。
【００２２】
図１に、本発明の文章情報グループ帰属性判別支援装置の一実施の形態の概略ブロック図を示す。
本実施の形態は、処理手段１０、記憶手段２０、入力手段３０、表示手段４０等により構成されている。
記憶手段２０としては、ＲＯＭやＲＡＭ等の種々の記憶手段を用いることができる。記憶手段２０は、文章情報データベース２１、形態素解析辞書２２、品詞Ｎグラム確率情報データベース２３等を有している。記憶手段２０は、文章情報データベース２１、形態素解析辞書２２と品詞Ｎグラム確率情報データベース２３を有する１つの記憶手段によって構成することもできるし、別々の記憶手段により構成することもできる。また、記憶手段２０は、処理手段１０（処理手段１０の各手段１１〜１４）がアクセス可能な適宜の位置に配置することができる。
文章情報データベース２１には、入力手段３０から入力された文章情報が記憶される。本実施の形態では、「文章情報」は、テキストデータ形式で入力手段３０から入力される文章情報に限定されず、例えば、音声データ形式で入力手段３０に入力され、テキスト形式に変換された文章情報も包含される。なお、評価情報作成手段１３で作成された文章情報に対する文章情報グループ毎の評価情報や、グループ判別手段１４で判別された文章情報が帰属する文章情報グループを文章情報に対応させて文章情報データベース２１に記憶することもできる。
形態素解析辞書２２には、形態素解析手段１２が、文章情報を、文章情報を構成している形態素に分割し、各形態素に対応する品詞情報を文章情報中における出現順に判別するための辞書情報が記憶されている。形態素解析辞書２２の１例が図２に示されている。図２に示されている形態素解析辞書２２には、品詞（品詞情報）と、各品詞に対応する単語が記憶されている。例えば、品詞［名詞・固有名詞・人名・姓］に対応して単語［田中］、［鈴木］等が記憶され、品詞［名詞・代名詞・一般］に対応して単語［それ］、［ここ］等が記憶され、品詞［接頭詞・名詞接続］に対応して単語［お］、［ご］、［高］等が記憶されている。
【００２３】
品詞Ｎグラム確率情報データベース２３には、複数の文章情報グループに対する文章情報の帰属性を判別するための評価情報を作成する際に用いられる、連続するＮ個（Ｎは１以上の正の整数）の品詞情報の配列（品詞Ｎグラム）が出現する確率情報（品詞情報出現確率情報）（以下、「品詞Ｎグラム確率情報」という）が記憶される。品詞Ｎグラム確率情報データベース２３は、好適には、分類情報グループ別品詞Ｎグラム確率情報データベースにより構成される。本実施の形態では、同じ種別のグループである「コンテンツ種別文章情報グループ」は、コラム系文章情報グループと日記系文章情報グループを含み、他の同じ種別のグループである「文体種別文章情報グループ」は、論説調文章情報グループと口語調文章情報グループを含んでいる。このため、品詞Ｎグラム確率情報データベース２３は、例えば、コラム系文章情報グループ品詞Ｎグラム確率情報データベースＳ１、日記系文章情報グループ品詞Ｎグラム確率情報データベースＳ２、論説調文章情報グループ品詞Ｎグラム確率情報データベースＳ１１、口語調文章情報グループ品詞Ｎグラム確率情報データベースＳ１２により構成される。勿論、品詞Ｎグラム確率情報データベースは、品詞Ｎグラムに対する分類情報グループ毎の品詞Ｎグラム確率情報が記憶されている１つのデータベースとして構成することもできる。
品詞Ｎグラム確率情報としては、典型的には、連続するＮ個の品詞情報の配列（品詞Ｎグラム）が出現する確率（品詞情報出現確率）が用いられる。［Ｎ＝１］の場合（品詞１グラム）の品詞Ｎグラム確率情報データベース２３の１例が図３に示されている。また、［Ｎ＝２］の場合（品詞２グラム）の品詞Ｎグラム確率情報データベース２３の１例が図４に示されている。なお、図３および図４では、品詞情報配列（品詞Ｎグラム）を、品詞情報をコード化した品詞情報コードを用いて表現している（例えば、図７に示されているように、品詞情報［名詞・一般］を品詞情報コード［２／０／０］を用いる。）。図３および図４に示す品詞Ｎグラム確率情報データベース２３は、品詞Ｎグラムに対する品詞Ｎグラム確率情報が文章情報グループ毎に記憶されている１つのデータベースとして構成されている。
なお、本実施の形態では、文章情報に対する文章情報グループ毎の評価情報は、文章情報に含まれている連続するＮ個の品詞情報に対する文章情報グループ毎の品詞Ｎグラム確率を乗算することによって作成する。このため、図３および図４では、コンピュータでの演算を容易にするために、品詞Ｎグラム確率が対数で表わされている。例えば、図３に示されている品詞１グラム［Ｎ＝１］の品詞Ｎグラム確率情報データベース２３では、品詞１グラムの品詞情報配列［１１／０／０］（品詞情報コード［１１／０／０］で示される１個の品詞情報の配列）に対しては、コラム系文章情報グループＳ１の品詞１グラム確率が［−２．４５３１］であり、日記系文章情報グループＳ２の品詞１グラム確率が［−２．７１３７］であることが表わされている。また、図４に示されている、品詞２グラム［Ｎ＝２］の品詞Ｎグラム確率情報データベース２３では、品詞情報配列［１１／０／０−１１／０／０］（品詞情報コード［１１／０／０］で示される品詞情報と品詞情報コード［１１／０／０］で示される品詞情報の２個の品詞情報の配列）に対しては、コラム系分類情報グループＳ１の品詞２グラム確率が［−２．５２００］であり、日記系分類情報グループＳ２の品詞２グラム確率が［−２．５２９８］であることが表されている。この場合、文章情報に対する文章情報グループ毎の評価情報は、文章情報に含まれている連続するＮ個の品詞情報の品詞Ｎグラム確率を順次加算することによって作成される。
【００２４】
記憶手段２０の品詞Ｎグラム確率情報データベース２３に記憶される、品詞Ｎグラムに対する文章情報グループ毎の品詞Ｎグラム確率情報は、帰属する文章情報グループが既知の複数の文章情報（学習文章情報）に基づいて作成される。
例えば、図３に示されている品詞１グラム［Ｎ＝１］の品詞Ｎグラム確率情報データベース２３では、品詞情報［ｘ[ｉ]］が出現する（１個の品詞情報［ｘ[ｉ]］が出現する）品詞１グラム確率［Ｐ(ｘ[ｉ])］は、学習文章情報中における品詞情報［ｘ[ｉ]］の出現回数［Ｎｘ[ｉ]］と、学習文章情報を構成する形態素の全数（延べ数）［Ｎall］を用いて、以下の［式６］によって算出される。
【数６】

［式６］
また、図４に示されている品詞２グラム［Ｎ＝２］の品詞Ｎグラム確率情報データベース２３では、品詞情報［ｘ[ｊ]］に後続して品詞情報［ｘ[ｉ]］が出現する（連続する２個の品詞情報の配列［ｘ[ｊ]］［ｘ[ｉ]］が出現する）品詞２グラム確率［Ｐ(ｘ[ｉ]｜ｘ[ｊ])］は、学習文章情報中における、品詞情報［ｘ[ｊ]］に後続して品詞情報［ｘ[ｉ]］が出現する回数［Ｎ(ｘ[ｉ]｜ｘ[ｊ])］と、学習文章情報における、品詞情報［ｘ[ｊ]］に後続して任意の品詞情報が出現する回数［Ｎ(＊｜ｘ[ｊ])］を用いて、以下の［式７］によって算出される。
【数７】

［式７］
記憶手段２０が本発明の「記憶手段」に対応する。また、コラム系文章情報グループＳ１、日記系文章情報グループＳ２、論説調文章情報グループＳ１１、口語調文章情報グループＳ１２等が本発明の「複数の文章情報グループ」に対応する。また、コラム系文章情報グループＳ１と日記系文章情報グループＳ２によって一つの同じ種別のグループ（コンテンツ種別文章情報グループ）が構成され、論説調文章情報グループＳ１１と口語調文章情報グループＳ１２によって他の一つの同じ種別のグループ（文体種別文章情報グループ）が構成されている。また、品詞Ｎグラムが本発明の「連続するＮ個の品詞情報の配列」に対応し、品詞Ｎグラムが出現する文章情報グループ毎の品詞Ｎグラム確率が本発明の「連続するＮ個の品詞情報の配列に対する文章情報グループ毎の品詞情報出現確率情報」に対応する。
【００２５】
入力手段３０としては、入力情報や各種の指示情報等を入力可能な、キーボード、表示手段４０の表示部に設けられているタッチパネル、マウス、記憶媒体に記憶されている情報を読み取る各種装置等の種々の入力手段を用いることができる。また、入力手段３０としては、音声データ形式の入力情報をテキストデータ形式の入力情報に変換する音声データ／テキストデータ変換機能を有する入力手段を用いることもできる。
入力手段３０が本発明の「入力手段」に対応する。
表示手段４０としては、液晶表示装置等の種々の表示手段を用いることができる。なお、遠方の端末装置と通信可能に構成される場合には、遠方の端末装置の入力手段や出力手段が、本発明の入力手段や出力手段に対応する。
表示手段４０が本発明の「出力手段」に対応する。なお、出力手段は、表示手段に限定されない。
【００２６】
処理手段１０は、管理手段１１、形態素解析手段１２、評価情報作成手段１３、グループ判別手段１４を有している。処理手段１０は、各手段１１〜１４の処理を実行する１つのＣＰＵによって構成することもできるし、複数の処理手段の処理を実行する個別のＣＰＵによって構成することもできる。
管理手段１１が本発明の「管理手段」に対応し、形態素解析出手段１２が本発明の「形態素解析手段」に対応し、評価情報作成手段１３が本発明の「評価情報作成手段」に対応し、グループ判別手段１４が本発明の「グループ判別手段」に対応する。
【００２７】
管理手段１１は、装置全体の処理を管理する。例えば、入力手段３０からの文章情報や指示情報等の入力処理、選択した文章情報、作成した評価情報やグループ判別結果等の表示手段４０への出力処理、各手段１１〜１４による処理の実行等を管理する。なお、管理手段１１の処理を形態素解析手段１２、評価情報作成手段１３、グループ判別手段１４により実行するように構成することもできる。管理手段１１の処理内容については後述する。
形態素解析手段１２は、記憶手段２０の形態解析辞書２２に記憶されている辞書情報を用いて、入力手段３０から入力された文章情報または入力手段３０から入力されて記憶手段２０の文章情報データベース２１に記憶されている文章情報を、文章情報を構成している形態素に分割し、文章情報に含まれている（文章情報を構成している）品詞情報を文章情報中における出現順に判別する。形態素解析辞書を用いて文章情報に含まれている品詞情報を出現順に判別する形態素解析手法としては、公知の種々の手法（例えば、最長一致法や文節数最小法）を用いることができる。
判別対象である文章情報は、１つまたは複数の文情報により構成される。形態素解析手段１２によって、文章情報に含まれている（文章情報を構成している）品詞情報を判別する時には、文章情報を文情報に分割し、文情報毎に品詞情報を判別する。「文情報」は、文章情報に含まれている形態素を、句点等を基準に分割した形態素の集まりで表される。このため、文章情報を文情報に分割する方法としては、例えば、文章情報中の先頭の形態素から１番目の句点までの形態素の集まり、１番目の句点の次の形態素から２番目の句点までの形態素の集まり等を抽出する方法を用いることができる。
なお、本実施の形態では、形態素解析手段１２は、前述した文章情報を文情報に分割する処理によって、文情報の前の位置（文情報の１番目の形態素の前の位置）に文情報の開始を示す品詞情報（形態素）（例えば〈ｓ〉）、文情報の後の位置（句点の後の位置）に文情報の終了を示す品詞情報（形態素）（例えば、（〈／ｓ〉）が含まれているものとして判別する。文章情報中に句点がない場合には、改行等を手掛かりに文情報に分割する。なお、文章情報は少なくとも１つの文情報を含んでいるものとして扱う。
【００２８】
評価情報作成手段１３は、形態素解析手段別手段１２で判別された、文章情報に含まれている品詞情報の出現順に基づいて、文章情報に対する文章情報グループ毎の評価情報を作成する。
本実施の形態では、先ず、文章情報を構成している（文章情報に含まれている）品詞情報を出現順に抽出する。なお、本明細書では、文章情報を構成している品詞情報の総数（延べ数）をｎで表す。すなわち、文章情報を構成している品詞情報を出現順に抽出することによって、連続するｎ個の品詞情報の配列Ｘ（ｘ[１]，・・・，ｘ[ｎ]）を抽出する。文章情報を構成している品詞情報の総数（延べ数）ｎは、文章情報に応じて変化する。
次に、抽出した文章情報を構成している品詞情報の出現順、すなわち、ｎ個の品詞情報の配列Ｘ（ｘ[１]，・・・，ｘ[ｎ]）から、連続するＮ個の品詞情報の配列（品詞Ｎグラム）を出現順に判別する。例えば、［Ｎ＝１］（品詞１グラム）を選択した場合には、抽出した文章情報を構成している品詞情報の出現順、すなわち、ｎ個の品詞情報の配列Ｘ（ｘ[１]，・・・，ｘ[ｎ]）から、１個の品詞情報の配列［ｘ[ｉ]］（ｉ＝１，・・・，ｎ）を出現順に判別する。また、［Ｎ＝２］（品詞２グラム）を選択した場合には、抽出した文章情報を構成している品詞情報の出現順、すなわち、ｎ個の品詞情報の配列Ｘ（ｘ[１]，・・・，ｘ[ｎ]）から、連続する２個の品詞情報の配列（ｘ[ｉ]，ｘ[ｉ＋１]）（ｉ＝１，・・・，ｎ−１）を出現順に判別する。また、［Ｎ＝３］（品詞３グラム）を選択した場合には、抽出した文章情報を構成している品詞情報の出現順、すなわち、ｎ個の品詞情報の配列Ｘ（ｘ[１]，・・・，ｘ[ｎ]）から、連続する３個の品詞情報の配列（ｘ[ｉ]，ｘ[ｉ＋１]，ｘ[ｉ＋２]）（ｉ＝１，・・・，ｎ−２）を出現順に判別する。なお、連続する品詞の数Ｎ（品詞Ｎグラム）は、（１≦Ｎ≦ｎ）の範囲の任意の整数を選択することができるが、後述する文章情報グループ毎の評価情報の算出処理の容易性および精度の観点からは、２以上の整数、好適には２または３が選択される。
そして、判別した文章情報に含まれている連続するＮ個の品詞情報の配列（品詞Ｎグラム）の出現順と、記憶手段２０の品詞Ｎグラム確率情報データベース２３に記憶されている、連続するＮ個の品詞情報の配列（品詞Ｎグラム）に対する文章情報グループ毎の品詞Ｎグラム確率情報に基づいて、文章情報に対する文章情報グループ毎の評価情報を作成する。文章情報グループ毎の評価情報を作成する方法としては、例えば、文章情報に含まれている連続するＮ個の品詞情報の配列（品詞Ｎグラム）に対する文章情報グループ毎の出現確率（品詞Ｎグラム確率）を、連続するＮ個の品詞情報の配列の出現順に品詞Ｎグラム確率情報データベース２３から読み出し、読み出した品詞Ｎグラム確率を文章情報グループ毎に順次乗算する方法を用いることができる。本実施の形態では、品詞Ｎグラム確率情報データベース２３には、品詞Ｎグラムに対する品詞Ｎグラム確率情報として対数で表わされた値が記憶されている。このため、文章情報に含まれている連続するＮ個の品詞情報の配列（品詞Ｎグラム）に対する品詞Ｎグラム確率を文章情報グループ毎に順次加算することによって、文章情報に対する文章情報グループ毎の評価情報を作成する方法を用いている。
【００２９】
好適には、評価情報作成手段１３は、文章情報グループ別評価情報作成手段によって構成される。例えば、コラム系文章情報グループ評価情報作成手段Ｔ１、日記系文章情報グループ評価情報作成手段Ｔ２、論説調文章情報グループ評価情報作成手段Ｔ１１、口語調文章情報グループ評価情報作成手段Ｔ１２によって構成される。この場合、各文章情報グループ別評価情報作成手段は、それぞれ、文章情報を構成しているｎ個の品詞情報の出現順から、連続するＮ個の品詞情報の配列（品詞Ｎグラム）を出現順に判別し、判別した品詞Ｎグラムの出現順に基づいて、文章情報に対する、対応する文章情報グループの評価情報を作成する。評価情報作成手段１３を、文章情報グループ別評価情報作成手段によって構成した場合には、文章情報グループの追加、削除や変更を、当該文章情報グループに対応する文章情報グループ別評価情報作成手段の追加、削除や変更によって容易に対処することができる。
コラム系文章情報グループ評価情報作成手段Ｔ１、日記系文章情報グループ評価情報作成手段Ｔ２、論説調文章情報グループ評価情報作成手段Ｔ１１、口語調文章情報グループ評価情報作成手段Ｔ１２等が本発明の「評価情報作成手段を構成する文章情報グループ別評価情報作成手段」に対応する。また、コラム系文章情報グループ評価情報作成手段Ｔ１と日記系文章情報グループ評価情報作成手段Ｔ２によって一つの同じ種別のグループの「第１グループ評価情報作成手段」（例えば、「コンテンツ種別文章情報グループ評価情報作成手段」）が構成され、論説調文章情報グループ評価情報作成手段Ｔ１１と口語調文章情報グループ評価情報作成手段Ｔ１２によって他の一つの同じ種別のグループの「第２グループ評価情報作成手段」（例えば、「文体種別文章情報グループ評価情報作成手段」）が構成されている。
【００３０】
なお、品詞Ｎグラム確率情報データベース２３に記憶される品詞Ｎグラム確率情報は、学習文章情報を用いて作成しているため、判別対象である文章情報に含まれている、品詞Ｎグラム対する文章情報グループの品詞Ｎグラム確率情報が品詞Ｎグラム確率情報データベース２３に記憶されていないことがある。判別対象である文章情報に含まれている品詞Ｎグラムに対する文章情報グループの品詞Ｎグラム確率情報が品詞Ｎグラム確率情報データベース２３に記憶されていない場合（判別対象である文章情報に、文章情報グループの学習文章情報中に出現しなかった品詞Ｎグラムが含まれている場合）には、品詞Ｎグラム確率情報データベース２３に記憶されている、品詞Ｎグラムより低次の品詞Ｍグラム（Ｍ１，・・・，Ｎ−１）に対する文章情報グループの品詞Ｍグラム確率情報を用いてバックオフ・スムージング（平滑化）手法により補間処理を行い、補間処理によって得た値を、当該品詞Ｎグラムに対する当該文章情報グループの品詞Ｎグラム確率情報として決定する（用いる）。バックオフ・スムージング手法としては、グッド・チューリング（ＧｏｏｄＴｕｒｉｎｇ）法等の公知の方法を用いることができる。
例えば、品詞２グラム［Ｎ＝２］が選択されており、文章情報中における出現順がｉ番目である品詞２グラム（ｘ[ｉ]，ｘ[ｉ＋１]）に対する文章情報グループＳの品詞２グラム確率情報が品詞２グラム確率情報データベース２３に記憶されていない場合には、品詞１グラム（ｘ[ｉ]）と品詞１グラム（ｘ[ｉ＋１]）に対する文章情報グループＳの２つの品詞１グラム確率情報を用いて補間処理を行う。そして、補間処理を行って得た値を、品詞２グラム（ｘ[ｉ]，ｘ[ｉ＋１]）に対する文章情報グループＳの品詞２グラム確率情報として決定する（用いる）。Ｎが３以上に選択されている場合にも同様に、品詞（Ｎ−１）グラムに対する文章情報グループＳの品詞（Ｎ−１）グラム確率情報を用いて補間処理を行う。なお、品詞（Ｎ−１）に対する文章情報グループＳの品詞（Ｎ−１）グラム確率情報が品詞（Ｎ−１）グラム確率情報データベース２３に記憶されていない場合には、品詞（Ｎ−２）に対する文章情報グループＳの品詞（Ｎ−２）グラム確率情報を用いて補間処理を行う。
なお、品詞１グラム［Ｎ＝１］が選択されており、文章情報中における出現順がｉ番目である品詞１グラム（ｘ[ｉ]）に対する文章情報グループの品詞１グラム確率情報が品詞１グラム確率情報データベース２３に記憶されていない場合には、前述した、Ｎが２以上の場合の補間処理を行うことができないため、例外的に「未知品詞」の１グラム確率情報として扱う。すなわち、文章情報グループＳに対して、学習文章情報から予め算出しておいた所定の値（例えば、文章情報グループＳの全ての品詞１グラム確率の最小値を全品詞種類数で除算した値）である「未知品詞１グラム確率」を当該品詞１グラム（ｘ[ｉ]）に対する文章情報グループＳの品詞１グラム確率情報として決定する（用いる）。
このように、前記補完処理を行う場合には、記憶手段２０の品詞Ｎグラム確率情報データベース２３には、品詞Ｎグラムに対する文章情報グループ毎の品詞Ｎグラム確率情報だけでなく、低次の品詞Ｍグラム（Ｍ＝１，・・・，Ｎ−１）それぞれに対する文章情報グループ毎の品詞Ｍグラム確率情報も記憶される。
【００３１】
また、入力手段３０から入力される文章情報の形態素（あるいは品詞情報）の総数（延べ数）は異なるため、評価情報を作成する際には、作成された評価情報を正規化するのが好ましい。評価情報あるいは品詞Ｎグラム確率情報を正規化する方法としては、例えば、評価情報を、判別対象である文章情報に含まれている形態素の全数（延べ数）あるいは品詞情報の全数（延べ数）で除算する方法を用いることができる。このように、評価情報作成手段１３によって作成された文章情報に対する文章情報グループ毎の評価情報を文章情報毎に正規化することにより、文章情報に対する文章情報グループ毎の評価情報の信頼性を高めることができる。
なお、評価情報を作成する際の正規化方法は、前述した方法に限定されるものではなく、種々の正規化方法を用いることができる。
【００３２】
グループ判別手段１４は、評価情報作成手段１３によって作成された文章情報に対する文章情報グループ毎の評価情報に基づいて、文章情報が帰属する文章情報グループを判別する。例えば、評価情報作成手段１３によって、連続するＮ個の品詞情報の配列（品詞Ｎグラム）に対する品詞Ｎグラム確率を用いて作成された、文章情報に対する文章情報グループ毎の評価情報（評価値）を比較し、最も値が大きい（最も確率が高い）評価情報（評価値）が作成された文章情報グループに帰属することを判別する。グループ判別手段１４による判別方法としては、これ以外の種々の方法を用いることができる。
【００３３】
つぎに、本実施の形態の動作を説明する。ここで、本実施の形態は、文章情報が帰属する文章情報グループを判別するグループ判別処理を実行する文章情報グループ帰属性判別支援装置に限定されず、文章情報に対する文章情報グループ毎の評価情報を作成する評価情報作成処理を実行する文章情報グループ帰属性判別支援装置、設定条件に該当する文章情報を選択して出力する文章情報出力処理を実行する文章情報グループ帰属性判別支援装置、設定グループに帰属する文章情報を選択して出力する処理を実行する文章情報帰属性判別支援装置、評価情報を作成して出力する評価情報出力処理を実行する文章情報グループ帰属性判別支援装置として構成することができる。
以下に、各処理を実行する動作を説明する。
【００３４】
先ず、文章情報に対する文章情報グループ毎の評価情報を作成する評価情報作成処理について、図５に示すフローチャートを参照して説明する。
ステップＡ１では、文章情報を形態素解析し、文章情報に含まれている（文章情報を構成している）品詞情報を文章情報中における出現順に抽出する。具体的には、先ず、前述した方法を用いて文章情報から文情報を判別する。そして、各文情報を形態素解析して文情報を形態素に分割した後、各文情報に含まれている品詞情報を文情報中における出現順に抽出する処理を、文情報の出現順に行う。ステップＡ１では、文章情報に含まれている連続するｎ個の品詞情報の配列Ｘ（ｘ[１]，・・・，ｘ[ｎ]）を抽出する。ステップＡ１の処理は、例えば、入力手段３０から文章情報と評価情報作成要求情報が入力された時または入力手段３０から記憶手段２０の文章情報データベース２１に記憶されている文章情報を指示するとともに評価情報作成要求情報が入力された時に、形態素解析手段１２によって実行される。文章情報データベース２１に記憶されている文章情報を指定する方法は、文章情報データベース２１に記憶されている文章情報のいずれかを指定する方法を用いてもよいし、全ての文章情報を指定する方法を用いることもできる。
【００３５】
文章情報を形態素解析する処理を、図７に示されている文章情報「本書では、検索エンジンおよびネット通信で成功をおさめた・・・・・論じている。本書でも・・・・・・」を用いて具体的に説明する。
まず、文章情報から句点を基準に文情報を判別した後に、各文情報を形態素に分割する。図７に示されている文章情報は、２つの文情報（Ａ）と（Ｂ）として判別されている。そして、第１の文情報（Ａ）は、形態素［本書］［で］［は］［、］［検索］［エンジン］［および］［ネット］・・・・・。に分割される。同様に、第２の文情報（Ｂ）も形態素に分割される。
次に、文章情報に含まれている品詞情報を文章情報中における出現順に抽出する。図７では、文情報（Ａ）の開始を示す品詞情報〈ｓ〉（品詞情報コード［〈ｓ〉］）、［本書］（品詞情報［名詞・一般］−品詞情報コード［２／０／０］）、［で］（品詞情報［助詞・格助詞・一般］−品詞情報コード［５９／０／０］）、［は］（品詞情報［助詞・係助詞］−品詞情報コード［６３／０／０］）、［、］（品詞情報［記号・読点］−品詞情報コード［７６／０／０］）、・・・・・、［。］（品詞情報［記号・句点］−品詞情報コード［７５／０／０］）、文情報（Ａ）の終了を示す品詞情報〈／ｓ〉（品詞情報コード［〈／ｓ〉］）、文情報（Ｂ）の開始を示す品詞情報〈ｓ〉（品詞情報コード［〈ｓ〉］）、・・・・・が出現順に判別される。図７では、文情報（Ａ）と文情報（Ｂ）を有する文章情報を構成している品詞情報の総数（延べ数）がＮallであることが示されている。
【００３６】
図５に戻り、ステップＡ２では、文章情報に含まれている、連続するＮ個の品詞情報の配列（品詞Ｎグラム）を出現順に抽出する。例えば、ステップＡ１で判別した、文章情報に含まれているｎ個の品詞情報の出現順から、連続するＮ個の品詞情報の配列（品詞Ｎグラム）を出現順に抽出する。
ステップＡ２の処理を、図８および図９を参照して具体的に説明する。なお、図８および図９では、図７に示した文章情報について説明する。
図８は、［Ｎ＝１］が選択され、連続する１個の品詞情報の配列（品詞１グラム）に基づいて評価情報を算出する場合の動作を説明するものである。この場合、文章情報に含まれている、連続する１個の品詞情報の配列（品詞１グラム）（ｘ[ｉ]）（１≦ｉ≦ｎ）の出現順は、ステップＡ１で判別したｎ個の品詞情報の出現順と同じである。このため、図８に示されているように、文章情報に含まれている連続する１個の品詞情報は、品詞情報コード［〈ｓ〉］、品詞情報コード［２／０／０］、品詞情報コード［５９／０／０］、品詞情報コード［６３／０／０］、品詞情報コード［７６／０／０］、・・・・・、品詞情報コード［７５／０／０］、品詞情報コード［〈／ｓ〉］、品詞情報コード［〈ｓ〉］、・・・・・の出現順に抽出される。
図９は、［Ｎ＝２］が選択され、連続する２個の品詞情報の配列（品詞２グラム）に基づいて評価情報を算出する場合の動作を説明するものである。この場合、文章情報に含まれている、連続する２個の品詞情報の配列（品詞２グラム）（ｘ[ｉ]，ｘ[ｉ＋１]）（１≦ｉ≦ｎ−１）の出現順は、図９に示されているように、（品詞情報コード［〈ｓ〉］，品詞情報コード［２／０／０］）、（品詞情報コード［２／０／０］，品詞情報コード［５９／０／０］）、（品詞情報コード［５９／０／０］，品詞情報コード［６３／０／０］）、（品詞情報コード［６３／０／０］，品詞情報コード［７６／０／０］）、・・・・・、（品詞情報コード［７５／０／０］，品詞情報コード［〈／ｓ〉］）、（品詞情報コード［〈／ｓ〉］，品詞情報コード［〈ｓ〉］）、・・・・・の出現順に抽出される。
【００３７】
ステップＡ３では、文章情報に対する文章情報グループ毎の評価情報を作成する。本実施の形態では、ステップＡ２で抽出された、文章情報に含まれている連続するＮ個の品詞情報の配列（品詞Ｎグラム）それぞれに対する文章情報グループ毎の品詞Ｎグラム確率情報を記憶手段２０の品詞Ｎグラム確率情報データベース２３から読み出し（あるいは、文章情報グループ品詞Ｎグラム確率情報データベースＳ１、Ｓ２、Ｓ１１、Ｓ１２それぞれから読み出し）、文章情報グループ毎に乗算する。そして、乗算結果（乗算値）を文章情報に対する文章情報グループ毎の評価情報とする。本実施の形態では、品詞Ｎグラム確率情報データベース２３（あるは、文章情報グループ別品詞Ｎグラム確率情報データベースＳ１、Ｓ２、Ｓ１１、Ｓ１２）には、品詞Ｎグラムに対する文章情報グループ毎の品詞Ｎグラム確率として、対数で表された品詞Ｎグラム確率が記憶されている。このため、文章情報に含まれている品詞Ｎグラムそれぞれに対する品詞Ｎグラム確率情報を文章情報グループ毎に加算し、加算結果（加算値）を文章情報に対する文章情報グループ毎の評価情報とする。
文章情報に対する文章情報グループ毎の評価情報を作成する処理を、図８および図９を参照して具体的に説明する。
【００３８】
品詞１グラムが選択されている図８に示されている例では、文章情報に含まれている品詞１グラムである、品詞情報コード［〈ｓ〉］、品詞情報コード［２／０／０］、品詞情報コード［５９／０／０］、品詞情報コード［６３／０／０］、品詞情報コード［７６／０／０］、・・・・・、品詞情報コード［７５／０／０］、品詞情報コード［〈／ｓ〉］、品詞情報コード［〈ｓ〉］、・・・・それぞれに対応するコラム系文章情報グループＳ１の品詞１グラム確率、−１．５３０７、−０．９０２４、−１．０１２６、−１．３７３２、−１．５４６８、・・・−１．６７２６、−１．５３０９、−１．５３０７、・・・を品詞１グラム確率情報データベース２３から読み出す。そして、読み出した、各品詞１グラムに対応するコラム系文章情報グループＳ１の品詞１グラム確率を加算し、加算値Ｔ１ｓ１（＝−１．５３０７−０．９０２４−１．０１２６−１．３７３２−１．５４６８−・・・−１．６７２６−１．５３０９−１．５３０７−・・・）を、文章情報に対するコラム系文章情報グループＳ１の評価情報（評価値）とする。同様に、文章情報に含まれている品詞１グラムそれぞれに対応する日記系文章情報グループＳ２の品詞１グラム確率、−１．２５７０、−１．０３７０、−１．１３６０、−１．６１３３、−１．４１７６、・・・−１．５６５９、−１．２６２５、−１．２５７０、・・・を品詞１グラム確率情報データベース２３から読み出す。そして、読み出した各品詞１グラムに対応する日記系文章情報グループの品詞１グラム確率を加算し、加算値Ｔ１ｓ２（＝−１．２５７０−１．０３７０−１．１３６０−１．６１３３−１．４１７６−・・・−１．５６５９−１．２６２５−１．２５７０−・・・）を文章情報に対する日記系文章情報グループＳ２の評価情報（評価値）とする。
【００３９】
また、品詞２グラムが選択されている図９に示されている例では、文章情報に含まれている品詞２グラムである、（品詞情報コード［〈ｓ〉］，品詞情報コード［２／０／０］）、（品詞情報コード［２／０／０］，品詞情報コード［５９／０／０］）、（品詞情報コード［５９／０／０］，品詞情報コード［６３／０／０］）、・・・、（品詞情報コード［７５／０／０］，品詞情報コード［〈／ｓ〉］）、・・・それぞれに対応するコラム系文章情報グループＳ１の品詞２グラム確率、−１．２３６０、−０．５９４５、−０．８０６９、・・・、−０．０００７，・・・を品詞情報２グラム確率情報データベース２３から読み出す。そして、読み出した、各品詞２グラムに対応するコラム系文章情報グループＳ１の品詞２グラム確率を加算し、加算値Ｔ２ｓ１（＝−１．２３６０−０．５９４５−０．８０６９−・・・−０．０００７−・・・）を文章情報に対するコラム系文章情報グループＳ１の評価情報（評価値）とする。同様に、文章情報に含まれている品詞２グラムそれぞれに対応する日記系文章情報グループＳ２の品詞２グラム確率、−１．０６５４、−０．８４９０、−０．９６６０、・・・、−０．０５８４、・・・を品詞２グラム確率情報データベース２３から読み出す。そして、読み出した、各品詞２グラムに対応する日記系文章情報グループＳ２の品詞２グラム確率を加算し、加算値Ｔ２ｓ２（＝−１．０６５４−０．８４９０−０．９６６０−・・・−０．０５８４−・・・）を文章情報に対する日記系文章情報グループＳ２の評価情報（評価値）とする。
【００４０】
ここで、判別対象の文章情報に含まれている品詞Ｎグラムに対する文章情報グループの品詞Ｎグラム確率情報が品詞Ｎグラム確率情報データベース２３に記憶されていない場合がある。すなわち、ステップＡ３において、文章情報に含まれている連続するＮ個の品詞情報の配列（品詞Ｎグラム）に対する文章情報グループＳの品詞Ｎグラム確率情報を品詞Ｎグラム確率情報データベース２３から読み出すことができない場合がある。このような場合には、前述した補間処理方法を用いて補間処理を行う。そして、補間処理を行って得た値を、当該品詞Ｎグラムに対する当該文章情報グループＳの品詞Ｎグラム確率情報として決定する（用いる）。
なお、判別対象の文章情報に含まれている品詞Ｎグラムに対する文章情報グループＳの品詞Ｎグラム確率情報が品詞Ｎグラム確率情報データベース２３に記憶されていない場合には、当該品詞Ｎグラムに対する当該文章情報グループＳの品詞Ｎグラム確率情報を用いないで文章情報に対する評価情報を作成するように構成することもできる。
【００４１】
また、前述したように、入力手段３０から入力される文章情報の形態素（あるいは品詞情報）の総数（延べ数）は異なるため、評価情報を作成する際には、作成された評価情報を正規化するのが好ましい。例えば、対数で表されている、品詞Ｎグラムそれぞれに対応する品詞Ｎグラム確率情報を文章情報グループ毎に加算し、加算結果（加算値）を、文章情報に含まれている形態素の総数（延べ数）あるいは品詞情報の総数（延べ数）で除算した情報（値）を、文章情報に対する文章情報グループ毎の正規化評価情報（正規化評価値）として用いる。
品詞１グラムが選択されている図８に示す例では、前述した方法で作成した（算出した）文章情報に対するコラム系文章情報グループＳ１の評価情報（評価値）Ｔ１ｓ１、日記系文章情報グループＳ２の評価情報（評価値）Ｔ１ｓ２を、文章情報に含まれている形態素（あるいは品詞情報）の総数Ｎallで除算する。そして、除算値［Ｔ１ｓ１／Ｎall］、［Ｔ１ｓ２／Ｎall］を、それぞれ文章情報に対するコラム系文章情報グループＳ１の正規化評価情報（正規化評価値）、文章情報に対する日記系文章情報グループＳ２の正規化評価情報（正規化評価値）とする。
同様に、品詞２グラムが選択されている図９に示す例では、前述した方法で作成した（算出した）文章情報に対するコラム系文章情報グループＳ１の評価情報（評価値）Ｔ２ｓ１、日記系文章情報グループＳ２の評価情報（評価値）Ｔ２ｓ２を、文章情報に含まれている形態素（あるいは品詞情報）の総数Ｎallで除算する。そして、除算値［Ｔ２ｓ１／Ｎall］、［Ｔ２ｓ２／Ｎall］を、それぞれ文章情報に対するコラム系文章情報グループＳ１の正規化評価情報（正規化評価値）、文章情報に対する日記系文章情報グループＳ２の正規化評価情報（正規化評価値）とする。
作成した、文章情報に対する文章情報グループ毎の評価情報（あるいは正規化評価情報）は、後の処理で利用するために記憶手段２０の文章情報データベース２１に文章情報に対応させて記憶させてもよいし、続けて他の処理で用いてもよい。
ステップＡ２およびＡ３での処理は、評価情報作成手段１３によって全文章情報グループに対して実行され、あるいは、文章情報グループ別評価情報作成手段Ｔ１、Ｔ２、Ｔ１１、Ｔ１２によって文章情報グループ毎に実行される。
【００４２】
つぎに、文章情報が帰属する文章情報グループを判別するグループ判別処理について、図６に示すフローチャートを参照して説明する。
ステップＢ１では、図５に示したステップＡ１と同様に、文章情報を形態素に分割し、文章情報に含まれている品詞情報を文章情報中における出現順に抽出する（ｎ個の品詞情報）。具体的には、先ず、前述した方法を用いて文章情報から文情報を判別する。そして、各文情報を形態素解析して文情報を形態素に分割した後、各文情報に含まれている品詞情報を文情報中における出現順に抽出する処理を、文情報の出現順に行う。
ステップＢ２では、図５に示したステップＡ２と同様に、文章情報に含まれている連続するＮ個の品詞情報の配列（品詞Ｎグラム）を出現順に抽出する。
ステップＢ３では、図５に示したステップＡ３と同様に、文章情報に対する文章情報グループ毎の評価情報を作成する。ステップＢ３では、前述したように、正規化評価情報を作成するのが好ましい。
ステップＢ４では、文章情報が帰属する文章情報グループを判別する。例えば、ステップＢ３で作成された文章情報に対する文章情報グループ毎の評価情報（好適には、正規化評価情報）のうち最も大きい（最も確率が高い）評価情報が作成された文章情報グループに帰属することを判別する。なお、文章情報に対する評価情報に基づいて文章情報が帰属する文章情報グループを判別する際、設定値以下の評価情報は無視するように構成することもできる。
ステップＢ４で判別した、文章情報が帰属する文章情報グループは、後の処理で利用するために記憶手段２０の文章情報データベース２１に文章情報に対応させて記憶させてもよいし、続けて他の処理で用いてもよい。
ステップＢ４での処理は、グループ判別手段１４によって実行される。
【００４３】
つぎに、設定条件に該当する文章情報を選択して出力する文章情報出力処理について、図１０に示すフローチャートを参照して説明する。図１０に示すフローチャートの処理は、例えば、本実施の形態の処理の開始時に表示手段４０に表示されるメニュー画面で「文章情報選択出力処理」メニューが選択されることによって開始される。
ステップＣ１では、検索キーワードを入力する。検索キーワードは、文章情報を選択するために用いられる。検索キーワードは、本発明の「検索情報」に対応する。なお、検索キーワードは文章情報を検索するために用いられる。勿論、検索キーワードの使用を省略することもできる。
ステップＣ２では、文章情報グループ毎の設定評価情報を入力する。文章情報グループ毎の設定評価情報は、文章情報を検索する条件として用いられる。文章情報グループ毎の設定評価情報は、原点から各文章情報グループに対応する座標軸が引かれた２次元平面上で設定することができる。２次元平面としては、例えば、図１３に示すように、ｘ軸方向（直交する座標軸の一方の座標軸の方向）に沿って一つの種別（例えば、文章情報のコンテンツ種別）の文章情報グループに対応する座標軸が引かれ、ｙ軸方向（直交する座標軸の他方の座標軸の方向）に沿って他の種別（例えば、文章情報の文体種別）の文章情報グループに対応する座標軸が引かれた２次元平面を用いることができる。図１３に示す２次元平面では、ｘ軸の一方向（例えば、通常のｘプラス方向）に、文章情報の文体種別に含まれる１つの文章情報グループである［論説調文章情報グループＳ１１］（Ｃ軸）、ｘ軸の他方向（例えば、通常のｘマイナス方向）に、文章情報の文体種別に含まれる他の文章情報グループである［口語調文章情報グループＳ１２］（Ｄ軸）が引かれている。また、ｙ軸の一方向（例えば、通常のｙプラス方向）に、文章情報のコンテンツ種別に含まれる１つの文章情報グループである［コラム系文章情報グループＳ１］（Ａ軸）、ｙ軸の他方向（例えば、通常のｙマイナス方向）に、文章情報のコンテンツ種別に含まれる他の文章情報グループである［日記系文章情報グループＳ２］（Ｂ軸）が引かれている。そして、この２次元平面で指示された指示点の座標値によって、座標軸に対応する文章情報グループの設定評価情報が設定される。例えば、指示点Ｐ（Ｃｐ，Ａｐ）が指示されると、指示点Ｐの座標軸Ｃ軸に沿った値Ｃｐが座標軸Ｃ軸に対応する［論説調文章情報グループＳ１１］の設定評価情報として設定され、指示点Ｐの座標軸Ａ軸に沿った値Ａｐが座標軸Ａ軸に対応する［コラム系文章情報グループＳ１］の設定評価情報として設定される。この時、コンテンツ種別に関する日記系文章情報グループＳ２の設定評価情報、文体種別に関する口語調文章情報グループＳ１２の設定評価情報は「０」に設定される。また、指示点Ｑ（Ｃｑ，Ｂｑ）が指示されると、指示点Ｑの座標軸Ｃ軸に沿った値Ｃｑが座標軸Ｃ軸に対応する［論説調文章情報グループＳ１１］の設定評価情報として設定され、指示点Ｑの座標軸Ｂ軸に沿った値Ｂｑが座標軸Ｂ軸に対応する［日記系文章情報グループＳ２］の設定評価情報として設定される。この時、コンテンツ種別に関するコラム系文章情報グループＳ１の設定評価情報、文体種別に関する口語調文章情報グループＳ１２の設定評価情報は「０」に設定される。また、指示点Ｒ（Ｄｒ，Ｂｒ）が指示されると、指示点Ｒの座標軸Ｄ軸に沿った値Ｄｒが座標軸Ｄ軸に対応する［口語調文章情報グループＳ１２］の設定評価情報として設定され、指示点Ｒの座標軸Ｂ軸に沿った値Ｂｒが座標軸Ｂ軸に対応する［日記系文章情報グループＳ２］の設定評価情報として設定される。この時、コンテンツ種別に関するコラム系文章情報グループＳ１の設定評価情報、文体種別に関する論説調文章情報グループＳ１１の設定評価情報は「０」に設定される。
【００４４】
図１０に戻り、ステップＣ３では、記憶手段２０の文章情報データベース２１に記憶されている文章情報を読み取り、図５に示したステップＡ１と同様に、文章情報を形態素に分割し、文章情報に含まれているｎ個の品詞情報を文章情報中における出現順に抽出する。具体的には、先ず、前述した方法を用いて文章情報から文情報を判別する。そして、各文情報を形態素解析して文情報を形態素に分割した後、各文情報に含まれている品詞情報を文情報中における出現順に抽出する処理を、文情報の出現順に行う。
なお、ステップＣ３の処理は、ステップＣ１（検索キーワード入力）以前に予め行っておいてもよい。
ステップＣ４では、文章情報にステップＣ１で入力された検索キーワードが含まれているか否かを判断する。文章情報に検索キーワードが含まれている場合にはステップＣ５に進み、文章情報に検索キーワードが含まれていない場合にはステップＣ７に進む。ステップＣ４の処理は、管理手段１１等によって実行される。
ステップＣ５では、図５に示したステップＡ２と同様に、文章情報に含まれている連続するＮ個の品詞情報の配列（品詞Ｎグラム）を出現順に抽出する。
ステップＣ６では、図５に示したステップＡ３と同様に、文章情報に対する文章情報グループ毎の評価情報を作成する。ステップＣ６では、前述したように、正規化評価情報を作成するのが好ましい。
ステップＣ７では、記憶手段２０の文章情報データベース２１に記憶されている文章情報を全て読み出したか否かを判断する。文章情報データベース２１に記憶されている文章情報の読み出しを終了していない場合にはステップＣ３に戻り、文章情報の読み出しを終了した場合にはステップＣ８に進む。
【００４５】
ステップＣ８では、ステップＣ６で作成された文章情報に対する文章情報グループ毎の評価情報（あるいは正規化評価情報）が、ステップＣ３で設定された文章情報グループ毎の設定評価情報に該当する文章情報を選択（検索）する。文章情報グループ毎の設定評価情報に該当する文章情報を選択（検索）する方法としては、種々の方法を用いることができる。文章情報グループ毎の設定評価情報に該当する文章情報を選択（検索）する方法の例を、図１３を参照して説明する。なお、図１３に示す２次元平面に表示（プロット）されている各文章情報を示す点（文章情報識別情報）ｓ１〜ｓ９、ｓ１１〜ｓ１９、ｓ２１〜ｓ２９は、同一種別（例えば、コンテンツ種別や文体種別）の文章情報グループのうち最も大きい文章情報グループを選択したものである。例えば、ｘ軸に沿って座標軸が引かれる一つの種別の文章情報グループである、文体種別に関する［論説調文章情報グループＳ１１］（Ｃ軸）と［口語調文章情報グループＳ１２］（Ｄ軸）に対する評価情報のうちの最大値と、ｙ軸に沿って座標軸が引かれる他の種別の文章情報グループである、コンテンツ種別に関する［コラム系文章情報グループＳ１］（Ａ軸）と［日記系文章情報グループＳ２］（Ｂ軸）に対する評価情報のうちの最大値が選択される。すなわち、文章情報を示す点ａ（文章情報識別情報）のｘ軸方向の座標値ｘａとｙ軸方向の座標値ｙａは、以下のように表わされる。
ｘａ＝｜論説調文章情報グループに対する評価情報と口語調文章情報グループに対する評価情報のうちの最大値｜
ｙａ＝｜コラム系文章情報グループに対する評価情報と日記系文章情報グループに対する評価情報のうちの最大値｜
文章情報を示す点ａ（文章情報識別情報）は、論説調文章情報グループに対する評価情報が大きい場合にはＣ軸方向（ｘプラス方向）に配置され、口語調文章情報グループに対する評価情報が大きい場合にはＤ軸方向（ｘマイナス方向）に配置される。また、コラム系文章情報グループに対する評価情報が大きい場合にはＡ軸方向（ｙプラス方向）に配置され、日記系文章情報グループに対する評価情報が大きい場合にはＢ軸方向（ｙマイナス方向）に配置される。
ここで、文章情報を選択するための１つの方法は、文章情報グループ毎の設定評価情報に近い文章情報グループ毎の評価情報を有する文章情報を選択する方法である。例えば、図１３に示されている２次元平面において、各文章情報を示す点ｓ１（Ｃｓ１，Ａｓ１）〜ｓ９（Ｃｓ９，Ａｓ９）のうち、指示点Ｐ（Ｃｐ，Ａｐ）との間の距離が最も短い１つの点ｓ３、あるいは２番目、３番目・・・に距離が短い（所定の設定個数の）複数の点ｓ５、ｓ７を同時に選択する。
他の方法は、文章情報グループ毎の設定評価情報から一定範囲内に文章情報グループ毎の評価情報を有する文章情報を選択する方法である。例えば、図１３に示されている２次元平面において、各文章情報を示す点ｓ１１（Ｃｓ１１，Ｂｓ１１）〜ｓ１９（Ｃｓ１９，Ｂｓ１９）のうち、指示点Ｑ（Ｃｑ，Ｂｑ）から距離ｒの範囲内に文章情報グループ毎の評価情報が存在する点ｓ１３、ｓ１４、ｓ１７を選択する。
他の方法は、２次元平面上に区分されている区分領域のうち、文章情報グループ毎の設定評価情報が含まれる区分領域内に文章情報毎の評価情報を有する文章情報を選択する方法である。例えば、図１３に示されている区分領域ａ２１〜ａ２９に分割されている２次元平面において、各文章情報を示す点ｓ２１（Ｂｓ２１，Ｄｓ２１）〜ｓ２９（Ｂｓ１９，Ｂｓ１９）のうち、指示点Ｒ（Ｂｒ，Ｄｒ）が含まれる区分領域ａ２５に文章情報グループ毎の評価情報が存在する点ｓ２３、ｓ２５、ｓ２６を選択する。
そして、ステップＣ９では、ステップＣ８で選択した文章情報を出力する。
ステップＣ７〜Ｃ９の処理は、管理手段１１によって実行される。
【００４６】
なお、文章情報グループ毎の設定評価情報の入力方法は、前述した２次元平面上で指示する方法に限定されない。例えば、文章グループ毎の設定評価情報をそれぞれ個別に入力する方法を用いることもできる。この場合には、例えば、文章情報グループ毎の評価情報と設定評価情報との間の距離が最も短い１つの文章情報、あるいは２番目、３番目・・・に距離が短い（所定の設定個数の）の複数の文章情報を同時に選択する。
【００４７】
つぎに、設定条件に該当する文章情報を選択して出力する文章情報出力処理について、図１１に示すフローチャートを参照して説明する。
ステップＤ１では、図１０に示したステップＣ１と同様に、検索キーワードを入力する。
ステップＤ２では、設定文章情報グループを入力する。設定文章情報グループは、文章情報を検索する条件として用いられる。
ステップＤ３では、記憶手段２０の文章情報データベース２１に記憶されている文章情報を読み取り、図５に示したステップＡ１と同様に、文章情報を形態素に分割し、文章情報に含まれているｎ個の品詞情報を文章情報中における出現順に抽出する。具体的には、先ず、前述した方法を用いて文章情報から文情報を判別する。そして、各文情報を形態素解析して文情報を形態素に分割した後、各文情報に含まれている品詞情報を文情報中における出現順に抽出する処理を、文情報の出現順に行う。
なお、ステップＤ３の処理は、ステップＤ１（検索キーワード入力）以前に予め行っておいてもよい。
ステップＤ４では、図１０に示したステップＣ４と同様に、文章情報に検索キーワードが含まれているか否かを判断する。文章情報に検索キーワードが含まれている場合にはステップＤ５に進み、文章情報に検索キーワードが含まれていない場合にはステップＤ１０に進む。
ステップＤ５では、図５に示したステップＡ２と同様に、文章情報に含まれている連続するＮ個の品詞情報の配列（品詞Ｎグラム）を出現順に抽出する。
ステップＤ６では、図５に示したステップＡ３と同様に、文章情報に対する文章情報グループ毎の評価情報を作成する。ステップＤ６では、前述したように、正規化評価情報を作成するのが好ましい。
ステップＤ７では、図６に示したステップＢ４と同様に、文章情報が帰属する文章情報グループを判別する。
ステップＤ８では、ステップＤ７で判別した文章情報グループが、ステップＤ２で入力された設定文章情報グループと一致するか否かを判断する。文章情報グループが設定文章情報グループと一致するとステップＤ９に進み、一致しない場合にはステップＤ１０に進む。
ステップＤ９では、文章情報を選択する。
ステップＤ１０では、記憶手段２０の文章情報データベース２１に記憶されている文章情報を全て読み出したか否かを判断する。文章情報データベース２１に記憶されている文章情報の読み出しを終了していない場合にはステップＤ３に戻り、文章情報の読み出しを終了した場合にはステップＤ１１に進む。
そして、ステップＤ１１では、ステップＤ９で選択した文章情報を出力する。
【００４８】
つぎに、評価情報を作成して出力する評価情報出力処理について、図１２に示すフローチャートを参照して説明する。
ステップＥ１では、図１０に示したステップＣ１と同様に、検索キーワードを入力する。
ステップＥ２では、記憶手段２０の文章情報データベース２１に記憶されている文章情報を読み取り、図５に示したステップＡ１と同様に、文章情報を形態素に分割し、文章情報に含まれているｎ個の品詞情報を文章情報中における出現順に抽出する。具体的には、先ず、前述した方法を用いて文章情報から文情報を判別する。そして、各文情報を形態素解析して文情報を形態素に分割した後、各文情報に含まれている品詞情報を文情報中における出現順に抽出する処理を、文情報の出現順に行う。
なお、ステップＥ２の処理は、ステップＥ１（検索キーワード入力）以前に予め行っておいてもよい。
ステップＥ３では、図１０に示したステップＣ４と同様に、文章情報に検索キーワードが含まれているか否かを判断する。文章情報に検索キーワードが含まれている場合にはステップＥ４に進み、文章情報に検索キーワードが含まれていない場合にはステップＥ６に進む。
ステップＥ４では、図５に示したステップＡ２と同様に、文章情報に含まれている連続するｎ個の品詞情報を出現順に抽出する。
ステップＥ５では、図５に示したステップＡ３と同様に、文章情報に対する文章情報グループ毎の評価情報を作成する。ステップＥ５では、前述したように、正規化された評価情報を作成するのが好ましい。
ステップＥ６では、記憶手段２０の文章情報データベース２１に記憶されている文章情報を全て読み出したか否かを判断する。文章情報データベース２１に記憶されている文章情報の読み出しを終了していない場合にはステップＥ２に戻り、文章情報の読み出しを終了した場合にはステップＥ７に進む。
ステップＥ７では、ステップＥ５で作成された各文章情報に対する文章情報グループ毎の評価情報を出力手段から出力する。文章情報に対する文章情報グループ毎の評価情報を出力手段から出力する方法としては、利用者が、文章情報に対する文章情報グループ毎の評価情報を判別可能に出力するのが好ましい。なお、本明細書では、「文章情報に対する文章情報毎の評価情報を利用者が判別可能に出力手段から出力する」という記載は、「文章情報に対する、各種別それぞれに含まれる少なくとも一つの文章情報グループの評価情報を利用者が判別可能に出力する」態様を含むものとして用いられている。例えば、図１４に示すように、各文章情報を示す点（文章情報識別情報）を２次元平面上に表示する出力方法を用いることができる。２次元平面としては、例えば、図１３に示した２次元平面と同様に、ｘ軸方向（直交する座標軸の一方の座標軸の方向）に沿って一つの種別（例えば、文章情報のコンテンツ種別）の文章情報グループに対応する座標軸が引かれ、ｙ軸方向（直交する座標軸の他方の座標軸の方向）に沿って他の種別（例えば、文章情報の文体種別）の文章情報グループに対応する座標軸が引かれた２次元平面を用いることができる。図１４に示す２次元平面では、ｘ軸の一方向に、文章情報の文体種別に含まれる１つの文章情報グループである［論説調文章情報グループＳ１１］（Ｃ軸）、ｘ軸の他方向（例えば、通常のｘマイナス方向）に、文章情報の文体種別に含まれる他の文章情報グループである［口語調文章情報グループＳ１２］（Ｄ軸）が引かれ、ｙ軸の一方向に、文章情報のコンテンツ種別に含まれる１つの文章情報グループである［コラム系文章情報グループＳ１］（Ａ軸）、ｙ軸の他方向に、文章情報のコンテンツ種別に含まれる１つの文章情報グループである［日記系文章情報グループＳ２］（Ｂ軸）が引かれている。そして、この２次元平面上に、各文章情報を示す点（文章情報識別情報）ｓ３１〜ｓ４８を配置する。この場合、各文章情報を示す点ｓ３１〜ｓ４８は、図１３と同様に、同一種別の文章情報グループのうち最も大きい文章情報グループを選択したものである。例えば、ｘ軸に沿って座標軸が引かれる一つの種別（文体種別）に含まれる［論説調文章情報グループＳ１１］（Ｃ軸）と［口語調文章情報グループＳ１２］（Ｄ軸）に対する評価情報のうちの最大値と、ｙ軸に沿って座標軸が引かれる他の種別（コンテンツ種別）に含まれる［コラム系文章情報グループＳ１］（Ａ軸）と［日記系文章情報グループＳ２］（Ｂ軸）に対する評価情報のうちの最大値が選択される。
勿論、各文章情報に対する文章情報グループ毎の評価情報を出力する方法を用いることもできる。例えば、各文章情報に対する文章情報グループ毎の評価情報を表形式等で出力する方法を用いることができる。あるいは、原点から各文章情報グループに対応する座標軸を引いた多次元座標空間および多次元座標空間上に配置した各文章情報識別情報を２次元平面上に射影することによって、文章情報に対する文章情報グループ毎の評価情報を表示する方法を用いることもできる。
【００４９】
以上のように、本発明は、文章情報に含まれている連続するＮ個の品詞情報の配列（品詞Ｎグラム）と、学習文章情報に基づいて作成された連続するＮ個の品詞情報の配列（品詞Ｎグラム）に対する文章情報グループ毎の品詞Ｎグラム確率情報に基づいて、文章情報に対する文章情報グループ毎の評価情報を作成している。これにより、文章情報が帰属する文章情報グループの判別を支援する評価情報を容易に、精度良く作成することができる。また、連続するＮ個の品詞情報の配列（品詞Ｎグラム）に対する品詞Ｎグラム確率情報を用いることによって、文章情報に含まれている単語（文章情報の内容や話題）に対する依存性が低くなり、品詞Ｎグラム確率情報データベースに記憶する品詞Ｎグラム確率情報を作成するための学習文章情報の数も少なくてすむ。
【００５０】
本発明は、実施の形態で説明した構成に限定されず、種々の変更、追加、削除が可能である。
文章情報に対する文章情報グループ毎の評価情報（あるいは、正規化評価情報）の作成方法、文章情報に対する文章情報グループ毎の評価情報に基づいて文章情報が帰属する文章情報グループを判別する方法は、実施の形態で説明した方法に限定されない。
各処理の内容は、フローチャートに記載した処理内容に限定されない。
検索キーワードを用いて文章情報を検索する方法は省略することもできる。
実施の形態で説明した各構成は、単独で用いることもできるし、適宜選択した複数を組み合わせて用いることもできる。
品詞Ｎグラム確率情報としては、品詞Ｎグラム確率を用いることもできるし、品詞Ｎグラム確率に対応する他の情報を用いることもできる。
評価情報としては、評価値を用いることもできるし、評価値に対応する他の情報を用いることもできる。
【図面の簡単な説明】
【００５１】
【図１】本発明の一実施の形態の概略構成を示す図である。
【図２】形態素解析辞書の1例を示す図である。
【図３】連続するＮ個［Ｎ＝１］の品詞情報の配列に対する品詞Ｎグラム確率情報データベースの1例を示す図である。
【図４】連続するＮ個［Ｎ＝２］の品詞情報の配列に対する品詞Ｎグラム確率情報データベースの1例を示す図である。
【図５】評価情報作成処理を説明するフローチャートである。
【図６】グループ判別処理を説明するフローチャートである。
【図７】文章情報に含まれている品詞情報を出現順に判別する処理を具体的に説明する図である。
【図８】連続するＮ個［Ｎ＝１］の品詞情報を出現順に抽出する処理と、文章情報に対する評価情報を作成する処理を具体的に説明する図である。
【図９】連続するＮ個［Ｎ＝２］の品詞情報を出現順に抽出する処理と、文章情報に対する評価情報を作成する処理を具体的に説明する図である。
【図１０】文章情報出力処理を説明するフローチャートである。
【図１１】グループ文章情報出力処理を説明する図である。
【図１２】評価情報出力処理を説明するフローチャートである。
【図１３】設定評価情報入力画面の１例を示す図である。
【図１４】評価情報出力画面の１例を示す図である。
【符号の説明】
【００５２】
１０処理手段
１１管理手段
１２形態素解析手段
１３評価情報作成手段
Ｔ１、Ｔ２、Ｔ１１、Ｔ１２文章情報グループ別評価情報作成手段
１４グループ判別手段
２０記憶手段
２１文章情報データベース
２２形態素解析辞書
２３品詞Ｎグラム確率情報データベース
Ｓ１、Ｓ２、Ｓ１１、Ｓ１２文章情報グループ別品詞Ｎグラム確率情報データベース
３０入力手段
４０表示手段（出力手段）

【特許請求の範囲】
【請求項１】
予め設定されている複数の文章情報グループに対する文章情報の帰属性の判別を支援する文章情報グループ帰属性判別支援装置であって、
入力手段と、記憶手段と、管理手段と、形態素解析手段と、評価情報作成手段を備え、
前記記憶手段には、複数の文章情報と、品詞情報を含む形態素解析辞書と、連続するＮ個（Ｎは１以上の正の整数）の品詞情報の配列に対する文章情報グループ毎の品詞情報出現確率情報が記憶されており、
前記形態素解析手段は、前記記憶手段に記憶されている形態素解析辞書を用いて、文章情報を形態素に分割するとともに、前記文章情報に含まれている品詞情報を出現順に判別し、
前記評価情報作成手段は、前記形態素解析手段により判別された前記文章情報に含まれている品詞情報の出現順から、連続するＮ個の品詞情報の配列を出現順に抽出し、前記抽出した連続するＮ個の品詞情報の配列と、前記記憶手段に文章情報グループ毎に記憶されている連続するＮ個の品詞情報の配列に対する品詞情報出現確率情報に基づいて、前記文章情報に対する文章情報グループ毎の評価情報を作成し、
前記管理手段は、前記入力手段により入力される文章情報あるいは前記記憶手段に記憶されている文章情報に対する評価情報作成要求情報が入力されると、前記入力手段から入力された文章情報あるいは前記記憶手段に記憶されている文章情報に対する文章情報グループ毎の評価情報を、前記形態素解析手段および前記評価情報作成手段を用いて作成し、前記記憶手段に記憶する
ことを特徴とする文章情報グループ帰属性判別支援装置。
【請求項２】
予め設定されている複数の文章情報グループに対する文章情報の帰属性の判別を支援する文章情報グループ帰属性判別支援装置であって、
入力手段と、記憶手段と、管理手段と、形態素解析手段と、評価情報作成手段と、出力手段を備え、
前記記憶手段には、複数の文章情報と、品詞情報を含む形態素解析辞書と、連続するＮ個（Ｎは１以上の正の整数）の品詞情報の配列に対する文章情報グループ毎の品詞情報出現確率情報が記憶されており、
前記形態素解析手段は、前記記憶手段に記憶されている形態素解析辞書を用いて、文章情報を形態素に分割するとともに、前記文章情報に含まれている品詞情報を出現順に判別し、
前記評価情報作成手段は、前記形態素解析手段により判別された前記文章情報に含まれている品詞情報の出現順から、連続するＮ個の品詞情報の配列を出現順に抽出し、前記抽出した連続するＮ個の品詞情報の配列と、前記記憶手段に文章情報グループ毎に記憶されている連続するＮ個の品詞情報の配列に対する品詞情報出現確率情報に基づいて、前記文章情報に対する文章情報グループ毎の評価情報を作成し、
前記管理手段は、前記入力手段から文章情報グループ毎の設定評価情報を含む出力要求情報が入力されると、前記形態素解析手段および前記評価情報作成手段を用いて作成した前記記憶手段に記憶されている各文章情報に対する文章情報グループ毎の評価情報と、前記入力された出力要求情報に含まれている文章情報グループ毎の設定評価情報に基づいて、前記記憶手段に記憶されている文章情報の中から、前記入力された出力要求情報に含まれている文章情報グループ毎の設定評価情報に該当する文章情報を選択し、前記選択した文章情報を前記出力手段から出力する
ことを特徴とする文章情報グループ帰属性判別支援装置。
【請求項３】
請求項２に記載の文章情報グループ帰属性判別支援装置であって、
前記入力手段は、原点から各文章情報グループに対応する座標軸が引かれた２次元平面上で指示された点の各座標値を、文章情報グループ毎の設定評価情報として入力することを特徴とする文章情報グループ帰属性判別支援装置。
【請求項４】
請求項２または３に記載の文章情報グループ帰属性判別支援装置であって、
前記管理手段は、前記入力手段から検索情報と文章情報グループ毎の設定評価情報を含む出力要求情報が入力されると、前記記憶手段に記憶されており、前記入力された出力要求情報に含まれている検索情報を含む文章情報の中から、前記入力された出力要求情報に含まれている文章情報グループ毎の設定評価情報に該当する文章情報を選択することを特徴とする文章情報グループ帰属性判別支援装置。
【請求項５】
予め設定されている複数の文章情報グループに対する文章情報の帰属性の判別を支援する文章情報グループ帰属性判別支援装置であって、
入力手段と、記憶手段と、管理手段と、形態素解析手段と、評価情報作成手段と、出力手段を備え、
前記記憶手段には、複数の文章情報と、品詞情報を含む形態素解析辞書と、連続するＮ個（Ｎは１以上の正の整数）の品詞情報の配列に対する文章情報グループ毎の品詞情報出現確率情報が記憶されており、
前記形態素解析手段は、前記記憶手段に記憶されている形態素解析辞書を用いて、文章情報を形態素に分割するとともに、前記文章情報に含まれている品詞情報を出現順に判別し、
前記評価情報作成手段は、前記形態素解析手段により判別された前記文章情報に含まれている品詞情報の出現順から、連続するＮ個の品詞情報の配列を出現順に抽出し、前記抽出した連続するＮ個の品詞情報の配列と、前記記憶手段に文章情報グループ毎に記憶されている連続するＮ個の品詞情報の配列に対する品詞情報出現確率情報に基づいて、前記文章情報に対する文章情報グループ毎の評価情報を作成し、
前記管理手段は、前記入力手段から出力要求情報が入力されると、前記形態素解析手段および前記評価情報作成手段を用いて作成した前記記憶手段に記憶されている各文章情報に対する文章情報グループ毎の評価情報を出力する
ことを特徴とする文章情報グループ帰属性判別支援装置。
【請求項６】
請求項５に記載の文章情報グループ帰属性判別支援装置であって、
前記管理手段は、原点から各文章情報グループに対応する座標軸が引かれた２次元平面上に各文章情報を示す文章情報識別情報が配置されるように出力することを特徴とする文章情報グループ帰属性判別支援装置。
【請求項７】
請求項５または６に記載の文章情報グループ判別支援装置であって、
前記管理手段は、前記入力手段から検索情報と出力要求情報が入力されると、前記記憶手段に記憶されており、前記入力された出力要求情報に含まれている検索情報を含む文章情報に対する文章情報グループ毎の評価情報を前記出力手段から出力することを特徴とする文章情報グループ帰属性判別支援装置。
【請求項８】
予め設定されている複数の文章情報グループに対する文章情報の帰属性の判別を支援する文章情報グループ帰属性判別支援装置であって、
入力手段と、記憶手段と、管理手段と、形態素解析手段と、評価情報作成手段と、グループ判別手段と、出力手段を備え、
前記記憶手段には、複数の文章情報と、品詞情報を含む形態素解析辞書と、連続するＮ個（Ｎは１以上の正の整数）の品詞情報の配列に対する文章情報グループ毎の品詞情報出現確率情報が記憶されており、
前記形態素解析手段は、前記記憶手段に記憶されている形態素解析辞書を用いて、文章情報を形態素に分割するとともに、前記文章情報に含まれている品詞情報を出現順に判別し、
前記評価情報作成手段は、前記形態素解析手段により判別された前記文章情報に含まれている品詞情報の出現順から、連続するＮ個の品詞情報の配列を出現順に抽出し、前記抽出した連続するＮ個の品詞情報の配列と、前記記憶手段に文章情報グループ毎に記憶されている連続するＮ個の品詞情報の配列に対する品詞情報出現確率情報に基づいて、前記文章情報に対する文章情報グループ毎の評価情報を作成し、
前記グループ判別手段は、前記評価情報作成手段によって作成された前記文章情報に対する文章情報グループ毎の評価情報に基づいて、前記文章情報が帰属する文章情報グループを判別し、
前記管理手段は、前記入力手段から設定文章情報グループを含む出力要求情報が入力されると、前記形態素解析手段、前記評価情報作成手段および前記グループ判別手段を用いて判別した前記記憶手段に記憶されている各文章情報が帰属する文章情報グループが、前記入力された出力要求情報に含まれている設定文章情報グループと一致する文章情報を選択し、前記選択した文章情報を前記出力手段から出力する
ことを特徴とする文章情報グループ帰属性判別支援装置。
【請求項９】
請求項８に記載の文章情報グループ判別支援装置であって、
前記管理手段は、前記入力手段から検索情報と設定文章情報グループを含む出力要求情報出力要求情報が入力されると、前記記憶手段に記憶されており、前記入力された出力要求情報に含まれている検索情報を含む文章情報が帰属する文章情報グループが、前記入力された出力要求情報に含まれている設定文章情報グループと一致する文章情報を前記出力手段から出力することを特徴とする文章情報グループ帰属性判別支援装置。
【請求項１０】
請求項１〜９のいずれかに記載の文章情報グループ帰属性判別支援装置であって、
前記記憶手段には、連続するＮ個以下のそれぞれの個数の品詞情報の配列に対する文章情報グループ毎の品詞情報出現確率情報が記憶されており、
前記評価情報作成手段は、前記抽出した連続するＮ個の品詞情報の配列と、前記記憶手段に文章情報グループ毎に記憶されている連続するＮ個以下のそれぞれの個数の品詞情報の配列に対する品詞情報出現確率情報に基づいて、前記抽出した連続するＮ個の品詞情報の配列それぞれに対する文章情報グループ毎の品詞情報出現確率情報を決定し、前記抽出した連続するＮ個の品詞情報の配列それぞれに対する文章情報グループ毎の、前記決定した品詞情報出現確率情報に基づいて前記文章情報に対する文章情報グループ毎の評価情報を作成する
ことを特徴とする文章情報グループ帰属性判別支援装置。
【請求項１１】
請求項１０に記載の文章情報グループ帰属性判別支援装置であって、
前記評価情報作成手段は、前記抽出した連続するＮ個の品詞情報の配列それぞれに対する文章情報グループ毎の、前記決定した品詞情報出現確率情報を文章情報グループ毎に乗算することによって、前記文章情報に対する文章情報グループ毎の評価情報を作成することを特徴とする文章情報グループ帰属性判別支援装置。
【請求項１２】
請求項１０または１１に記載の文章情報グループ帰属性判別支援装置であって、
前記評価情報作成手段は、前記作成した前記文章情報に対する文章情報グループ毎の評価情報を、前記文章情報に含まれている形態素の全数で除算した評価情報を前記文章情報に対する文章情報グループ毎の評価情報として用いることを特徴とする文章情報グループ帰属性判別支援装置。
【請求項１３】
コンピュータに請求項１〜１２のいずれかに記載の管理手段、形態素解析手段、評価情報作成手段あるいはグループ判別手段の処理を実行させるためのプログラム。
【請求項１４】
コンピュータに請求項1〜１２のいずれかに記載の管理手段、形態素解析手段、評価情報作成手段あるいはグループ判別手段の処理を実行させるためのプログラムが記録された記憶媒体。

【図１】