説明

言語分析システムおよび言語分析プログラム

【課題】 文章の内容を客観的な数値で評価できる言語分析環境を提供する。
【解決手段】 自然文を受け付ける自然文受付手段11と、自然文を単語に分解する基準となる基準単位単語を規定した分析用辞書記憶手段13と、基準単位単語に相当する複数の単語に受け付けた自然文を分解する自然文分解手段14と、自然文を複数の単語に分解した結果を記憶する分解結果記憶手段15と、分解した単語の数をカウント値として取得するカウント値取得手段16と、カウント値に基づき複数の分析値を生成する分析値生成手段18と、分析値に基づき分析値の基準値を生成する基準値生成手段19と、基準値に対する分析値の乖離の程度を示す乖離値を生成する乖離値生成手段20と、乖離値に基づき評価値を生成する評価値生成手段21と、乖離値または評価値を出力する出力手段22と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、自然文を複数の単語に分解する言語分析システムおよび言語分析プログラムに係り、特に、分解結果に基づき定量評価を行う言語分析システムおよび言語分析プログラムに関する。
【背景技術】
【0002】
従来、日本語の文章を形態素のレベルにまで分割し、分析する手法が多く提案されているが、これらは翻訳のために、文を形態素単位にまで分解することを目的としたものが主流である。
【0003】
また、音声変換に際し、ポーズ位置を決定する目的などを果たすために、単語単位に分解することを目的としたものなどでは、発声の観点から文章としての構造を分析することに主眼がおかれている。
【0004】
しかしながら、従来の文章の分析は、構文という観点から、一般的な国文法にしたがって品詞区分を正確に付与することがポイントであり、品詞の別により意味の異なる単語を区別して、翻訳の精度を向上させようとするものであった。
【0005】
同様に、音声変換などにおけるシステムでも、構文という観点から分析し、一般的な品詞に分類することでポーズ位置を確定するものである。
【0006】
このように、従来の文章解析においては、文章の内容に踏み込むことなく、文章構造を分析するのみであり、文章の内容の善し悪しなどを分析し、評価することはできない。これは、評価するための客観的な判断基準を確立することができないことに起因するものであり、結果、その文章が備える固有の趣向(内容)に応じた評価を行うことができる手法、具体的には、論文、小説、エッセイ、社説、など、特定のテーマについて論述された文章について、客観的な評価を行うことができる手法は、存在しなかった。このため、自然文からなる文章の評価を客観的に行うことができる言語分析システムおよび言語分析プログラムの登場が望まれていた。
【発明の開示】
【発明が解決しようとする課題】
【0007】
そこで、本発明では、その文章が書かれた目的やテーマなどに応じて、客観的な評価を行うことができる評価基準を確立することができる言語分析システムおよび言語分析プログラムと提供することを目的とする。また、数値化されたパラメータを用いて、異なる文章を客観的に相対評価することができる言語分析システムおよび言語分析プログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
上記目的を達成するため、請求項1に記載の発明では、自然文を受け付ける自然文受付手段と、当該自然文を単語に分解する基準となる基準単位単語を規定した分析用辞書記憶手段と、当該分析用辞書記憶手段を参照して、前記基準単位単語に相当する複数の単語に前記自然文を分解する自然文分解手段と、当該自然文分解手段が前記自然文を複数の単語に分解した結果を記憶する分解結果記憶手段と、当該分解結果記憶手段が記憶した結果を参照し、少なくとも分解した前記単語の数をカウント値として取得するカウント値取得手段と、当該カウント値取得手段が取得したカウント値に基づき分析値を生成する分析値生成手段と、当該分析値生成手段が生成した分析値に基づき、分析値の基準となる基準値を生成する基準値生成手段と、当該基準値生成手段が生成した基準値を記憶する基準値記憶手段と、を備える構成を採用する。
【0009】
本発明によると、少なくとも自然文を分解して得られた単語の数をカウント値として取得するカウント値取得手段と、当該カウント値に基づき複数の分析値を生成する分析値生成手段と、当該分析値生成手段が生成した分析値に基づき基準値を生成する基準値生成手段と、を備えるので、文章の内容を客観的に評価できる単語群のバランスという着眼点から得られる分析値を構成要素とする基準値を得ることができる。ひいては、客観的な評価を行うことができる評価基準を確立することができる言語分析システムを提供することができる。
【0010】
また、請求項2に記載の発明では、請求項1に記載の言語分析システムにおいて、前記分析用辞書記憶手段は、前記基準単位単語の属性に応じた分析区分を当該基準単位単語に関連付けて記憶しており、前記自然文分解手段は、前記複数の単語に前記自然文を分解するに際し、当該単語に前記分析区分を関連付けるものであり、かつ、前記分解結果記憶手段は、当該関連付けを前記結果に含むように記憶するものであって、前記分析値は、当該関連付けに応じた前記カウント値に基づくものである構成を採用する。
【0011】
本発明によると、単語の属性に応じた分析区分を設定することにより、自然文に用いられる単語の属性を分析値に反映させることができ、ひいては、分析区分の設定の仕方により様々な角度から自然文に基づく評価を可能にする基準を得ることができる。
【0012】
また、請求項3に記載の発明では、前記基準値は、複数の文章毎に生成された複数の前記分析値を用いて標準偏差を算出し、算出した標準偏差を用いて再度分析値をフィルタリングして抽出した分析値集団の平均値である構成を採用する。
【0013】
本発明によると、標準偏差を用いたフィルタリングを行うので、評価を行うための基準値を、より実態を反映した評価基準とすることができる。
【0014】
また、請求項4に記載の発明では、請求項1乃至請求項3に記載の言語分析システムにおいて、前記分析値生成手段は、複数種類の分析値を生成するものであって、前記基準値生成手段は、その種類毎に分析値を用いて前記基準値を生成する構成を採用する。
【0015】
本発明によると、単一種類の分析値に留まらず、複数種類の分析値を用いて複数の基準値を得るので、多面的な観点から評価できる基準を定めることができ、より実態を反映した評価を提供することができる。
【0016】
また、請求項5に記載の発明では、自然文を受け付ける自然文受付手段と、当該自然文を単語に分解する基準となる基準単位単語を規定した分析用辞書記憶手段と、当該分析用辞書記憶手段を参照して、前記基準単位単語に相当する複数の単語に前記自然文を分解する自然文分解手段と、当該自然文分解手段が前記自然文を複数の単語に分解した結果を記憶する分解結果記憶手段と、当該分解結果記憶手段が記憶した結果を参照し、少なくとも分解した前記単語の数をカウント値として取得するカウント値取得手段と、当該カウント値取得手段が取得したカウント値に基づき分析値を生成する分析値生成手段と、当該分析値生成手段が生成した分析値の基準となる基準値を記憶する基準値記憶手段と、当該基準値記憶手段から読み出した基準値と前記分析値生成手段が生成した前記分析値とに基づき、前記基準値に対する前記分析値の乖離の程度を示す乖離値を生成する乖離値生成手段と、当該乖離値生成手段が生成した乖離値を出力する出力手段と、を備える構成を採用する。
【0017】
本発明によると、少なくとも自然文を分解して得られた単語の数をカウント値として取得するカウント値取得手段と、当該カウント値に基づき複数の分析値を生成する分析値生成手段と、当該分析値と基準値記憶手段から読み出した基準値とに基づき、基準値に対する分析値の乖離の程度を示す乖離値を生成する乖離値生成手段と、を備えるので、文章の内容を客観的に評価できる単語群のバランスという着眼点から得られる、数値である分析値による言語分析が可能である。ひいては、自然文の内容を客観的に分析、評価することができる新しい言語分析システムを提供することができる。
【0018】
また、請求項6に記載の発明では、前記乖離値は、前記基準値と、複数の文章毎に生成された複数の分析値の当該基準値に対する標準偏差と、に基づき普遍化されたものである構成を採用する。
【0019】
本発明によると、評価対象により大きく数値が変動する乖離値を普遍化することができるので、乖離値を相対的に比較することができる言語分析システムを提供できる。
【0020】
また、請求項7に記載の発明では、請求項5または請求項6に記載の言語分析システムにおいて、当該乖離値生成手段が生成した複数の乖離値に基づき評価値を生成する評価値生成手段を備え、前記出力手段は、前記乖離値に変えて当該評価値を出力する構成を採用する。
【0021】
本発明によると、複数の乖離値に基づき、さらに評価値を生成し、生成した評価値を出力するので、異なる観点から多面的に分析した複数のパラメータによる評価値を得ることが可能であり、ひいては、より高度な評価を実現できる言語分析システムを提供することができる。
【0022】
また、請求項8に記載の発明では、情報の受付手段と、情報の記憶手段と、これら各手段の動作を制御する処理手段と、を備え、当該記憶手段が、少なくとも、自然文を単語に分解する基準となる基準単位単語を規定した分析用辞書記憶手段と、当該自然文を複数の単語に分解した結果を記憶する分解結果記憶手段と、から構成される言語分析システムにおいて、実行させるプログラムを採用する。
【0023】
そして、前記処理手段に、前記受付手段を介して自然文を受け付けるステップと、前記分析用辞書記憶手段を参照して、前記基準単位単語に相当する複数の単語に前記自然文を分解するとともに、自然文を複数の単語に分解した結果を前記分解結果記憶手段に記憶するステップと、当該分解結果記憶手段が記憶した結果を参照し、少なくとも分解した前記単語の数をカウント値として取得するステップと、当該カウント値に基づき分析値を生成するステップと、当該分析値に基づき、分析値の基準となる基準値を生成するステップと、当該基準値を前記記憶手段の所定の領域に記憶するステップと、を実行させる。
【0024】
本発明によると、少なくとも自然文を分解して得られた単語の数をカウント値として取得し、取得したカウント値に基づき分析値を生成し、生成した分析値に基づいて基準値を生成するので、文章の内容を客観的に評価できる単語群のバランスという着眼点から得られる分析値を構成要素とする基準値を得ることができる。ひいては、客観的な評価を行うことができる評価基準を確立することができる新しい言語分析環境を提供することができる。
【0025】
また、請求項9に記載の発明では、請求項8に記載の言語分析プログラムにおいて、前記分析用辞書記憶手段は、前記基準単位単語の属性に応じた分析区分を当該基準単位単語に関連付けて記憶しており、前記処理手段に、前記複数の単語に前記自然文を分解するに際し、当該単語に前記分析区分を関連付けるとともに、当該関連付けを前記結果に含むように前記分解結果記憶手段に記憶するステップと、当該分解結果記憶手段に記憶された関連付けを含む結果を参照し、当該関連付けに応じた前記カウント値に基づく分析値を生成するステップと、を実行させる。
【0026】
本発明によると、単語の属性に応じた分析区分を設定することにより、自然文に用いられる単語の属性を分析値に反映させることができ、ひいては、分析区分の設定の仕方により様々な角度から自然文に基づく評価を可能にする基準を得ることができる。
【0027】
また、請求項10に記載の発明では、請求項9に記載の言語分析プログラムにおいて、前記処理手段に、複数の文章毎に生成された複数の分析値を用いて標準偏差を算出し、算出した標準偏差を用いて再度分析値をフィルタリングして抽出した分析値集団を平均し、当該分析値の基準となる前記基準値を生成するステップを実行させる。
【0028】
本発明によると、標準偏差を用いたフィルタリングを行うので、評価を行うための基準値を、より実態を反映した評価基準とすることができる。
【0029】
また、請求項11に記載の発明では、請求項8乃至請求項10に記載の言語分析プログラムにおいて、前記処理手段に、前記カウント値に基づき前記分析値を複数種類生成させるステップと、その種類毎に分析値を用いて前記基準値を生成するステップと、を実行させる。
【0030】
本発明によると、単一種類の分析値に留まらず、複数種類の分析値を用いて複数の基準値を得るので、多面的な観点から評価できる基準を定めることができ、より実態を反映した評価を提供することができる。
【0031】
また、請求項12に記載の発明では、情報の受付手段と、情報の記憶手段と、これら各手段の動作を制御する処理手段と、を備え、当該記憶手段が、少なくとも、自然文を単語に分解する基準となる基準単位単語を規定した分析用辞書記憶手段と、当該自然文を複数の単語に分解した結果を記憶する分解結果記憶手段と、当該結果から得られる分析値の基準となる基準値を記憶する基準値記憶手段と、から構成される言語分析システムにおいて、実行させるプログラムを採用する。
【0032】
そして、前記処理手段に、前記受付手段を介して自然文を受け付けるステップと、前記分析用辞書記憶手段を参照して、前記基準単位単語に相当する複数の単語に前記自然文を分解するとともに、自然文を複数の単語に分解した結果を前記分解結果記憶手段に記憶するステップと、当該分解結果記憶手段が記憶した結果を参照し、少なくとも分解した前記単語の数をカウント値として取得するステップと、当該カウント値に基づき分析値を生成するステップと、前記基準値記憶手段から読み出した基準値と前記分析値とに基づき、当該基準値に対する前記分析値の乖離の程度を示す乖離値を生成するステップと、当該乖離値を出力するステップと、を実行させる。
【0033】
本発明によると、少なくとも自然文を分解して得られた単語の数をカウント値として取得し、取得したカウント値に基づき分析値を生成し、生成した分析値と基準値記憶手段から読み出した基準値とに基づき、基準値に対する分析値の乖離の程度を示す乖離値を生成し、この乖離値を出力するので、文章の内容を客観的に評価できる単語群のバランスという着眼点から得られる、数値である分析値による言語分析が可能である。ひいては、自然文の内容を客観的に分析、評価することができる新しい言語分析環境を提供することができる。
【0034】
また、請求項13に記載の発明では、請求項12に記載の言語分析プログラムにおいて、前記処理手段に、前記基準値と、複数の文章毎に生成された複数の分析値の当該基準値に対する標準偏差と、に基づき普遍化して、前記乖離値を生成するステップを実行させる。
【0035】
本発明によると、評価対象により大きく数値が変動する乖離値を普遍化することができるので、乖離値を相対的に比較することができる言語分析環境を提供できる。
【0036】
また、請求項14に記載の発明では、請求項12または請求項13に記載の言語分析プログラムにおいて、前記処理手段に、前記複数の乖離値に基づき評価値を生成するステップを実行させるとともに、前記乖離値を出力するステップに代えて、当該評価値を出力するステップを実行させる。
【0037】
本発明によると、複数の乖離値に基づき、さらに評価値を生成し、生成した評価値を出力するので、異なる観点から多面的に分析した複数のパラメータによる評価値を得ることが可能であり、ひいては、より高度な評価を実現できる言語分析環境を提供することができる。
【発明の効果】
【0038】
本発明は、以上のように構成され機能するので、これによると、請求項1に記載の発明では、少なくとも自然文を分解して得られた単語の数をカウント値として取得するカウント値取得手段と、当該カウント値に基づき複数の分析値を生成する分析値生成手段と、当該分析値生成手段が生成した分析値に基づき基準値を生成する基準値生成手段と、を備えるので、文章の内容を客観的に評価できる単語群のバランスという着眼点から得られる分析値を構成要素とする基準値を得ることができる。ひいては、客観的な評価を行うことができる評価基準を確立することができる言語分析システムを提供することができる。
【0039】
また、請求項2に記載の発明では、単語の属性に応じた分析区分を設定することにより、自然文に用いられる単語の属性を分析値に反映させることができ、ひいては、分析区分の設定の仕方により様々な角度から自然文に基づく評価を可能にする基準を得ることができる。
【0040】
また、請求項3に記載の発明では、標準偏差を用いたフィルタリングを行うので、評価を行うための基準値を、より実態を反映した評価基準とすることができる。
【0041】
また、請求項4に記載の発明では、単一種類の分析値に留まらず、複数種類の分析値を用いて複数の基準値を得るので、多面的な観点から評価できる基準を定めることができ、より実態を反映した評価を提供することができる。
【0042】
また、請求項5に記載の発明では、少なくとも自然文を分解して得られた単語の数をカウント値として取得するカウント値取得手段と、当該カウント値に基づき複数の分析値を生成する分析値生成手段と、当該分析値と基準値記憶手段から読み出した基準値とに基づき、基準値に対する分析値の乖離の程度を示す乖離値を生成する乖離値生成手段と、を備えるので、文章の内容を客観的に評価できる単語群のバランスという着眼点から得られる、数値である分析値による言語分析が可能である。ひいては、自然文の内容を客観的に分析、評価することができる新しい言語分析システムを提供することができる。
【0043】
また、請求項6に記載の発明では、評価対象により大きく数値が変動する乖離値を普遍化することができるので、乖離値を相対的に比較することができる言語分析システムを提供できる。
【0044】
また、請求項7に記載の発明では、複数の乖離値に基づき、さらに評価値を生成し、生成した評価値を出力するので、異なる観点から多面的に分析した複数のパラメータによる評価値を得ることが可能であり、ひいては、より高度な評価システムを提供することができる。
【0045】
また、請求項8に記載の発明では、少なくとも自然文を分解して得られた単語の数をカウント値として取得し、取得したカウント値に基づき分析値を生成し、生成した分析値に基づいて基準値を生成するので、文章の内容を客観的に評価できる単語群のバランスという着眼点から得られる分析値を構成要素とする基準値を得ることができる。ひいては、客観的な評価を行うことができる評価基準を確立することができる新しい言語分析環境を提供することができる。
【0046】
また、請求項9に記載の発明では、単語の属性に応じた分析区分を設定することにより、自然文に用いられる単語の属性を分析値に反映させることができ、ひいては、分析区分の設定の仕方により様々な角度から自然文に基づく評価を可能にする基準を得ることができる。
【0047】
また、請求項10に記載の発明では、標準偏差を用いたフィルタリングを行うので、評価を行うための基準値を、より実態を反映した評価基準とすることができる。
【0048】
また、請求項11に記載の発明では、単一種類の分析値に留まらず、複数種類の分析値を用いて複数の基準値を得るので、多面的な観点から評価できる基準を定めることができ、より実態を反映した評価を提供することができる。
【0049】
また、請求項12に記載の発明では、少なくとも自然文を分解して得られた単語の数をカウント値として取得し、取得したカウント値に基づき分析値を生成し、生成した分析値と基準値記憶手段から読み出した基準値とに基づき、基準値に対する分析値の乖離の程度を示す乖離値を生成し、この乖離値を出力するので、文章の内容を客観的に評価できる単語群のバランスという着眼点から得られる、数値である分析値による言語分析が可能である。ひいては、自然文の内容を客観的に分析、評価することができる新しい言語分析環境を提供することができる。
【0050】
また、請求項13に記載の発明では、評価対象により大きく数値が変動する乖離値を普遍化することができるので、乖離値を相対的に比較することができる言語分析環境を提供できる。
【0051】
また、請求項14に記載の発明では、複数の乖離値に基づき、さらに評価値を生成し、生成した評価値を出力するので、異なる観点から多面的に分析した複数のパラメータによる評価値を得ることが可能であり、ひいては、より高度な評価ができる言語分析環境を提供することができる。
【0052】
以上のように、本発明によれば、従来にない優れた言語分析システムおよび言語分析プログラムを提供することができる。
【発明を実施するための最良の形態】
【0053】
本発明にかかる言語分析は、所定の一テーマについて書かれた文章を評価することを主眼におくものであり、発明者による長年の研究・分析の結果から得られた経験的、統計的事実に基づく言語分析手法を言語分析システムおよび言語分析プログラムのかたちで具現化するものである。
【0054】
発明者の研究によると、論文や社説など、各ジャンルにおいて一つのテーマを論じる文章として優秀と判断される文章を、50文章、100文章、5000文章と分析を進め、文章に含まれる単語の出現回数に着目したところ、出現回数が多い単語は書き手の論旨の中心を表すキーワードとなっていることと、多くの単語が一回しか使用されないことが判明した。
【0055】
例えば、文章中に100の単語が用いられている場合、出現回数の多い、論旨の本質を示す中心となるキーワードはおよそ5つに過ぎず、およそ80の単語は1度だけ用いられているだけである。このキーワードの文章に含まれる比率は、一のテーマを論じる文章である限り、600文字の文章でも、2000文字の文章でも基本的には変わりがないことも分析結果として得られている。
【0056】
さらに、単語の出現回数について言及すると、極論として、すべての単語が一度だけしか用いられないと、文章としては、とりとめのない言葉の羅列に過ぎず、論旨が浮かび上がってこないものとなる。一方、すべてが同じ単語となってしまっては、文章として成立しないということになる。すなわち、一つのテーマを効果的に相手に伝えるためには、単語の使用則として、繰り返し用いられる単語が一定量あり、さらに、一度しか使われない単語がその周辺をとりまくように存在する必要があるというイメージが成立する。なお、出てきた単語数(重複を含む)を、出てきた単語の種類数で割った値(単語重複率)は、論文の場合は1.42、小説では2.01となるという分析結果も得られている。
【0057】
上述した観点から、ある一定以上の割合で用いられるキーワードの割合を分析すると、例えば上述した100の単語が用いられている場合で説明すると、キーワードの数が5を超えてさらに多い場合には、主張しようとする事柄が多くなり、それぞれの論点の説明に十分な論証がおこなわれていない傾向が強い。逆に、キーワードの数が5を満たさずさらに少ない場合には、主張すべき事柄への内容の集約が不足し、論旨を展開するにあたっての組み立てが不十分な傾向が強い。
【0058】
加えて、一度しか用いられていない単語群が80%を超えると、主張に対する論証として展開する方向が散漫となり、文章としての明確な方向性が表現しきれない傾向が強くなる。
【0059】
以上説明したように、単語の重複という観点から見ると、文章の優劣は絶対量ではなくバランスであり、理想的な比率という基準で判断できるという知見を発明者は得ている。
【0060】
このバランスという観点からの分析についてみると、品詞などの単語の属性の観点から見ても同様の結果を得いる。例えば、名詞、形容詞、動詞、助動詞などの一般的な品詞区分で考えてみると容易に理解できる。名詞は、主語や目的語として用いられるが、自然文として、主語がなければ、動作主体がわからず意味不明となるし、目的語がなければ、動作対象などがわからず、同じく意味不明となる。また、形容詞などが少なければ、第三者に問題の状況やそれをとりまく環境などの詳細なイメージを十分に伝えられないし、逆に多すぎては、与えられる情報が氾濫して読み手に伝えたいイメージがぼやけてしまう可能性が高い。そして、極論すると、動詞がないということは、自然文としての述語が存在しないことになり、少なくとも、主語に応じた比率で存在しなければ文章が成立しない。
【0061】
この単語の属性という観点からの分析を行ったことにより、属性の観点からもバランス良く用いられているか否かを、文章としての優劣を評価する基準とできるという知見を発明者は得ることができた。なお、本発明では、後述するように一般的な国文法の品詞種類とは異なる分析区分を採用しているが、この分析区分は、わかりやすい文章表現、文章構成という見地から重要となる、使用単語のバランスから文章を評価するという観点に基づき、どのような単語の属性を抽出すると、適切な数値評価ができる分析値が得られるかという分析実験を繰り返して、経験的かつ統計的に得られた区分である。
【0062】
以上の知見に基づく言語分析を実現するための言語分析システムおよび言語分析プログラムについて、以下に実施形態を説明するが、これらの実施形態は本発明の一例を説明するに過ぎず、本発明の権利範囲を限定するものではない。また、説明において特記しなくとも、各手段は、当然に当業者として代替することができる手段を含むものとする。
【0063】
〔第1実施形態〕
【0064】
本発明にかかる言語分析システム1は、文章内容を判断するための基準となる評価基準を客観的に定める言語分析とともに、その評価基準に基づき文章の客観的な内容評価を行う言語分析の双方を実現しようとするシステムである。このような本発明の一実施形態を図1乃至図6に基づき説明する。
【0065】
[言語分析システムの構成]
【0066】
図1は、本発明に係る言語分析システム1のシステム構成を示す機能ブロック図である。図1に示したように、言語分析システム1は、自然文を受け付ける自然文受付手段11と、受け付けた自然文を単語に分解する基準となる基準単位単語を規定した分析用辞書記憶手段13と、分析用辞書記憶手段13を参照して、基準単位単語に相当する複数の単語に受け付けた自然文を分解する自然文分解手段14と、自然文分解手段14が受け付けた自然文を複数の単語に分解した結果を記憶する分解結果記憶手段15と、分解結果記憶手段15が記憶した結果を参照し、少なくとも分解した単語の数をカウント値として取得するカウント値取得手段16と、カウント値取得手段16が取得したカウント値に基づき複数の分析値を生成する分析値生成手段18と、分析値生成手段18が生成した分析値に基づき、分析値の基準となる基準値を生成する基準値生成手段19と、基準値生成手段19が生成した基準値を記憶する基準値記憶手段として機能するパラメータ記憶手段17と、基準値記憶手段19から読み出した基準値と、分析値生成手段18が生成した分析値とに基づき、基準値に対する分析値の乖離の程度を示す乖離値を生成する乖離値生成手段20と、乖離値生成手段20が生成した複数の乖離値に基づき評価値を生成する評価値生成手段21と、乖離値生成手段20が生成した乖離値または評価値生成手段21が生成した評価値を出力する出力手段22と、を主たる構成として備える。
【0067】
また、図2は、本発明にかかる言語分析システム1を実現するための概略的なシステム構成図である。図2に示したように、システム全体としては、情報の入力手段31、情報の表示手段32、情報の記憶手段33、外部装置との通信手段34、印刷手段35、およびこれら各手段の動作を制御する処理手段36とを有する構成を採用する。
【0068】
図2において、入力手段31は、キーボードやスキャナなどの情報を入力するための手段である。表示手段32は、液晶ディスプレイやCRTなどの情報を表示するための手段である。通信手段34は、モデム、TA、ルータなど、外部装置との間で情報を受信し、送信するための手段である。印刷手段35は、電子情報を紙媒体などに出力して提供する手段であり、例えば、プリンタなどが該当する。なお、説明の容易のため、図2においてこれら入力手段31、表示手段32、通信手段34の数をそれぞれ一としたが、これに限らるものではない。
【0069】
そして、記憶手段33は、プログラムやデータの格納領域を提供するとともに、プログラムの展開領域を提供する手段である。例えば、RAM、ROM、HDDなどの主記憶装置、補助記憶装置が挙げられる。ここで、図2に示したように、記憶手段33は、所定の記憶領域に自然文記憶手段12と、分析用辞書記憶手段13と、分解結果記憶手段15と、パラメータ記憶手段17と、を含むものであり、各記憶手段の概要は以下のとおりである。
【0070】
自然文記憶手段12は、分析対象となる自然文を格納するための記憶領域を提供する。分析用辞書記憶手段13は、後述する分析用の辞書を格納するための記憶領域を提供する。分解結果記憶手段15は、後述する分析結果を格納するための記憶領域を提供する。パラメータ記憶手段17は、図1に示したカウント値記憶領域17a、分析値記憶領域17b、基準値記憶領域17c、乖離値記憶領域17d、評価値記憶領域17eなど、分析に用いるための基礎データとなる数値や、演算結果として得られる数値などのパラメータを格納するための記憶領域を提供する。ここで、パラメータ記憶手段17は、これら各記憶領域を備えることにより、カウント値記憶手段、分析値記憶手段、基準値記憶手段、乖離値記憶手段、評価値記憶手段としても機能するものである。
【0071】
なお、説明の容易のため、図2において記憶手段33の数を一つとしたが、これに限られるものではなく、物理的に複数の記憶媒体から記憶手段が構成されるようにして、分散的に情報を記憶できるシステムとしてもよいことはいうまでもない。
【0072】
処理手段36は、CPUなどの演算処理手段であり、上述した各種機器を制御する手段である。なお、説明の容易のため、図2において処理手段36の数を一としたが、これに限られるものではなく、物理的に複数の演算処理手段を用いて並列的に制御を行う構成としてもよい。また、処理手段36が仮想計算機などを介して、中間コード形式で提供されたプログラムを解釈、実行して処理を実現する構成としてもよい。
【0073】
以下、図1に示した言語分析システム1を構成する各手段について詳述する。
【0074】
まず、図1における、自然文受付手段11、自然文分解手段14、カウント値取得手段16、分析値生成手段18、基準値生成手段19、乖離値生成手段20、評価値生成手段21、および出力手段22は、言語分析システム1の処理手段36が所定のプログラムを実行することにより、実現され、その機能を発揮するプロセスである。なお、それらのプログラムは、通常、記憶手段33の所定の記憶領域に格納され、必要に応じて処理手段36が読み出し、メモリなどの記憶手段33のプログラム展開領域で実行され、各種機能を呈する。
【0075】
ここで、自然文受付手段11は、記載内容を評価する分析対象である自然文を受け付ける手段である。ただし、自然文受付手段11が受け付ける分析対象の単位は、処理の効率を考えて分析対象となる複数の自然文からなる文章を想定するものであるが、これに限られるものではない。例えば、後述するように、単語への分解処理を自然文単位で行うことから、一自然文の分解処理が済む毎に次の自然文を受け付ける一自然文単位とする構成を採用してもよい。
【0076】
加えて、相対的に文章を比較するような場合は、原則として、書き手の異なる文章を分析単位として受け付ける形態が想定されるが、文章を評価するための基準となる基準値を取得する場合には、どのように基準値を定めるかという取り決めにしたがうことになる。この場合には、自然文受付手段11は、複数の書き手による単文をまとめた自然文群を文章と擬して受け付けたり、一の書き手の文章を基準値取得のために受け付けたりすることになるが、いずれにせよ、自然文を受け付けることに変わりはない。
【0077】
また自然文受付手段11は、入力手段31を介して直接入力される情報を受け付けるという受け渡し形態に限られるものではない。例えば、言語分析システム1の外部から、通信手段34を介してテキスト形式などで自然文の電子情報を受け付けるようにしてもよいし、書き換え可能なMOやCD−RWなどの記録媒体などを介して受け付けるようにしてもよい。加えて、記憶手段33の他の記憶領域に格納されている文書データなどから分析対象を受け付ける形態を用いてもよい。
【0078】
そして、自然文受付手段11は、処理手段36の制御下で、受け付けた自然文を自然文記憶手段12に格納する機能も備える。これにより、言語分析システム1は、分析対象となる自然文を受け入れて即座に分析するシーケンスを実行しなければならないという制約を受けることはなく、所定の数の自然文を受け付けてから、任意のタイミングで分析できる。
【0079】
ここで、自然文記憶手段12は、前述したように、記憶手段33の所定の領域に自然文を格納する手段であるが、その格納形態は、文章という単位で複数の自然文を格納するものに限られない。例えば、一の自然文を独立したかたちで格納してもよいし、文章単位、自然文単位が混在したかたちで格納してもよい。ただし、複数の文章を連続的に分析処理する場合などは、文章に固有の識別コードを付して、分析対象となる自然文をその識別コードに関連付けたかたちで記憶する。なお、複数の文章の分析を行う場合には、ここで付した識別コードと、後述する分析値や乖離値、評価値などの情報との関連付けも行うが、このようなID情報を用いた情報管理の手法は既知のものを用いるものとする。
【0080】
分析用辞書記憶手段13は、自然文受付手段11が受け付けた自然文を単語に分解する際に参照する分析用辞書として機能する手段である。具体的には、分析用辞書記憶手段13は分析単位となる基準単位単語を記憶する記憶手段であり、加えて、基準単位単語の属性に応じた分析区分を当該基準単位単語に付与し、相互に関連付けて記憶する記憶手段である。
【0081】
ここで、基準単位単語の属性とは、一般的に単語の性質や特徴などをいい、例えば品詞の種類や意味に応じた分類などから判断される。そして、分析区分は、後述する評価値を、複数の観点から分析したものと意味づけるために複数生成される分析値を導出できるように、属性を考慮して定められる。
【0082】
以下、分析用辞書記憶手段13に格納される辞書について、図3に基づき説明する。図3は、分析用辞書記憶手段13のデータ構造の一例を示す模式的構造図である。
【0083】
図3に示したように、分析用辞書記憶手段13は、複数の独立した辞書から構成され、詳細には、体言辞書、用言辞書、接続詞辞書、助詞辞書、助動詞辞書、に加え、分解に適した自然文、文節、単語レベルに修正することを主目的として、活用辞書、削除記号辞書、表記辞書、句点識別辞書などを備える。各辞書は、データベースとして構成され、上述した基準単位単語を格納する体言辞書、用言辞書などは、分析区分に関連付けて基準単位単語を格納する際に、単語に付与された分析区分が利用されることになる。
【0084】
ここで、分析用辞書記憶手段13の各辞書記憶領域に格納される基準単位単語が関連付けられる分析区分は、分解後の分析内容に応じて定められるものであり、本発明では、一般的な国文法をそのまま用いず、独自のアレンジを施した分析区分を採用する。
【0085】
分析区分の具体例を表1および表2に示す。表1および表2に示したように、本実施形態では、分析用辞書記憶手段13に格納される基準単位単語の分析区分に階層構造を採用する。詳細には、表1は、第1階層が体言に区分される部分の詳細な階層構造を示した表であり、表2は、第1階層が用言と付属語に区分される部分の詳細な階層構造を示した表である。
【0086】
表1および表2に示したように、基準単位単語は、第1階層として、体言、用言、付属語の3つの区分に分けらる。それぞれ第1階層内での区分を表す第1階層区分コードとして01,02,03というコードが付与される。
【0087】
また、第2階層は、第1階層の体言、用言、付属語の下位区分という位置づけになる。具体的には、第1階層の体言は、普通名詞、固有名詞、代名詞、数詞、接続詞、連体詞、感動詞に分けられる。第1階層の用言は、動詞、形容詞に分けらる。第1階層の付属語は、助動詞、助詞、連語に分けられる。第2階層のそれぞれの区分には、第2階層内での区分を表す第2階層区分コードとして、01から13までのコードが付与される。
【0088】
第3階層では、表1および表2に示したように、第2階層内での一区分が、属性に応じてさらに下位区分に細分化される。代表的な例では、普通名詞は、普通名詞、成語、季語、時期、その他の区分に分けられ、第3階層区分コードとして、01,02,03,04,09というコードが付与される。また、固有名詞は、人名、社名、地名、国名、元号、歴史用語、その他の区分に分けられ、第3階層区分コードとして、01,02,03,04,05,06,09というコードが付与される。この第3階層の区分については、表1および表2に記載した構造となっており、上述した以外の区分および区分コードについては説明を省略する。なお、本実施形態における区分コードにより分析区分を特定する方式として、第3階層の分析区分を示す場合には、少なくとも第2階層区分コードとセットにして第3階層区分コードを用いる。
【0089】
そして、表1および表2に示したように、本実施形態では、上述した分析区分に加え、基準単位単語の属性に鑑みて定められた抽出区分を規定する。ここで、抽出区分は、一括して抽出すべき分析区分の単語を特定するために設けられた便宜的な区分であり、第2階層区分の所定の区分に応じて、a,b,cの3つの区分が指定されている。例えば、キーワードとして分解した単語を選別する際に、区分aと区分bに該当する単語を抽出する際のインデックスとして用いる。
【0090】
ここで、区分aは、内容を修飾または補足する単語群をまとめた区分を意味する。区分bは、内容を具体的に示す単語群をまとめた区分を意味する。区分cは、その単語だけでは意味をなさない単語群をまとめた区分を意味する。
【表1】

【表2】

【0091】
なお、これらの分析区分の階層構造データは、分解後に、分析区分に基づくカウントが行われる際の利便性を考慮して、記憶手段の所定の領域に、分析用辞書記憶手段13に格納される基準単位単語に関連付けられる分析区分を規定するデータとして格納される。格納の形態は、例えば、データベース構造などを採用し、各辞書の分析区分の階層構造に応じて、階層区分と分析区分コードとの対応付けを規定するとともに、高速検索のための検索インデックスとして抽出区分との対応付けも規定する。
【0092】
以上説明した分析区分と関連付けられた基準単位単語を格納する各辞書およびその他の辞書について詳述する。
【0093】
体言辞書記憶領域は、一般的な国文法では普通名詞、固有名詞、代名詞、数詞(主に単位など)、副詞、連体詞、感動詞に分類される基準単位単語を格納する。ここで、本発明に特徴的なことは、一般的な国文法では体言に分類される接続詞について、独立したかたちで接続詞辞書を設けていることと、連語を体言辞書に登録していることである。
【0094】
これは、接続詞辞書が、実際に文章表現内容の分析を行う際に高い頻度で利用されることに鑑み、体言辞書に含めず独立させて設ける構成を採用したものであり、自然文を分解して単語にする際に用いることとは離れて、異なる言語分析を行う構成を付加的に備えた場合などを想定し、文章表現内容の分析に兼用しやすいようにしたものである。また、連語も二つ以上の単語が結合してはいるが、ひとまとまりの観念を表す語であるので、体言辞書に格納している。
【0095】
用言辞書記憶領域は、一般的な国文法では動詞、形容詞に分類される基準単位単語を格納し、同様に、助詞辞書記憶領域は、助詞に分類される基準単位単語を、助動詞記憶領域は、助動詞に分類される基準単位単語をそれぞれ格納する。
【0096】
また、活用辞書記憶領域は、一般的な国文法では動詞、形容詞に分類される基準単位単語の活用として語尾変化のパターンなどを格納しており、自然文の分解に際して、その単語が用言であるか否かを認定する際に用言辞書と併用される。
【0097】
句点識別辞書記憶領域は、自然文の末尾を認識するために、句点(。)を格納する。ただし、必要に応じて、句点識別辞書記憶領域は、さらに、読点(、)や疑問符(?)、感嘆符(!)などを格納してもよい。
【0098】
表記辞書記憶領域は、電子文書などで特殊記号に分類される自然文中の記号を変換するために、変換元情報と変換先情報を関連付けて格納する。例えば、百分率記号(%)と「パーセント」という単語、ドル記号($)と「ドル」という単語、円(¥)と「円」または「エン」などを関連付けて格納する。
【0099】
削除記号辞書記憶領域は、分解や分析に関係しない記号で、削除しても問題がない記号を格納する。例えば、文章中で見出しなどに使う「○」「●」「◎」「§」「※」などの記号が挙げられる。
【0100】
感想単語辞書記憶領域は、自然文を単語に分解する段階では使用しないが、後述する中心キーワード比率や中心補完単語比率などの分析値を生成する際に必要となる感想単語を格納する。詳細には、感想単語辞書記憶領域は、本発明独自の区分として、感想単語という分析用の特別区分を設け、これに該当する単語の数を差し引いた分析値を生成する処理を行うために、その感想単語に該当する基準単位単語を格納し、一致判断の際の参照辞書とする辞書記憶領域である。
【0101】
ここで、感想単語に該当するのは、「私は…と思う」と表現される場合の、「私」「思う」など、自然文制作者の主観的な感想として位置づけられる、主体を自分として述べるときに用いられる単語である。例えば、感想名詞に該当する単語として、「自ら」「自分」「私」「僕」「当社」「我社」など、感想動詞に該当する単語として、「思う」「できる」「対する」「考える」「感じる」などが挙げられる。
【0102】
なお、本実施形態では、体言辞書記憶領域、用言辞書記憶領域、接続詞辞書記憶領域、など、概ね分析区分と一致する構成として、自然文を単語に分解する際の参照の高速化を図れるようにしたが、これに限られるものではない。例えば、分析区分と対応付けられ、自然文の分解に際して基準単位単語として参照する分析手順を実現できるものであれば、独立した単語群を形成するように格納されたデータベース構造に代えて、単語がその分析区分や品詞種別に基づきまとめられることなく混在したデータベース構造を採用してもよい。
【0103】
また、必ずしも単一の分析用辞書記憶手段13が、図3に示したように、複数の辞書を統括して記憶する構成に限られるものではなく、複数の記憶手段から分析用辞書記憶手段13が構成され、複数にグループ化された辞書群を分散して記憶する構成を採用してもよい。また、辞書も上述した機能別の辞書を複数備える構成に限るものではなく、例えば、用言辞書と活用辞書を統合した複合機能を果たす辞書を構成要素としてもよい。
【0104】
続いて、自然文分解手段14は、分析用辞書記憶手段13に格納されている基準単位単語を参照して一致を判別し、基準単位単語に相当する複数の単語に自然文を分解する手段である。具体的には、自然文分解手段14は、句点識別辞書記憶領域を参照しながら、自然文記憶手段12に格納された分析対象となる自然文をセンテンス単位で読み出し、読み出した自然文について、所定の文字数単位で自然文の先頭から順番に文字列を抜き出し、分析用辞書記憶手段13の体言辞書記憶領域、用言辞書記憶領域、接続詞辞書記憶領域など、所定の順序で各辞書を参照し、辞書内に格納された基準単位単語と比較して分解される単位となる単語を特定することにより単語に分解する手段として機能する。
【0105】
また、自然文分解手段14は、複数の単語に自然文を分解するに際し、分解した単語に分析区分を関連付ける手段としても機能する。具体的には、分析用辞書記憶手段13に格納される基準単位単語に関連付けられた分析区分を、分解した単語に関連付けるべき分析区分として用いることにより、分解した単語の属性に応じた分析区分を付与する手段として機能する。
【0106】
加えて、自然文分解手段14は、自然文を分解した結果である単語群を分解結果記憶手段15に格納する。ここで、分解された単語の格納の形態は、分解すべき単語として抽出したことに誤りがないことが確定した単語を順次格納する形態としてもよいし、自然文単位で分解処理が完了する毎にまとめて分解結果を格納する形態を採用してもよい。
【0107】
なお、自然文分解手段14が実現する、自然文記憶手段12に格納された自然文を単語に分解するプロセスは、上述の態様に限られるものではなく、少なくとも単語とそれに応じた分析区分を関連付けて分解格納することができるものであれば足りる。
【0108】
分解結果記憶手段15は、前述したように、自然文分解手段14が自然文を複数の単語に分解した結果を記憶する手段であるが、自然文を分解して得られた単語と、その単語の属性に応じた分析区分との関連付けを分解した結果に含むように記憶する。ここで、結果は、分析対象となる文章または自然文の単位毎に独立して記憶される。
【0109】
分解結果記憶手段15の結果の記憶形態は、自然文の先頭側から順に分解した単語を格納し、その単語に該当する分析区分のフラグを立てる形態や、単語と分析区分に対応した区分コードとを対応付けて格納する形態、分析区分毎に分けて単語を格納する形態などを採り得る。また、分解した単語の中に、同一の単語が複数含まれている場合は、重複させて格納してもよいし、その単語に重複数を関連付けて格納することにより重複させないようにしてもよい。
【0110】
なお、分解結果記憶手段15は、自然文分解手段14が自然文を分解して取得した単語群などの、直接的な一次的結果を記憶する機能に限定されるものではない。分析対象毎に、対応する追加的な結果、例えば、一次的結果として得られた単語に、後述する同頻度数データやキーワードと認定されたことを示す識別記号などの二次的結果を関連付けて記憶する機能を付加してもよい。
【0111】
カウント値取得手段16は、分解結果記憶手段15が記憶した結果を参照し、少なくとも分解した前記単語の数をカウント値として取得し、取得したカウント値をパラメータ記憶手段17のカウント値記憶領域17aに格納する手段である。ここで、「少なくとも」としたのは、自然文分解手段14が直接的に分解した単語数のみをカウントするのではなく、後述するように文字数や自然文の数(以下、センテンス数と称する)をカウントする手段としても機能し得るからである。
【0112】
具体的には、カウント値取得手段16は、上述したような形態で分解結果記憶手段15が格納する分解された単語群に基づき、単語に関連付けられた分析区分を検索インデックスとするなどしながら単語の数をカウントし、そのカウント値を取得する。
【0113】
カウント値記憶領域17aへのカウント値の記憶形態の一例として、図4にカウント値データベースのデータ構造図を示す。図4の各数値は、新聞の社説を分析対象とし、複数の社説を分析した場合のカウント値として取得されたデータを表している。
【0114】
ここで、分解結果記憶手段15に格納された単語群に基づくカウント値の例としては、第1階層区分、第2階層区分、第3階層区分など、各区分が付与された単語の総数を区分毎にカウントしたカウント値が挙げられる。図4に示したカウント値として得られるデータ項目のうち、第1階層区分の体言(第1階層区分コード01)に該当する単語の数をカウントして得られた体言数、同様に、用言(第1階層区分コード02)に該当する単語の数をカウントして得られた用言数、付属語(第1階層区分コード03)に該当する単語の数をカウントして得られた付属語数などがこれに該当する。
【0115】
ただし、カウント値取得手段16が取得するカウント値は、単に特定の分析区分に該当する単語の総数に限られるものではない。例えば、その分析区分に該当する単語でも、重複する同一単語はひとまとまり(一つ)としてカウントして求められる単語の種類数(以下、出現単語数と称する)が挙げられる。なお、ひとまとまりとしてカウントする手法としては、すでにカウント済みの単語と一致を判別し、一致する場合にはカウントをスキップなどして、空カウントととするなどの手法を採用する。
【0116】
また、本実施形態では、カウント値取得手段16は、分析区分という枠内に該当する単語のみをカウント対象とするものではなく、その分析区分をまたがって単語数をカウントしてもよい。
【0117】
例えば、分析対象となる文章中に出現した回数(以下、この出現回数を頻度数と称する)が同じである単語の数をカウントして求められる、頻度数が同じ単語の数(以下、同頻度数と称する)、さらには、頻度数が一である単語(分析対象文章中で一度しか出現していない単語)の数(以下、1頻度単語数と称する)、などをカウント値としてカウント値取得手段16が取得する態様も採り得る。
【0118】
さらに、カウント値取得手段16は、単語の数のカウント値だけでなく、必要に応じて、分解結果記憶手段15のみならず、自然文記憶手段12なども参照し、対象となる自然文の総文字数や、センテンス数、各分析区分に該当する単語の文字数を合計した数、などについてもカウントし、そのカウント値を取得する。また、後述する分析値生成手段18により生成された分析値などに基づく再カウントなども、必要に応じて行う。
【0119】
加えて、カウント値記憶領域17aには、分解した単語の数をカウントして得られたカウント数から直接得られるカウント値のみならず、場合によっては、演算処理などを施して間接的に得られるカウント値をも記憶する構成としてもよい。
【0120】
そして、上述したように、分析区分に着目して単語の数をカウントしたカウント値を格納したのと同様に、それ以外のカウント値についても、パラメータ記憶手段17に設けられたカウント値記憶領域17aに格納する。
【0121】
なお、図4に示したカウント値のうち、キーワード数や感想単語数は、所定のカウント値の処理がおこなわれた後、分析処理を挟んで、再度、必要に応じてカウントされるカウント値であり、詳細は後述する。
【0122】
分析値生成手段18は、カウント値取得手段16が取得したカウント値に基づき複数の分析値を生成する手段である。具体的には、分析値生成手段18は、パラメータ記憶手段17のカウント値記憶領域17aに格納された各種カウント値を用いて分析値を生成する。また、分析値の生成にあたっては、分析値生成手段18は、記憶手段33の所定の領域に設けられた不図示の分析値算出則記憶領域に格納された分析値算出則を参照して算出する。さらに、分析値生成手段18は、パラメータ記憶手段17の分析値記憶領域17bに対して、算出した分析値を格納する手段としても機能する。
【0123】
ここで、本実施形態における分析値とは、カウント値に基づき生成された値をいうが、カウント値を加工して得られた二次的な数値を用いて生成された値のみに限られるものではなく、カウント値記憶領域17aに格納されたカウント値をそのまま用いて生成された値も含む。
【0124】
さらに、分析値は、上述した単語の数に基づくカウント値のみにより算出されなければならないものではなく、総文字数やセンテンス数などに基づくカウント値と、単語の数に基づくカウント値との双方を用いて生成されるものであってもよいことはいうまでもない。
【0125】
本発明にかかる分析値の代表的なものを表3に示す。表3には、文章の内容を評価する際の判断項目となる判断基準能力を表す分析項目内容、分析項目内容に対応する分析値、および、その分析値の算出則を記している。
【0126】
表3に示したように、文章の評価、書き手の能力評価の指標として、例えば、文章整備力なら総頻度比率を評価指標の基礎データとして用いることができる。また、その算出則は総頻度数を計算文字数で除すというものである。なお、算出則に用いられる各要素の詳細は後述する。
【表3】

【0127】
ここで、表3の分析項目内容に記載した各能力に対応付けられた分析値は、発明者の長年の研究および分析から得られた経験に基づき、文章の内容を評価する際の各能力を数値評価するに適していると認定されたものである。付言すれば、表3に示したように、単語の品詞属性等に基づく分析区分毎に、当該単語に連関するカウント数を用いて普遍化した比率が分析値の主流を占めるが、センテンスに連関するカウント数を用いて普遍化した比率も分析値となる。分析値として得られた数値を絶対比較しても、その能力に関する他の文章との優劣を判断することが可能である。なお、表3に示した分析値および分析値算出則は一例であり、それ以外の観点から算出される分析値を用いた評価を行う場合でも、好適に本発明を用いることができることはいうまでもない。
【0128】
そして、本実施形態においては、表3に示したような分析値算出則記憶領域への分析値算出則の格納形態としては、プログラム関数もしくはモジュールの演算機能のかたちで記憶手段33に格納される構成を採用しており、分析値生成手段18が記憶手段33の所定の記憶領域に格納されたプログラム関数またはモジュールを利用して分析値を生成するという方式を採る。
【0129】
ただし、分析値算出則の格納は、上述したように、関数として繰り返し用いることができるようにサブルーチン的に格納する形態に限られるものではなく、シーケンス制御の手順として、重複して逐次規定され格納される形態であってもよい。
【0130】
ゆえに、分析値生成手段18は、詳細には、カウント値記憶領域17aと記憶手段33に設けられた不図示の分析値算出則記憶領域とを参照し、カウント値記憶領域17aから読み出したカウント値と、分析値算出則記憶領域から読み出した分析値算出則と、に基づき、分析値を生成する手段として機能する。
【0131】
続いて、分析値生成手段18により生成される分析値について詳述する。上述したように、分析値には、カウント値記憶領域17aに格納されたカウント値をそのまま用いて生成された分析値と、表3に示した分析値などのように、カウント値を加工して得られた二次的な数値を用いて生成された分析値がある。なお、表3においては分析値算出則の要素となっている計算文字数なども、カウント値に基づく分析値と位置づけてよい。
【0132】
まず、直接的にカウント値を用いて得られる分析値としては、表3に示された総頻度数、除数詞名詞数やセンテンス用言率などが挙げられる。具体的には、総頻度数は、分析対象となる複数の自然文に含まれる分析区分の内、抽出区分aおよびbに該当する分析区分毎の単語の数をカウントして得られた総和をいう。また、除数詞名詞数は、第2階層区分が普通名詞、固有名詞、代名詞に該当する単語の数の総和から数詞に該当する単語の数を差し引いた単語数をいう。そして、センテンス用言率は、用言数をセンテンス数で除した数値をいう。
【0133】
ここで、本実施形態において、総頻度数をすべての単語の数にせず、抽出区分a,bに限ったのは、経験則から、抽出区分cに該当する単語の数を除外して分析を行うことにより、専門家が経験的によい文章であると判断した場合の人的分析評価に沿った、数値分析評価が得られると判明したからである。
【0134】
一方、カウント値を加工して得られた二次的な数値を用いて生成される分析値としては、総頻度比率、体言率、などの比率または率で表される、計算文字数でカウント値等を除して求められる分析値や、中心キーワード比率、中心補完単語比率、中心1頻度単語比率、第1単語頻度比率、第2単語頻度比率、第3単語重複率のように、カウント値を用いて算出したパラメータを計算文字数で除した分析値などが挙げられる。
【0135】
ここでいう計算文字数は、例えば固有名詞の文字数の多寡(外国の地名などの有無)や、対象となる文章自体の多寡など、物理的または表面的な要素により分析値が大きく影響を受けることがないように導入したパラメータであり、本発明に特徴的な概念である。
【0136】
本実施形態における計算文字数の算出則は、(計算文字数)=(分析対象となる文章の総文字数)×(総頻度数)/(総頻度数でカウントされた分析区分に該当する単語の文字数の総和)である。ゆえに、比率を算出する際の分母となるため文字数と称したが、単語の数である総頻度数と、文字数から得られた無次元係数とから得られる頻度数とを用いて、分析値を生成しているものであり、これにより、文字量の影響を極力排除せんとするものである。
【0137】
より具体的には、冗長でわかりにくい文章と簡明で短い文章とを比較した際に、その文字量により左右されにくい分析値を得ることができるようにするため、単語の数に対して文字数に基づく補正をかけ、分析値の普遍化を実現する普遍化パラメータとして上述の計算文字数を選択したものである。
【0138】
また、中心キーワード比率、中心補完単語比率、中心1頻度単語比率などは、分解した単語のうちキーワードと認定される単語数が重要なパラメータとなる。
【0139】
キーワードとは、同頻度件数を同頻度のパターン数で除した同頻度比率が、0.7以下の単語とされる。ここで、同頻度件数とは、特定の出現回数につき、その出現回数が同じである単語の種類数をいう。例えば、出現回数が4回の単語が3種類あったら、頻度数が4の同頻度件数は3とされる。また、同頻度のパターン数とは、同頻度と認定された単語群の数をいい、具体的には、出現回数が同じである単語群がいくつできるかをカウントしたものである。例えば、出現回数が1回の単語群、出現回数が2回の単語群、出現回数が3回の単語群、出現回数が4回の単語群、出現回数が6回の単語群、出現回数が12回の単語群がある場合には、同頻度のパターン数は6となる。このとき、頻度数が4の単語群については、前述したように同頻度件数が3であるので、同頻度比率が0.5となり、キーワードとして認定されることになる。なお、参考までに、一の社説について分析した結果をあげると、頻度数12が同頻度件数1件、頻度数6が同頻度件数1件、頻度数4が同頻度件数3件、頻度数3が同頻度件数5件、頻度数2が同頻度件数18件、頻度数1が同頻度件数178件、となり、頻度数12、頻度数6、頻度数4までに該当する単語群がキーワードとして認定された。
【0140】
このキーワード認定のために、分析値生成手段18は、分解された単語もしくは単語群がキーワードに該当するか否かを、カウント値記憶領域17aに格納された各カウント値に基づき算出した同頻度比率が0.7以上か否かにより判断する機能も備える。このとき、その判断結果に基づき、キーワードに該当する単語数(以下、キーワード数と称する)をカウント値取得手段16がカウントし、さらに、そのカウント値に基づき、分析値生成手段18が分析値を生成する。
【0141】
具体的には、以上説明したキーワードに該当する単語数に基づき生成される分析値が、補完単語数であり、キーワード数から、前述した一頻度単語数を差し引いた数値をいう。
【0142】
さらに、分析値生成手段18は、キーワードに該当すると判断したキーワード群や補完単語に該当すると判断した補完単語群の中に、感想単語が存在するか否かを判断する機能を備える。具体的には、前述した分析用辞書記憶手段13に格納されている感想単語辞書記憶領域を参照して、その感想単語として記憶されている基準単位単語との一致をみることにより判断する。
【0143】
分析値生成手段18は、この感想単語の認定に基づき、中心キーワード数として、キーワード数から感想単語数を差し引いた数値を分析値として生成する。また、中心補完単語数として、補完単語数から感想単語を差し引いた数値を分析値として生成する。さらに、中心一頻度単語数として、一頻度単語に該当する単語から感想単語を差し引いた数値を分析値として生成する。その上で、分析値生成手段18は、これら、中心キーワード数、中心補完単語数、中心一頻度単語数をそれぞれ計算文字数で除して、中心キーワード比率、中心補完単語比率、中心1頻度単語比率を生成し、分析値として分析値記憶領域17bに格納する。
【0144】
ただし、本実施形態におけるキーワードの認定方法として、上述した同頻度件数を同頻度のパターン数で除したものを同頻度比率としたが、キーワードの概念は、前述したように、ある一定回数以上の出現頻度で使用されている単語というものであり、この区別を行うための指標の一例として上述の同頻度比率を用いた構成を採用したものである。したがって、キーワードを認定するための基準となる頻度を定められるものであれば、これに限られるものではなく、キーワードを認定するための出現頻度のしきい値として、例えば、同頻度件数を総同頻度件数で除した値を同頻度比率として用いてもよい。
【0145】
他の分析値としては、第1単語頻度比率、第2単語頻度比率、第3単語重複率が挙げられる。ここで、第1単語、第2単語、第3単語、第4単語は、カウント値取得手段16が取得したカウント値に基づき、頻度数(出現回数)の多い単語を上位から4つ抽出して特定する。ゆえに、それぞれの単語の頻度数は、第1単語数、第2単語数、第3単語数、第4単語数、として取り扱われ、各々を計算文字数で除した値が第1単語頻度比率、第2単語頻度比率、第3単語頻度比率、第4単語頻度比率という分析値になる。また、第3単語重複率とは、第1単語、第2単語、第3単語とされた単語について、その種類数の和をとり、3で除した値をいう。
【0146】
そして、各分析値は、表3に示したように分析対象の文章の内容を表す数値となる。具体的には、文章整備力を表す数値として総頻度比率が、語彙力を表す数値として除数詞名詞率が、テーマ設定力を表す数値として中心キーワード比率が、 テーマ説明力を表す数値として中心補完単語比率が、テーマ補足力を表す数値として中心1頻度単語比率が、単語構成力を表す数値として出現単語比率が、センテンス構成力を表す数値としてセンテンス比率が、センテンス主張力を表す数値としてセンテンス頻度平均値が、主張力を表す数値として第1単語頻度比率が、 主張補足力を表す数値として第2単語頻度比率が、主張構成力を表す数値として第3単語重複率が、論理展開力を表す数値として同頻度数比率が、論理強制力を表す数値として単語回帰値が、行動表現力を表す数値としてセンテンス用言率が採用される。
【0147】
ここで、センテンス頻度平均値とは、各センテンスの区分bに該当する単語について、その単語重量値の総和をとり、そのセンテンス毎に得られた単語重量値の総和をさらに合計した値を、センテンス数で除した値である。ここでいう単語重量値は、単語の頻度比率であり、出現回数(頻度数)を計算文字数で除したものである。
【0148】
また、回帰値とはデータ分布を一つの直線に表したときの傾きを示す値であるが、単語回帰値の本来の意義は、すべての単語の頻度比率を分布図に表したときの直線の傾きをいう。ただし、本実施形態では、近似的に傾きを取得する構成を採用している。具体的には、縦軸のパラメータとして理想値を用い、横軸のパラメータとして分析対象文章の分析値をとり、理想値と合致する場合には45度の傾きをなす分布直線を想定する。そして、単語の頻度比率としては、第2単語頻度比率を第1単語頻度比率で除した値、第3単語頻度比率を第1単語頻度比率で除した値、第4単語頻度比率を第1単語頻度比率で除した値の総計3つの値を用いて、これらのパラメータを用いて傾きを求める。なお、第1単語頻度比率で除したのは、回帰値を得るための傾きを単調増加する直線に近似できるようにするためである。
【0149】
詳細には、縦軸には、平均値±標準偏差の範囲に入ったときの値から算出された再平均値を用いて算出した理想値をとるとともに、横軸には、各分析対象文章の現実値をとり、これら理想値と現実値の3対のデータから最小自乗法により傾きを算出する。ここで、最小自乗法による算出には、公知のプログラム関数などを用いる。また、単語回帰値の傾きが表す傾向としては、傾きが45度よりもなだらかな場合には、冗長であいまいな表現となっており、45度より急な場合には命令張の断定的な表現となっているということが、経験的に得られている。
【0150】
基準値生成手段19は、分析値生成手段18が生成した分析値に基づき、分析値の基準となる基準値を生成する手段であり、言語分析を行う際の評価基準となる数値評価基準値を設定する機能を果たす。また、基準値生成手段19は、生成した基準値を、基準値記憶手段として機能するパラメータ記憶手段17の基準値記憶領域に格納する手段としても機能する。
【0151】
基準値生成手段19が生成する基準値は、複数の文章毎に生成された複数の分析値を用いて標準偏差を算出し、算出した標準偏差を用いて再度分析値をフィルタリングして抽出した分析値集団の平均値である。なお、前述した分析値生成手段18が、複数種類の分析値を生成する場合には、基準値生成手段19は、その種類毎に生成された分析値を用いて基準値を生成する。
【0152】
ここで、基準値生成手段19が基準値を生成する際のフィルタリングとは、分析対象となる文章毎に生成された各分析値を用いて、複数の分析値について平均値と標準偏差を算出し、その上で、(平均値)±(標準偏差)の範囲に入っていない分析値を除外し、再度、平均値を求める(以下、再平均値と称する)。この再平均値を基準値、すなわち理想値として位置づけ、文章の分析を行う際の数値基準として用いるのが本実施形態の特徴である。
【0153】
ただし、本発明においては、分析対象が文章という個人差が大きくなりやすいものを分析対象としているため、標準偏差を用いてばらつきの度合いが大きい標本を削除することにより、外乱的な要素を排除した評価基準を得る構成を採用することがより望ましいといえる。したがって、上述した再平均値を用いる構成としたものであり、多少の外乱的な要素を含む基準としても良い場合には、直接的に複数の分析値から得られる平均値を、上述したような数値操作を行うことなく、基準値としてもよい。
【0154】
なお、上述したような基準値生成にあたっての基準値算出則は、記憶手段33の所定の領域に設けられた不図示の基準値算出則記憶領域に、プログラム関数またはモジュールなどのかたちで格納されるものである。
【0155】
ゆえに、基準値生成手段19は、詳細には、分析値記憶領域17bと記憶手段33に設けられた不図示の基準値算出則記憶領域とを参照し、分析値記憶領域17bから読み出した分析値と、基準値算出則記憶領域から読み出した基準値算出則と、に基づき、基準値を生成する手段として機能する。
【0156】
乖離値生成手段20は、基準値記憶手段であるパラメータ記憶手段17から読み出した基準値と分析値生成手段18が生成した分析値とに基づき、読み出した基準値に対する分析値の乖離の程度を示す乖離値を生成する手段である。
【0157】
ここで、乖離値を算出するための算出則を次式(1)に示す。この算出則は、プログラム関数やモジュールなどのかたちで、前述した分析値算出則や基準値算出則と同様に、記憶手段33の所定の領域に設けられた不図示の乖離値算出則記憶領域に格納される。
【0158】
式(1)において、Aを補正係数、Bを段階係数、Cを分散係数と称する。本実施形態にかかる乖離値生成手段20は、乖離値自体を生成する前に、基準値記憶領域17cに格納された基準値を参照し、乖離値を算出するために用いるこれらの係数A,B,Cを生成し、記憶手段33の所定の記憶領域に格納する。
【数1】

【0159】
以下、各係数の意義とともに、乖離値生成手段20の係数および乖離値の算出機能について説明する。また、図5に、前述した基準値とともに、乖離値生成手段20が、各分析値に基づく乖離値の算出に際して用いる係数値を格納したデータベースのデータ構造の一例を示す。ここで、本実施形態で用いる、図5に示したデータベースは、基準値記憶領域17cであるとともに、上述した乖離値算出用の係数を記憶する所定の係数記憶領域として機能するものである。
【0160】
まず、各係数について説明する。補正係数Aは、分析値毎に桁数異なるため、分析値を指標として用いる際に値を揃えて普遍化しやすいように、分析値を修正する係数である。式(1)において、原則として分析値に補正係数Aを乗じた値が、1付近を中央値とするように補正係数Aを定める。
【0161】
本実施形態においては、この補正係数Aを算出する手順として、次のような手順を採用する。処理手段36は、基準値記憶領域17cから基準値を読み出し、この基準値で1を除して、その算出結果の数値を補正係数Aとして、所定の記憶領域に格納する。この補正係数Aの算出処理は、基準値に基づく乖離値の生成を行う処理の根幹をなす。例えば、図5において、総頻度比率の基準値である再平均値で1を除した商が、総頻度比率の補正係数Aとなる。具体的には、0.7445である場合、この0.7445で1を除した商の1.3431が補正係数Aとなる。ゆえに、式(1)において、この補正係数Aと分析値の積から1を引くことにより、0を基準とした乖離の程度が数値として得られることになる。
【0162】
そして、この乖離の程度を分析結果として見たときに、認識しやすいように修正する数値が段階係数Bである。すなわち、乖離値が、満点が最適という評価概念ではなく、理想値に近いと最適という評価概念に基づくものであるという性質に鑑み、数値評価をする際の感覚的な段階評価を、評価数値の整数部分の数で把握しやすいように、算出結果を修正する係数として段階係数Bを用いる。本実施形態では、段階係数Bを5に設定している。
【0163】
具体的には、本発明で用いる乖離値は、基準となる値に対して、どの程度乖離しているかという程度を表すものである。したがって、例えば0を基準とした場合を考えると、+5であっても、−5であっても、乖離の程度は同じとなる。この場合では、0で表される「ほどほど」のところが最も良いとしたときの、その最善値からの離れ具合を示す段階を5としたものといえ、評価の内容によっては、3段階、10段階などのほうが感覚的に分かりやすい、または、評価結果を利用しやすい場合があるので、固定値にせず、任意に採り得る係数としている。このため、段階係数Bは、処理手段36による算出結果で得るのではなく、事前に所定の記憶領域に格納される構成を採用する。
【0164】
一方、分散係数Cは、段階係数Bと異なり、補正係数Aと同様、処理手段36が算出する。ここで、単に補正係数Aをかけて分析値の桁数を揃えただけでは、数値の変化の幅が普遍化されていないので、相対比較に用いるには不適である。このために用いられるのが、式(1)における分散係数Cである。
【0165】
本実施形態では、分散係数Cを、処理手段36が、上述した再平均値を算出した際のデータについて、各分析値とその再平均値を用いて算出した標準偏差とする。そして、処理手段36が、乖離値を生成する際に、この分散係数Cで除することにより、算出結果が標準偏差に対する比率という側面を有することになるので、乖離値の最大値と最小値の幅を相対比較の可能なスケールに修正することができる。
【0166】
このような乖離値を用いて評価する手法を採用したのは、理解しやすい文章の場合には、分析値が特定の一の値に集束するという経験的に得られた傾向に基づくものである。
【0167】
ただし、乖離値の段階係数Bによる乖離値の変動幅の設定は、求められる評価のばらつきに応じた段階評価を踏まえて設定されるものであり、事前に設定されるものであってもよいし、分析途中で、言語分析システム1が入力手段31などを介して何段階評価を行うかを受け付ける構成としてもよい。
【0168】
ここで、乖離値生成手段20は、生成した乖離値を、パラメータ記憶手段17に設けられた乖離値記憶領域17dに格納する機能も備える。ゆえに、乖離値生成手段20は、詳細には、分析値記憶領域17bと、記憶手段33に設けられた不図示の乖離値算出則記憶領域および係数記憶領域とを参照し、分析値記憶領域17bから読み出した分析値と、乖離値算出則記憶領域から読み出した乖離値算出則および係数記憶領域から読み出した係数と、に基づき、乖離値を生成する手段として機能する。そして、この係数に基づき乖離値を生成することにより、間接的にではあるが基準値に基づき乖離値を生成する手段として機能する。
【0169】
評価値生成手段21は、乖離値生成手段が生成した複数の乖離値に基づき評価値を生成する手段である。評価値の例としては、表現力、説得力、理解力、把握力、分析力、問題発見力、洞察力、思考力、創造力、応用力、対応力、行動力、などが挙げられるが、それぞれ異なる観点からなる複数の乖離値を用いて算出される。
【0170】
処理手段36が実現する評価値の算出方式としては、複数の乖離値の平均値を用いる方式や、乖離値の基準値(理想値)と比較する乖離値の差の絶対値をとり、この絶対値に基づいて理想値にどれくらい及ばないかを、理想値を満点とする減点方式で表す方式など、任意の算出方式を採り得る。この算出則も、記憶手段33の所定の領域に設けられた評価値算出則記憶領域に格納される。
【0171】
そして、評価値生成手段21は、他の手段の生成手順と同じく、詳細には、乖離値記憶領域17dと記憶手段33に設けられた不図示の評価値算出則記憶領域とを参照し、乖離値記憶領域17dから読み出した乖離値と、評価値算出則記憶領域から読み出した評価値算出則と、に基づき、評価値を生成する手段として機能する。
【0172】
具体的には、本実施形態において、表現力の評価は、語彙力、テーマ補足力、単語構成力、センテンス構成力、主張力、という観点から複合的に判断される。そして、除数詞名詞率、中心1頻度単語比率、出現単語比率、センテンス比率、第1単語頻度比率、の5つの乖離値の平均をとって数値化する。
【0173】
説得力の評価は、語彙力、テーマ設定力、テーマ補足力、主張力、論理強制力、という観点から複合的に判断される。除数詞名詞率、中心キーワード比率、中心1頻度単語比率、第1単語頻度比率、単語回帰値、の5つの乖離値の平均をとって数値化する。
【0174】
理解力の評価は、体言率、テーマ説明力、単語構成力、センテンス構成力、主張補足力という観点から複合的に判断される。体言率、中心補完単語比率、出現単語比率、センテンス比率、第2単語頻度比率、の5つの乖離値の平均をとって数値化する。
【0175】
把握力の評価は、用言率、テーマ説明力、単語構成力、主張構成力、論理展開力という観点から複合的に判断される。用言比率、中心補完単語比率、出現単語比率、第3単語重複率、同頻度数比率、の5つの乖離値の平均をとって数値化する。
【0176】
分析力の評価は、体言率、テーマ設定力、テーマ補足力、行動表現力、主張構成力という観点から複合的に判断される。体言率、中心キーワード比率、中心1頻度単語比率、センテンス用言率、第3単語重複率、の5つの乖離値の平均をとって数値化する。
【0177】
問題発見力の評価は、体言率、テーマ補足力、単語構成力、行動表現力、主張構成力という観点から複合的に判断される。体言率、中心1頻度単語比率、出現単語比率、センテンス用言率、第3単語重複率、の5つの乖離値の平均をとって数値化する。
【0178】
洞察力の評価は、語彙力、テーマ説明力、センテンス主張力、主張力、主張補足力という観点から複合的に判断される。除数詞名詞比率、中心補完単語比率、センテンス頻度平均値、第1単語頻度比率、第2単語頻度比率、の5つの乖離値の平均をとって数値化する。
【0179】
思考力の評価は、語彙力、テーマ設定力、単語構成力、主張力、論理展開力という観点から複合的に判断される。除数詞名詞率、中心キーワード比率、出現単語比率、第1単語頻度比率、同頻度数比率、の5つの乖離値の平均をとって数値化する。
【0180】
創造力の評価は、語彙力、用言率、テーマ設定力、主張力、論理強制力、という観点から複合的に判断される。除数詞名詞率、用言比率、中心キーワード比率、第1単語頻度比率、単語回帰値、の5つの乖離値の平均をとって数値化する。
【0181】
応用力の評価は、語彙力、テーマ補足力、単語構成力、主張構成力、論理展開力という観点から複合的に判断される。除数詞名詞率、中心1頻度単語比率、出現単語比率、第3単語重複率、同頻度数比率、の5つの乖離値の平均をとって数値化する。
【0182】
対応力の評価は、テーマ設定力、テーマ説明力、テーマ補足力、行動表現力、主張力という観点から複合的に判断される。中心キーワード比率、中心補完単語比率、中心1頻度単語比率、センテンス用言率、第1単語頻度比率、の5つの乖離値の平均をとって数値化する。
【0183】
行動力の評価は、用言率、センテンス主張力、主張力、論理展開力、論理強制力という観点から複合的に判断される。用言比率、センテンス頻度平均値、第1単語頻度比率、同頻度数比率、単語回帰値、の5つの乖離値の平均をとって数値化する。
【0184】
出力手段22は、乖離値生成手段20が生成した乖離値もしくは評価値生成手段21が生成した評価値をAGP(Accelerated Graphics Port)やパラレルポート、あるいはUSBなどの情報出力インターフェースを介して外部装置へ出力する手段である。また、出力に際し、出力手段22は、出力先に応じた形態の出力情報の生成を必要に応じて行う。例えば、表示手段32に対してパラメータ記憶手段17に格納された情報を出力する場合には、表示手段32においてどのように表示されるかを規定する表示制御情報に乖離値または評価値を組み込んで出力する。印刷手段35に対してパラメータ記憶手段17に格納された情報を出力する場合には、印刷手段35がどのように情報を印刷するかを規定する印刷制御情報に乖離値または評価値を組み込んで出力する。
【0185】
加えて、出力手段22は、乖離値の段階で分析結果の出力を行う場合には、乖離値記憶領域17dから必要な観点の乖離値を読み出し、外部装置である表示手段32や印刷手段35に出力する。一方、評価値による分析結果の出力を行う場合には、出力手段22は、評価値記憶領域17eから必要な観点の評価値を読み出し、外部装置である表示手段32や印刷手段35に出力する。
【0186】
ここで、参考として、図6に、出力手段22による乖離値の出力に基づき、表示手段32の表示領域に形成される画面または印刷手段35の出力用紙に形成される出力結果の一例を概略的に示す。図6は、先に説明した社説を分析した結果の一例を示す概略図である。この社説の分析処理では、基準値を求めるとともに、基準値を求める際に用いた各社説についても相対比較するという、二つの処理を言語分析システム1が実現している。
【0187】
本実施形態では、図6に示したように、出力手段22は、乖離値の基準値を0から5に修正した上で、乖離値をグラフ形式で表示させるグラフ表示情報を出力している。これは、各乖離値により評価された表3に示した分析項目内容を視覚的に把握しやすいように、基準値を操作してすべての折れ線グラフが0点よりも上にくるようにしたものである。なお、出力手段22は、表示手段32が出力先である場合には、グラフ表示情報を含む表示制御情報を生成して出力し、印刷手段35が出力先である場合には、グラフ表示情報を含む印刷制御情報を生成して出力する。
【0188】
図6においては、理解容易のため、再平均値に基づく各乖離値の基準値に5を足した値を、各分析項目内容の理想値として、太い実線で強調している。この実線から乖離している程度が少ない文章ほど、優秀な文章であると評価されることになる。
【0189】
なお、要求される出力形態に応じて、そのまま基準値を修正せずに乖離値を出力してもよいし、さらには、図6に示したグラフ形式ではなく表形式となるような出力情報を生成して出力してもよい。
【0190】
また、図7に、出力手段22による評価値の出力に基づき、表示手段32の表示領域に形成される画面または印刷手段35の出力用紙に形成される出力結果の一例を概略的に示す。本実施形態では、図7に示したように、出力手段22は、乖離値に基づく各能力の値として基準値を0から5に修正した値とともに、各値の平均値である評価値を含む表形成情報を出力している。なお、出力手段22は、表示手段32が出力先である場合には、表形成情報を含む表示制御情報を生成して出力し、印刷手段35が出力先である場合には、表形成情報を含む印刷制御情報を生成して出力する。
【0191】
以上説明した各手段が有機的に結合し、機能することにより、自然文により構成された文章の内容という無形のものを対象として、異なる観点を設定した複数のパラメータによる多面的な分析を行うことが可能となり、数値による相対分析が可能になる。
【0192】
特に、文章の内容の優劣を支配する単語の属性に応じた分析区分を設定し、この分析区分に該当する単語の数などに基づく比率を分析値に反映させることにより、文章の評価において重要な使用単語のバランスを数値として評価できる。ひいては、この分析区分の設定を変えることで、目的に応じた言語分析環境を柔軟に提供できる。
【0193】
詳細には、自然文を受け付ける自然文受付手段11と、受け付けた自然文を単語に分解する基準となる基準単位単語を規定した分析用辞書記憶手段13と、分析用辞書記憶手段13を参照して、基準単位単語に相当する複数の単語に受け付けた自然文を分解する自然文分解手段14と、自然文分解手段14が受け付けた自然文を複数の単語に分解した結果を記憶する分解結果記憶手段15と、分解結果記憶手段15が記憶した結果を参照し、少なくとも分解した単語の数をカウント値として取得するカウント値取得手段16と、カウント値取得手段16が取得したカウント値に基づき複数の分析値を生成する分析値生成手段18と、分析値生成手段18が生成した分析値に基づき、分析値の基準となる基準値を生成する基準値生成手段19と、基準値生成手段19が生成した基準値を記憶する基準値記憶手段として機能するパラメータ記憶手段17と、が有機的に結合し、機能することにより、言語分析システム1は、言語分析における数値で表される基準値を取得でき、客観的な文章内容の評価を行うことができる評価基準を確立できるシステムとして機能する。
【0194】
一方、自然文を受け付ける自然文受付手段11と、受け付けた自然文を単語に分解する基準となる基準単位単語を規定した分析用辞書記憶手段13と、分析用辞書記憶手段13を参照して、基準単位単語に相当する複数の単語に受け付けた自然文を分解する自然文分解手段14と、自然文分解手段14が受け付けた自然文を複数の単語に分解した結果を記憶する分解結果記憶手段15と、分解結果記憶手段15が記憶した結果を参照し、少なくとも分解した単語の数をカウント値として取得するカウント値取得手段16と、カウント値取得手段16が取得したカウント値に基づき複数の分析値を生成する分析値生成手段18と、分析値生成手段18が生成した分析値の基準となる基準値を記憶する基準値生成手段19と、基準値記憶手段19から読み出した基準値と、分析値生成手段18が生成した分析値とに基づき、基準値に対する分析値の乖離の程度を示す乖離値を生成する乖離値生成手段20と、乖離値生成手段20が生成した複数の乖離値に基づき評価値を生成する評価値生成手段21と、乖離値生成手段20が生成した乖離値または評価値生成手段21が生成した評価値を出力する出力手段22と、が有機的に結合し、機能することにより、数値化された乖離値、評価値などのパラメータを用いて、異なる文章を客観的に評価することができるシステムとして機能する。
【0195】
[言語分析処理の手順]
【0196】
次に、言語分析システム1の言語分析処理の手順につき、図8および図9に基づき説明する。図8は、本実施形態にかかる言語分析処理のうち、評価基準を定めるための基準設定処理を示すフローチャートである。図9は、本実施形態にかかる言語分析処理のうち、受け付けた分析対象を評価する内容評価処理を示すフローチャートである。
【0197】
[基準設定処理]
【0198】
まず、基準設定処理について図8に基づき説明する。ここで、本実施形態にかかる基準設定処理を行う言語分析システムは、基準設定処理を行う際の前提として、上述したように、情報の受付手段と、情報の記憶手段33と、これら各手段の動作を制御する処理手段36と、を備え、記憶手段33が、少なくとも、自然文を単語に分解する基準となる基準単位単語を規定した分析用辞書記憶手段13と、自然文を複数の単語に分解した結果を記憶する分解結果記憶手段15と、から構成される。なお、ここでいう受付手段は、入力手段31や通信手段34などが接続されるインターフェース等を想定している。
【0199】
そして、この言語分析システム1における言語分析処理は、記憶手段33の所定の領域に格納された言語分析プログラムにしたがって行われる。その言語分析プログラムは、処理手段36に、受付手段を介して自然文を受け付けるステップ(S1)と、分析用辞書記憶手段13を参照して、基準単位単語に相当する複数の単語に自然文を分解するとともに、自然文を複数の単語に分解した結果を分解結果記憶手段15に記憶するステップ(S2)と、分解結果記憶手段15が記憶した結果を参照し、少なくとも分解した単語の数をカウント値として取得するステップ(S3)と、カウント値に基づき分析値を生成するステップ(S4)と、分析値に基づき、分析値の基準となる基準値を生成するステップ(S5)と、基準値を記憶手段33の所定の領域に記憶するステップ(S6)と、を実行させる。
【0200】
より詳細には、図8に示したように、まず、処理手段36に自然文を受け付けるステップ(S1)を実行させる。このとき、入力手段31から文章が直接的に入力される場合には、入力手段31が接続されたPS/2(Personal System / 2)ポートやUSB(Universal Serial Bus)などが受付手段となり、処理手段36は、これらを介して自然文を受け付け、受け付けた自然文を自然文記憶手段12の所定の領域に格納する。
【0201】
また、外部からの通信手段34から文章を電子情報として受け付ける場合には、通信手段34が接続されたRS232C(Recommended Standard 232 version C)ポートやNIC(Network Interface Card)、USBなどを受付手段となり、処理手段36は、これらを介して自然文を受け付け、受け付けた自然文を自然文記憶手段12の所定の領域に格納する。
【0202】
加えて、可搬な記憶媒体もしくは内部の記憶手段33に格納された自然文情報を用いる場合には、PCIバス(Peripheral Components Interconnect bus)などが受付手段となり、処理手段36は、自然文情報を分析対象として受け付けるとともに、受け付けた自然文を自然文記憶手段12の所定の領域に格納する。
【0203】
そして、上述したように、受付手段は自然文の受付の形態により異なるが、処理手段36に受付手段を介して自然文を受け付け、受け付けた自然文を自然文記憶手段12の所定の領域に格納することを実行させることにより、前述した自然文受付手段11が実現され、機能する。
【0204】
なお、本実施形態では、自然文を分解する次のステップ(S2)に進む前に、処理手段36に、自然文記憶手段12に格納された文章の全体の文字数をカウントさせるステップ、分析用辞書記憶手段13の句点識別辞書記憶領域に格納されている句点を一致判断基準とした文章のセンテンス単位への分解ステップ、およびセンテンス数のカウントステップなど、単語に基づくカウント値以外の分析値を生成するのに必要なカウント値の取得ステップ等を実行させる。
【0205】
その上で、さらに、分析対象となる自然文について、処理手段36に、分析用辞書記憶手段13の表記辞書記憶領域と削除記号辞書記憶領域とを参照し、記号変換や記号削除などを施して、単語への分解に適した自然文に加工するステップを実行させた後、単語分解ステップ(S2)へと移行する。
【0206】
これらの前処理に続いて、図8に示したように、処理手段36に、分析用辞書記憶手段13の体言辞書記憶領域、用言辞書記憶領域、接続詞辞書記憶領域、助詞辞書記憶領域、助動詞辞書記憶領域、および活用辞書記憶領域などを参照して、基準単位単語に相当する複数の単語に自然文を分解するとともに、自然文を複数の単語に分解した結果を分解結果記憶手段15に記憶するステップ(S2)を実行させる。
【0207】
具体的には、処理手段36は、1センテンス単位で自然文の頭から単語に分解し、分解された順番に記憶手段33の所定の領域に一時的に格納する。また、処理手段36は、分解に際し活用辞書記憶領域を参照するが、この参照により、用言を終止形に置き換えるなどの処理を行う。
【0208】
ここで、本実施形態では、前述したように、分析用辞書記憶手段13が、基準単位単語の属性に応じた分析区分を基準単位単語に関連付けて記憶していることが前提となる。そして、詳細には、処理手段36に、複数の単語に自然文を分解する際に、単語に分析区分を関連付けるように、分解対象となる単語と基準単位単語の一致を判断した上で、基準単位単語に付与されている分析区分をそのまま分解した単語に付与する処理を実行させ、その単語に付与した分析区分を分解した単語とともに分解結果記憶手段15に記憶することにより、関連付けを分解結果に含むように分解結果記憶手段15に記憶するステップ(S2)を実行させる。なお、分析区分の付与は、表1および表2に示した分析区分コードを付与する方式を採用する。
【0209】
このように、処理手段36に、分析用辞書を参照しながら自然文を単語に分解し、分解した単語を分解結果記憶手段15の所定の領域に格納することを実行させることにより、前述した自然文分解手段14が実現され、機能する。
【0210】
そして、上述した分解ステップ(S2)の後、図8に示したように、処理手段36に、分解結果記憶手段15が記憶した結果を参照し、少なくとも分解した単語の数をカウント値として取得するとともに、取得したカウント値をカウント値記憶領域17aの所定の領域に格納させるステップ(S3)と、カウント値に基づき複数の分析値を生成するステップ(S4)と、を実行させるものであるが、これらのステップは、生成対象となる分析値の生成過程において、必要に応じて繰り返されることになる。以下、具体的に各ステップについて説明する。
【0211】
まず、カウント値を取得するステップ(S3)として、処理手段36は、分解結果記憶手段15に格納されている分解結果を参照して、格納されている分解された単語の数をカウントし、カウントした結果をカウント値として取得する。そして、処理手段36は、取得したカウント値をカウント値記憶領域17aの所定の領域に格納する。この際に取得、格納されるカウント値としては、前述した総頻度数や体言数、同頻度数などが挙げられる。
【0212】
このように、処理手段36に所定の領域に格納されている情報に基づき、所定の情報単位をカウントさせ、カウント結果をカウント値として取得、格納することを実行させることにより、前述したカウント値取得手段16が実現され、機能する。
【0213】
続いて、カウント値に基づき複数の分析値を生成するステップ(S4)として、処理手段36は、カウント値記憶領域17aに格納されているカウント値を読み出すとともに、前述した表3に示した分析値算出則を記憶手段33に設けられた所定の分析値算出則記憶領域から読み出し、読み出した分析値算出則に基づきカウント値を用いて分析値を生成する。分析値の生成に際しては、図4に示したように、複数の分析対象について複数種類の分析値を算出することになるので、結果として、処理手段36は、カウント値に基づき複数の分析値を複数種類生成させることになる。
【0214】
より詳細には、処理手段36は、分解結果記憶手段15に記憶された分解された単語と分析区分との関連付けを含む結果を参照し、分析区分との関連付けに応じた分析区分に属する単語をカウントしたカウント値に基づく複数の分析値を生成する。この際に生成される分析値として、センテンス用言率が挙げられる。
【0215】
また、必要に応じて、処理手段36が生成したカウント値から生成された二次的な数値もしくは他の分析値を用いて、処理手段36は、前述した分析値算出則記憶領域などから読み出した分析値算出則にしたがって、分析値を生成する。この際に生成される分析値としては、体言率や用言率などが挙げられる。そして、処理手段36は、生成した分析値を分析値記憶領域17bの所定の領域に格納する。
【0216】
ここで、分析値生成ステップ(S4)からカウント値取得ステップ(S3)へと戻る態様として、キーワード認定処理が挙げられる。具体的には、処理手段36は、キーワード比率を生成するために、カウント値として得た同頻度数に基づき、単語の同頻度件数などを取得し、同頻度比率を取得する。このとき、同頻度比率が0.7以下の単語がキーワードと認定されるが、このときの認定された単語数のカウントのために、再度、カウント値取得ステップ(S3)へと戻る。また、同じく、キーワードと認定された単語群の中に含まれる感想単語の数を取得するためにも、処理手段36は、カウント処理を行う。
【0217】
この後、キーワード数などのカウント値に基づき、処理手段36は、中心キーワード数などの分析値を生成する。
【0218】
ただし、厳密には、記憶手段33の所定の領域に格納された、キーワードに認定された単語に関連するデータを参照するため、前述した自然文分解手段14が分解した結果に基づくカウントを行うステップとはカウント対象が異なるカウント値取得ステップと言える。
【0219】
このように、処理手段36にカウント値に基づく分析値の生成を実行させることにより、前述した分析値生成手段18が実現され、機能することになる。
【0220】
次に、当該分析値に基づき、分析値の基準となる基準値を生成するステップ(S5)として、処理手段36は、分析値記憶領域17bから分析値の種類毎に複数の分析値を読み出すとともに、記憶手段33に設けられた所定の基準値算出則記憶領域に格納された算出則に基づき、読み出した分析値を用いて生成する。
【0221】
具体的には、基準値算出則記憶領域から所定の算出則を読み出し、処理手段36に、複数の文章毎に生成された複数の分析値を用いて標準偏差を算出し、算出した標準偏差を用いて再度分析値をフィルタリングして抽出した分析値集団を平均し、分析値の基準となる基準値を生成するステップを実行させ(S5)、引き続き、処理手段36に、生成した基準値を記憶手段33のパラメータ記憶手段17に設けられた所定の記憶領域に記憶するステップを実行させる。
【0222】
このとき、処理手段36は、前述したように、(平均値)±(標準偏差)の範囲に該当しない分析値については除外する処理をおこない、分析値の再平均値に基づき標準偏差を再度求める処理を行う。
【0223】
上述したように、処理手段36に、基準値算出則記憶領域から読み出した平均を求める算出則に基づき、分析値を用いて基準値を生成させるとともに、基準値記憶領域17cに生成した基準値を格納させることを実行させることにより、前述した基準値生成手段19が実現され、機能することになる。そして、その機能が発揮されることにより、図5に示したように、複数種類の分析値を用いて、それぞれの分析項目について基準値を得るので、文章の内容を客観的に評価できる単語群のバランスという着眼点から得られる分析値を構成要素とする基準値を得ることができ、さらには、多面的な観点から評価できる要素を含んだ複数の基準値を設定できるので、より日本語の表現文化を反映した文章内容の評価を実現できる。
【0224】
[内容評価処理]
【0225】
続いて、内容評価処理について図9に基づき説明する。ここで、本実施形態にかかる内容評価処理を行う言語分析システムは、内容評価処理を行う際の前提として、上述したように、情報の受付手段と、情報の記憶手段33と、これら各手段の動作を制御する処理手段36と、を備え、記憶手段33が、少なくとも、自然文を単語に分解する基準となる基準単位単語を規定した分析用辞書記憶手段13と、自然文を複数の単語に分解した結果を記憶する分解結果記憶手段15と、結果から得られる分析値の基準となる基準値を記憶する基準値記憶手段として機能するパラメータ記憶手段17と、から構成される。なお、ここでいう受付手段は、入力手段31や通信手段34などが接続されるインターフェース等を想定している。
【0226】
そして、この言語分析システム1における内容評価言語分析処理は、記憶手段33の所定の領域に格納された言語分析プログラムにしたがって行われる。その言語分析プログラムは、処理手段36に、受付手段を介して自然文を受け付けるステップ(S11)と、分析用辞書記憶手段を参照して、基準単位単語に相当する複数の単語に自然文を分解するとともに、自然文を複数の単語に分解した結果を分解結果記憶手段に記憶するステップ(S12)と、分解結果記憶手段が記憶した結果を参照し、少なくとも分解した単語の数をカウント値として取得するステップ(S13)と、カウント値に基づき複数の分析値を生成するステップ(S14)と、基準値記憶手段から読み出した基準値と分析値とに基づき、基準値に対する前記分析値の乖離の程度を示す乖離値を生成するステップ(S15)と、乖離値を出力するステップ(S19)と、を実行させる。
【0227】
より詳細には、図9に示したように、まず、処理手段36に自然文を受け付けるステップ(S11)を実行させる。このときの受け付け処理の詳細は、図8に示した自然文を受け付けるステップ(S1)と同様であり、処理手段36は、受け付け態様に応じた受付手段を介して自然文を受け付け、受け付けた自然文を自然文記憶手段12の所定の領域に格納する。そして、この処理を実行させることにより、前述した自然文受付手段11が実現され、機能する。
【0228】
なお、内容評価処理においても、自然文を分解する次のステップ(S12)に進む前に、処理手段36に、自然文記憶手段12に格納された文章の全体の文字数をカウントさせるステップ、分析用辞書記憶手段13の句点識別辞書記憶領域に格納されている句点を一致判断基準とした文章のセンテンス単位への分解ステップ、およびセンテンス数のカウントステップなどを実行させる。
【0229】
その上で、さらに、分析対象となる自然文について、処理手段36に、分析用辞書記憶手段13の表記辞書記憶領域と削除記号辞書記憶領域とを参照し、記号変換や記号削除などを施して、単語への分解に適した自然文に加工するステップを実行させた後、単語分解ステップ(S12)へと移行するのも、基準設定処理と同様である。
【0230】
これらの前処理に続いて、図9に示したように、処理手段36に、分析用辞書記憶手段13の体言辞書記憶領域、用言辞書記憶領域、接続詞辞書記憶領域、助詞辞書記憶領域、助動詞辞書記憶領域、および活用辞書記憶領域などを参照して、基準単位単語に相当する複数の単語に自然文を分解するとともに、自然文を複数の単語に分解した結果を分解結果記憶手段15に記憶するステップ(S12)を実行させる。
【0231】
具体的には、図8に示した自然文を分解するステップ(S2)と同様に、処理手段36は、1センテンス単位で自然文の頭から単語に分解し、分解された順番に記憶手段33の所定の領域に一時的に格納する。また、処理手段36は、分解に際し活用辞書記憶領域を参照するが、この参照により、用言を終止形に置き換えるなどの処理を行う。
【0232】
ここで、内容評価処理においても、基準単位単語の属性に応じた分析区分を基準単位単語に関連付けて記憶している分析用辞書記憶手段13を採用する。そして、基準設定処理と同様に、処理手段36に、複数の単語に自然文を分解する際に、単語に分析区分を関連付けるように、分解対象となる単語と基準単位単語の一致を判断した上で、基準単位単語に付与されている分析区分をそのまま分解した単語に付与する処理を実行させ、その単語に付与した分析区分を分解した単語とともに分解結果記憶手段15に記憶することにより、関連付けを分解結果に含むように分解結果記憶手段15に記憶するステップ(S12)を実行させる。
【0233】
このように、処理手段36に、分析用辞書を参照しながら自然文を単語に分解し、分解した単語を分解結果記憶手段15の所定の領域に格納することを実行させることにより、前述した自然文分解手段14が実現され、機能する。
【0234】
そして、上述した分解ステップ(S12)の後、図9に示したように、処理手段36に、分解結果記憶手段15が記憶した結果を参照し、少なくとも分解した単語の数をカウント値として取得するとともに、取得したカウント値をカウント値記憶領域17aの所定の領域に格納させるステップ(S13)と、カウント値に基づき複数の分析値を生成するステップ(S14)と、を実行させるものであることも、前述した基準設定処理と同様であり、これらのステップは、生成対象となる分析値や乖離値の生成過程において、必要に応じてステップ単位、あるいは連続ステップとして繰り返される。
【0235】
ここで、カウント値を取得するステップ(S13)および分析値を生成するステップ(S14)の詳細は、前述した基準設定処理のカウント値を取得するステップ(S3)および分析値を生成するステップ(S4)と同様であるので、説明を省略する。
【0236】
そして、内容評価処理においても、処理手段36に所定の領域に格納されている情報に基づき、所定の情報単位をカウントさせ、カウント結果をカウント値として取得、格納することを実行させることにより、前述したカウント値取得手段16が実現され、機能する。また、処理手段36にカウント値に基づく分析値の生成を実行させることにより、前述した分析値生成手段18が実現され、機能することになる。
【0237】
次に、分析値から算出した基準値に対する乖離の程度を示す乖離値を生成するステップ(S15)として、処理手段36は、基準値記憶領域17cから基準値を読み出して所定の係数を生成し、分析値記憶領域17bから分析値の種類毎に複数の分析値を読み出し、その基準値に対する分析値の乖離の程度を示す乖離値を、記憶手段33に設けられた所定の乖離値算出則記憶領域に格納された乖離値算出則に基づき、読み出した分析値と基準値とを用いて生成する。
【0238】
具体的には、前述した式(1)を記憶手段33の所定の領域から読み出し、処理手段36に、分析値の種類毎に対応する基準値を基準値記憶領域17cから読み出し、基準値を用いて補正係数を生成し、読み出した基準値に対する分析値集団の乖離値を生成するステップを実行させる。そして、処理手段36は、生成した乖離値を乖離値記憶領域17dに記憶する。
【0239】
上述したように、処理手段36に、前述した式(1)のような所定の算出則に基づき、分析値を用いて乖離値を生成させるとともに、生成した乖離値を乖離値記憶領域17dに格納させることを実行させることにより、前述した乖離値生成手段20が実現され、機能することになる。そして、その機能が発揮されることにより、複数種類の分析値を用いて複数の乖離値を得るので、多面的な観点から評価できる要素を含んだ乖離値を得ることができ、より実態を反映した文章内容の評価を実現できる。
【0240】
この後、処理手段36は、乖離値を出力するか否かの判断を行う(S16)。乖離値を評価判断材料として出力する場合には、出力ステップ(S19)へと移行し、乖離値を出力せず、評価値を算出する場合には、評価値の生成ステップ(S17)へと移行する(S16)。なお、この判断ステップ(S16)は、例えば、処理手段36が生成した表示制御情報に基づき、表示手段32に形成した質問画面(指示受付インターフェース)を介して、入力手段31から指示命令を受け付けるなどの処理により実現される構成としてもよい。
【0241】
ここで、評価値の生成ステップへと移行した場合には、処理手段36は、乖離値記憶領域17dから乖離値を読み出し、さらには、前述したように、所定の領域に格納された評価値の算出則にしたがい、読み出した乖離値に基づき評価値を生成する(S17)。また、処理手段36は、生成した評価値を評価値記憶領域17eに格納する。
【0242】
このように、処理手段36に、乖離値に基づき評価値を生成させ、生成させた評価値を格納させることにより、前述した評価値生成手段21が実現され、機能する。そして、その機能が発揮されることにより、複数の乖離値に基づき、評価値を生成するので、異なる観点から多面的に分析したパラメータから構成される信頼度の高い評価値を得ることができ、ひいては、文章内容の数値評価環境として高度なシステムを提供することができる。
【0243】
そして、処理手段36は、評価値を出力するか否かの判断を行う(S18)。評価値を出力する場合には、出力ステップ(S19)へと移行する。なお、この判断ステップ(S18)は、上述した判断ステップ(S16)と同様に、例えば、処理手段36が生成した表示制御情報に基づき、表示手段32に形成した質問画面(指示受付インターフェース)を介して、入力手段31から指示命令を受け付けるなどの処理により実現される構成としてもよい。
【0244】
最後に、出力ステップ(S19)について説明する。図8に示したように、この出力ステップ(S19)へ移行してくる場合には、乖離値の出力を目的とする場合と、評価値の出力を目的とする場合の二つがある。乖離値を出力するように、出力ステップ(S19)へ移行した場合には、処理手段36は、乖離値を乖離値記憶領域17dから読み出し、例えば図6に示した出力を実現するように、出力先に応じた情報に乖離値を含める加工などを行った上で、出力要求に応じた出力を行う。同様に、評価値を出力するように、出力ステップ(S19)へ移行した場合には、処理手段36は、評価値を評価値記憶領域17eから読み出し、前述したように、出力先に応じた情報に評価値を含める加工などを行った上で、出力要求に応じた出力を行う。
【0245】
このように、処理手段36に、所定の出力先へ乖離値あるいは評価値を出力させることにより、前述した出力手段22が実現され、機能することになる。
【0246】
ここで、前述した図6に示した乖離値の出力結果は、基準設定処理を行うとともに、その基準設定処理で用いた各社説の分析値に基づき、内容評価処理をあわせて行った場合の処理結果を表示したものである。すなわち、処理手段36に、図8の自然文受付ステップ(S1)から基準値記憶ステップ(S6)までを実行させた後、図9における乖離値生成ステップ(S15)からを実行させた処理手順を実現した場合の出力結果である。このように、基準設定処理と内容評価処理をあわせて行う形態でも、本実施形態は有効に機能する。
【0247】
なお、参考までに、社説から得られた基準値に基づき、小説を分析した場合の結果を図10に示す。図10の出力結果は、志賀直哉の小説5編を分析対象としたものであり、グラフの形およびその乖離値は、ほぼ同じパターンを示していることからわかるように、数値が近いものとなっている。ただし、「剃刀」と「網走まで」の2編については、平均から離れた値があるが、この2つの作品は、志賀直哉の初期の作品で、いわゆる志賀直哉文学が完成する前のものである。ちなみに、「網走まで」は、帝国文学に投稿して落選したものであり、本発明の実施により、客観的な内容評価として数値が外れているという分析結果が得られ、内容を客観評価できるという良い例である。
【0248】
以上説明した言語分析処理により、言語分析システム1は、分析対象となる文章を分析、評価するものであり、その文章が書かれた目的などに応じて、客観的な評価を行うことができる、数値化されたパラメータを用いて評価を可能とする言語分析システムおよび言語分析プログラムの提供を実現するものである。
【0249】
〔第2実施形態〕
【0250】
本発明の他の実施形態を図11に基づき説明する。ここで、上述した第1実施形態と同一の構成部分については、同一の符号を付して重複説明を省略する。図11は、ネットワークに対応した言語分析システム2を実現するための概略的なシステム構成を示したシステム構成図である。
【0251】
図11に示したように、本実施形態では、言語分析システム2は、ネットワーク4に接続されたサーバ装置として提供されるものであり、言語分析システム2には、ネットワーク4を介して端末装置3が接続される。なお、ネットワーク4は、インターネットや専用回線によるネットワーク、企業内LAN(Local Area Network)などが想定される。また、端末装置3は、パーソナルコンピュータなどの情報端末が想定される。
【0252】
言語分析システム2は、記憶手段33と、通信手段37を接続するための不図示のインターフェースと、記憶手段33とそのインターフェースの動作を制御する処理手段36を備える。ここで、通信手段37は、外部ネットワーク4との情報の授受を可能とする手段であり、例えば、ルータなどが挙げられる。この通信手段37に応じたインターフェースを、言語分析システム2が備える。このインターフェースとしては、例えば、LANカードなどのNICが挙げられる。
【0253】
ただし、通信手段37が直接にネットワーク4に接続されることは必須とされず、通信手段37を介したLAN経由で言語分析システム2がプロキシサーバなどの制御下でネットワーク4に接続する構成を採用してもよい。
【0254】
端末装置3は、入力手段31、表示手段32、通信手段34、印刷手段35、記憶手段38、および各手段の動作を制御する処理手段39を備える。ここで、記憶手段38は、前述した記憶手段33と同様、情報を展開、格納する領域を提供するための手段であり、例えば、メモリ、HDDなどが挙げられる。また、処理手段39は、前述した処理手段36と同様、各手段の管理を行うCPUなどの演算処理手段である。
【0255】
詳細には、本実施形態における言語分析システム2は、前述した第1実施形態と同様、図1に示したシステム構成を採用しており、自然文を受け付ける自然文受付手段11と、受け付けた自然文を単語に分解する基準となる基準単位単語を規定した分析用辞書記憶手段13と、分析用辞書記憶手段13を参照して、基準単位単語に相当する複数の単語に受け付けた自然文を分解する自然文分解手段14と、自然文分解手段14が受け付けた自然文を複数の単語に分解した結果を記憶する分解結果記憶手段15と、分解結果記憶手段15が記憶した結果を参照し、少なくとも分解した単語の数をカウント値として取得するカウント値取得手段16と、カウント値取得手段16が取得したカウント値に基づき複数の分析値を生成する分析値生成手段18と、分析値生成手段18が生成した分析値に基づき、分析値の基準となる基準値を生成する基準値生成手段19と、基準値生成手段19が生成した基準値を記憶する基準値記憶手段として機能するパラメータ記憶手段17と、基準値記憶手段19から読み出した基準値と、分析値生成手段18が生成した分析値とに基づき、基準値に対する分析値の乖離の程度を示す乖離値を生成する乖離値生成手段20と、乖離値生成手段20が生成した複数の乖離値に基づき評価値を生成する評価値生成手段21と、乖離値生成手段20が生成した乖離値または評価値生成手段21が生成した評価値を出力する出力手段22と、を主たる構成として備える。
【0256】
加えて、言語分析システム2における基準設定処理もしくは内容評価処理を行う言語分析処理も、原則として図8または図9に示した手順と変わりはない。ただし、本実施形態における言語分析システム2は、ネットワークに対応するものであるため、第1実施形態における情報の受付手段に相当する受付手段は、上述した通信手段37が接続された不図示のインターフェースとなる。
【0257】
ゆえに、言語分析システム2における自然文の受付は、詳細には以下のようになる。まず、端末装置3の処理手段39が、入力手段31を介して、もしくは通信手段34を介して自然文からなる文章を取得し、取得した文章を記憶手段38の所定の領域に格納する。そして、端末装置3の処理手段39は、言語分析を行う対象としての文章を、通信手段34およびネットワーク4を介して、言語分析システム2側へ送信する。これを受けて、言語分析システム2の処理手段36は、通信手段37と不図示のインタフェースを介して、分析対象となる自然文を受け付ける。
【0258】
処理手段36に、このインターフェースを介した自然文の受け付けを実行させることにより、本実施形態における自然文受付手段11が実現され、機能することになる。
【0259】
この後、言語分析システム2が、自然文を分解し、カウント値を取得し、分析値、乖離値などを生成する処理を行うのは、第1実施形態と同様である。
【0260】
そして、言語分析システム2が、生成した乖離値や評価値の出力を行う出力手段22を備える点も同様であるが、本実施形態では、出力手段22の出力先が分析対象を送信してきた端末装置3などになる。詳細には、言語分析システム2の処理手段36は、記憶手段33に設けられたパラメータ記憶手段17から乖離値もしくは評価値を読み出し、端末装置3側の表示手段32または印刷手段35に応じた情報加工を加えた上で、上述したインターフェースおよび通信手段37を介して端末装置3側へ送信する。
【0261】
処理手段36に、このインターフェースを介した乖離値または評価値の送信処理を実行させることにより、本実施形態における出力手段22が実現され、機能することになる。
【図面の簡単な説明】
【0262】
【図1】本発明に係る言語分析システムのシステム構成を示す機能ブロック図である。
【図2】本発明に係る言語分析システムを実現するための概略的なシステム構成を示すシステム構成図である。
【図3】分析用辞書記憶手段のデータ構造の一例を示す模式的構造図である。
【図4】カウント値記憶領域へのカウント値の記憶形態の一例を示すデータ構造図である。
【図5】乖離値生成手段が各分析値に基づく乖離値の算出に際して用いる値を格納したデータベースのデータ構造の一例を示すデータ構造図である。
【図6】出力手段による乖離値の出力に基づき、表示手段の表示領域に形成される画面または印刷手段の出力用紙に形成される出力結果の一例を示す概略図である。
【図7】出力手段による評価値の出力に基づき、表示手段の表示領域に形成される画面または印刷手段の出力用紙に形成される出力結果の一例を示す概略図である。
【図8】本実施形態における基準設定処理としての言語分析処理を示すフローチャートである。
【図9】本実施形態における内容評価処理としての言語分析処理を示すフローチャートである。
【図10】表示手段の表示領域に形成される画面または印刷手段の出力用紙に形成される図6と異なる分析対象についての出力結果の一例を示す概略図である。
【図11】本発明に係る他の言語分析システムを実現するための概略的なシステム構成を示すシステム構成図である。
【符号の説明】
【0263】
1 言語分析システム
2 言語分析システム
3 端末装置
4 ネットワーク
11 自然文受付手段
12 自然文記憶手段
13 分析用辞書記憶手段
14 自然文分解手段
15 分解結果記憶手段
16 カウント値取得手段
17 パラメータ記憶手段
17a カウント値記憶領域
17b 分析値記憶領域
17c 基準値記憶領域
17d 乖離値記憶領域
17e 評価値記憶領域
18 分析値生成手段
19 基準値生成手段
20 乖離値生成手段
21 評価値生成手段
22 出力手段
31 入力手段
32 表示手段
33 記憶手段
34 通信手段
35 印刷手段
36 処理手段
37 通信手段
38 記憶手段
39 処理手段

【特許請求の範囲】
【請求項1】
文を単語に分解する手段と、分解した単語毎に前記文に出現する出現回数を算定する手段と、当該出現回数が一定以上ある1ないし複数の単語をキーワードとして選択する手段と、当該選択したキーワードの数量に基づいて前記文を評価する手段とを備えたことを特徴とする言語分析システム。
【請求項2】
文を単語に分解する手段と、分解した単語毎に前記文に出現する出現回数を算定する手段と、当該出現回数が一定以上ある1ないし複数の単語をキーワードとして選択する手段と、当該選択したキーワードの数量に基づいて前記文を評価する手段とをコンピュータに実行させるための言語分析プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate


【公開番号】特開2008−108264(P2008−108264A)
【公開日】平成20年5月8日(2008.5.8)
【国際特許分類】
【出願番号】特願2007−297184(P2007−297184)
【出願日】平成19年11月15日(2007.11.15)
【分割の表示】特願2002−151820(P2002−151820)の分割
【原出願日】平成14年5月27日(2002.5.27)
【出願人】(502188826)
【出願人】(502118410)有限会社シードウィン (2)
【Fターム(参考)】