説明

文書分析システム、文書分析方法およびプログラム

【課題】 曖昧語を含む文書について、各使用場面で曖昧語が文書の品質に与える影響の大きさを考慮して、精度よく文書の優先的な修正点や品質を推定する技術を提供する。
【解決手段】 本発明における文書分析システムは、外部から入力された文書を構成する文章に使用されている各単語の単語情報に基づいて、文書中における曖昧語を検索し、曖昧語が有る場合は当該曖昧語を抽出する曖昧語検索部と、推定鍵語を抽出するための推定鍵語抽出ルールに基づいて、文書から各曖昧語に対するそれぞれの推定鍵語を抽出する推定鍵語抽出部と、概念規模推定ルールに基づいて、推定鍵語抽出部で抽出された推定鍵語の概念の規模である概念規模指標を推定する概念規模推定部と、概念規模指標に基づいて、各曖昧語と推定鍵語との組合せ毎に曖昧性情報を算出する曖昧性算出部と、を含む。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書分析システム、文書分析方法およびプログラムに関し、文書の優先的な修正点や品質を推定する文書分析システム、文書分析方法およびプログラムに関する。
【背景技術】
【0002】
近年、情報処理装置を用いて、自然言語で書かれた文書を分析して、その文書の優先的な修正点や品質を分析する技術が開発されている。文書分析技術の一例が、特許文献1に「日本語文章修正装置、日本語文章修正方法および日本語文章修正のためのプログラム」として開示されている。
【0003】
この特許文献1に開示された日本語文章修正装置は、機械翻訳し易い構成に関するルールが登録された文章構成データベースと、機械翻訳し易い用字・用語に関するルールが登録された用字・用語データベースと、機械翻訳し易いスタイルに関するルールが登録されたスタイルデータベースと、修正箇所抽出手段と、表示手段と、修正手段と、出力手段と、を有する。このような構成を有する類似表現抽出装置は、次のように動作する。
【0004】
修正箇所抽出手段は、読み込む日本語原文章から、「文を、述語の数だけ作成する」といった上記構成に関するルール、「文は、当て字、誤字、脱字を含まない」といった上記用字・用語に関するルール、または「文は、曖昧な語句を含まない」といった上記スタイルに関するルールに反する構成、用字・用語またはスタイルを抽出する。
【0005】
表示手段は、上記抽出された構成、用字・用語またはスタイルを表示する。
【0006】
修正手段は、外部から入力されたデータを用いて上記抽出された構成、用字・用語またはスタイルを訂正、追加または削除して上記日本語原文章を修正する。
【0007】
出力手段は、修正により得られた翻訳易文章を出力する。
【0008】
このような構成により、日本語原文章から上記各ルールに反するポイントを抽出・表示し、外部からの訂正、追加、削除といった修正を支援している。
【0009】
さらに、文書分析技術の他の例が、特許文献2〜特許文献5に開示されている。
【0010】
特許文献2は、データベースに管理されている情報の概念を、各概念の抽象度に応じた配列でオントロジーに登録することで、多種多様なデータベースの追加や削除が頻繁に行われるような場合であっても、データベース選択メニューの維持管理が容易となる技術を開示する。
【0011】
特許文献3は、検索に際して単語間の概念階層を考慮することにより、適切な検索が可能となる技術を開示する。
【0012】
特許文献4は、次に入力したい単語の最初の読み情報の所定前に位置する単語からデータベースを参照して入力したい単語を予測表示することで、ユーザがより容易に文章を作成可能な技術を開示する。
【0013】
特許文献5は、テキスト文書作成時に、作成中のテキスト文書中の任意の文字列に機械的処理に有用な情報(付加情報)を埋め込む等することにより、自動翻訳、自動抄録作成処理等の機械的処理に適したテキスト文書を作成可能な技術を開示する。
【先行技術文献】
【特許文献】
【0014】
【特許文献1】特開2007−316834号公報
【特許文献2】特開2000−222436号公報
【特許文献3】特開2003−022277号公報
【特許文献4】特開2005−234742号公報
【特許文献5】特開平11−282844号公報
【発明の概要】
【発明が解決しようとする課題】
【0015】
特許文献1〜5に記載の技術の課題は、「等」、「など」、「とか」又は「以外」といった曖昧語を含む文書の優先的な修正点や品質の推定の精度が低いことである。
【0016】
その理由は、「等」、「など」、「とか」又は「以外」といった省略された概念を文脈から読み手に推定させる作用を持つ曖昧語は、文章内での使われ方で文書の品質に与える影響の大きさが異なるためである。そのため、特許文献1に記載の技術のように登録された曖昧語の有無を検出する方法では、各使用場面で曖昧語が文書の品質に与える影響の大きさを考慮できない。
【0017】
なお、ここでの文書の品質とは、文書の書き手と読み手の間における理解の齟齬の起きにくさや、文書の読み手にとっての理解のしやすさといった、少なくとも非曖昧さを含む特徴であって、文書の情報伝達の性能に関わる特徴を指す。
【0018】
以上より、本発明の目的は、曖昧語を含む文書について、各使用場面で曖昧語が文書の品質に与える影響の大きさを考慮して、精度よく文書の優先的な修正点や品質を推定することが可能な文書分析システム、文書分析方法およびプログラムを提供することにある。
【課題を解決するための手段】
【0019】
上記目的を達成するため、本発明に係る文書分析システムは、外部から入力された文書を構成する文章に使用されている各単語の単語情報に基づいて、前記文書中における、省略された概念を文脈から読み手に推定させる作用を持つ単語である曖昧語を検索し、曖昧語が有る場合は当該曖昧語を抽出する曖昧語検索部と、前記曖昧語抽出部が抽出した各曖昧語よって省略された概念を読み手が推定する際に手掛かりとなる単語である推定鍵語を抽出するための推定鍵語抽出ルールに基づいて、文書から前記各曖昧語に対するそれぞれの推定鍵語を抽出する推定鍵語抽出部と、推定鍵語の概念の規模を推定するための概念規模推定ルールに基づいて、前記推定鍵語抽出部で抽出された推定鍵語の概念の規模である概念規模指標を推定する概念規模推定部と、前記概念規模指標に基づいて、前記各曖昧語と推定鍵語との組合せ毎に曖昧性情報を算出する曖昧性算出部と、を含む
上記目的を達成するため、本発明に係る文書分析方法は、外部から入力された文書を構成する文章に使用されている各単語の単語情報に基づいて、前記文書中における、省略された概念を文脈から読み手に推定させる作用を持つ単語である曖昧語を検索し、曖昧語が有る場合は当該曖昧語を抽出し、前記抽出した各曖昧語によって省略された概念を読み手が推定する際に手掛かりとなる単語である推定鍵語を抽出するための推定鍵語抽出ルールに基づいて、文書から前記各曖昧後に対するそれぞれの推定鍵語を抽出し、推定鍵語の概念の規模を推定するための概念規模推定ルールに基づいて、前記抽出した推定鍵語の概念の規模である概念規模指標を推定し、前記概念規模指標に基づいて、前記各曖昧語と推定鍵語との組合せ毎に曖昧性情報を算出する。
【0020】
上記目的を達成するため、本発明に係るプログラムは、外部から入力された文書を構成する文章に使用されている各単語の単語情報に基づいて、前記文書中における、省略された概念を文脈から読み手に推定させる作用を持つ単語である曖昧語を検索し、曖昧語が有る場合は当該曖昧語を抽出し、前記抽出した各曖昧語によって省略された概念を読み手が推定する際に手掛かりとなる単語である推定鍵語を抽出するための推定鍵語抽出ルールに基づいて、文書から前記各曖昧後に対するそれぞれの推定鍵語を抽出し、推定鍵語の概念の規模を推定するための概念規模推定ルールに基づいて、前記抽出した推定鍵語の概念の規模である概念規模指標を推定し、前記概念規模指標に基づいて、前記各曖昧語と推定鍵語との組合せ毎に曖昧性情報を算出する、処理をコンピュータに実行させる。
【発明の効果】
【0021】
本発明によれば、曖昧語を含む文書について、各使用場面で曖昧語が文書の品質に与える影響の大きさを考慮して、精度よく文書の優先的な修正点や品質を推定することができる。
【図面の簡単な説明】
【0022】
【図1】本発明の実施形態1に係る文書分析システム100の構成を示すブロック図である。
【図2】文書分析システム100のハードウェア構成を示す図である。
【図3】本発明の実施形態1に係る文書分析システム100の全体の動作を示すフローチャートである。
【図4】本発明の実施形態2に係る文書分析システム200の構成を示すブロック図である。
【図5】実施例における文書分析システム100の構成を示すブロック図である。
【図6】例文から抽出される曖昧語Wajの一部の例を示す説明図である。
【図7】曖昧語Wajの直前に存在した単語を推定鍵語Wbjとする場合の推定鍵語Wbjの一部の例を示す説明図である。
【図8】曖昧語Wajの直前に存在する単語と係り受け関係を持っている単語を推定鍵語Wbjとする場合の推定鍵語Wbjの一部の例を示す説明図である。
【図9】図7の推定鍵語Wbjの概念規模指標Ibjの例を示す説明図である。
【図10】図8の推定鍵語Wbjの概念規模指標Ibjの例を示す説明図である。
【図11】図9の概念規模指標Ibjに基づく曖昧性情報Ajの例を示す説明図である。
【図12】図10の概念規模指標Ibjに基づく曖昧性情報Ajの例を示す説明図である。
【発明を実施するための形態】
【0023】
[実施形態1]
まず、本発明の実施形態1について、図1〜図3を参照して説明する。
【0024】
図1は、本発明の実施形態1に係る文書分析システム100の構成を示すブロック図である。
【0025】
図1を参照すると、本発明の実施形態1に係る文書分析システム100は、文書入力部10、単語分析部20、曖昧語検索部30、推定鍵語抽出部40、概念規模推定部50、曖昧性算出部60、曖昧性出力部70、曖昧語データベース110及び概念データベース120を含む。文書分析システム100は、上述の各構成要素を、単一の電子機器内又はサーバ及び電子機器並びにこれらを相互に接続するインターネット等の情報通信ネットワークからなるシステム内に、含んでいても良い。
【0026】
文書分析システム100は、曖昧語を含む文書について、各使用場面で曖昧語が文書の品質に与える影響の大きさを考慮し、文書の優先的な修正点や品質を推定する、文書分析システムである。ここで、「曖昧語」とは、「等」、「など」、「とか」又は「以外」といった省略された概念を文脈から読み手に推定させる作用を持つ単語をいう。
【0027】
単一の電子機器で文書分析システム100を構成する場合、文書分析システム100は、プログラム制御により動作するコンピュータで実現可能である。
【0028】
図2は、文書分析システム100を単一の電子機器で実現する場合のハードウェア構成を示す図である。図2に示すように、文書分析システム100は、データを入力する入力装置1、データ処理装置2、データ処理装置2での処理結果を出力する出力装置3及び種々のデータベースとして働く記憶装置4を含む。
【0029】
データ処理装置2は、プログラムを記憶するリードオンリメモリ5(ROM5)、データを一時的に記憶するワークエリアとして使用されるランダムアクセスメモリ6(RAM6)及びROM5に記憶されたプログラムに従って、RAM6に記憶されているデータを処理する中央処理装置7(CPU7)を含む。
【0030】
入力装置1は、文書入力部10の一部を構成する。また、データ処理装置2は、文書入力部10、単語分析部20、曖昧語検索部30、推定鍵語抽出部40、概念規模推定部50及び曖昧性算出部60として動作し、記憶装置4は曖昧語データベース110及び概念データベース120として動作し、出力装置3は曖昧性出力部70として動作しても良い。
【0031】
次に、文書分析システム100を構成する各構成要素についてさらに詳細に説明する。
【0032】
文書入力部10は、文書データを受け付ける。文書入力部10がデータとして受け付ける文書は、どのような文書であっても良いが、基本的には曖昧語を含む可能性が有り優先的な修正点や品質を分析する対象とする文書である。また、ここで言う文書は、複数の文書の束である文書群でも良い。具体的には、文書入力部10は、入力装置1とCPU7とを含む。入力装置1が文書を入力すると、CPU7は、その文書データをRAM6に格納する。
【0033】
単語分析部20は、文書入力部10で入力された文書(文書データ)から、当該文書を構成する文章に使用されている単語に関する情報である単語情報を抽出する。この抽出は、データ処理部のCPU7によるプログラム制御に基づいて実行される。単語分析部20は、入力された文書を構成する文章に対して、例えば形態素解析や構文解析を適用することで、各文章に使用されている全単語の単語情報の抽出を行っても良い。
【0034】
ここで、単語は名詞、動詞、形容詞など単独で意味をなす自立語だけでなく、助詞などを含んでも良い。単語情報は、使用されている単語そのものの情報を含む。単語情報は、単語の存在位置に関する情報を含んでも良い。単語の存在位置に関する情報とは、使用箇所が同定可能な情報であればよく、単語の存在する文の出現順位や頁、目次上の章や節、項などが該当する。
【0035】
また、単語情報は、必要に応じて単語毎の品詞、格、組み合される助詞、単語間の係り受け関係などを含めても良い。
【0036】
曖昧語データベース110は、曖昧語を格納する。曖昧語データベース110は、特定の単語に関する後述する曖昧語検索部30からの問い合わせに対し、問い合わせ対象の単語が曖昧語として登録されているか検索し応答するデータベースであっても良い。なお、曖昧語データベース110は、インターネット上のデータベースであっても良い。
【0037】
曖昧語検索部30は、曖昧語データベース110を参照して、単語分析部20で抽出された単語情報、すなわち、各文章に使用されている全単語の単語情報に基づいて、曖昧語を検索する。さらに、検索の結果、曖昧語が曖昧語データベース110に有る場合、曖昧語検索部30は、当該曖昧語を抽出する。また、曖昧語検索部30は、曖昧語と合わせて、曖昧語を含む文の出現順位や頁、目次上の章や節、項などに関する情報である、曖昧語の存在位置に関する情報を抽出しても良い。
【0038】
推定鍵語抽出部40は、曖昧語検索部30が抽出した各曖昧語について、推定鍵語抽出ルールに基づいて、文書から推定鍵語を抽出する。推定鍵語とは、曖昧語によって省略された概念を読み手が推定する際に手掛かりとなる単語である
ここで、推定鍵語抽出ルールは、曖昧語によって省略された概念を読み手が推定する際に手掛かりとなる単語を抽出するルールであればどの様なルールでも良い。推定鍵語抽出ルールは、例えば、曖昧語の直前に存在する単語又は曖昧語によって修飾される単語(被修飾語)を推定鍵語とするルールでも良い。推定鍵語抽出ルールは、曖昧語の直前に存在する単語と係り受けの関係にある単語又は曖昧語を含む文の主語や述語などのいずれかに該当する単語を推定鍵語とするルールでも良い。又は、推定鍵語抽出ルールは、上述の推定鍵語とされる単語の組合せを推定鍵語とするルールでも良い。
【0039】
概念データベース120は、収集された単語の概念分類および一般的な同義語、類義語、用法などの一般概念情報を格納する。概念データベース120は、特定の単語に関する問い合わせに対し、単語の一般概念情報を検索し応答するデータベースであっても良い。概念データベース120は、単語の上位関係及び下位関係、部分関係及び全体関係、同義関係又は類義関係などによって単語を分類し、体系づけたシソーラスなどでも良い。なお、概念データベース120は、インターネット上のデータベースであっても良い。
【0040】
概念規模推定部50は、推定鍵語抽出部40で抽出された推定鍵語を受信し、概念データベース120を参照することにより得られた、推定鍵語に関する一般概念情報、及び所定の概念規模推定ルールに基づいて、推定鍵語の概念の規模である概念規模指標を推定する。
【0041】
ここで、概念規模指標の推定を行う「概念規模推定ルール」は、推定鍵語の概念の相対的な大きさを推定できるルールであれば良い。例えば、概念規模推定ルールは、同義語の個数または類義語の個数を概念規模指標とするルールでも良い。
【0042】
又は、概念データベース120として複数の階層での概念が一般概念情報として登録されたシソーラスを用いて概念ベクトルを作成した場合、概念規模推定ルールは、階層の高さと単調増加の関係にある値を概念規模指標とするルールでも良い。具体的には、概念規模推定ルールは、各推定鍵語の属する最も高い概念分類上の階層を用いて、最も高い概念分類が大分類の場合は5、中分類の場合は4、小分類の場合は3、語句の場合は2、登録がない場合は1に設定する。このように、概念規模推定ルールは、階層の高さと単調増加の関係にある値を概念規模指標とするルールでも良い。又は、概念規模推定ルールは、各推定鍵語の属する概念分類の下位分類に登録されている単語の総数などを概念規模指標とするルールでも良い。
【0043】
曖昧性算出部60は、概念規模推定部50で推定した概念規模指標に基づいて、各推定鍵語と曖昧語の組合せ毎に曖昧性情報を算出する。
【0044】
ここで、曖昧性情報は、各推定鍵語と曖昧語の組合せ毎の、曖昧性に関する指標である曖昧性指標でも良い。たとえば、曖昧性指標は、概念規模指標と単調増加の関係となる関数で導かれる曖昧性に関する指標である。曖昧性情報は、曖昧性指標に加えて、入力した文書における推定鍵語及び曖昧語の位置などに関する情報を含んでも良い。又は、曖昧性情報は、各推定鍵語と曖昧語の組合せ毎の曖昧性指標を、文書全体または任意の範囲で集計した指標であって、かつ、文書の品質を表す指標でも良い。
【0045】
曖昧性出力部70は、曖昧性算出部60で算出した曖昧性情報を出力する。出力形態は、所要の形態で出力すれば良い。例えば、曖昧性出力部70は、文書内における各推定鍵語と曖昧語の組合せについて、色分け、太字による強調又は文字の拡大などによる明示といった加工を施して、当該加工が施された文書全体を出力しても良い。
【0046】
又は、曖昧性出力部70は、各推定鍵語と曖昧語の組合せを抽出した表を出力しても良い。曖昧性出力部70は、曖昧性指標が任意に設定された閾値より大きい各推定鍵語と曖昧語の組合せのみに限定して出力しても良い。曖昧性出力部70は、曖昧性指標に基づく色分けや、太字による強調、又は単語の文字の大きさへの強弱の付与などを行っても良い。
【0047】
各推定鍵語と曖昧語の組合せ毎の曖昧性指標を文書全体または任意の範囲で集計した指標であって、文書の品質を表す指標を曖昧性情報として出力する場合、曖昧性出力部70は、曖昧性情報を表形式で出力しても良い。
【0048】
または、曖昧性出力部70は、ユーザによる各出力形態の選択を受け付けて、ベースとなる表示形態から必要に応じて表に移行できるように構成されても良い。また、曖昧性出力部70は、必要に応じて動詞や名詞などを選択的に出力するようにしても良い。
【0049】
曖昧性出力部70は、曖昧性情報を出力するとともに、ユーザによる文章の修正を受け付けても良い。
【0050】
次に、図3のフローチャートを参照して、本発明の実施形態1に係る文書分析システム100の全体の動作について詳細に説明する。なお、図3に示すフローチャート及び以下の説明は処理の一例であり、適宜求める処理に応じて処理順等を入れ替えたり処理を戻したり繰り返したりすることを行っても良い。
【0051】
文書入力部10は、分析の対象とする文書の入力を受け付ける(ステップA1)。
【0052】
単語分析部20は、文書を構成する各文章に形態素解析や構文解析を適用することで、各文章に使用されている全単語の単語情報の抽出を行う(ステップA2)。
【0053】
曖昧語検索部30は、単語分析部20で抽出された各文章に使用されている全単語の単語情報に基づいて、文書中の曖昧語の有無について曖昧語データベース110を参照し、曖昧語が有る場合は当該曖昧語を抽出する(ステップA3)。
【0054】
推定鍵語抽出部40は、各曖昧語について推定鍵語抽出ルールに基づき、曖昧語によって省略された概念を読み手が推定する際に手掛かりとなる単語を推定鍵語として抽出する(ステップA4)。
【0055】
概念規模推定部50は、推定鍵語の一般概念情報について概念データベース120を参照し、得られた一般概念情報及び所定の概念規模推定ルールに基づいて、推定鍵語の概念の規模である概念規模指標を推定する(ステップA5)。
【0056】
曖昧性算出部60は、概念規模推定部50が推定した概念規模指標に基づいて、各推定鍵語と曖昧語の組合せ毎に曖昧性情報を算出する(ステップA6)。
【0057】
曖昧性出力部70は、曖昧性算出部60が算出した曖昧性情報を出力する(ステップA7)。
【0058】
以上説明したように、実施形態1に係る文書分析システム100によれば、曖昧語を含む文書について、各使用場面で曖昧語が文書の品質に与える影響の大きさを考慮し、精度よく文書の優先的な修正点や品質を推定することが可能になる。、
その理由は、推定鍵語抽出部40が文書において曖昧語によって省略された概念を読み手が推定する際に手掛かりとなる単語を推定鍵語として抽出し、概念規模推定部50が推定鍵語の概念の規模である概念規模指標を推定するからである。各推定鍵語と曖昧語の組合せ毎に曖昧性指標を算出することで、文書分析システム100は、文書の品質に影響を与える文章内での曖昧語の使われ方まで考慮した分析が可能になる。
【0059】
[実施形態2]
次に、本発明の実施形態2について、図4を参照して説明する。
【0060】
図4は、本発明の実施形態2に係る文書分析システム200の構成を示すブロック図である。
【0061】
図4を参照すると、本発明の実施形態2に係る文書分析システム200は、曖昧語検索部35、推定鍵語抽出部45、概念規模推定部55及び曖昧性算出部65を含む。
【0062】
曖昧語検索部35は、外部から入力された文書を構成する文章に使用されている各単語の単語情報に基づいて、文書中における、省略された概念を文脈から読み手に推定させる作用を持つ単語である曖昧語を検索し、曖昧語が有る場合は当該曖昧語を抽出する。
【0063】
推定鍵語抽出部45は、曖昧語抽出部35が抽出した各曖昧語によって省略された概念を読み手が推定する際に手掛かりとなる単語である推定鍵語を抽出するための推定鍵語抽出ルールに基づいて、文書から各曖昧語に対するそれぞれの推定鍵語を抽出する。
【0064】
概念規模推定部55は、推定鍵語の概念の規模を推定するための概念規模推定ルールに基づいて、推定鍵語抽出部45で抽出された推定鍵語の概念の規模である概念規模指標を推定する。
【0065】
曖昧性算出部65は、概念規模推定部55で推定された概念規模指標に基づいて、各推定鍵語と曖昧語の組合せ毎に曖昧性情報を算出する。
【0066】
以上説明したように、文書分析システム200によれば、曖昧語を含む文書について、各使用場面で曖昧語が文書の品質に与える影響の大きさを考慮して、精度よく文書の優先的な修正点や品質を推定することができる。
【0067】
なお、本発明に係る文書分析方法は、上述した文書分析システム100又は文書分析システム200が実行する動作方法である。また、本発明に係るプログラムは、実施形態1又は実施形態2において説明した各動作を、コンピュータに実行させるプログラムであれば良い。
【0068】
[実施例]
次に、図5乃至図12を参照して、具体的な実施例を用いて、本発明の実施形態1に係る文書分析システム100の動作について説明する。
【0069】
本実施例では、次のことを目的としている。
【0070】
先ず、文書分析システム100は、情報システム構築に関する提案書や仕様書といった、曖昧な箇所を排除すべき文書D内で、曖昧語Waが文書Dの品質に与える曖昧性である曖昧性指標IAを各曖昧語Waの使用場面毎に算出する。曖昧語Waは、「等」、「など」、「とか」又は「以外」といった省略された概念を文脈から読み手に推定させる作用を持つ単語である。
【0071】
文書分析システム100は、算出した曖昧性指標IAに基づき、各曖昧語の文書中の位置や曖昧性の程度に関する曖昧性情報Aを推定する。文書分析システム100は、推定された曖昧性情報Aを出力することで、文書Dにおける優先的に修正すべき曖昧箇所の把握や、複数の文書間の比較として品質の低い文書の明確化などを容易にし、文書の改善を効率化する。
【0072】
また、本実施例では、文書分析システム100は、図5に示されるように、文書解析システム300と、インターネット・サーバ400とを含むものとする。
【0073】
文書解析システム300は、分析実施者Bの持つPC端末500上で動作し、入力部600及び出力部700を介して、分析実施者Bが曖昧性指標Aを推定したい文書群を構成する文書の入力と、曖昧性情報Aの提示を実現する。
【0074】
インターネット・サーバ400は、通信ネットワークを介して文書解析システム300を実装した分析実施者Bの持つPC端末500と接続されている。インターネット・サーバ400は、文書解析システム300からの単語の問い合わせに対し、曖昧語Waとしての登録の有無の検索を可能にする。また、インターネット・サーバ400は、単語の意味などの概念情報の問い合わせに対し、単語の概念分類や一般的な曖昧語や類義語、用法に関連する一般概念情報Cgの検索を可能にする。
【0075】
次に、図5と図1との対応関係について説明する。
【0076】
文書入力部10、単語分析部20、曖昧語検索部30、推定鍵語抽出部40、概念規模推定部50及び曖昧性算出部60は、文書解析システム300内に含まれる。曖昧性出力部70は、出力部700として動作する。曖昧語データベース110及び概念データベース120は、インターネット・サーバ400内に含まれる。
【0077】
この様な構成要素を含む文書解析システム300及びインターネット・サーバ400は、以下のように動作する。
【0078】
文書解析システム300は、入力部600を介して、情報システム構築に関する提案書や仕様書といった、分析実施者Bが曖昧な箇所を排除するための曖昧性情報Aを得たい文書Dの入力を受け付ける。文書解析システム300は、文書Dを構成する文章毎に形態素解析及び構文解析を適用し、文書を構成する単語に分解し、その係り受け関係や格を解析することで、単語Wとその格、係り受け構造等を単語情報として抽出する。なお、ここでの「単語」は、「に関連する」のような複数の単語からなる表現などを含んでも良い。さらに、文書解析システム300は、文書の文の出現順に通し番号として文番号を付け、各単語を含む文の文番号を単語情報に加える。
【0079】
インターネット・サーバ400は、省略された概念を文脈から読み手に推定させる作用を持つ曖昧語や曖昧表現に関する情報である曖昧語情報Caを格納する。また、インターネット・サーバ400は、任意の単語や表現の情報を抽出する検索エンジンなどの機能も有することで、文書解析システム300からの問い合わせに応じて、問い合わせ対象の単語が曖昧語情報Caに存在するかどうかを判定し、提示しても良い。
【0080】
なお、抽出する曖昧語は省略された概念を文脈から読み手に推定させる作用を持つ曖昧語であれば何でも良い。曖昧語は、例えば、「等」、「など」、「とか」、「以外」、「といった」、「みたいな」などの単語が該当する。また、曖昧語は、「のような」、「に関する」、「に関連する」、「に関わる」などの助詞と組み合された複数の単語からなる表現などを含んでも良い。
【0081】
文書解析システム300は、文書Dに含まれる全ての単語Wi(i=1、2、・・・、n)についてインターネット・サーバ400に曖昧語情報Caの曖昧語に該当する単語であるかどうかを問い合わせる。文書解析システム300は、曖昧語に該当するという判定結果となった単語Wj(j=1、2、・・・、m)を曖昧語Waj(j=1、2、・・・、m)とし、曖昧語の存在する文の文番号と共に抽出する。なお、文書D内に同一の曖昧語が複数回使用されていた場合も使用場面はそれぞれ異なるため、文書解析システム300は、複数の同一の曖昧語を別々に抽出する。
【0082】
例えば、文書Dの一部が「本購買システムは国内拠点と海外支社間の物流業務の効率化を目的としている。開発担当者は本システムの性能を関連する文書等の要件を満たすようにすること。また要件に変更が有れば、都度協議する。協議結果、変更が生じた場合は議事録等に記載し、開発物はこの記載に沿うように開発を行う。開発システムの入力、出力等は旧システムと同じとする。新たな処理として新法に対応するため輸出規定に該当するかどうかの判定などが加わる。他にも簿価の計算式の係数などを旧版値から換算する必要がある。これらの処理の他には機能面に大きな変化などは無い。」という文面からなる場合を考える。この文書に関して、文書解析システム300は、図6に示すように、一文毎に文番号を付与し、曖昧語が存在する文に関しては、各文の文番号に対応して曖昧語Wajを記載した表を作成することで、曖昧語を抽出しても良い。
【0083】
文書解析システム300は、曖昧語によって省略された概念を読み手が推定する際に手掛かりとなる推定鍵語Wbjとして、曖昧語Wajの直前に存在する単語を抽出する。例えば、図6の事例で有れば、文書解析システム300は、推定鍵語Wbjとして図7の一番右の列に示すような単語を抽出する。
【0084】
曖昧語Wajの直前に存在する単語を推定鍵語Wbjとすることが有効な理由は、「文書等」という表記が有った時、読み手は「文書」に類するその他のものを推定することになるためである。
【0085】
又は、文書解析システム300は、曖昧語Wajの直前に存在する単語と係り受け関係を持っている単語を推定鍵語Wbjとして抽出しても良い。例えば、図6の事例で有れば、文書解析システム300は、推定鍵語Wbjとして図8の一番右の列に示すような単語を抽出する。
【0086】
曖昧語Wajの直前に存在する単語と係り受け関係を持っている単語を推定鍵語Wbjとすることが有効な理由は、「係数などを旧版値から換算する」という表記が有った時、読み手は「換算する」という動作がそぐうものを推定することになるためである。
【0087】
なお、推定鍵語Wbjは曖昧語Wajに対して少なくとも一つ抽出されれば良いが、文書解析システム300は、一つの曖昧語に対して複数の推定鍵語Wbjを抽出しても良い。
【0088】
インターネット・サーバ400は、単語の一般的な上位関係及び下位関係、部分関係及び全体関係、同義関係又は類義関係などによって単語を分類し、体系づけたシソーラスの一般概念情報Cgを格納する。また、インターネット・サーバ400は、任意の単語の情報を抽出する検索エンジンなどの機能も有することで、文書解析システム300からの問い合わせに応じて、一般概念情報Cgを抽出し、提示しても良い。具体的には、インターネット・サーバ400は、問い合わせ対象の単語の一般的な概念分類として「大分類」、「中分類」、「小分類」、「語句」といった分類及び当該分類に帰属する単語の数を一般概念情報Cgとして抽出し、提示しても良い。
【0089】
文書解析システム300は、推定鍵語Wbjのそれぞれの一般概念情報Cgについてインターネット・サーバ400に問い合わせを行う。文書解析システム300は、インターネット・サーバ400内に保存されたシソーラスの一般概念情報Cgの分類体系から、各推定鍵語Wbjが属する最も高い概念分類を抽出する。文書解析システム300は、その概念分類の下位分類に登録されている単語の個数を概念規模指標Ibjの値として抽出する。
【0090】
例えば、「文書」という推定鍵語Wbjが一般概念情報Cgの分類体系では「小分類」に分類されている場合、その下位分類である「語句」とその同義語として登録されている単語を抽出する。「文書」という推定鍵語Wbjの下位分類である語句とその同義語として、例えば「書状」、「書類」、「ドキュメント」、「公文書」、「私文書」、「私書」、「契約書」、「覚書」、・・・・といった単語が、計156個存在するとする。本実施例においては、文書解析システム300は、156という値を概念規模指標Ibjの値とする。
【0091】
また、「議事録」のように推定鍵語Wbjが一般概念情報Cgの分類体系で「語句」に分類されている場合、下位に帰属する単語は無いので、文書解析システム300は概念規模指標を1としても良い。又は、文書解析システム300は、「議事録」の同義語や類義語として登録されている語を一般概念情報Cgから抽出し、抽出できた単語の数を概念規模指標としても良い。例えば、「議事録」の同義語又は類義語として「メモ」、「記録」及び「会議録」の3語が得られたとすると、文書解析システム300は、概念規模指標Ibjの値を3としても良い。一般概念情報Cgの分類体系に存在しない単語の場合は帰属する単語は無いので、文書解析システム300は概念規模指標を1としても良い。
【0092】
図7の事例で有れば、概念規模指標Ibjは図9の一番右の列に示すように、図8の事例で有れば、概念規模指標Ibjは図10の一番右の列に示すように算出される。
【0093】
または、文書解析システム300は、曖昧語Wajの直前に存在した単語と、曖昧語Wajの直前に存在する単語と係り受け関係を持っている単語の両方を推定鍵語Wbjとして抽出しても良い。この場合は、文書解析システム300は、複数の概念規模指標Ibjと単調増加の関係が維持される相加平均や相乗平均のような関数で、同一の曖昧語Wajに関するそれぞれの推定鍵語Wbjに対応する概念規模指標Ibjを集約した値を、改めて最終的な概念規模指標Ibjとしても良い。
【0094】
次に文書解析システム300は、推定した各曖昧語Wajに対応する概念規模指標Ibjを文書内での概念規模指標Ibの最大値Ibmaxで除して正規化した値を、各推定鍵語Wbjと曖昧語Wajの組合せ毎の曖昧性指標Iajとして算出する。文書解析システム300は、曖昧性指標Iaj及び曖昧語Wajの文番号を曖昧語Wajの曖昧性情報Ajとする。また、概念規模指標Ibjを文書全体で集計した値を文書Dの品質を表す曖昧性情報Adとして算出する。
【0095】
例えば、図9の事例で有れば、曖昧性情報Ajは図11のように算出される。図11は、「文書等」の部分が、「文書」という一般的な語では「等」の概念の推定範囲が広く曖昧性が高いことを示す。また、図10の事例で有れば、曖昧性情報Ajは図12のように算出される。図12は、「出力等は旧システムと同じ」の部分が、「同じ」という汎用性の高い語では「等」の概念を限定しにくく曖昧性が高いことを示す。
【0096】
文書解析システム300は、曖昧性情報Ajに基づき、「文書等」や「出力等は旧システムと同じ」など、文書D内における各推定鍵語Wbjと曖昧語Wajの組合せ部分を着色し明示することで、修正すべき曖昧な文の箇所を分かりやすくし表示する。また、文書解析システム300は、曖昧性情報Adに基づき、推定鍵語Wbjと曖昧語Wajの組合せの曖昧性情報Adを文書D全体および、目次の章単位などで集計して表もしくはグラフなどの形式で出力しても良い。当該出力により、文書解析システム300は、文書Dの品質を表すメトリクス(評価尺度)及び修正すべき曖昧な章を判断する情報を提供する。
【0097】
以上、各実施形態及び実施例を参照して本発明を説明したが、本発明は以上の実施形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で同業者が理解し得る様々な変更をすることができる。
【産業上の利用可能性】
【0098】
本発明によれば、ソフトウェアやシステムの開発における要件定義などの作業においてやり取りされる各種文書に関して、文書の曖昧さを特に問題の大きい場所から優先的に修正することが可能になる。これにより文書作成や文書レビューの効率化に繋がる。また、複数の読み手の間に異なる解釈が起きる状況などが減少し、手戻りの減少や顧客満足の向上などシステム開発の効率化に関する用途に適用できる。
【符号の説明】
【0099】
1 入力装置
2 データ処理装置
3 出力装置
4 記憶装置
5 ROM
6 RAM
7 CPU
10 文書入力部
20 単語分析部
30、35 曖昧語検索部
40、45 推定鍵語抽出部
50、55 概念規模推定部
60、65 曖昧性算出部
70 曖昧性出力部
100、200 文書分析システム
110 曖昧語データベース
120 概念データベース
300 文書解析システム
400 インターネット・サーバ
500 PC端末
600 入力部
700 出力部

【特許請求の範囲】
【請求項1】
外部から入力された文書を構成する文章に使用されている各単語の単語情報に基づいて、前記文書中における、省略された概念を文脈から読み手に推定させる作用を持つ単語である曖昧語を検索し、曖昧語が有る場合は当該曖昧語を抽出する曖昧語検索部と、
前記曖昧語抽出部が抽出した各曖昧語よって省略された概念を読み手が推定する際に手掛かりとなる単語である推定鍵語を抽出するための推定鍵語抽出ルールに基づいて、文書から前記各曖昧語に対するそれぞれの推定鍵語を抽出する推定鍵語抽出部と、
推定鍵語の概念の規模を推定するための概念規模推定ルールに基づいて、前記推定鍵語抽出部で抽出された推定鍵語の概念の規模である概念規模指標を推定する概念規模推定部と、
前記概念規模指標に基づいて、前記各曖昧語と推定鍵語との組合せ毎に曖昧性情報を算出する曖昧性算出部と、
を含む文書分析システム。
【請求項2】
文書の入力を受け付ける文書入力部と、
前記文書から、当該文書を構成する文章に使用されている単語に関する情報である単語情報を抽出する単語分析部と、
省略された概念を文脈から読み手に推定させる作用を持つ単語である曖昧語を格納する曖昧語データベースと、
単語の一般概念情報を蓄積する概念データベースと、
曖昧性情報を出力する曖昧性出力部と、
をさらに含み、
前記曖昧語検索部は、前記単語分析部が抽出した単語情報及び前記曖昧語データベースに基づいて、前記曖昧語を抽出し、
前記概念規模推定部は、前記概念データベース及び所定の概念規模推定ルールに基づいて、前記概念規模指標を推定する、
請求項1に記載の文書分析システム。
【請求項3】
前記推定鍵語抽出部における所定の推定鍵語抽出ルールは、前記曖昧語の直前に存在する単語又は前記曖昧語によって修飾される単語を前記推定鍵語として抽出するルールである、
請求項1又は2に記載の文書分析システム。
【請求項4】
前記単語分析部は、前記文書を構成する文章に対して形態素解析及び構文解析を行うことで、各単語の品詞及び各単語同士の係り受け関係を前記単語情報として抽出し、
前記推定鍵語抽出部における所定の推定鍵語抽出ルールは、曖昧語の直前に存在する単語と係り受けの関係にある単語又は曖昧語を含む文の主語若しくは述語を推定鍵語として抽出するルールである、
請求項1〜3のいずれか1項に記載の文書分析システム。
【請求項5】
前記概念データベースは、単語間の同義関係、類義関係、上位関係及び下位関係又は部分関係及び全体関係について、一般概念情報として格納するシソーラスである、
請求項1〜4のいずれか1項に記載の文書分析システム。
【請求項6】
前記概念規模推定部における所定の概念規模推定ルールは、各推定鍵語の属する最も高い概念分類上の階層を用いて、階層の高さと単調増加の関係にある値を前記概念規模指標として推定するルールである、
請求項5に記載の文書分析システム。
【請求項7】
前記概念規模推定部における所定の概念規模推定ルールは、各推定鍵語の属する概念分類の下位分類に登録されている単語の総数を概念規模指標とするルールである、
請求項5に記載の文書分析システム。
【請求項8】
前記推定鍵語抽出部は、複数の推定鍵語抽出ルールを持つことで、各曖昧語に対する推定鍵語を複数抽出し、
前記概念規模推定部における所定の概念規模推定ルールは、前記複数抽出した各推定鍵語について算出した概念規模指標のそれぞれについて、単調増加の関係が維持される関数で同一の曖昧語に関する推定鍵語の概念規模指標を集約した値を、最終的な概念規模指標として抽出するルールである、
請求項1〜7のいずれか1項に記載の文書分析システム。
【請求項9】
外部から入力された文書を構成する文章に使用されている各単語の単語情報に基づいて、前記文書中における、省略された概念を文脈から読み手に推定させる作用を持つ単語である曖昧語を検索し、曖昧語が有る場合は当該曖昧語を抽出し、
前記抽出した各曖昧語によって省略された概念を読み手が推定する際に手掛かりとなる単語である推定鍵語を抽出するための推定鍵語抽出ルールに基づいて、文書から前記各曖昧後に対するそれぞれの推定鍵語を抽出し、
推定鍵語の概念の規模を推定するための概念規模推定ルールに基づいて、前記抽出した推定鍵語の概念の規模である概念規模指標を推定し、
前記概念規模指標に基づいて、前記各曖昧語と推定鍵語との組合せ毎に曖昧性情報を算出する、
文書分析方法。
【請求項10】
外部から入力された文書を構成する文章に使用されている各単語の単語情報に基づいて、前記文書中における、省略された概念を文脈から読み手に推定させる作用を持つ単語である曖昧語を検索し、曖昧語が有る場合は当該曖昧語を抽出し、
前記抽出した各曖昧語によって省略された概念を読み手が推定する際に手掛かりとなる単語である推定鍵語を抽出するための推定鍵語抽出ルールに基づいて、文書から前記各曖昧後に対するそれぞれの推定鍵語を抽出し、
推定鍵語の概念の規模を推定するための概念規模推定ルールに基づいて、前記抽出した推定鍵語の概念の規模である概念規模指標を推定し、
前記概念規模指標に基づいて、前記各曖昧語と推定鍵語との組合せ毎に曖昧性情報を算出する、
処理をコンピュータに実行させるプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate


【公開番号】特開2013−109475(P2013−109475A)
【公開日】平成25年6月6日(2013.6.6)
【国際特許分類】
【出願番号】特願2011−252657(P2011−252657)
【出願日】平成23年11月18日(2011.11.18)
【出願人】(000004237)日本電気株式会社 (19,353)
【Fターム(参考)】