要求文書分析システム、方法およびプログラム

【課題】情報システム構築の上流工程に用いられる要求関連文書の曖昧さを改善すること。
【解決手段】情報システム構築の上流工程に用いられる要求関連文書に含まれる曖昧ポイントについて、要求関連文書に特有の評価基準に基づく曖昧性の優先順位を付け、誤った係り受けを行う可能性の高い曖昧ポイントに絞り込んで曖昧ポイントを提示することで、情報システム構築の上流工程に用いられる要求関連文書の曖昧さを改善する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、要求文書分析システム、方法およびプログラムに関し、特に、情報システム構築の上流工程で、顧客から交付される提案依頼書や開発者側から提供する提案書や仕様書などの要求関連文書の要求文書分析システム、方法およびプログラムに関する。
【背景技術】
【０００２】
要求文書分析システム、方法およびプログラムに関する従来技術の一例が、特許文献１に「翻訳装置」として記載されている。この特許文献１に開示された翻訳装置は、入力部、翻訳部、記憶部、出力部から構成されている。このような構成を有する翻訳装置は、次のように動作する。
【０００３】
すなわち、翻訳部は、入力部から入力された原文の切れ目の位置を中断位置として検出する。また、翻訳部は、上記原文における上記中断位置より前方に在る単語列に対して記憶部に登録された解析規則に基づき構文解析して解析候補を検索する。そして、翻訳部は、複数の解析候補がある箇所について、オペレータに対する問い合わせ文と適用された解析規則に基づく問い合わせの必要度レベルを付加する。さらに表示部は、必要度レベルが設定された問い合わせ頻度のレベルより高い解析候補について、問い合わせ文を表示する。翻訳装置は、上記入力部から入力される上記表示された問い合わせに対する応答が当該解析候補の破棄である場合に当該解析候補を破棄することで、文章の係り受けに曖昧性が存在する場合に、オペレータとの対話によって上記曖昧性を除去して多義の解析結果を一意に絞り込んでいる。
【０００４】
さらに、要求文書分析システム、方法およびプログラムに関する従来技術の他の例が、特許文献２に「ソフトウェアの仕様記述方式」として記載されている。この特許文献２に開示されたソフトウェアの仕様記述方式では、対象システムを抽象化したモデルの構成要素を表現する基本語彙と詳細語彙とを、全体の処理の流れを記述した擬似コード文の中の詳細語彙に対する具体物の代入の様子を記述した代入表によって対応づけ、該対応づけられた基本語彙および詳細語彙を用いて仕様を記述している。また、このソフトウェアの仕様記述方式では、対象システムを抽象化したモデルの構成要素を表現する基本語彙を用いて基本処理記述文を記述し、擬似コード文の中にこの基本処理記述文を用いた仕様の記述を行っている。さらに、このソフトウェアの仕様記述方式は、動詞語彙の意味する処理の引数と格助詞の関係を定義し対応する基本語彙を記入した動詞語彙関連表を作成し、人間の記述した擬似コード文の機械的チェックを実行している。このような構成により、構文の曖昧さや仕様の記述の誤り可能性のある部分をユーザに提示し、修正を促している。
【先行技術文献】
【特許文献】
【０００５】
【特許文献１】特開平０８−２９７６７４号公報
【特許文献２】特開２０００−１３２３８２号公報
【発明の概要】
【発明が解決しようとする課題】
【０００６】
従来技術の第一の課題は、従来技術による曖昧ポイントの提示方法を、情報システム構築の上流工程に用いられる要求関連文書の曖昧さの改善に適用すると、作業者の負荷が高くなってしまうということである。その理由は、情報システム構築の上流工程に用いられる要求関連文書は、人間が精読することが前提であり、相対的に曖昧さの程度が弱いポイントについては人間が判断できる。このため、曖昧ポイントを無差別に指摘し、修正を求めることは、煩雑な作業を増すだけであり、思い込みなどで誤った解釈を行ってしまう危険性の高いポイントのみに限定した提示が必要となるためである。
【０００７】
さらに従来技術の第二の課題は、従来技術による曖昧ポイントの提示方法は、情報システム構築の上流工程に用いられる要求関連文書の曖昧さの改善に適さないということである。その理由は、情報システム構築の上流工程に用いられる要求関連文書は、要求関連文書内で特有な言葉の意味付け・用法が想定されるが、従来技術では汎用的な曖昧さの特徴によって曖昧ポイントの絞り込みが行われており、要求関連文書に特有の評価基準に基づく優先順位を付けが行われていないためである。
【０００８】
本発明の目的は、情報システム構築の上流工程に用いられる要求関連文書の曖昧さを改善する、要求文書分析システム、方法およびプログラムを提供することにある。
【課題を解決するための手段】
【０００９】
本発明に係る要求文書分析システムは、要求文書を分析するシステムであって、対象とする文書の各文に形態素解析および構文解析を適用し、所定の抽出ルールに基づき、単語セットを抽出する単語セット抽出部と；単語セット毎に、所定の基軸設定ルールに基づき、単語セットに含まれる各単語から基軸単語を抽出し、単語セットを基軸単語とそれ以外の単語である周辺単語とに分類する基軸単語抽出部と；単語の意味的分類および同義語、類義語などの意味的情報を蓄積し、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する意味情報を検索し応答する単語類似性データベースと；全単語セットから、同一の基軸単語を持つ単語セット群をまとめ、単語セット群の各周辺単語のそれぞれに対して、上記単語類似性データベースに意味情報を問い合わせ、応答された意味情報に基づき、単語間の類似性を算出する単語類似性算出部と；文書内で同一の基軸単語を持つ単語セット群毎に、周辺単語間の類似性に基づき周辺単語のクラスタリングを実施し、周辺単語を分類する単語分類部と；この単語分類部で実施した分類結果から、文書内で同一の基軸単語を持つ単語セット群毎に、抽出基準によって単語の用法として主流でないクラスタを非主流クラスタとして抽出し、非主流クラスタに属する周辺単語と基軸単語の組み合わせを係り受けミスなどの可能性が想定される曖昧ポイントとして抽出する曖昧ポイント抽出部と；この曖昧ポイント抽出部で文書内の同一の基軸単語を持つ単語セット群毎に抽出した曖昧ポイントを出力する曖昧ポイント出力部と；を備える。
【発明の効果】
【００１０】
本発明の効果は、要求関連文書内で特有な言葉の意味付け・用法が想定される要求文書について誤った解釈を行う可能性の高い曖昧なポイントを簡易に把握し、的確に理解することが可能となり、以降の工程での手戻りなどの削減につなげられることにある。その理由は、曖昧なポイントについて要求関連文書に特有の評価基準に基づき曖昧性の優先順位を付け、絞り込んで提示するためである。
【図面の簡単な説明】
【００１１】
【図１】本発明の第１の実施形態に係る要求文書分析システムの構成を示すブロック図である。
【図２】図１に示した要求文書分析システムの動作を示すシーケンス図である。
【図３】本発明の第２の実施形態に係る要求文書分析システムの構成を示すブロック図である。
【図４】図３に示した要求文書分析システムの動作を示すシーケンス図である。
【図５】本発明の第１の実施例に係る要求文書分析システムの構成を示すブロック図である。
【図６】述語間の類似性Ｆａを算出した結果の一部の例である。
【図７】述語間の類似性Ｆａに基づき作成したデンドログラムＨａの例である。
【図８】デンドログラムＨａから非主流クラスタに属する述語Ｖａｘを抽出する例である。
【図９】本発明の第２の実施例に係る要求文書分析システムの構成を示すブロック図である。
【図１０】単語の汎用度Ｊと適正なクラスタ間距離をマッピングした例である。
【発明を実施するための形態】
【００１２】
［実施形態１］
最初、本発明の第１の実施形態について、図面を参照して詳細に説明する。
【００１３】
図１は、本発明の第１の実施形態に係る要求文書分析システム１００の構成を示すブロック図である。
【００１４】
図１を参照すると、本発明の第１の実施形態に係る要求文書分析システム１００は、基本的に電子機器内もしくはサーバと電子機器およびこれらを相互に接続するインターネット等の情報通信ネットワークからなるシステム内に、少なくとも、単語セット抽出部１０と、基軸単語抽出部２０と、単語類似性算出部３０と、単語類似性データベース１１０と、単語分類部４０と、曖昧ポイント抽出部５０と、曖昧ポイント出力部６０と、を含む。
【００１５】
図示の要求文書分析システム１００は、情報システム構築の上流工程で、顧客から交付される提案依頼書や開発者側から提供する提案書や仕様書などの要求関連文書の要求文書分析システムである。
【００１６】
電子機器で要求文書分析システムを構成する場合、要求文書分析システム１００は、プログラム制御により動作するコンピュータで実現可能である。図示はしないが、この種のコンピュータは、周知のように、データを入力する入力装置と、データ処理装置と、データ処理装置での処理結果を出力する出力装置と、種々のデータベースとして働く補助記憶装置とを備えている。そして、データ処理装置は、プログラムを記憶するリードオンリメモリ（ＲＯＭ）と、データを一時的に記憶するワークエリアとして使用されるランダムアクセスメモリ（ＲＡＭ）と、ＲＯＭに記憶されたプログラムに従って、ＲＡＭに記憶されているデータを処理する中央処理装置（ＣＰＵ）とから構成される。
【００１７】
この場合、データ処理装置が、単語セット抽出部１０、基軸単語抽出部２０、単語類似性算出部３０、単語分類部４０、および曖昧ポイント抽出部５０として働き、補助記憶装置が単語類似性データベース１１０として動作し、出力装置が曖昧ポイント出力部６０として働く。
【００１８】
次に、要求文書分析システム１００を構成する各構成要素の動作について説明する。
【００１９】
単語セット抽出部１０は、対象とする文書もしくは文書群の入力を受け付ける。単語セット抽出部１０は、文書もしくは文書群を構成する全ての文章に形態素解析および構文解析を適用し、所定の抽出ルールに基づき単語セットを抽出する。ここで、「抽出ルール」としては、文を構成する単語間の用法の特徴を反映したルールであればどの様な方法でも良い。例えば、特徴として共起に注目すれば、抽出ルールは、一文などの文書の任意の範囲内で共起する単語の組み合わせを単語セットとして抽出するなどのルールが相当する。また、より単語間の係り受け関係に注目すれば、抽出ルールは、係り受け関係にある単語の組み合わせを単語セットとして抽出するというルールが相当する。
【００２０】
基軸単語抽出部２０は、単語セット毎に、所定の基軸設定ルールに基づき単語セットに含まれる各単語から基軸単語を抽出する。そして、基軸単語抽出部２０は、単語セット内の単語を基軸単語とそれ以外の単語である周辺単語とに分類する。ここで、「基軸設定ルール」としては、文の中心的な単語を取り出すルールであればどのような方法でも良い。例えば、基軸設定ルールとしては、名詞や形容詞、動詞などの単独で意味をなす品詞の内で一般的なＷｅｂや文書などでの使用頻度が文書内で相対的に多い単語を基軸単語とするルールが適用される。或いは、係り受け関係に基づいて抽出された単語セットの場合、基軸設定ルールとしては、係る語や主語を基軸単語とし、係られる語や述語、主語と述語を繋ぐ助詞などを周辺単語とするルールが適用される。
【００２１】
単語類似性データベース１１０は、単語の意味的分類および同義語、類義語などの意味的情報を収集して蓄積し、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する意味情報を検索し応答するデータベースである。単語類似性データベース１１０は、単語の上位/下位関係、部分/全体関係、同義関係、類義関係などによって単語を分類し、体系づけたシソーラスや、一般的なＷｅｂや文書内の文中で各単語と共起する共起語の種類と数を集計した共起語集計表などが相当する。
【００２２】
単語類似性算出部３０は、文書に含まれる全単語セットから、同一の基軸単語を持つ単語セット群をまとめ、単語セット群の各周辺単語のそれぞれに対して、単語類似性データベース１１０に意味情報を問い合わせ、応答された意味情報に基づき、周辺単語間の類似性を算出する。単語類似性データベース１１０がシソーラスである場合、周辺単語間の類似性の算出方法としては、単語同士が共通の概念とされる階層の深さを非類似性の指標とする方法で良い。或いは、周辺単語間の類似性の算出方法としては、共起語集計表から一般的なＷｅｂや文書内の文中で各周辺単語と共起する共起語の種類と数を抽出し、周辺単語間の共起語の重複率などを類似性の指標として利用する方法でも良い。
【００２３】
単語分類部４０は、文書内で同一の基軸単語を持つ単語セット群毎に、周辺単語間の類似性に基づき周辺単語のクラスタリングを実施し、周辺単語を分類する。クラスタリングの手法は一般的な手法で良い。例えば、クラスタリングの手法としては、デンドログラムなどを用いた階層的クラスタリングを適用しても良い。或いは、クラスタリングの手法としては、周辺単語間の類似性と単調減少する指標を距離として導かれる仮想的な周辺単語の位置情報に、ｋ−ｍｅａｎｓ法やＦｕｓｓｙ−ｃ−ｍｅａｎｓ法などの非階層的クラスタリングを適用しても良い。或いは、単語類似性データベース１１０がシソーラスである場合、シソーラスでの周辺単語の帰属する大分類や中分類、小分類のいずれかをそのまま、分類として用いても良い。
【００２４】
曖昧ポイント抽出部５０は、単語分類部４０で実施した分類結果から、文書内で同一の基軸単語を持つ単語セット群毎に、所定の抽出基準によって単語の用法として主流でないクラスタを非主流クラスタとして抽出し、非主流クラスタに属する周辺単語と基軸単語の組み合わせを構文解析などの誤った解釈の可能性が想定される曖昧ポイントとして抽出する。ここで、「抽出基準」は、単語の用法として主流でないクラスタを分別する基準であれば良い。例えば、抽出基準は、周辺単語の帰属数が任意の閾値より少ないクラスタを非主流クラスタとするなど数的基準で抽出する方法であって良い。或いは、抽出基準としては、周辺単語の帰属数が最大のクラスタとクラスタ間の距離が最も遠いもしくは任意の閾値より遠いクラスタを抽出するなどの意味的基準で抽出する方法などが適当である。なお、周辺単語がファジィクラスタリングによって分類された場合は、前記帰属数を帰属度の総和として取り扱う。
【００２５】
曖昧ポイント出力部６０は、曖昧ポイント抽出部５０で文書内の同一の基軸単語を持つ単語セット群毎に抽出した曖昧ポイントを出力する。ここで、出力形態は、文書内における曖昧ポイントを色分けや太字による強調などで明示することで、文書全体を出力する形態などが適当である。他にも、出力形態としては、基軸単語と周辺単語とをリンクで結んだグラフを表示し、曖昧ポイントとされた周辺単語とリンクを色分けするなどの形態であって良い。或いは、出力形態として、基軸単語と、周辺単語のクラスタを代表するキーワードを代表ノードとしてリンクで結び、さらにクラスタに含まれた各周辺単語を従属ノードとして代表ノードと結んだグラフを表示し、曖昧ポイントとされたクラスタ以下の周辺単語とリンクを色分けするなどの形態などでも良い。また、出力形態としては、非主流クラスタを抽出する際に用いた周辺単語の帰属数やそこから導かれる帰属率、もしくはクラスタ間距離などで曖昧ポイントに定量的な曖昧度を付加し、曖昧度が任意に設定された閾値より大きい曖昧ポイントのみに表示を限定しても良い。もしくは、出力形態としては、曖昧ポイントの曖昧度によって色分けや太字による強調もしくはグラフの単語の文字の大きさなどに強弱を与えるなどしても良い。
【００２６】
次に、図１及び図２のシーケンス図を参照して、本発明の第１の実施形態に係る要求文書分析システム１００の全体の動作について詳細に説明する。
【００２７】
単語セット抽出部１０は、対象とする文書の入力を受け付け、文書の各文に形態素解析および構文解析を適用し、所定の抽出ルールに基づき単語セットを抽出する（図２のステップＡ１）。
【００２８】
基軸単語抽出部２０は、単語セット毎に、所定の基軸設定ルールに基づき単語セットに含まれる各単語から基軸単語を抽出し、単語セット内の単語を基軸単語とそれ以外の単語である周辺単語とに分類する（ステップＡ２）。
【００２９】
単語類似性データベース１１０は、単語の意味的分類および同義語、類義語などの意味的情報を収集して蓄積し、特定の単語に関する問い合わせに対し、単語の意味に関連する意味情報を検索し応答する（ステップＡ３）。
【００３０】
単語類似性算出部３０は、全単語セットから、同一の基軸単語を持つ単語セット群をまとめ、単語セット群の各周辺単語のそれぞれに対して、単語類似性データベース１１０に意味情報を問い合わせ、応答された意味情報に基づき、周辺単語間の類似性を算出する（ステップＡ４）。
【００３１】
単語分類部４０は、文書内で同一の基軸単語を持つ単語セット群毎に、周辺単語間の類似性に基づき周辺単語のクラスタリングを実施し、周辺単語を分類する（ステップＡ５）。
【００３２】
曖昧ポイント抽出部５０は、単語分類部４０で実施した分類結果から、文書内で同一の基軸単語を持つ単語セット群毎に、所定の抽出基準によって単語の用法として主流でないクラスタを非主流クラスタとして抽出し、非主流クラスタに属する周辺単語と基軸単語の組み合わせを係り受けミスなどの可能性が想定される曖昧ポイントとして抽出する（ステップＡ６）。
【００３３】
曖昧ポイント出力部６０は、曖昧ポイント抽出部５０で文書内の同一の基軸単語を持つ単語セット群毎に抽出した曖昧ポイントを出力する（ステップＡ７）。
【００３４】
次に、本発明の第１の実施形態に係る要求文書分析システム１００の効果について説明する。
【００３５】
本第１の実施形態では、文書内もしくは文書群内の単語の用法の類似性によって判別された非主流クラスタに基づいて曖昧ポイントを抽出するように構成されているため、対象とする文書もしくは文書群に特有の用法に対して不自然と見なされる用法のポイントを見出すことができ、独自の用法が多い要求文書などの曖昧ポイントを抽出できる。
【００３６】
尚、上記本発明の第１の実施形態に係る要求文書分析システム１００は、要求文書分析方法として実現され得る。また、上記本発明の第１の実施形態に係る要求文書分析システム１００は、要求文書分析プログラムによりコンピュータによって実行させるようにしても良い。
【００３７】
［実施形態２］
次に、本発明の第２の実施形態について、図面を参照して詳細に説明する。
【００３８】
図３は、本発明の第３の実施形態に係る要求文書分析システム１００Ａの構成を示すブロック図である。
【００３９】
図３を参照すると、本発明の第２の実施形態に係る要求文書分析システム１００Ａは、基軸単語汎用度算出部２５を更に含むと共に、後述するように曖昧ポイント抽出部の動作が相違する点を除いて、図１に示した第１の実施形態に係る要求文書分析システム１００と同様の構成を有し、動作をする。したがって、曖昧ポイント抽出部に５０Ａの参照符号を付してある。
【００４０】
図示の要求文書分析システム１００Ａを上述したコンピュータで実現した場合、データ処理装置が、単語セット抽出部１０、基軸単語抽出部２０、基軸単語汎用度算出部２５、単語類似性算出部３０、単語分類部４０、および曖昧ポイント抽出部５０Ａとして働き、補助記憶装置が単語類似性データベース１１０として動作し、出力装置が曖昧ポイント出力部６０として働く。
【００４１】
基軸単語汎用度算出部２５が、基軸単語の汎用度を算出し、曖昧ポイント抽出部５０Ａが、汎用度に基づき周辺単語群の非主流クラスタの抽出基準を変換する。
【００４２】
次に、要求文書分析システム１００Ａを構成する各構成要素の動作について説明する。
【００４３】
基軸単語汎用度算出部２５は、基軸単語抽出部２０で抽出された基軸単語について、一般文書での使用頻度など基軸単語の用例からみた汎用性を表す汎用度を算出する。ここで、「汎用度」は、基軸単語が様々な他の単語と組み合されやすい汎用的な単語なのか、特定の単語との組み合わせしか想定されない特殊な単語なのかを反映する指標であれば良い。汎用度の算出方法としては、一般的な辞書における語彙の種類数や例文の数、書籍やＷｅｂなどに存在する一般的な文書群における出現頻度、およびこれらのいずれか一つもしくは組み合わせで算出される値が適している。
【００４４】
曖昧ポイント抽出部５０Ａは、文書内で同一の基軸単語を持つ単語セット群毎に、基軸単語の汎用度に基づき周辺単語群を主流クラスタと非主流クラスタとに分類する際に設定する閾値を算出し、この閾値に基づく抽出基準を用いる点で、図１に示した曖昧ポイント抽出部５０と異なる。ここで、「閾値」は、基軸単語の汎用性により、基軸単語と組み合される周辺単語の種類数の見込みを変化させるように設定されれば良い。例えば、汎用度の高い基軸単語と組み合された周辺単語群は様々な意味的な組み合わせが想定されうるため、非主流と見なす閾値を高め、汎用度の低い基軸単語と組み合された周辺単語群は様々な意味的な組み合わせが想定しにくいため、非主流と見なす閾値を下げるように、閾値を設定する。閾値の算出方法は、基軸単語の汎用度と単調増加の関係にある関数を任意に設定して算出しても良い。或いは、閾値を、基軸単語の汎用性と、適正なクラスタ間距離の経験的な関係から推算しても良い。
【００４５】
それ以外の単語セット抽出部１０と、基軸単語抽出部２０と、単語類似性算出部３０と、単語類似性データベース１１０と、単語分類部４０と、曖昧ポイント出力部６０の構成と機能は、図１に示した第１の実施形態のそれらとそれぞれ同じであるので、説明を省略する。
【００４６】
次に、図３及び図４のシーケンス図を参照して、本発明の第２の実施形態に係る要求文書分析システム１００Ａの全体の動作について詳細に説明する。
【００４７】
上述した第１の実施形態の動作と比較すると、本第２の実施形態の動作は、次の動作が加わっている点で異なる。
【００４８】
すなわち、基軸単語汎用度算出部２５は、基軸単語抽出部２０で抽出された基軸単語について、一般文書での使用頻度など基軸単語の用例からみた汎用性を表す汎用度を算出する（ステップＢ１）。
【００４９】
さらに曖昧ポイント抽出部５０Ａは、文書内で同一の基軸単語を持つ単語セット群毎に、基軸単語の汎用度に基づき周辺単語群を主流クラスタと非主流クラスタとに分類する際に設定する閾値を算出する（ステップＢ２）。
【００５０】
他のステップの動作は、上述した第１の実施形態における動作と同一であるので、それらの説明については省略する。
【００５１】
次に、本発明の第２の実施形態の効果について説明する。
【００５２】
本第２の実施の形態では、基軸単語の汎用度を算出し、汎用性により、基軸単語と組み合される周辺単語の種類数の見込みを変化させるように構成されているため、より基軸単語の特徴に合った基準で対象とする文書もしくは文書群に特有の用法に対して不自然と見なされる用法のポイントを見出すことができ、独自の用法が多い要求文書などの曖昧ポイントを抽出できる。
【００５３】
尚、上記本発明の第２の実施形態に係る要求文書分析システム１００Ａは、要求文書分析方法として実現され得る。また、上記本発明の第１の実施形態に係る要求文書分析システム１００Ａは、要求文書分析プログラムによりコンピュータによって実行させるようにしても良い。
【実施例１】
【００５４】
次に、図５を参照して、具体的な第１の実施例を用いて、本発明の第１の実施形態に係る要求文書分析システム１００の動作について説明する。
【００５５】
本第１の実施例では、次のことを目的としている。
【００５６】
先ず、要求文書分析システム１００は、情報システム構築の上流工程で、顧客から交付される提案依頼書や、開発者側から提供する提案書などの要求文書Ｄ内の曖昧なポイントＡを抽出する。そして、交付された文書であれば解釈に誤りが無いよう精読、もしくは文書の記載者に正しい解釈を確認するため、要求文書分析システム１００は、提供する文書であれば修正等のための情報として可視化することで、正確な要求獲得と要件定義を行う。
【００５７】
また、本第１の実施例では、要求文書分析システム１００は、図５に示されるように、要求文書解析システムＹと、インターネット・サーバＺとで構成されるものとする。
【００５８】
要求文書解析システムＹは、分析実施者Ｂの持つＰＣ端末上で動作し、入力部及び出力部を介して、分析実施者Ｂが曖昧ポイントを抽出したい文書群を構成する文章の入力と、曖昧ポイントＡの提示を実現する。
【００５９】
インターネット・サーバＺは、通信ネットワークを介して要求文書解析システムＹを実装した分析実施者Ｂの持つＰＣ端末と接続されている。インターネット・サーバＺは、要求文書解析システムＹからの単語と単語間の類似性の問い合わせに対し、意味的に類似性に関する情報の検索を可能にする装置である。
【００６０】
図５と図１との対応関係について説明する。
【００６１】
単語セット抽出部１０と、基軸単語抽出部２０と、単語類似性算出部３０と、単語分類部４０と、曖昧ポイント抽出部５０とは、要求文書解析システムＹ内に含まれている。曖昧ポイント出力部６０は、ＰＣ端末の出力部として動作する。単語類似性データベース１１０はインターネット・サーバＺ内に含まれている。
【００６２】
この様な手段を備えた要求文書解析システムＹ、インターネット・サーバＺは以下のような動作をする。
【００６３】
要求文書解析システムＹは、入力部から、分析実施者Ｂが曖昧ポイントを抽出したい文書Ｄの入力を受け付ける。そして、要求文書解析システムＹは、文書Ｄを構成するｎ個の文書ｉ（ｉ＝１、２、・・・、ｎ）の全ての文章ｉ毎に形態素解析および構文解析を適用し、文章ｉを構成する単語に分解し、各単語の品詞とその係り受け関係を解析することで、主語Ｓｉと述語Ｖｉに相当する単語を抽出し、対応する主語Ｓｉと述語Ｖｉの組み合わせを単語セットＴｉとして抽出する。
【００６４】
なお、重文など、主語Ｓｉａが述語Ｖｉａに係り、主語Ｓｉｂが述語Ｖｉｂに係るといった文章ｉ中に複数種の主語Ｓｉや述語Ｖｉが有る場合、単語セットＴｉは単語セットＴｉａ｛主語Ｓｉａ、述語Ｖｉａ｝、Ｔｉｂ｛主語Ｓｉｂ、述語Ｖｉｂ｝のようにそれぞれ別々に抽出される。また、複文など、主語Ｓｉｃが述語Ｖｉｃと述語Ｖｉｄに係るような場合も、単語セットＴｉは単語セットＴｉｃ｛主語Ｓｉｃ、述語Ｖｉｃ｝、Ｔｉｄ｛主語Ｓｉｃ、述語Ｖｉｄ｝のようにそれぞれ別々に抽出される。
【００６５】
さらに要求文書解析システムＹは、文書Ｄに含まれる全ての単語セットＴｉについて、各主語Ｓｉを基軸として、同一の主語Ｓａである単語セットＴａを集計することで、同一の主語Ｓａと主語Ｓａと組み合されたｍ個の述語Ｖａｊ（ｊ＝＝１、２、・・・、ｍ）をまとめた単語セット群Ｇａ｛Ｓａ、Ｖａｊ｝を抽出する。そして、要求文書解析システムＹは、単語セット群Ｇａの各述語Ｖａｊのそれぞれの意味的な分類についてインターネット・サーバＺに問い合わせを行うことで、インターネット・サーバＺ内に保存されたシソーラスの分類体系から、各述語Ｖａｊが属する意味分類Ｃａｊおよび同義語Ｗｅａｊと類義語Ｗｓａｊとを抽出する。
【００６６】
インターネット・サーバＺは、単語の上位/下位関係、部分/全体関係、同義関係、類義関係などによって単語を分類し、体系づけたシソーラスの情報を蓄積する。また、インターネット・サーバＺは、任意の単語の情報を抽出する検索エンジンなどの機能も提供することで、要求文書解析システムＹからの問い合わせに応じて、問い合わせ対象の単語の分類および同義語と類義語とを抽出し、提示する。
【００６７】
さらに要求文書解析システムＹは、各述語Ｖａｊが属する意味分類Ｃａｊおよび同義語Ｗｅａｊと類義語Ｗｓａｊとに基づき、各述語Ｖａｊ間の類似性Ｆａを算出する。
【００６８】
述語Ｖａｐ（ｊ＝ｐ）と述語Ｖａｑ（ｊ＝ｑ）との類似性Ｆａｐｑの算出方法の例としては、意味分類ＣａｐとＣａｑが同一の分類になる分類階層と分類体系における最も大まかな分類階層までの階層差によって定量化する方法がある。例えば、大分類（１層目）、中分類（２層目）、小分類（３層目）、細分類（４層目）の４階層からなる分類体系を持つシソーラスで意味分類ＣａｐとＣａｑが小分類で一致した場合は、１層目と３層目の差分として「２」が類似性の指標となる。
【００６９】
また、述語Ｖａｐと述語Ｖａｑとの類似性Ｆａｐｑをより定量的に算出する例としては、同義語Ｗｅａｐ、Ｗｅａｑと類義語Ｗｓａｐ、Ｗｓａｑとに基づき、同義語の重複率Ｒｅｐｑ、類義語の重複率Ｒｓｐｑを算出し、別に同義語重み付け係数αｅと類義語重み付け係数αｓを（αｅ＋αｓ＝１、αｅ≧αｓ）任意に設定し、それぞれ重み付けした和（αｅ×Ｒｅｐｑ＋αｓ×Ｒｓｐｑ）によって定量化する方法がある。例として、図６に、単語セット群Ｇａ｛Ｓａ＝「制御システム」、Ｖａ＝「行う」、「実施」、「稼働」、「使う」、「開発」、「構築」、「修正」、「追加」、「加熱」、「・・・」、「・・・」｝として、算出した類似性Ｆａの一部を示した。
【００７０】
さらに要求文書解析システムＹは、単語セット群Ｇａ｛Ｓａ、Ｖａｊ｝毎に、各述語Ｖａｊ間の類似性Ｆａに基づき、類似する各述語Ｖａｊ同士をまとめるクラスタリングを行うことで各述語Ｖａｊを分類し、デンドログラムＨａを作成する。
【００７１】
デンドログラムＨａは、各述語Ｖａｊを初期のクラスタと見なし、類似性Ｆａの逆数を各クラスタ（述語Ｖａｊ）間距離として、最もクラスタ間距離が近いクラスタ同士を新しいクラスタとし、さらに新しい全てのクラスタ間の距離を求め、最も近い２つを結合して新しくクラスタを作るという処理を繰り返し、全てのクラスタが一つのクラスタに結合されるまで繰り返すことで作成する。図７は、図６の類似性Ｆａに基づき、デンドログラムを用いて、クラスタリングして得られたデンドログラムＨａの例を示す。
【００７２】
さらに要求文書解析システムＹは、単語セット群Ｇａ｛Ｓａ、Ｖａｊ｝毎に、デンドログラムＨａにおける各クラスタ間の距離に基づき、述語Ｖａｊのクラスタ間の距離が任意に設定した閾値Ｎより遠い分類となるクラスタ同士で帰属する述語数が多い側を主流クラスタ、帰属する述語数が少ない側を非主流クラスタとして、非主流クラスタに属する述語Ｖａｘを抽出し、主語Ｓａとの組み合わせを曖昧ポイントＡａ｛Ｓａ、Ｖａｘ｝として抽出する。
【００７３】
図７の例でクラスタ間の距離の閾値を５以上とすると、図８の様に「加熱」が属するクラスタとそれ以外の全ての述語が属するクラスタとに分類され、帰属する述語の少ない「加熱」が属するクラスタが非主流クラスタとなるため、Ｖａｘは「加熱」となり、曖昧ポイントＡａ｛Ｓａ＝「制御システム」、Ｖａｘ＝「加熱」｝となる。
【００７４】
さらに要求文書解析システムＹは、主語Ｓａ毎に抽出した曖昧ポイントＡａ｛Ｓａ、Ｖａｘ｝について、要求文書Ｄで該当する曖昧ポイントＡａ｛Ｓａ、Ｖａｘ｝を色分けもしくは太字による強調などの加工を行い、加工後の要求文書Ｄを、出力部から出力する。また曖昧ポイントＡａ｛Ｓａ、Ｖａｘ｝を含む文内に主流クラスタに含まれた述語Ｖａｍが有る場合は、別の係り受け候補として、述語Ｖａｍも色分けもしくは太字による強調などの加工を行っても良い。
【実施例２】
【００７５】
次に、図９を参照して、具体的な第２の実施例を用いて、本発明の第２の実施形態に係る要求文書分析システム１００Ａの動作を説明する。
【００７６】
本第２の実施例では、要求文書分析システム１００Ａは、図９に示されるように、要求文書解析システムＹａと、インターネット・サーバＺとで構成されるものとする。
【００７７】
要求文書解析システムＹａは、分析実施者Ｂの持つＰＣ端末上で動作し、入力部及び出力部を介して、分析実施者Ｂが曖昧ポイントを抽出したい文書群を構成する文章の入力と、曖昧ポイントＡの提示を実現する。
【００７８】
インターネット・サーバＺは、通信ネットワークを介して要求文書解析システムＹａを実装した分析実施者Ｂの持つＰＣ端末と接続されている。インターネット・サーバＺは、要求文書解析システムＹａからの単語と単語間の類似性の問い合わせに対し、意味的に類似性に関する情報の検索を可能にする装置である。
【００７９】
本第２の実施例では、第１の実施例の動作に加え、要求文書解析システムＹａが基軸単語汎用度算出部２５を含む。
【００８０】
すなわち、図９と図３との対応関係は次のように成る。
【００８１】
単語セット抽出部１０と、基軸単語抽出部２０と、基軸単語汎用度算出部２５と、単語類似性算出部３０と、単語分類部４０と、曖昧ポイント抽出部５０とは、要求文書解析システムＹａ内に含まれている。曖昧ポイント出力部６０は、ＰＣ端末の出力部として動作する。単語類似性データベース１１０はインターネット・サーバＺ内に含まれている。
【００８２】
この様な構成を含めた要求文書解析システムＹａは、上述した第１の実施例に対して、以下のような動作を加える。
【００８３】
要求文書解析システムＹａは、基軸単語とした各主語Ｓｉについて、Ｗｅｂ検索を実施し、Ｗｅｂ上で公開されている文書群における各主語Ｓｉの出現頻度を抽出する。また、要求文書解析システムＹａは、国語辞典により各主語Ｓｉの語彙数を算出し、それらを掛け合わせた値を、各主語Ｓｉの汎用性を表す汎用度Ｊｉとして算出する。
【００８４】
さらに、要求文書解析システムＹａは、単語セット群Ｇａ｛Ｓａ、Ｖａｊ｝毎に、主語Ｓａの汎用度Ｊａに基づき、述語Ｖａｊを主流クラスタと非主流クラスタとに分類する際に設定する閾値Ｎａを算出する。
【００８５】
閾値Ｎａの算出方法としては、過去の事例から様々な主語Ｓについて算出された汎用度Ｊおよび述語Ｖの非主流クラスタの分類に用いたクラスタ間距離の適性値を集計し、その集計結果を図１０の様に単語の汎用度Ｊを横軸、適正なクラスタ間距離を縦軸としてマッピングし、単語の汎用度Ｊを説明変数、適正なクラスタ間距離を目的変数とした回帰分析を行い、得られた回帰式に汎用度Ｊａを代入することで得られる適正なクラスタ間距離を閾値Ｎａとする方法が適当である。
【００８６】
以下に、本発明の態様について説明する。
【００８７】
本発明の第１の態様による要求文書分析システムは、要求文書を分析するシステムであって、対象とする文書の各文に形態素解析および構文解析を適用し、所定の抽出ルールに基づき、単語セットを抽出する単語セット抽出部と；単語セット毎に、所定の基軸設定ルールに基づき、単語セットに含まれる各単語から基軸単語を抽出し、単語セットを基軸単語とそれ以外の単語である周辺単語とに分類する基軸単語抽出部と；単語の意味的分類および同義語、類義語などの意味的情報を蓄積し、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する意味情報を検索し応答する単語類似性データベースと；全単語セットから、同一の基軸単語を持つ単語セット群をまとめ、単語セット群の各周辺単語のそれぞれに対して、上記単語類似性データベースに意味情報を問い合わせ、応答された意味情報に基づき、単語間の類似性を算出する単語類似性算出部と；文書内で同一の基軸単語を持つ単語セット群毎に、周辺単語間の類似性に基づき周辺単語のクラスタリングを実施し、周辺単語を分類する単語分類部と；この単語分類部で実施した分類結果から、文書内で同一の基軸単語を持つ単語セット群毎に、抽出基準によって単語の用法として主流でないクラスタを非主流クラスタとして抽出し、非主流クラスタに属する周辺単語と基軸単語の組み合わせを係り受けミスなどの可能性が想定される曖昧ポイントとして抽出する曖昧ポイント抽出部と；曖昧ポイント抽出部で文書内の同一の基軸単語を持つ単語セット群毎に抽出した曖昧ポイントを出力する曖昧ポイント出力部と；を備える。
【００８８】
上記本発明の第１の態様による要求文書分析システムは、上記基軸単語抽出部で抽出された基軸単語について、一般文書での使用頻度など基軸単語の用例からみた汎用性を表す汎用度を算出する基軸単語汎用度算出部を更に備えてよい。この場合、上記曖昧ポイント抽出部は、文書内で同一の基軸単語を持つ単語セット群毎に、基軸単語の汎用度に基づき、周辺単語群を主流クラスタと非主流クラスタとに分類する際に設定する閾値を算出し、この閾値に基づく抽出基準を用いてよい。
【００８９】
上記要求文書分析システムにおいて、上記基軸単語汎用度算出部は、一般的な辞書における語彙の種類数や例文の数、書籍やＷｅｂなどに存在する一般的な文書群における出現頻度、およびこれらのいずれか一つもしくは組み合わせで算出される汎用度を用いてよい。この場合、上記曖昧ポイント抽出部は、周辺単語群を主流クラスタと非主流クラスタとに分類する際に設定する閾値を、基軸単語の汎用性と、適正なクラスタ間距離の実績とに基づく回帰式から算出することが好ましい。
【００９０】
上記要求文書分析システムにおいて、上記基軸単語抽出部は、係る語や主語を基軸単語、係られる語や述語、主語と述語を繋ぐ助詞などを周辺単語とする基軸設定ルールに基づき、基軸単語および周辺単語を抽出してよい。上記単語セット抽出部は、係り受け関係にある単語の組み合わせを単語セットとして抽出してよい。上記単語類似性データベースは、単語の上位/下位関係、部分/全体関係、同義関係、類義関係などによって単語を分類し、体系づけたシソーラスであってよい。上記単語類似性算出部は、一般的なＷｅｂや文書内の文中で各周辺単語と共起する共起語の種類と数を抽出し、周辺単語間の共起語の重複率を類似性の指標として利用してよい。上記曖昧ポイント抽出部は、周辺単語の帰属数が最大のクラスタとクラスタ間の距離が最も遠いもしくは任意の閾値より遠いクラスタを抽出してよい。
【００９１】
上記要求文書分析システムにおいて、上記曖昧ポイント出力部は、周辺単語のクラスタを代表するキーワードを代表ノードとしてリンクで結び、さらにクラスタに含まれた各周辺単語を従属ノードとして代表ノードと結んだグラフを表示し、前記曖昧ポイントとされたクラスタ以下の周辺単語とリンクを色分けしてよい。その代わりに、上記曖昧ポイント出力部は、非主流クラスタを抽出する際に用いた周辺単語の帰属数やそこから導かれる帰属率、もしくはクラスタ間距離などで曖昧ポイントに定量的な曖昧度を付加し、曖昧度が任意に設定された閾値より大きい曖昧ポイントのみに表示を限定する、もしくは曖昧ポイントの曖昧度によって色分けや太字による強調もしくはグラフの単語の文字の大きさなどに強弱を与えてよい。
【００９２】
本発明の第２の態様による要求文書分析方法は、要求文書を分析する方法であって、対象とする文書の各文に形態素解析および構文解析を適用し、所定の抽出ルールに基づき、単語セットを抽出する単語セット抽出ステップと；単語セット毎に、所定の基軸設定ルールに基づき、単語セットに含まれる各単語から基軸単語を抽出し、単語セットを基軸単語とそれ以外の単語である周辺単語とに分類する基軸単語抽出ステップと；単語の意味的分類および同義語、類義語などの意味的情報を蓄積する単語類似性データベースに、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する意味情報を検索させ応答させるステップと；全単語セットから、同一の基軸単語を持つ単語セット群をまとめ、単語セット群の各周辺単語のそれぞれに対して、上記単語類似性データベースに意味情報を問い合わせ、応答された意味情報に基づき、単語間の類似性を算出する単語類似性算出ステップと；文書内で同一の基軸単語を持つ単語セット群毎に、周辺単語間の類似性に基づき周辺単語のクラスタリングを実施し、周辺単語を分類する単語分類ステップと；この単語分類ステップで実施した分類結果から、文書内で同一の基軸単語を持つ単語セット群毎に、抽出基準によって単語の用法として主流でないクラスタを非主流クラスタとして抽出し、非主流クラスタに属する周辺単語と基軸単語の組み合わせを係り受けミスなどの可能性が想定される曖昧ポイントとして抽出する曖昧ポイント抽出ステップと；この曖昧ポイント抽出ステップで文書内の同一の基軸単語を持つ単語セット群毎に抽出した曖昧ポイントを出力する曖昧ポイント出力ステップと；を含む。
【００９３】
上記本発明の第２の態様による要求文書分析方法は、上記基軸単語抽出ステップで抽出された基軸単語について、一般文書での使用頻度など基軸単語の用例からみた汎用性を表す汎用度を算出する基軸単語汎用度算出ステップを更に含んでよい。この場合、上記曖昧ポイント抽出ステップは、文書内で同一の基軸単語を持つ単語セット群毎に、基軸単語の汎用度に基づき、周辺単語群を主流クラスタと非主流クラスタとに分類する際に設定する閾値を算出し、この閾値に基づく抽出基準を用いてよい。
【００９４】
上記要求文書分析方法において、上記基軸単語汎用度算出ステップは、一般的な辞書における語彙の種類数や例文の数、書籍やＷｅｂなどに存在する一般的な文書群における出現頻度、およびこれらのいずれか一つもしくは組み合わせで算出される汎用度を用いてよい。この場合、上記曖昧ポイント抽出ステップは、周辺単語群を主流クラスタと非主流クラスタとに分類する際に設定する閾値を、基軸単語の汎用性と、適正なクラスタ間距離の実績とに基づく回帰式から算出することが好ましい。
【００９５】
上記要求文書分析方法において、上記基軸単語抽出ステップは、係る語や主語を基軸単語、係られる語や述語、主語と述語を繋ぐ助詞などを周辺単語とする前記基軸設定ルールに基づき、基軸単語および周辺単語を抽出してよい。上記単語セット抽出ステップは、係り受け関係にある単語の組み合わせを単語セットとして抽出してよい。上記単語類似性データベースは、単語の上位/下位関係、部分/全体関係、同義関係、類義関係などによって単語を分類し、体系づけたシソーラスであってよい。上記単語類似性算出ステップは、一般的なＷｅｂや文書内の文中で各周辺単語と共起する共起語の種類と数を抽出し、周辺単語間の共起語の重複率を類似性の指標として利用してよい。上記曖昧ポイント抽出ステップは、周辺単語の帰属数が最大のクラスタとクラスタ間の距離が最も遠いもしくは任意の閾値より遠いクラスタを抽出してよい。
【００９６】
上記要求文書分析方法において、上記曖昧ポイント出力ステップは、周辺単語のクラスタを代表するキーワードを代表ノードとしてリンクで結び、さらにクラスタに含まれた各周辺単語を従属ノードとして代表ノードと結んだグラフを表示し、前記曖昧ポイントとされたクラスタ以下の周辺単語とリンクを色分けしてよい。その代わりに、上記曖昧ポイント出力ステップは、非主流クラスタを抽出する際に用いた周辺単語の帰属数やそこから導かれる帰属率、もしくはクラスタ間距離などで曖昧ポイントに定量的な曖昧度を付加し、曖昧度が任意に設定された閾値より大きい曖昧ポイントのみに表示を限定する、もしくは曖昧ポイントの曖昧度によって色分けや太字による強調もしくはグラフの単語の文字の大きさなどに強弱を与えてよい。
【００９７】
上記本発明の第３の態様による要求文書分析プログラムは、コンピュータに要求文書を分析せる要求文書分析プログラムであって、上記コンピュータに、対象とする文書の各文に形態素解析および構文解析を適用し、所定の抽出ルールに基づき、単語セットを抽出する単語セット抽出手順と；単語セット毎に、所定の基軸設定ルールに基づき、単語セットに含まれる各単語から基軸単語を抽出し、単語セットを基軸単語とそれ以外の単語である周辺単語とに分類する基軸単語抽出手順と；単語の意味的分類および同義語、類義語などの意味的情報を蓄積する単語類似性データベースに、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する意味情報を検索させ応答させる手順と；全単語セットから、同一の基軸単語を持つ単語セット群をまとめ、単語セット群の各周辺単語のそれぞれに対して、上記単語類似性データベースに意味情報を問い合わせ、応答された意味情報に基づき、単語間の類似性を算出する単語類似性算出手順と；文書内で同一の基軸単語を持つ単語セット群毎に、周辺単語間の類似性に基づき周辺単語のクラスタリングを実施し、周辺単語を分類する単語分類手順と；この単語分類ステップで実施した分類結果から、文書内で同一の基軸単語を持つ単語セット群毎に、抽出基準によって単語の用法として主流でないクラスタを非主流クラスタとして抽出し、非主流クラスタに属する周辺単語と基軸単語の組み合わせを係り受けミスなどの可能性が想定される曖昧ポイントとして抽出する曖昧ポイント抽出手順と；この曖昧ポイント抽出ステップで文書内の同一の基軸単語を持つ単語セット群毎に抽出した曖昧ポイントを出力する曖昧ポイント出力手順と；を実行させる。
【００９８】
上記本発明の第３の態様による要求文書分析プログラムは、上記コンピュータに、上記基軸単語抽出手順で抽出された基軸単語について、一般文書での使用頻度など基軸単語の用例からみた汎用性を表す汎用度を算出する基軸単語汎用度算出手順を更に実行させてよい。この場合、上記曖昧ポイント抽出手順は、文書内で同一の基軸単語を持つ単語セット群毎に、基軸単語の汎用度に基づき、周辺単語群を主流クラスタと非主流クラスタとに分類する際に設定する閾値を算出し、この閾値に基づく抽出基準を用いてよい。
【００９９】
上記要求文書分析プログラムにおいて、上記基軸単語汎用度算出手順は、一般的な辞書における語彙の種類数や例文の数、書籍やＷｅｂなどに存在する一般的な文書群における出現頻度、およびこれらのいずれか一つもしくは組み合わせで算出される汎用度を用いてよい。この場合、上記曖昧ポイント抽出手順は、周辺単語群を主流クラスタと非主流クラスタとに分類する際に設定する閾値を、基軸単語の汎用性と、適正なクラスタ間距離の実績とに基づく回帰式から算出することが好ましい。
【０１００】
上記要求文書分析プログラムにおいて、上記基軸単語抽出手順は、係る語や主語を基軸単語、係られる語や述語、主語と述語を繋ぐ助詞などを周辺単語とする前記基軸設定ルールに基づき、基軸単語および周辺単語を抽出してよい。上記単語セット抽出手順は、係り受け関係にある単語の組み合わせを単語セットとして抽出してよい。上記単語類似性データベースは、単語の上位/下位関係、部分/全体関係、同義関係、類義関係などによって単語を分類し、体系づけたシソーラスであってよい。上記単語類似性算出手順は、一般的なＷｅｂや文書内の文中で各周辺単語と共起する共起語の種類と数を抽出し、周辺単語間の共起語の重複率を類似性の指標として利用してよい。上記曖昧ポイント抽出手順は、周辺単語の帰属数が最大のクラスタとクラスタ間の距離が最も遠いもしくは任意の閾値より遠いクラスタを抽出してよい。
【０１０１】
上記要求文書分析プログラムにおいて、上記曖昧ポイント出力手順は、周辺単語のクラスタを代表するキーワードを代表ノードとしてリンクで結び、さらにクラスタに含まれた各周辺単語を従属ノードとして代表ノードと結んだグラフを表示し、曖昧ポイントとされたクラスタ以下の周辺単語とリンクを色分けしてよい。その代わりに、上記曖昧ポイント出力手順は、非主流クラスタを抽出する際に用いた周辺単語の帰属数やそこから導かれる帰属率、もしくはクラスタ間距離などで曖昧ポイントに定量的な曖昧度を付加し、曖昧度が任意に設定された閾値より大きい曖昧ポイントのみに表示を限定する、もしくは曖昧ポイントの曖昧度によって色分けや太字による強調もしくはグラフの単語の文字の大きさなどに強弱を与えてよい。
【０１０２】
以上、実施形態（及び実施例）を参照して本発明を説明したが、本発明は上記実施形態（及び実施例）に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
【産業上の利用可能性】
【０１０３】
本発明によれば、ソフトウェアやシステムの開発における要件定義などの作業においてやり取りされる各種文書に関して、文書の曖昧さを除外することで文書の理解・作成・修正を支援することが可能になり、手戻りの減少や顧客満足の向上などシステム開発の効率化に関する用途に適用できる。
【符号の説明】
【０１０４】
１０単語セット抽出部
２０基軸単語抽出部
２５基軸単語汎用度算出部
３０単語類似性算出部
４０単語分類部
５０、５０Ａ曖昧ポイント抽出部
６０曖昧ポイント出力部
１００、１００Ａ要求文書分析システム
１１０単語類似性データベース
Ｄ要求文書
Ａ曖昧ポイント
Ｙ、Ｙａ要求文書解析システム
Ｚインターネット・サーバ

【特許請求の範囲】
【請求項１】
要求文書を分析するシステムであって、
対象とする文書の各文に形態素解析および構文解析を適用し、所定の抽出ルールに基づき、単語セットを抽出する単語セット抽出部と、
前記単語セット毎に、所定の基軸設定ルールに基づき、前記単語セットに含まれる各単語から基軸単語を抽出し、前記単語セットを基軸単語とそれ以外の単語である周辺単語とに分類する基軸単語抽出部と、
単語の意味的分類および同義語、類義語などの意味的情報を蓄積し、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する意味情報を検索し応答する単語類似性データベースと、
全単語セットから、同一の基軸単語を持つ単語セット群をまとめ、前記単語セット群の各周辺単語のそれぞれに対して、前記単語類似性データベースに意味情報を問い合わせ、応答された意味情報に基づき、単語間の類似性を算出する単語類似性算出部と、
文書内で同一の基軸単語を持つ単語セット群毎に、周辺単語間の類似性に基づき周辺単語のクラスタリングを実施し、周辺単語を分類する単語分類部と、
前記単語分類部で実施した分類結果から、文書内で同一の基軸単語を持つ単語セット群毎に、抽出基準によって単語の用法として主流でないクラスタを非主流クラスタとして抽出し、非主流クラスタに属する周辺単語と基軸単語の組み合わせを係り受けミスなどの可能性が想定される曖昧ポイントとして抽出する曖昧ポイント抽出部と、
前記曖昧ポイント抽出部で文書内の同一の基軸単語を持つ単語セット群毎に抽出した曖昧ポイントを出力する曖昧ポイント出力部と、
を備えたことを特徴とする要求文書分析システム。
【請求項２】
前記基軸単語抽出部で抽出された基軸単語について、一般文書での使用頻度など基軸単語の用例からみた汎用性を表す汎用度を算出する基軸単語汎用度算出部を更に備え、
前記曖昧ポイント抽出部が、文書内で同一の基軸単語を持つ単語セット群毎に、基軸単語の汎用度に基づき、周辺単語群を主流クラスタと非主流クラスタとに分類する際に設定する閾値を算出し、この閾値に基づく抽出基準を用いる、ことを特徴とする請求項１に記載の要求文書分析システム。
【請求項３】
前記基軸単語汎用度算出部が、一般的な辞書における語彙の種類数や例文の数、書籍やＷｅｂなどに存在する一般的な文書群における出現頻度、およびこれらのいずれか一つもしくは組み合わせで算出される汎用度を用い、
前記曖昧ポイント抽出部が、周辺単語群を主流クラスタと非主流クラスタとに分類する際に設定する閾値を、基軸単語の汎用性と、適正なクラスタ間距離の実績とに基づく回帰式から算出する、ことを特徴とする請求項２に記載の要求文書分析システム。
【請求項４】
前記基軸単語抽出部が、係る語や主語を基軸単語、係られる語や述語、主語と述語を繋ぐ助詞などを周辺単語とする前記基軸設定ルールに基づき、基軸単語および周辺単語を抽出する、ことを特徴とする請求項１乃至３のいずれか１項に記載の要求文書分析システム。
【請求項５】
前記単語セット抽出部が、係り受け関係にある単語の組み合わせを単語セットとして抽出する、ことを特徴とする請求項１乃至４のいずれか１項に記載の要求文書分析システム。
【請求項６】
前記単語類似性データベースが、単語の上位/下位関係、部分/全体関係、同義関係、類義関係などによって単語を分類し、体系づけたシソーラスである、ことを特徴とする請求項１乃至５のいずれか１項に記載の要求文書分析システム。
【請求項７】
前記単語類似性算出部が、一般的なＷｅｂや文書内の文中で各周辺単語と共起する共起語の種類と数を抽出し、周辺単語間の共起語の重複率を類似性の指標として利用する、ことを特徴とする請求項１乃至６のいずれか１項に記載の要求文書分析システム。
【請求項８】
前記曖昧ポイント抽出部が、周辺単語の帰属数が最大のクラスタとクラスタ間の距離が最も遠いもしくは任意の閾値より遠いクラスタを抽出する、ことを特徴とする請求項１乃至７のいずれか１項に記載の要求文書分析システム。
【請求項９】
前記曖昧ポイント出力部が、周辺単語のクラスタを代表するキーワードを代表ノードとしてリンクで結び、さらにクラスタに含まれた各周辺単語を従属ノードとして代表ノードと結んだグラフを表示し、前記曖昧ポイントとされたクラスタ以下の周辺単語とリンクを色分けする、ことを特徴とする請求項１乃至８のいずれか１項に記載の要求文書分析システム。
【請求項１０】
前記曖昧ポイント出力部が、非主流クラスタを抽出する際に用いた周辺単語の帰属数やそこから導かれる帰属率、もしくはクラスタ間距離などで曖昧ポイントに定量的な曖昧度を付加し、曖昧度が任意に設定された閾値より大きい曖昧ポイントのみに表示を限定する、もしくは曖昧ポイントの曖昧度によって色分けや太字による強調もしくはグラフの単語の文字の大きさなどに強弱を与える、ことを特徴とする請求項１乃至８のいずれか１項に記載の要求文書分析システム。
【請求項１１】
要求文書を分析する方法であって、
対象とする文書の各文に形態素解析および構文解析を適用し、所定の抽出ルールに基づき、単語セットを抽出する単語セット抽出ステップと、
前記単語セット毎に、所定の基軸設定ルールに基づき、前記単語セットに含まれる各単語から基軸単語を抽出し、前記単語セットを基軸単語とそれ以外の単語である周辺単語とに分類する基軸単語抽出ステップと、
単語の意味的分類および同義語、類義語などの意味的情報を蓄積する単語類似性データベースに、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する意味情報を検索させ応答させるステップと、
全単語セットから、同一の基軸単語を持つ単語セット群をまとめ、前記単語セット群の各周辺単語のそれぞれに対して、前記単語類似性データベースに意味情報を問い合わせ、応答された意味情報に基づき、単語間の類似性を算出する単語類似性算出ステップと、
文書内で同一の基軸単語を持つ単語セット群毎に、周辺単語間の類似性に基づき周辺単語のクラスタリングを実施し、周辺単語を分類する単語分類ステップと、
前記単語分類ステップで実施した分類結果から、文書内で同一の基軸単語を持つ単語セット群毎に、抽出基準によって単語の用法として主流でないクラスタを非主流クラスタとして抽出し、非主流クラスタに属する周辺単語と基軸単語の組み合わせを係り受けミスなどの可能性が想定される曖昧ポイントとして抽出する曖昧ポイント抽出ステップと、
前記曖昧ポイント抽出ステップで文書内の同一の基軸単語を持つ単語セット群毎に抽出した曖昧ポイントを出力する曖昧ポイント出力ステップと、
を含むことを特徴とする要求文書分析方法。
【請求項１２】
前記基軸単語抽出ステップで抽出された基軸単語について、一般文書での使用頻度など基軸単語の用例からみた汎用性を表す汎用度を算出する基軸単語汎用度算出ステップを更に含み、
前記曖昧ポイント抽出ステップが、文書内で同一の基軸単語を持つ単語セット群毎に、基軸単語の汎用度に基づき、周辺単語群を主流クラスタと非主流クラスタとに分類する際に設定する閾値を算出し、この閾値に基づく抽出基準を用いる、ことを特徴とする請求項１１に記載の要求文書分析方法。
【請求項１３】
前記基軸単語汎用度算出ステップが、一般的な辞書における語彙の種類数や例文の数、書籍やＷｅｂなどに存在する一般的な文書群における出現頻度、およびこれらのいずれか一つもしくは組み合わせで算出される汎用度を用い、
前記曖昧ポイント抽出ステップが、周辺単語群を主流クラスタと非主流クラスタとに分類する際に設定する閾値を、基軸単語の汎用性と、適正なクラスタ間距離の実績とに基づく回帰式から算出する、ことを特徴とする請求項１２に記載の要求文書分析方法。
【請求項１４】
前記基軸単語抽出ステップが、係る語や主語を基軸単語、係られる語や述語、主語と述語を繋ぐ助詞などを周辺単語とする前記基軸設定ルールに基づき、基軸単語および周辺単語を抽出する、ことを特徴とする請求項１１乃至１３のいずれか１項に記載の要求文書分析方法。
【請求項１５】
前記単語セット抽出ステップが、係り受け関係にある単語の組み合わせを単語セットとして抽出する、ことを特徴とする請求項１１乃至１４のいずれか１項に記載の要求文書分析方法。
【請求項１６】
前記単語類似性データベースが、単語の上位/下位関係、部分/全体関係、同義関係、類義関係などによって単語を分類し、体系づけたシソーラスである、ことを特徴とする請求項１１乃至１５のいずれか１項に記載の要求文書分析方法。
【請求項１７】
前記単語類似性算出ステップが、一般的なＷｅｂや文書内の文中で各周辺単語と共起する共起語の種類と数を抽出し、周辺単語間の共起語の重複率を類似性の指標として利用する、ことを特徴とする請求項１１乃至１６のいずれか１項に記載の要求文書分析方法。
【請求項１８】
前記曖昧ポイント抽出ステップが、周辺単語の帰属数が最大のクラスタとクラスタ間の距離が最も遠いもしくは任意の閾値より遠いクラスタを抽出する、ことを特徴とする請求項１１乃至１７のいずれか１項に記載の要求文書分析方法。
【請求項１９】
前記曖昧ポイント出力ステップが、周辺単語のクラスタを代表するキーワードを代表ノードとしてリンクで結び、さらにクラスタに含まれた各周辺単語を従属ノードとして代表ノードと結んだグラフを表示し、前記曖昧ポイントとされたクラスタ以下の周辺単語とリンクを色分けする、ことを特徴とする請求項１１乃至１８のいずれか１項に記載の要求文書分析方法。
【請求項２０】
前記曖昧ポイント出力ステップが、非主流クラスタを抽出する際に用いた周辺単語の帰属数やそこから導かれる帰属率、もしくはクラスタ間距離などで曖昧ポイントに定量的な曖昧度を付加し、曖昧度が任意に設定された閾値より大きい曖昧ポイントのみに表示を限定する、もしくは曖昧ポイントの曖昧度によって色分けや太字による強調もしくはグラフの単語の文字の大きさなどに強弱を与える、ことを特徴とする請求項１１乃至１８のいずれか１項に記載の要求文書分析方法。
【請求項２１】
コンピュータに要求文書を分析せる要求文書分析プログラムであって、前記コンピュータに、
対象とする文書の各文に形態素解析および構文解析を適用し、所定の抽出ルールに基づき、単語セットを抽出する単語セット抽出手順と、
前記単語セット毎に、所定の基軸設定ルールに基づき、前記単語セットに含まれる各単語から基軸単語を抽出し、前記単語セットを基軸単語とそれ以外の単語である周辺単語とに分類する基軸単語抽出手順と、
単語の意味的分類および同義語、類義語などの意味的情報を蓄積する単語類似性データベースに、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する意味情報を検索させ応答させる手順と、
全単語セットから、同一の基軸単語を持つ単語セット群をまとめ、前記単語セット群の各周辺単語のそれぞれに対して、前記単語類似性データベースに意味情報を問い合わせ、応答された意味情報に基づき、単語間の類似性を算出する単語類似性算出手順と、
文書内で同一の基軸単語を持つ単語セット群毎に、周辺単語間の類似性に基づき周辺単語のクラスタリングを実施し、周辺単語を分類する単語分類手順と、
前記単語分類ステップで実施した分類結果から、文書内で同一の基軸単語を持つ単語セット群毎に、抽出基準によって単語の用法として主流でないクラスタを非主流クラスタとして抽出し、非主流クラスタに属する周辺単語と基軸単語の組み合わせを係り受けミスなどの可能性が想定される曖昧ポイントとして抽出する曖昧ポイント抽出手順と、
前記曖昧ポイント抽出ステップで文書内の同一の基軸単語を持つ単語セット群毎に抽出した曖昧ポイントを出力する曖昧ポイント出力手順と、
を実行させる要求文書分析プログラム。
【請求項２２】
前記コンピュータに、前記基軸単語抽出手順で抽出された基軸単語について、一般文書での使用頻度など基軸単語の用例からみた汎用性を表す汎用度を算出する基軸単語汎用度算出手順を更に実行させ、
前記曖昧ポイント抽出手順が、文書内で同一の基軸単語を持つ単語セット群毎に、基軸単語の汎用度に基づき、周辺単語群を主流クラスタと非主流クラスタとに分類する際に設定する閾値を算出し、この閾値に基づく抽出基準を用いる、ことを特徴とする請求項２１に記載の要求文書分析プログラム。
【請求項２３】
前記基軸単語汎用度算出手順が、一般的な辞書における語彙の種類数や例文の数、書籍やＷｅｂなどに存在する一般的な文書群における出現頻度、およびこれらのいずれか一つもしくは組み合わせで算出される汎用度を用い、
前記曖昧ポイント抽出手順が、周辺単語群を主流クラスタと非主流クラスタとに分類する際に設定する閾値を、基軸単語の汎用性と、適正なクラスタ間距離の実績とに基づく回帰式から算出する、ことを特徴とする請求項２２に記載の要求文書分析プログラム。
【請求項２４】
前記基軸単語抽出手順が、係る語や主語を基軸単語、係られる語や述語、主語と述語を繋ぐ助詞などを周辺単語とする前記基軸設定ルールに基づき、基軸単語および周辺単語を抽出する、ことを特徴とする請求項２１乃至２３のいずれか１項に記載の要求文書分析プログラム。
【請求項２５】
前記単語セット抽出手順が、係り受け関係にある単語の組み合わせを単語セットとして抽出する、ことを特徴とする請求項２１乃至２４のいずれか１項に記載の要求文書分析プログラム。
【請求項２６】
前記単語類似性データベースが、単語の上位/下位関係、部分/全体関係、同義関係、類義関係などによって単語を分類し、体系づけたシソーラスである、ことを特徴とする請求項２１乃至２５のいずれか１項に記載の要求文書分析プログラム。
【請求項２７】
前記単語類似性算出手順が、一般的なＷｅｂや文書内の文中で各周辺単語と共起する共起語の種類と数を抽出し、周辺単語間の共起語の重複率を類似性の指標として利用する、ことを特徴とする請求項２１乃至２６のいずれか１項に記載の要求文書分析プログラム。
【請求項２８】
前記曖昧ポイント抽出手順が、周辺単語の帰属数が最大のクラスタとクラスタ間の距離が最も遠いもしくは任意の閾値より遠いクラスタを抽出する、ことを特徴とする請求項２１乃至２７のいずれか１項に記載の要求文書分析プログラム。
【請求項２９】
前記曖昧ポイント出力手順が、周辺単語のクラスタを代表するキーワードを代表ノードとしてリンクで結び、さらにクラスタに含まれた各周辺単語を従属ノードとして代表ノードと結んだグラフを表示し、前記曖昧ポイントとされたクラスタ以下の周辺単語とリンクを色分けする、ことを特徴とする請求項２１乃至２８のいずれか１項に記載の要求文書分析プログラム。
【請求項３０】
前記曖昧ポイント出力手順が、非主流クラスタを抽出する際に用いた周辺単語の帰属数やそこから導かれる帰属率、もしくはクラスタ間距離などで曖昧ポイントに定量的な曖昧度を付加し、曖昧度が任意に設定された閾値より大きい曖昧ポイントのみに表示を限定する、もしくは曖昧ポイントの曖昧度によって色分けや太字による強調もしくはグラフの単語の文字の大きさなどに強弱を与える、ことを特徴とする請求項２１乃至２８のいずれか１項に記載の要求文書分析プログラム。

【図１】