情報の抽出及びモデリングの方法並びにそのシステム

【課題】文書群から得られる情報をモデル化するシステム及びその方法を開示する。
【解決手段】ツールにより、使用者が、関心の高いコンセプトと、文書群から得られるコンセプト間のリレーションと、を抽出でき、かつ、モデル化できる。このツールは、モデル及び文書群から抽出されたコンセプトがカスタマイズされ、変更され、及び共有され得るように、モデルのデータベースを自動的に構成する。

【発明の詳細な説明】
【技術分野】
【０００１】
本出願は、２００６年５月１７日出願の米国特許出願第１１／４３４，８４７号の優先権を主張する。
【０００２】
本発明は、情報の抽出に関し、より詳しくは、カスタマイズされたツールを用いて、文書群から情報を抽出し、この抽出された情報をモデル化する方法及びそのシステムに関する。
【背景技術】
【０００３】
電子文書作成システム及びインターネットの急速な発展は、あらゆるタイプ（例えば、テキストファイル、ウェブページなど）の文書数の爆発的な増加をもたらしている。Google（登録商標）などのインターネット検索エンジンは、局所的に的を絞った文書群（document sets）を見つけ出す基本的な検索ツールを提供することによって、膨大な文書群を検索するニーズに応えている。例えば、キーワードのブール組み合わせ（Boolean combination）を作成し、これを用いて検索を絞り込むことができる。ここで、キーワードのブール組み合わせとは、キーワード間の関係を指定するための「AND」、「OR」、「NOT］などのブール演算子とキーワードとの組み合わせである。検索を絞り込む先進的な手法は、例えば、全体テキストマッチング（whole text matching）、又は、検索結果を使用者が以前に検索した文書の種類に合わせるユーザプロファイリング（user profiling）を含む。
【発明の概要】
【発明が解決しようとする課題】
【０００４】
検索の高度化にかかわらず、使用者は、例えば、最も関連する文書を特定するために、多くの場合、扱いきれないほどの文書に目を通して、これらの文書を１つずつ検討しなければならない。更に、どれほど検索が高度化しても、利用可能な文書数が現在進行中で目覚しく増加しているため、検索能力の将来の進歩を考慮しても、関連する文書の多量の検索結果を使用者が受信し続けるであろうことは、確実であると思われる。
【０００５】
局所的に的を絞った文書群に関する以下のタスクの全てを一般的な使用者が実行することを支援する直観的で使い易いツールは、現在のところ存在しない。（１）情報の内容について全ての群を分析する。（２）これら分析と使用者自身の専門知識とを用いて、使用者が文書群内のコンセプトの直観的な視覚モデルを作成できるようにする。（３）その後、文書内のそれらコンセプトの抽出及び配置を推進するためにモデルを用いる。（４）使用者が、抽出された情報を収集及び処理できるようにする。（５）使用者が、他の関心が高い関係者と共有するために、モデル、データ、及びレポートを簡便にエクスポートできるようにする。これにより、関係者は、自分のコンピュータにモデル及びデータをアップロードすることができる。（６）これらのステップの全ての簡単で直観的な反復（iteration）を支援する。
【０００６】
技術分野の研究者は、何十万もの電子版研究論文にアクセスすることができる。これは、研究をますます複雑にすると共に、研究をますます加速させる。例えば、米国国立医学図書館は、生物医学研究の分野で１４００万件以上のサイテーションにアクセスできるようにしている。多くの場合、研究者は、多量の文書群又は検索結果に直面したときに、より少量の一層関連がある情報群を取り出すために自分の検索手法で絞り込む必要がある。しかしながら、特に複雑な研究プロジェクトに対して、このような検索タイプは、必要とされる検索テキストの範囲に起因して、その作成及び処理が困難である。更に、この種の反復検索は、非常に時間がかかる可能性がある。加えて、この検索によって取り出された情報を、表示したり、保存したり、又は、複数の使用者で共有したりすることは容易ではない。
【０００７】
例えば、炭疽菌（anthrax）の臨床試験（clinical trial）に関連がある論文についてPubMed（登録商標）検索を実行する研究者は、その検索エンジンに以下の検索語を入力し得る：「clinical trial AND anthrax AND test」。この検索では、１００，０００件以上の文書が返され、一般に、何千ものウェブページにわたって実際の文書へのリンクと共にテキストフラグメントが表示され得る。研究者は、少量の文書を見つけ出すために何千ものウェブページを検索するという大きな困難があるであろうし、また、情報を抽出するために各文書を１つずつ読むという大きな困難もあるであろう。研究者が、より少量で、より関連がある文書群を取り出すために検索を絞り込む場合、研究者は、元の検索に戻り、使用した検索語を変更しなければならない。最終的に、研究者は、２０語以上を含む扱いきれないほどの検索文字列を入力することになるかもしれない。
【０００８】
検索から得られる文書のリストを受信した後、多くの研究者は、何れの文書が実際に自分のニーズと関連するのかを確認するためにリストに目を通すという退屈なタスクを押し付けられる。関連があるように見える文書を開けなければならず、また、文書内に何が記載されているかを確認するために目を通さなければならない。更に、反復検索の結果を他者と共有することが困難である。なぜなら、研究者は、各検索語群のコピー、又は従来の検索ツールを用いて抽出された情報のコピーを簡単に保存することができないからである。その上、文書群は、単一文書内に十分に含まれていない収集情報を含み得るので、使用者は、文書群を、全部読むことが可能な小さなサイズに減らすことを望まない可能性もある。従って、容易に操作、絞り込み、保存、及び共有が可能な情報の持続的モデル（persistent model）を作成するツールが必要とされている。このモデルは、使用者が関心の高いコンセプトを定義することを支援する直観的で視覚的な補助を提供すると共に、このコンセプトの抽出を開始するため、又は、抽出された情報を分析、収集、及び出力するために、コンセプトと関連するエクストラクタ（extractor）を決定することを支援する直観的で視覚的な補助を提供する。
【０００９】
情報を抽出することは、自然言語フォーマットである原文から情報を取り出すことである。既存の使用可能な抽出用デスクトップアプリケーションは、抜粋又は要約などの専用のタスクを実行するが、その実用性が限定的であり、使用者に設定の柔軟性を提供するものではない。典型的な重量級の又は企業スケールの抽出システムでは、専門家により、文書の種類から情報を抜粋、要約、及び表示するためにカスタマイズされた機能を設計することが可能である。訓練を受けた専門家は、例えば、表示用のテーブルフォーマットにテキストフラグメントを配置するエクストラクタを作成することができ、また、システムの一般的な使用者が要求した様々なマルチコンポーネントのコンセプトを表現するテンプレートを補うことができる。既存の使用可能なツールは、訓練用文書と類似する多量の文書群のカテゴリー化に用いられるコンセプト分類（concept taxonomy）を定義するために、特別に用意された訓練用文書群を必要とすることがある。また、既存のツールは、所定のカテゴリー（例えば、個人名、企業名、地名）に属するエンティティをロケート（locate）して強調表示することができ、また、特定のテキストパターンを識別するエクストラクタを専門家が決定することを許容する。
【００１０】
InXight社製のFactFinder（登録商標）エディタ（www.inxight.com）のような既存の企業スケール抽出システムの１つの欠点としては、一般的な使用者、すなわち、システムをカスタマイズするための特別な訓練を受けていない人が、サブジェクト（主部）について個人のメンタルモデルを反映する持続的な又は移動可能（ポータブル）な情報モデルを作成できないという点がある。幾つかの市販ツールの他の欠点としては、テキスト内の特定情報をロケートし、それを強調表示することはできるが、強調表示された情報は、多くの場合、扱いにくいフォーマットで表示されてしまうという点がある。例えば、使用者が６，０００件の文書について抽出を開始する場合に、抽出ツールは、使用者が要求したコンセプトを強調表示又はカラー化して６，０００件の文書を表示する。この場合、たとえコンセプトがテキストにおいて強調表示されたとしても、典型的な使用者にとって多量の文書は依然として扱いにくい。また、既存の企業スケールシステムの他の欠点としては、システムを作動させるために訓練された専門家を必要とするので、人材の獲得及び管理に費用がかかるという点もある。このような抽出システムは、非常に高価であるので、同種の情報に関心の高い同様の使用者の大集団（例えば、情報分析者のグループ）のみでしか用いられない。
【００１１】
従って、例えば、特定のキーワードを用いたインターネット検索により作成された文書群など、局所的に的を絞った文書群に含まれる情報を、使用者がモデル化、抽出及び収集できる軽量なツールが求められている。また、２人がサブジェクトエリアの同じメンタルモデルを有しているわけではないので、使用者が、情報の個人モデルを設計でき、文書から情報を反復的に抽出でき、それを分析でき、及び、使用者自身の情報の概念化及び組織化を反映するような方法で抽出情報を表示できるツールが求められている。
【課題を解決するための手段】
【００１２】
本発明のある態様では、情報のモデルを作成する方法であって、文書群を準備すること、使用者にとって関心の高い複数のコンセプトを受信すること、コンセプトのモデルであって、モデルの視覚化に用いられる各グラフィック要素は、自動的に又は使用者により割り当てられる１以上のエクストラクタを有するモデルを作成すること、及び、モデルに応じて文書群から情報を抽出すること、を含んで構成される方法を提供する。
【００１３】
本発明の他の態様では、文書群から得られる情報をモデル化する方法であって、使用者にとって関心の高い複数のコンセプトを受信すること、複数のコンセプトの表現を含むモデルであって、モデル内の複数のコンセプトのうちの第１のコンセプトの表現がエクストラクタに対応するモデルを作成すること、及び、第１のコンセプトの表現の使用者選択に基づき、対応するエクストラクタを用いて、第１のコンセプトに関連する情報を文書群から抽出すること、を含んで構成される方法を提供する。
【００１４】
本発明の他の態様では、文書群から得られる情報をモデル化する方法であって、使用者にとって関心の高い複数のコンセプトを受信すること、複数のコンセプトの表現を含むモデルであって、モデル内の複数のコンセプトのうちの第１のコンセプトの表現がエクストラクタに対応するモデルを作成すること、第１のコンセプトの表現の使用者選択に基づき、対応するエクストラクタを用いて、第１のコンセプトに関連する情報を文書群から抽出すること、及び、抽出された情報に応答する使用者の入力に基づいて、モデルをカスタマイズすること、を含んで構成される方法を提供する。
【００１５】
本発明の他の態様では、文書群から得られる情報をモデル化する方法であって、使用者にとって関心の高い複数のコンセプトを受信すること、複数のコンセプトの表現を含むモデルであって、モデル内の複数のコンセプトのうちの第１のコンセプトの表現がエクストラクタに対応するモデルを作成すること、第１のコンセプトの表現の使用者選択に基づき、対応するエクストラクタを用いて、第１のコンセプトに関連する情報を文書群から抽出すること、抽出された情報に応答する使用者の入力に基づいて、モデルをカスタマイズすること、及び、カスタマイズされたモデルをエクスポートすること、を含んで構成される方法を提供する。
【００１６】
本発明の他の態様では、情報のモデルを作成する方法であって、文書群を準備すること、使用者にとって関心の高い複数のコンセプトを受信すること、コンセプトのモデルであって、モデルの視覚化に用いられる各グラフィック要素は、自動的に又は使用者により割り当てられる１以上のエクストラクタを有するモデルを作成すること、モデルに応じて文書群から情報を抽出すること、及び、抽出された情報を解釈、操作、及び分析する手段を用いて使用者に提供すること、を含んで構成される方法を提供する。
【００１７】
本発明の他の態様では、文書群に含まれる情報のモデルを作成する方法であって、使用者にとって関心の高い複数のコンセプトを受信すること、複数のコンセプトの表現を含むモデルであって、モデル内の複数のコンセプトのうちの第１のコンセプトの表現がエクストラクタに対応するモデルを作成すること、第１のコンセプトの表現の使用者選択に基づき、対応するエクストラクタを用いて、第１のコンセプトに関連する情報を文書群から抽出すること、及び、抽出された情報を使用者に対して表示すること、を含んで構成される方法を提供する。
【００１８】
本発明の他の態様では、文書群から得られる情報をモデル化するシステムであって、文書群から得られる情報をモデル化するシステムであって、使用者にとって関心の高い複数のコンセプトを受信するように構成される受信コンポーネントと、複数のコンセプトの表現を含むモデルであって、モデル内の複数のコンセプトのうちの第１のコンセプトの表現がエクストラクタに対応するモデルを作成するように構成されるモデリングコンポーネントと、第１のコンセプトの表現の使用者選択に基づき、対応するエクストラクタを用いて、第１のコンセプトに関連する情報を文書群から抽出するように構成される抽出コンポーネントと、を含んで構成されるシステムを提供する。
【００１９】
本発明の他の態様では、文書群から得られる情報をモデル化するシステムであって、使用者にとって関心の高い複数のコンセプトを受信する手段と、複数のコンセプトの表現を含むモデルであって、モデル内の複数のコンセプトのうちの第１のコンセプトの表現がエクストラクタに対応するモデルを作成する手段と、第１のコンセプトの表現の使用者選択に基づき、対応するエクストラクタを用いて、第１のコンセプトに関連する情報を文書群から抽出する手段と、を含んで構成されるシステムを提供する。
【００２０】
本発明の他の態様では、文書群から得られる情報をモデル化する方法を実行する命令を含むコンピュータ可読の媒体（meduim）であって、この方法は、使用者にとって関心の高い複数のコンセプトを受信すること、複数のコンセプトの表現を含むモデルであって、モデル内の複数のコンセプトのうちの第１のコンセプトの表現がエクストラクタに対応するモデルを作成すること、及び、第１のコンセプトの表現の使用者選択に基づき、対応するエクストラクタを用いて、第１のコンセプトに関連する情報を文書群から抽出すること、を含んで構成される、媒体を提供する。
【００２１】
本発明の更なる目的及び効果は、以下の記載で一部が説明され、この一部の記載から本発明の更なる目的及び効果が明らかになるか、又は本発明の実施により確認することができる。本発明の目的及び効果は、添付の特許請求の範囲にて特に指摘した構成要素及び組み合わせによって実現及び達成されるであろう。
【００２２】
上述した概略的な記載及び以下の詳細な記載は、単なる例示上及び説明上の記載であり、本発明の特許請求の範囲を限定するものではないことを理解するべきである。
【００２３】
本明細書の一部に組み込まれて構成される添付図面は、本発明の幾つかの実施形態を示し、その記載と共に本発明の原理を説明するために用いられる。
【図面の簡単な説明】
【００２４】
【図１Ａ】本発明の一実施形態に従う典型的な情報の抽出及びモデリングシステムの構成図
【図１Ｂ】本発明の一実施形態に従う典型的なコンピュータシステムを示す図
【図２】本発明の一実施形態に従って、情報を抽出及びモデル化するシステムにより実行される典型的なステップを示すフローチャート
【図３】本発明の一実施形態に従って、原テキストを作成するシステムにより実行される典型的なステップを示すフローチャート
【図４】本発明の一実施形態に従って、原テキストを分析するシステムにより実行される典型的なステップを示すフローチャート
【図５】本発明の一実施形態に従って、情報を抽出及びモデル化するシステムにより実行される典型的なステップを示すフローチャート
【図６】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図７】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図８】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図９】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図１０】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図１１】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図１２】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図１３】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図１４】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図１５】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図１６】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図１７】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図１８Ａ】本発明の一実施形態に従う典型的なコンセプトテーブル及び文書分析テーブルを示す図
【図１８Ｂ】本発明の一実施形態に従う典型的なコンセプトテーブル及び文書分析テーブルを示す図
【図１８Ｃ】本発明の一実施形態に従う典型的なコンセプトテーブル及び文書分析テーブルを示す図
【図１９】本発明の一実施形態に従う典型的なコンセプトテーブル及び文書分析テーブルを示す図
【図２０】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図２１】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図２２】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図２３】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図２４】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図２５】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図２６】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図２７】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図２８】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図２９】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図３０】本発明の一実施形態に従って、モデルを共有するシステムにより実行される典型的なステップを示すフローチャート
【発明を実施するための形態】
【００２５】
添付された図面を参照して、本発明の例示的な実施形態を詳述する。可能な限り、同一の参照番号は、同一又は類似の要素と関連するように図面の全体を通して用いられる。
【００２６】
本発明の特定の実施形態に従うシステム及びその方法は、文書群から得られる情報をモデル化及び抽出するためのカスタマイズされたツールを提供する。このツールは、使用者が検索を望む情報の固有モデルを作成することを可能にするグラフィカルユーザインターフェースを含むことができる。使用者がモデルを作成して操作するときに、ツールはデータ抽出に備えて多くの自動タスクを実行する。モデルが作成されると、使用者は、抽出を開始し、結果を表示し、及び、次のデータ抽出の品質を向上させるためにモデルを改良することができる。
【００２７】
使用者固有の思考プロセスを反映するモデルを開発するために、ツールは、様々なグラフィック表示を用いて、主要コンセプト及びデータ間の関係を使用者に入力するように指示することができる。例えば、使用者は、エンティティ関係図を用いて主要コンセプト及びそれらの接続を確認することを好むであろう。使用者は、エンティティノードとして表示される重要なコンセプトを入力するように指示され得る。この後、使用者は、ノード間のリレーション矢印（relation arrows）を用いてコンセプトを連結するように指示され得る。他の実施形態では、使用者は、テキストフラグメントのリストを入力することを選択し、関連性の高いものから低いものへと順にテキストフラグメントを並べることができる。
【００２８】
使用者がモデルを作成して操作するときに、ツールは、使用者にとって関心の高いコンセプトを求めて文書群を検索するエクストラクタ（extractor）を自動的に生成する。エクストラクタには、単語頻度ベクトル（word frequency vector）、ヒューリスティックテキストサマリー（heuristic text summaries）、構造頻度（construct frequencies）、エンティティ−リレーション（entity-relations）など、多くの異なるタイプの検索ツールを組み込むことができる。また、ツールは、抽出されるコンセプトが便利かつ有意義な方法により保存されるであろう場所を準備するために使用者がモデルを作成している間に、データベースを自動的に構成する。
【００２９】
図１Ａは、本発明の一実施形態に従う典型的な情報の抽出及びモデリングシステムの構成図である。一実施形態では、図１Ａに示すように、１以上のコンピュータ（例えば、ユーザステーション１０２）及び少なくとも１つの情報ソース１０６は、ネットワーククラウド１０４で表現されるネットワーク構成で接続される。ネットワーク１０４は、インターネット、ワイドエリアネットワーク、ローカルエリアネットワークであってもよく、又は、ユーザステーション１０２と情報記憶装置との間で情報を伝達するためのあらゆる他の伝達路（conduit）でもあってもよい。尚、２つのユーザステーション１０２を用いるのは、単なる説明のためのみであり、特定数のユーザステーションを用いることに本発明を限定するものではない。同様に、本発明に従って、任意数の情報ソース１０６を用いることができる。
【００３０】
情報ソース１０６は、検索エンジン、ウェブページ、データベース（例えば、米国国立医学図書館のPubMed（登録商標）又はMEDLINE（登録商標）データベース）、又はその他の情報である。文書群１１６は、テキスト群、要約、ウェブページ、イメージ、レポート、レポートの抜粋、コンピュータファイル、又は情報を提供するために用いられる任意の他のソースである。文書群１１６は、使用者により作成されることが可能であり、使用者は、ツール１２２を用いて、文書を追加し、文書群１１６から文書又はその文書の一部を削除することができる。原テキスト（raw text）１１８は、ＰＯＳタガー１２４への入力に適したテキストフォーマット又はその他のフォーマットの文書群１１６から得られる情報を含む、文書群１１６の一種である。ＰＯＳタグ付けされたテキスト１１９は、処理され、かつ、品詞でタグ付けされた、原テキスト１１８の一種である。モデル１２０は、構造化され、かつ、コンピュータで保存可能な情報の表現である。この情報は、例えば、文書群１１６内に見られる物、コンセプト、動作、リレーションなどである。モデル１２０は、図１１に関連して以下に詳述するディスプレイのようなユーザインターフェースディスプレイを介して、使用者に伝達される。ツール１２２は、図１Ｂに関連して以下に詳述するコンピュータシステムで作動可能なソフトウェアアプリケーションである。
【００３１】
ＰＯＳタガー１２４は、文書内の品詞（ＰＯＳ）（例えば、動詞、名詞など）に対応する単語にマーク付けをするソフトウェアアプリケーションであり、当該技術分野において周知である。語彙モジュール１２６は、文書群１１６内に見られる単語、コンセプト、又は、句（フレーズ）の辞書を提供するソフトウェアアプリケーションであり、当該技術分野において周知である。文書分析テーブル１２８は、品詞、コンセプト、リレーションなどの文書群１１６に関するデータを保存するデータベーステーブル又はその他のデータ構造である。文書分析モデル１２８は、初期のモデル１２０を自動で作成するためにツール１２２により用いられ、又は、モデル１２０を手動で変更するために使用者により用いられる。文書分析テーブル１２８については、図１８Ａ〜図１８Ｃに関連して以下に詳述する。コンセプトテーブル１２９は、文書群１１６から抽出されたコンセプトを保存するデータベーステーブル又はその他のデータ構造であり、図１９に関連して以下に詳述する。
【００３２】
図１Ｂは、本発明の実施形態に従う典型的なコンピュータシステム１５０を示している。システム１５０は、中央処理装置（ＣＰＵ）１６０、メモリ１７０、入出力（Ｉ／Ｏ）装置１８０、データベース１９０など、多くの構成要素を含み、様々な方法で実装され得る。例えば、統合プラットフォーム（例えば、ワークステーション、パーソナルコンピュータ、ラップトップなど）は、ＣＰＵ１６０と、メモリ１７０と、Ｉ／Ｏ装置１８０と、を含んで構成される。このような構成において、構成要素１６０、１７０及び１８０は、ローカルバスインターフェースで接続することができる。データベース１９０（独立したデータベースシステムとして実装されたデータベース）へのアクセスは、直接通信リンク、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、及びその他の適切な接続方式の少なくとも１つを用いることにより促進され得る。システム１５０は、本発明に従って、処理及び操作を行うために複数の類似システムをネットワーク化する、大規模な情報抽出及びモデリングシステムの一部であってもよい。当業者であれば、システム１５０には多くの代替の構成があり得ることを認識するであろう。
【００３３】
ＣＰＵ１６０は、Intel（登録商標）社製のPentium（登録商標）系のマイクロプロセッサのような、１以上の周知の処理装置であってもよい。メモリ１７０は、本発明の実施形態に関する特定の機能を果たすためにＣＰＵ１６０で用いる情報を保存するように構成された１以上の記憶装置である。メモリ１７０は、磁気記憶装置、半導体記憶装置、テープ記憶装置、光学式記憶装置、又はその他のタイプの記憶装置であり得る。本発明に従う一実施形態において、メモリ１７０は、１以上のプログラム１７５を含んでおり、このプログラムは、ＣＰＵ１６０で実行されるときに、本発明に従う処理及び操作を行う。例えば、メモリ１７０は、文書をアクセプト及び処理するプログラム１７５を含むことができ、原テキスト分析用のプログラム１７５を含むことができ、モデリング用のプログラム１７５を含むことができ、情報抽出用のプログラム１７５を含むことができる。
【００３４】
本発明の実施形態に従う方法、システム、及び、製造品は、専用のタスクを行うように構成されたプログラム又はコンピュータに限定されるものではない。例えば、メモリ１７０は、ＣＰＵ１６０で実行されるときに複数の機能を果たすプログラム１７５又はツール１２２を含んで構成されてもよい。すなわち、メモリ１７０は、抽出機能、テキスト分析機能、ＰＯＳタグ付け機能、図示機能、コンセプトデータ及びリレーションデータのテーブルを保持するデータベース機能のようなその他の機能を果たす１以上のプログラム１７５を含んでもよい。また、ＣＰＵ１６０は、システム１５０から遠隔設置された１以上のプログラムを実行してもよい。例えば、システム１５０は、実行のときに本発明の実施形態に関する機能を果たす１以上の遠隔（リモート）プログラムにアクセスしてもよい。
【００３５】
メモリ１７０は、ＣＰＵ１６０で実行されるときに当該技術分野で周知の複数の機能を果たすオペレーティングシステム（図示せず）を含んで構成されてもよい。例えば、オペレーティングシステムは、Microsoft Windows（登録商標）、Unix（登録商標）、Linux（登録商標）、アップルコンピュータオペレーティングシステム、携帯情報端末（Personal Digital Assistant）オペレーティングシステム（例えば、Microsoft CE（登録商標）、又は、その他のオペレーティングシステム）であってもよい。オペレーティングシステムの選択及びその使用は、決定的ではない。
【００３６】
１以上のＩ／Ｏ装置１８０は、システム１５０によってデータの受信及び送信の少なくとも一方を可能にする１以上の入出力装置を含んで構成され得る。例えば、Ｉ／Ｏ装置１８０は、キーボード、タッチスクリーン、マウス、スキャナ、通信ポートなど、使用者からのデータ入力を可能にする１以上の入力装置を含むことができる。更に、Ｉ／Ｏ装置１８０は、ディスプレイスクリーン、ＣＲＴモニタ、ＬＣＤモニタ、プラズマディスプレイ、プリンタ、スピーカー装置、通信ポートなど、使用者へのデータ出力又はデータ表示を可能にする１以上の出力装置を含むことができる。Ｉ／Ｏ装置に組み込まれる入力装置及び出力装置の少なくとも一方の構成及び数は、決定的ではない。
【００３７】
データベース１９０は、情報を保存し、かつ、システム１５０を介してアクセス及び管理の少なくとも一方が行われる１以上のデータベースを含んで構成され得る。例えば、データベース１９０は、Oracle（登録商標）データベース、Sybase（登録商標）データベース、又はその他のリレーショナルデータベースであってもよい。また、データベース１９０は、システムの一部であってもよい。尚、本発明のシステム及びその方法では、実際の任意のソース（例えば、インターネット及びその他の整理されたデータ群）からデータを得られるので、分離されたデータベースに限定されず、更には、データベースの使用に限定されない。
【００３８】
文書群１１６は、情報ソース１０６から作成されることができ、ユーザステーション１０２で保存されることができる。文書群１１６は、ネットワークアクセスが可能な装置で、又は、その他のコンピュータで、局所的に保存されてもよい。以下に詳述するように、ＰＯＳタガー１２４、語彙モジュール１２６、及びツール１２２を用いて、使用者は、文書群１１６から情報を取り出す１以上の持続的で移動可能なモデル１２０を作成することができる。
【００３９】
図２は、本発明の一実施形態に従って、情報を抽出及びモデル化するシステムにより実行される典型的なステップを示すフローチャートである。使用者は、原テキスト１１８を作成するために、文書群１１６に対する第１の適用フィルタによってモデル１２０を作成することができる（ステップ２１０）。原テキストを作成するために文書群１１６にフィルタを適用する処理については、図３に関連して以下に詳述する。次に、ツール１２２は、文書分析テーブル１２８及びＰＯＳタグ付けされた文書１１９を作成するために、例えば、当該技術分野で周知の語彙モジュール１２６及びＰＯＳタガー１２４を用いて、原テキスト１１８を分析することができる（ステップ２２０）。一実施形態において、カスタマイズされた語彙モジュール１２６及びＰＯＳタガー１２４は、タグ付け及び語彙分析を目的として原テキスト１１８に適用され得る。原テキスト分析処理については、図４に関連して以下に詳述する。次に、図５に関連して以下に詳述する抽出処理（ステップ２３０）では、モデル１２０を作成するために文書分析テーブル１２８を用いる。
【００４０】
図３は、本発明の一実施形態に従って、原テキスト１１８を作成するシステムにより実行される典型的なステップを示すフローチャートである。図３に示すように、まず、使用者は、フィルタを適用する文書群１１６を選択することができる（ステップ３１０）。一実施形態において、使用者は、例えば、ユーザインターフェースを用いて、ユーザステーション１０２に保存された複数の文書群のリストから文書群１１６を選択することができる。他の実施形態において、使用者は、インターネットから文書群１１６をダウンロードし、又は、別の使用者から文書群１１６を受信することができる。更に、他の実施形態において、ツール１２２は、文書群１１６を自動的に選択することができる。
【００４１】
次に、ツール１２２は、何れのフィルタを文書群１１６に適用するのかを決定することができる。一実施形態において、使用者は、例えば、ツール１２２に表示されたフィルタのリスト又はインターネット上からフィルタを選択することができる。他の実施形態において、ツール１２２は、文書群１１６内の情報のフォーマット又はタイプに基づいて適切なフィルタを自動的に決定することができる。例えば、文書群１１６内の文書がＰＤＦフォーマットである場合は、ツール１２２は、文書群１１６内のＰＤＦ文書から原テキストを作成するために、当該技術分野で周知の適切なＰＤＦフィルタを適用することができる。他の例では、文書群１１６がＨＴＭＬフォーマットである場合は、ツール１２２は、文書群１１６から原テキストを作成するために、当該技術分野で周知の適切なフィルタを適用することができる。次に、選択されたフィルタが、原テキスト１１８を作成するために適用され（ステップ３３０）、原テキスト１１８は、例えば、ユーザステーション１０２のメモリ１７０に局所的に保存され得る（ステップ３４０）。特定の実施形態では、原テキスト１１８は、ネットワーク１０４を介してアクセス可能なリモートロケーションに保存され得る。
【００４２】
図４は、タグ付け及び語彙分析のための典型的な処理を示している。一実施形態において、使用者は、原テキスト１１８に対して語彙分析を実行するために、何れの語彙モジュール１２６を用いるかを決定することができる（ステップ４１０）。他の実施形態において、ツール１２２は、何れの語彙モジュール１２６を用いるかを自動的に決定することができる。例えば、ツール１２２は、原テキスト１１８がスポーツに関する情報を含むことを決定するために、原テキスト１１８を分析することができる。このため、ツール１２２は、原テキスト１１８に適用するスポーツに関する語彙モジュールを選択することができる。当業者であれば、語彙モジュール１２６の選択について多くの他の手段及び方法が存在することを理解するであろう。
【００４３】
ツール１２２が、選択した語彙モジュール１２６及びＰＯＳタガー１２４を原テキスト１１８に適用することで、ＰＯＳタグ付け及び語彙分析が実行され得る（ステップ４２０）。ＰＯＳタグ付けは、原テキスト１１８内の語、句、節、及びその他の文法構造を、これらに対応する品詞（例えば、名詞、動詞など）を用いて識別する。ＰＯＳタガー１２４は、使用者により選択され、又は、ツール１２２により自動的に決定され得る。
【００４４】
語彙分析の間（ステップ４２０）、ツール１２２は様々な方法で原テキスト１１８を分析することができる。例えば、ツール１２２は、原テキスト１１８内で頻繁に出現するｎ−グラム（n-grams）（すなわち、任意の文字又は単語の列におけるｎ個の要素の部分列）を特定することができ、一実施形態では、重複を除去するために、頻繁に出現するｎ−グラムをフィルタにかけることができる。他の例では、ツール１２２は、例えば、テキストの格（textual case）、名詞の個数、及び、下位語、類義語、頭字語を考慮に入れて、頻繁に出現する名詞を決定することができる。また、ツール１２２は、頻繁に出現する名詞を含む限定名詞句を見つけ出すと共に、動詞の変化、上位語、慣用句、及びトロポニム（troponym）を考慮に入れて、頻繁に出現する動詞構造を見つけ出すことができる。また、ツール１２２は、原テキスト１１８の名詞−前置詞構造を決定することができる。
【００４５】
原テキストの分析が完了した後、ツール１２２は、文書分析テーブル１２８に文書分析の結果を保存することができ（ステップ４３０）、抽出処理で用いられるコンセプトテーブル１２９にコンセプトを自動的に保存することができる（ステップ４３５）。この詳細は、図５〜図１９に関連して以下で説明する。また、一実施形態において、ツール１２２は、ＰＯＳタグ付けされた文書１１９を作成することを目的として、語彙分析により識別された品詞、その他の文法構造、又はエンティティが原テキスト（図示せず）内で出現する箇所を示すために、原テキスト１１８にマーク付けをすることができる。最後に、ツール１１２は、使用者に対して原テキスト分析の結果を表示することができる（ステップ４４０）。
【００４６】
図５は、使用者が、図４に関連して説明した処理により作成された原テキスト分析（ステップ５１０）にアクセスしたとき、及び、新規に作成されたモデル１２０又は既存のモデル１２０にアクセスしたとき、に開始される典型的な抽出処理を示している。次に、ツール１２２は、使用者によるコンセプトの選択及び定義付けを受信することができる（ステップ５２０）。この詳細は、図１１〜図１７に関連して以下で説明する。ステップ５２０で定義付けされたコンセプトが新規のデータベース１２９を必要とする場合、ツール１２２は、データベースを適宜変更する。使用者は、抽出されるコンセプトをコンセプトテーブル１２９に保存するための抽出を開始することができる（ステップ５３０）。ツール１２２は、使用者によって指示されたコンセプトを含めるためにＰＯＳタグ付けされた文書にマーク付けをする（ステップ５３５）。次に、ツール１２２は、抽出された情報及びマーク付けされたテキストを表示すると共に、例えば、図１１に関連して後述するユーザインターフェイディスプレイを用いて、モデル１２０を使用者に表示する（ステップ５５０）。使用者が絞り込みを要求する場合（ステップ５６０）、処理をループバックして継続することができる。
【００４７】
ステップ５１０：使用者に対する原テキスト分析の表示
【００４８】
図４に関連して上述した原テキスト分析を完了した後、ツール１２２は、使用者に対して原テキスト分析の結果を表示することができる（ステップ５１０）。図６は、本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示している。ツール１２２は、図６に示すようなメニュー６００を表示することができ、これにより、文書群１１６の情報内容の概要及び原テキスト分析を使用者に提供することができる。
【００４９】
図６に示すように、メニュー６００は、例えば、Ｎ−グラム分析（N-gram Analysis）６１０、検索分析（Search Analysis）６２０、及び参加者−診療（Participants-Interventions）などの様々なオプションを使用者に提示することができる。各メニューオプションは、夫々が様々なサブオプションを含むことができる。当業者であれば、メニューオプション６１０、６２０、６３０は単なる例示を目的としており、これらのメニューオプションは、本発明の原理から逸脱することなく、追加、削除、又は変更することができることを認識するであろう。
【００５０】
ツール１２２及びメニュー６００を用いて、使用者は、原テキスト１１８又はＰＯＳタグ付けされた文書１１９で見られる最も頻繁に出現するコンセプト又は品詞（例えば、名詞、動詞など）、コンセプト又は品詞の頻度、高頻度なトリガーフレーズ、及び、その他の構造の態様並びにコンセプトや品詞などの規則性、にアクセスすることができる。特定の実施形態では、この情報は、上述の図２〜図４に示した処理で作成され得る。例えば、図６に示すように、使用者は、ｎ−グラムエンティティのリストを参照し（see a list of n-grams entities）、原ｎ−グラムのリストを参照し（see a list of raw n-grams）、類似タームを検索し（search for similar terms）、名詞句のリストを参照し（see a list of noun phrases）、又は、動詞句のリストを参照（see a list of verb phrases）することができる。
【００５１】
使用者がメニュー６００から「ｎ−グラムエンティティのリストの参照」を選択する場合、ツール１２２は、使用者に対して、ｎ−グラムエンティティのリストを表示することができる。図７は、本発明の一実施形態に従って表示されるｎ−グラムのリストの典型的なユーザインターフェースディスプレイを示している。図７に示すように、ツール１２２は、頻繁に出現するｎ−グラム（例えば、「5-grams（５−グラム）」、「4-grams（４−グラム）」、「3-grams（３−グラム）」）、及び、該ｎ−グラムがどの程度、文書群１１６内に出現しているのかを表す頻度、を表現することができる。
【００５２】
原テキスト分析結果の検索
【００５３】
使用者は、原テキスト分析の結果を検索することもできる。図６に戻り、例えば、使用者は、メニュー６００からオプション「主部・動詞・目的部検索（Subject Verb Object Search）」６２２を選択することができる。そして、ツール１２２は、使用者が、例えば、主部、動詞、又は目的部を入力することによって文書群１１６を検索可能にするユーザインターフェースを表示することができる。図８は、本発明の一実施形態に従って、使用者が、主部・動詞・目的部検索タームを用いて文書群１１６を検索することができる典型的なユーザインターフェースディスプレイを示している。図８の検索ウインドウの「動詞」フィールドに複数の単語「caused by（起因する）」のような使用者の入力を受信した後、ツール１２２は、動詞「caused by」を含む全ての文書を見つけ出すために文書群１１６を検索することができる。使用者は、例えば、「discovered in（発見される）」、「found（見つかる）」、「retrieved（取り出される）」など、任意の動詞を図８の検索ウインドウの「動詞」フィールドに入力することができる。
【００５４】
ツール１２２は、要求された動詞を含む、文書群１１６内の全ての文書を見つけ出し、この結果を使用者に提示することができる。図９は、本発明の一実施形態に従って検索の結果を使用者に表示する典型的なユーザインターフェースディスプレイを示している。一実施形態において、図９に示すように、ツール１２２は、主部、動詞、及び目的部を個々のデータフィールドに区切るユーザインターフェースに、「主部・動詞・目的部検索」の結果を夫々表示することができる。このようにして、使用者は、要求された動詞と、これに関連した文書内で用いられた主部及び目的部と、を含む各文書ごとの抜粋を参照することができる。使用者は、この文書をより詳細に表示する場合、例えば、図９の「DocID」データフィールドに示されたリンクを選択することによって、文書を選択することができる。
【００５５】
文書群からの文書の移動
【００５６】
一実施形態において、使用者は、文書群１１６から文書の追加、変更、又は削除を求めることができる。図１０は、使用者が、例えば、移動させる１以上の文書に隣接するドロップのチェックボックス１０１０をクリックすることによって、文書群１１６から文書を移動するときに用いることができるユーザインターフェースである。
【００５７】
ステップ５２０：エンティティリレーションの使用者選択の受信
【００５８】
単にテキスト行のみを表示する代わりに、ツール１２２は、使用者がグラフを用いて文書群１１６を表示及び分析するためのモデル１２０を作成すること、を可能にすることができる。例えば、モデル１２０は、使用者によるエンティティ関係入力を用いることができるので、使用者は、文書群１１６内のエンティティ関係のグラフを表示及び変更することができる。図１１は、本発明の一実施形態に従ってモデル１２０を表示することができる典型的なユーザインターフェースディスプレイを示している。例えば、図１１に示すように、ツール１２２は、ノード１１１０及びリレーション１１２０のようなモデル１２０内のエンティティを作成するために使用者入力を受信することができる。ノード１１００及びリレーション１１２０は、文書群１１６内の複数のコンセプトと、これらコンセプト間の関係と、を表現することができる。ノード１１１０は、例えば、使用者と関連がある情報のテキスト表現又はグラフ表現のようなコンセプトを含むことができる（例えば、使用者がコンセプトを表現するために「recombinant protective antigen（組み換え防御抗原）」という語を打ち込むことができる）。一実施形態において、モデル１２０は、上述のように、原テキスト分析の結果に基づいて、１以上のデフォルトノード１１１０を含むことができる。代替又は追加として、使用者は、ノード１１１０を作成することができる。例えば、使用者は、コンセプトを表現するノードを作成するためにテキストを入力することができる。
【００５９】
図１２は、本発明の一実施形態に従って、モデル１２０のノードを作成するために使用者の入力を受信する典型的なユーザインターフェースディスプレイを示している。ノード間にリレーションを追加する処理については、図２４に関連して後述する。例えば、図１２に示すように、使用者は、コンセプト「barium（バリウム）」を表現するノードを作成することができる。使用者は、選択メニュー１２２０にアクセスするために、モデル１２０上で、又は、ノード１２１０「radiation therapy（放射線治療）」のような任意の既存ノード上で右クリックすることができる。選択メニュー１２２０は、例えば、「百科事典（Encyclopedia）」、「ノード追加（Add Node）」、「ノード移動（Remove Node）」、「類義語の表示及び編集（View & Edit Synonyms）」、「ノード名称の変更（Change Node Name）」、「エッジ追加（Add Edge）」、「エッジ移動（Remove Edge）」「色管理（Manage Color）」、「単純抽出（Simple Extract）」、「サブクラス抽出（Extract Subclasses）」、及び「カスタムエクストラクタの追加又は編集（Add/Edit Custom Extractor）」など、様々なオプションを含むことができる。
【００６０】
使用者は、選択メニュー１２２０から「ノード追加」を選択することができる。図１３は、本発明の一実施形態に従って、使用者が「ノード追加」を選択した後にツール１２２が表示する典型的なユーザインターフェースディスプレイを示している。図１３に示すように、ツール１２２は、使用者に対してポップアップウインドウ１３１０を表示することができる。ポップアップウインドウ１３１０を用いて、使用者は、「barium（バリウム）」など、文書群１１６に関連させるコンセプトを入力することができる。図１４は、本発明の一実施形態に従って、使用者が新規のノードを作成した後にツール１２２が表示する典型的なユーザインターフェースディスプレイを示している。図１４に示すように、ツール１２２は、モデル１２０に新規のノード１４１０「barium（バリウム）」を追加する。また、一実施形態において、ノード１４１０は、文書群を検索するために、及び、ノードとリレーションと類義語とを関連付けるために、ツール１２２により用いられるコンセプト番号「CN137-0」が割り振られ得る。
【００６１】
類義語の追加
【００６２】
使用者は、１以上のノードと関連するテキストフラグメントを含む類義語を追加することもできる。図１５は、モデル１２０を表示するためのユーザインターフェースである。類義語をノードに追加するために、使用者は、モデル１２０で所望のノード、例えばノード１４１０「barium（バリウム）」を右クリックすることができ、ツール１２２は、選択メニュー１２２０を表示することができる。この後、使用者は、選択メニュー１２２０から「類義語の表示及び編集」を選択することができる。
【００６３】
図１６は、類義語を編集するためのポップアップウインドウ１６１０を表示するユーザインターフェースである。使用者は、テキストボックス１６０５に類義語を入力することができる。「追加（Add）」ボタン１６４０をクリックした後、類義語がディスプレイボックス１６５０内に表示されるであろう。例えば、使用者は、「Ba」、「barium enema（バリウム注腸）」及び「barium treatment（バリウム治療）」がコンセプトであるBarium（バリウム）に関連する類義語として扱われなければならない、と指定することができる。使用者が類義語を除去することを望む場合に、使用者は、類義語に隣接するチェックボックス１６２０をクリックすると共に、削除（delete）ボックス１６３０をクリックすることができる。一実施形態において、ツール１２２は、各ノードに対して多数の類義語を受け入れる（アクセプトする）ことができる。使用者は、ノードに追加する類義語を満足させると、ポップアップウインドウ１６１０を閉じることができる。当業者であれば、例えば、モデル１２０と同一のユーザインターフェースのテキストボックスでテキストを受信し、音声命令をアクセプトし、シソーラスのような補助的なデータソースから提案を受信し、又は、リストから単語を強調表示又は選択するなど、類義語をアクセプトするための多くの他の手段及び方法があることを認識するであろう。
【００６４】
類義語がノードに追加された後、ツール１２２は、図１７〜図２３に関連して以下に詳述するように、ＰＯＳタグ付けされた文書１１９内の各類義語の全ての発生を取り出すことができる。
【００６５】
ステップ５３０：抽出の開始
【００６６】
図１７は、ツール１２２の使用者が、モデル１２０を用いて、文書群１１６からコンセプトを抽出及び操作することを可能にするサンプルユーザインターフェースである。文書群１１６から情報を抽出することは、自然言語フォーマットである原文から情報を取り出すことである。図５に関連して上述したように、モデル１２０を作成した後、又は、モデル１２０にアクセスした後、使用者は、コンセプトテーブル１２９又は文書分析テーブル１２８を作成若しくは絞り込みをするために、抽出を開始することができる（ステップ５３０）。一実施形態において、使用者は、図１７に示すように、選択メニュー１２２０から「単純抽出」オプションを選択することによって抽出を開始することができる。ツール１２２は、抽出の進捗状況を使用者に通知するポップアップウインドウ１７１０を表示することができる。
【００６７】
一実施形態において、ツール１２２は、１つのエクストラクタをデフォルトに設定することができるが、使用者が、例えば、より複雑なエクストラクタを作成するために、エクストラクタを追加又は編集することもできる。使用者は、デフォルト又は既存のエクストラクタを編集するために、又は、新規のエクストラクタを追加するために、選択メニュー１２２０から「カスタムエクストラクタの追加又は編集」を選択することができる。例えば、使用者は、既存の市販エディタを用いて、エクストラクタを追加することができる。
【００６８】
次に、例えば、任意の新規な又は変更されたエンティティ若しくはリレーションを含めるために、コンセプトテーブル１２９が更新され得る（ステップ５３０）。また、ツール１２２は、何れの文書がコンセプトを含むのかを示すために、文書分析テーブル１２８を更新することもできる。一実施形態において、コンセプトテーブル１２９及び文書分析テーブル１２８は、ユーザステーション１０２のデータベースに局所的に保存され得る。また、コンセプトテーブル１２９及び文書分析テーブル１２８は、任意のネットワークアクセスが可能な装置に遠隔保存されてもよい。一実施形態において、コンセプトテーブル１２９は、使用者がモデル１２０を作成する前に、文書群１１６のｎ−グラム分析を含むように自動的に作成されてもよい。
【００６９】
図１８Ａは、本発明の一実施形態に従う典型的な文書分析テーブルを示している。図１８Ａに示すように、文書分析テーブル１２８は、文書群１１６から作成される原テキスト１１８より抽出される情報を保存することができる。例えば、文書分析テーブル１２８は、例えば、行番号又はコンセプトの文（センテンス）位置などコンセプトが位置するＰＯＳタグ付けされた文書１１９内の１以上の位置を保存することができる。また、文書分析テーブル１２８は、以下に詳述するように、文書群１１６内の何れの文書がどのようなコンセプトを含むのかを示すことができる。
【００７０】
例えば、図１８Ａに示すように、文書分析テーブル１２８は、文書群１１６から抽出される特定のデータを含む文書コンセプトテーブル１８１０を含むことができる。文書コンセプトテーブル１８１０は、例えば、識別子、タイプ、コンセプト、又は文書群１１６に関連する他のデータなど、上述の処理で用いられる情報を保存する様々なデータフィールドを含むことができる。例えば、図１８Ａに示すように、テーブル１８１０は、文書識別子（例えば、PubMed（登録商標）識別子又はMEDLINE（登録商標）識別子）を保存する「DocumentID」データフィールドを含むことができる。また、テーブル１８１０は、各ノードに対応するコンセプト識別子を保存する「ConceptlD」データフィールドを含むことができる（例えば、識別子「C17102」は、モデル編集の間に割り当てられ得る）。
【００７１】
「sentbegin」データフィールドは、文の最初の単語のインデックスを保存することができる（すなわち、ファイルの２３番目の単語が文の最初の単語である場合、「sentbegin」フィールドは２３の値を保存することができる）。「sentend」データフィールドは、文の最後の語のインデックスを保存することができる。「CNbegin」データフィールドは、コンセプトを表現するテキストフラグメントの最初の単語のインデックスを保存することができ、「CNend」データフィールドは、テキストフラグメントの最後の単語のインデックスを保存することができる。テキストフラグメントが１語のみを含む場合、「CNbegin」データフィールドと「CNend」データフィールドとの値は同一であり得る。
【００７２】
他のデータフィールドは、モデル１２０を作成及び変更するツールにより用いられる他の情報を保存することができる。例えば、「CorpusID」データフィールドは、特定の文書群に割り当てられた番号を保存することができ、「OntologylD」データフィールドは、特定のモデル１２０に割り当てられた番号を保存することができ、「status」データフィールドは、他のデータを保存することができる。当業者であれば、多くの他の手段及び方法が、文書群１１６に関連する情報を保存するために使用可能であることを認識するであろう。
【００７３】
ステップ５３５：ＰＯＳタグ付けされた文書にマーク付けをする
【００７４】
抽出が開始されると、ＰＯＳタグ付けされた文書１１９は、ノード１１１０によって表現されたコンセプトを含めるためのマーク付けがなされ得る（ステップ５３５）。例えば、ＰＯＳタグ付けされた文書１１９にコンセプトを描くために、インジケータが追加され得る。一実施形態において、ツール１２２は、モデル１２０で定義付けされた要求コンセプト及び要求リレーションを何れの文書が含むのかを特定するために、ＰＯＳタグ付けされた文書１１９を検索すると共に、ＰＯＳタグ付けされた文書１１９内のコンセプト及びリレーションを指定する。例えば、一実施形態において、ＰＯＳタグ付けされた文書１１９内の各々の語が個々の行に保存されるように、ＰＯＳタグ付けされた文書１１９が保存され得る。一実施形態において、各々の語は、適切な品詞タグ（例えば、名詞、動詞、代名詞）と共に保存され得る。ツール１２２は、コンセプトの先頭を示すために、行にコンセプトタグ（例えば、以下表１に示すコンセプトタグ「C17102：」）を追加することができる。コンセプトの末尾を示すために、ツール１２２は、行の最後に分離コンセプトタグ（例えば、「：C17102」）を追加することができる。
【表１】

【００７５】
ツール１２２は、同一のコンセプトを表現する類義語を示すために、同一のコンセプトタグを用いて複数の類義語にマーク付けをすることができる。類義語は、使用者により選択されて、ノードに付随又は関連するコンセプトを含むことができる。例えば、使用者は、モデル１２０を作成する間に、「patient（患者）」の類義語として「person（人物）」を指定することができる。ツール１２２は、「person（人物）」と「patient（患者）」とが類義語として指定されたことを表現するために、表２に示すように、同一のインジケータ「CN200：」及び「：CN200」を用いて、単語「patient（患者）」及び「person（人物）」にマーク付けをする。
【表２】

【００７６】
当業者であれば、コンセプト、類義語、リレーションなどを示すことを目的として、ＰＯＳタグ付けされた文書１１９にタグを追加するために、多くの他の手段及び方法が使用可能であることを理解するであろう。例えば、ＰＯＳタグ付けされた文書１１９がＸＭＬフォーマットで保存される場合、標準のタグ−値のペアがＸＭＬストラクチャ（構造）の適切な位置に追加され得る。
【００７７】
一実施形態において、ＰＯＳタグ付けされた文書１１９に追加されるタグに関連する情報は、文書分析テーブル１２８で保存され得る。図１８Ｂ及び図１８Ｃは、本発明の一実施形態に従う典型的な文書分析テーブルを示している。図１８Ｂに示すように、文書分析テーブル１２８は、特定の文書内のコンセプトタグと、該タグに関連する頻度と、を保存するｎ−グラム分析テーブル１８２０を含むことができる。「urid」データフィールドは、例えば、簿記目的のために、データベースによって自動的に割り振られる固有行識別番号を保存することができる。「corpuslD」データフィールドは、文書群に割り当てられる識別番号を保存することができる。「n」データフィールドは、ｎ−グラムのトークン数を保存することができ、「count」データフィールドは、ｎ−グラムがコーパス（corpus）全体又は文書群に出現する回数を保存することができる。「frag」データフィールドは、ｎ−グラム自体を保存することができる。
【００７８】
図１８Ｃは、図９に関連して上述した「主部・動詞・目的部検索」の結果のコラムを含む文書結果テーブル１８３０を示している。「urid」データフィールドは、例えば簿記目的のために、データベースによって自動的に割り当てられる固有行識別番号を保存することができる。「docid」データフィールドは、文書又は文書群に割り当てられる識別番号を保存することができる。「Subject」データフィールドは、例えば、テキストフラグメントとして、文の主部を保存することができる。「verbphrs」データフィールドは、文における主部と目的部との間に位置する動詞句を保存することができると共に、テキストフラグメントとして保存され得る。「Object」データフィールドは、テキストフラグメントとして、文の目的部を保存することができる。「conceptlD」は、図９に関連して上述した「主部・動詞・目的部検索」で使用者により選択された主部、動詞、及び目的部を有するステートメントに割り当てられるコンセプト識別子を保存することができる。「corpuslD」データフィールドは、コーパス又は文書群の識別子を保存することができ、「OntologylD」データフィールドは、モデルの識別子を保存することができる。
【００７９】
コンセプトインジケータ
【００８０】
また、一実施形態において、使用者は、例えば、調整可能な色をコンセプトに割り当てることによって、調節可能なインジケータをコンセプトに割り当てることができる。図１９は、本発明の一実施形態に従う典型的なコンセプトテーブルを示している。例えば、図１９に示すコンセプトテーブル１９１０は、様々なコンセプトと関連する色タイプを保存することができる。図１９に示すように、コンセプトテーブル１９１０は、文書識別子（document identifiers）などの簿記識別子（bookkeeping identifiers）を保存する「cnuid」データフィールドを含むことができる。「cnid」データフィールドは、コンセプト識別子を保存することができる。このコンセプト識別子は、以下に詳述するように、モデル１２０を作成する間、又は、モデル１２０を改良した後に割り当てられ得る。「cnname」データフィールドは、プレースホルダー識別子を保存することができる。「descriptive」データフィールドは、与えられたコンセプトを表現する適切なテキストフラグメントを保存することができる。「colorstring」データフィールドは、使用者がノードに割り当てた色の１６進エンコーディングを保存することができる。「colorstatus」データフィールドは、使用者が色を着色又は脱色したかを示すことができる。「ontologylD」データフィールドは、各コンセプトが属するモデル１２０を示すことができる。一実施形態において、１つのコンセプトテーブル１９１０は、複数のモデル１２０の情報を保存することができる。他の実施形態においては、複数のコンセプトテーブル１９１０が、様々なモデル１２０の情報を保存してもよい。
【００８１】
ステップ５５０〜ステップ５５５：使用者に対するモデルの表示、及び、使用者に対する抽出された情報とマーク付けされた文書との表示
【００８２】
次に、ツール１２２は、例えば、図１１に示すグラフィカルユーザインターフェースを用いて、使用者に対してモデル１２０を表示することができる（ステップ５５０）。そして、ツール１２２は、図２０〜図２９に関連して以下に詳述するように、使用者に対して、抽出された情報及びマーク付けされた文書を表示することができる。
【００８３】
ステップ５６０：絞り込み
【００８４】
使用者がモデル１２０の絞り込みを望む場合、使用者は、絞り込みを要求するための様々なアクションを行うことができる（ステップ５６０）。例えば、使用者は、図２０〜図２９に関連して後述するように、ノード、リレーション、又は類義語をモデル１２０に追加することができる。
【００８５】
抽出された情報の表示及び絞り込み
【００８６】
図２０は、本発明の一実施形態に従って、文書群１１６から抽出された情報を表示するユーザインターフェースを示している。図１９に関連して上述したように、ツール１２０は、各コンセプト及びリレーションを表現するために、強調表示を行う他、例えば、色、下線、フォント変更などの調節可能なインジケータを用いて、単語、単語の組み合わせ、イメージ、及びその他の記号をマーク付けすることができる。調節可能なインジケータは、コンセプトが文書内の何れに位置しているのかを使用者に示すために、モデル１２０内のノードにより定義されるコンセプトと共に表示され得る。一実施形態では、異なるインジケータが、各ノードに割り当てられ得る。
【００８７】
図１９に関連して上述したように、インジケータは調節可能である。例えば、一実施形態において、使用者は、ノード又はリレーションをクリックし、例えば、各ノードに対応する色又はインジケータを変更するために、選択メニュー１２２０を用いて、「色管理」を選択することができる。
【００８８】
要求されたコンセプトの絞り込み
【００８９】
更に他の実施形態において、使用者は、文書群１１６から抽出されるコンセプト及びリレーションを更に絞り込むことができる。図２１は、本発明の一実施形態に従って、使用者が特定のコンセプトを有する文書を選択又は除外するためにアクセスするユーザインターフェースを示している。例えば、図２１に示すように、使用者は、モデル１２０内のコンセプトから複数のコンセプトを選択すると共に、例えば、「Must Have（なければならない）」、「Must Not Have（あってはならない）」、又は「May Have（あり得る）」など、対応するステータスを選択し、その後、この要求をツール１２２に送信することができる。ツール１２２は、使用者の選択に応じて、何れの文書がコンセプトを含み又は含まないのかを特定すると共に、この特定されたサブセットをユーザインターフェースで使用者に対して表示する。
【００９０】
図２２は、本発明の一実施形態に従って、図２１による検索結果を表示するユーザインターフェースを示している。ツール１２２は、例えば、コンセプトの名称又は番号を用いて、要求されたコンセプトを有する文書群１１６からの文書を表示すると共に、使用者の検索により示されたステータス（状態）を表示することができる。また、ツール１２２は、図２２に示すように、要求されたコンセプト、文書識別番号、文書タイトル、及び、検索により返された文書の番号を表示することができる。
【００９１】
マーク付けされた文書の表示
【００９２】
使用者は、文書及びそのマーク付けされたテキストを更に詳しく表示するために、図２２のリストから任意の文書を選択することができる。図２３は、本発明の一実施形態に従って、文書及びそのマーク付けされたテキストを表示するためにツール１２２が用いる典型的なユーザインターフェースディスプレイを示している。図２３に示すように、コンセプト「anthrax（炭疽菌）」が、文書の全体にわたって強調表示される。また、コンセプト「protective antigen (PA) moiety（防御抗原（ＰＡ）部分）」、「CHO cells（ＣＨＯ細胞）」、及び「edema factor（浮腫因子）」も強調表示され、異なる調整可能な色と共に強調表示されてもよい。調整可能な色は、図１９〜図２０に関連して上述したように、各コンセプトに関連するモデル１２０のノードに関連してもよい。
【００９３】
リレーションの追加
【００９４】
使用者は、モデル１２０内のコンセプト間のリレーションを追加することにより、モデル１２０の更なる絞り込みを望むことができる。リレーションは、特定のコンセプトが何らかの方法で接続されることを表現することができる。図２４は、本発明の一実施形態に従って、モデル１２０を含む典型的なユーザインターフェースディスプレイを示している。図２４に示すように、２つのノード間にリレーション又は「エッジ（edge）」を追加するために（例えば、「肺（lung）」で「ヒュルトレ細胞癌（hurthle cell carcinoma）」が見つかるという事実を表現するために）、使用者は、ノード「hurthle cell carcinoma（ヒュルトレ細胞癌）」２４１０の上を右クリックし、選択メニュー１２２０から「エッジ追加」を選択することができる。
【００９５】
この後、使用者は、リレーション情報（例えば、リレーション及び対象ノード（target node）の名称）を、ユーザインターフェースに入力することができる。このようにして、使用者は、モデル１２０内の選択されたノードと他のノード（すなわち、対象ノード）との間の関連を指定することにより、モデル１２０を動的に変更することができる。図２５は、本発明の一実施形態に従って、ツール１２２が、リレーションに対する使用者の入力をアクセプトするために表示する典型的なユーザインターフェースディスプレイを示している。図２５に示すように、使用者は、ポップアップウインドウ２５１０の「エッジ追加」を用いて、接続するリレーションに対して、（例えば、コンセプト名称又はコンセプト番号によって識別される）新規のリレーション及び対象ノードの名称を入力することができる。例えば、リレーションは「is found in（見つかる）」、「is caused by（起因する）」、「includes（含む）」などである。
【００９６】
図２６は、本発明の一実施形態に従って、モデル１２０及び新規のリレーション２６１０「is_found_in」を含む典型的なユーザインターフェースディスプレイを示している。図２６に示すように、モデル１２０は、「ヒュルトレ細胞癌（hurthle cell carcinoma）」が「肺（lung）」で「見つかる（is found in）」ことを示すように変更される。この柔軟性は、使用者によるモデル１２０の変更を可能にすると共に、得られた抽出結果を使用者自身のコンセプト群のメンタルマップに適合させることを可能にする。
【００９７】
また、ツール１２２は、例えば、「is associated with（関連する）」、「is part of（一部である）」、「is included in（含まれる）」など、リレーション２１６０「is_found_in」を表す動詞変化及びトロポニムを割り当てることができる。また、ツール１２２は、自動的に変化（例えば、英語の動詞変化）を割り当てることができ、使用者は、リレーション２６１０「is_found_in」の類義語を作成することにより、他の動詞（及びその変化）を追加することができる。
【００９８】
リレーションへの類義語の追加
【００９９】
図２７は、本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示している。図２７に示すように、類義語をリレーションに追加するために、使用者は、例えば、リレーション２６１０「is_found_in」などのリレーションを右クリックし、選択メニュー１２２０からリレーションインスタンスの表示又は編集（View/Edit Relation Instances）を選択することができる。
【０１００】
図２８は、本発明の一実施形態に従って、ツール１２２が、リレーションに類義語を追加するために、使用者に対して表示することができる典型的なユーザインターフェースディスプレイを示している。図２８に示すように、パネル２８１０は、使用者が本質的には同一の意味を有すると考える様々な動詞節を表示することができる。追加又は代替として、使用者は、モデル１２０を更にカスタマイズするために、リレーションに対して使用者独自の類義語を入力することができる。当業者であれば、図２８に示す動詞節（例えば、「is found in（見つかる）」）が単なる例示を目的としていることを認識するであろう。
【０１０１】
次に、使用者は、文書群１１６からリレーションの全てのインスタンスを抽出する。図２９は、本発明の一実施形態に従って、使用者が文書群１１６からリレーションのインスタンスを抽出できるようにする典型的なユーザインターフェースディスプレイを示している。一実施形態において、図２９に示すように、使用者は、リレーション２６１０「is_found_in」を右クリックし、選択メニュー１２２０から「リレーション抽出（Extract Relation）」を選択することができる。リレーションのインスタンスを抽出した後、使用者は、リレーション及び関連するコンセプトの少なくとも一方の１以上のインスタンスを含む任意の文書を参照することができる。
【０１０２】
モデルの共有
【０１０３】
一実施形態において、モデル１２０は、共同研究及び効率改善を可能にするため、様々な使用者間で共有することができる。図３０は、本発明の一実施形態に従って、モデルを共有するシステムにより実行される典型的なステップを示すフローチャートである。図３０に示すように、使用者は、モデル１２０及びマーク付けされた文書群１１６を第２の使用者に送信することができる（ステップ３０１０）。また、第２の使用者は、上述のように、独立して文書群にアクセスし（ステップ３０１２）、文書群にフィルタを適用し（ステップ３０１４）、原テキストを分析し（ステップ３０１６）、及び、ＰＯＳタグ付け並びに語彙分析を実行することができる（ステップ３０１８）。
【０１０４】
第２の使用者は、新規プロジェクトを作成することができ（ステップ３０２０）、図５に関連して上述したように、抽出処理を実行することができる（ステップ３０３０）。
【０１０５】
代替又は追加として、使用者は、インターネットを介して、モデル１２０を、販売、交換、又は共有することができる。例えば、ウェブサイトは、特定のトピックに関連する文書群１１６から情報を抽出する予定の研究者のために特に設計したモデル１２０のコレクションを含むことができる。一実施形態では、使用者は、様々な臨床試験に関連するモデル１２０を共有することができる。他の実施形態では、使用者は、スポーツ、音楽、法律的な話題、ニュース、健康、旅行、金融、技術、政治、教育、又はビジネスに関連するモデル１２０を共有することができる。モデル１２０は、使用者が、販売、購入、共有、交換、及び改良するために、ウェブサイトを介してアクセスできるようにしてもよい。一実施形態において、ツール１２２又はインターネットウェブサイトは、文書群１１６又は研究トピックに対する使用者の要求を受信することができ、文書群１１６又は検索トピックに関連する望ましいモデル１２０を用いて文書群１１６を検索することができる。
【０１０６】
当業者であれば、モデル１２０を作成するために様々な手段及び方法を用いることができることを認識するであろう。例えば、スプレッドシートのような表形式表示、グラフ、又は情報テーブルが、モデル１２０を表現するために用いられ得る。
【０１０７】
本発明の他の実施形態は、本明細書を考察することにより、又は、本明細書にて開示された本発明を実施することにより、当業者にとって自明となるであろう。本明細書及び実施形態は単に例示的なものとして考慮されるべきであり、本発明の真の範囲及び精神は、特許請求の範囲により示されている。

【特許請求の範囲】
【請求項１】
文書群から得られる情報をモデル化する方法であって、
使用者にとって関心の高い複数のコンセプトを受信すること、
前記複数のコンセプトの表現を含むモデルであって、該モデル内の前記複数のコンセプトのうちの第１のコンセプトの表現がエクストラクタに対応する前記モデルを作成すること、及び、
前記第１のコンセプトの表現の使用者選択に基づき、前記対応するエクストラクタを用いて、前記第１のコンセプトに関連する情報を前記文書群から抽出すること、
を含んで構成される方法。
【請求項２】
前記エクストラクタは、前記使用者により決定される請求項１記載の方法。
【請求項３】
前記エクストラクタは、自動的に割り当てられる請求項１記載の方法。
【請求項４】
文法的な品詞及び語彙を識別するように文書群を検索すること、
を更に含んで構成される請求項１記載の方法。
【請求項５】
前記モデルを作成することは、コンセプトに対する類義語を受信することを含む請求項１記載の方法。
【請求項６】
前記複数のコンセプトのデータ構造を作成すること、及び、
前記文書群のうちの何れの文書が前記複数のコンセプトのうちの少なくとも１つを含むのかを示すように前記データ構造を更新すること、
を更に含んで構成される請求項１記載の方法。
【請求項７】
前記抽出される情報は、前記コンセプトを示すようにマーク付けされた前記文書群から得られる文書の一部を含んで構成される請求項１記載の方法。
【請求項８】
前記抽出される情報は、前記文書群のサブセットを含んで構成される請求項１記載の方法。
【請求項９】
前記抽出される情報は、前記複数のコンセプトのうちの少なくとも１つを含む文書のリストを含んで構成される請求項１記載の方法。
【請求項１０】
前記複数のコンセプトの前記表現がエンティティとして表され、かつ、前記複数のコンセプト間の関係がエンティティ間のリレーションとして表されるように、エンティティ関係図を用いて前記モデルを表示すること、
を更に含んで構成される請求項１記載の方法。
【請求項１１】
前記複数のコンセプトの夫々に対して使用者により指定された色を受信すること、及び、
前記モデルの前記表現に前記指定された色を追加すること、
を更に含んで構成される請求項１記載の方法。
【請求項１２】
前記モデルは、前記複数のコンセプトのうちの２つのコンセプトの間に少なくとも１つのリレーションを含む請求項１記載の方法。
【請求項１３】
文書群から得られる情報をモデル化する方法であって、
使用者にとって関心の高い複数のコンセプトを受信すること、
前記複数のコンセプトの表現を含むモデルであって、該モデル内の前記複数のコンセプトのうちの第１のコンセプトの表現がエクストラクタに対応する前記モデルを作成すること、
前記第１のコンセプトの表現の使用者選択に基づき、前記対応するエクストラクタを用いて、前記第１のコンセプトに関連する情報を前記文書群から抽出すること、及び、
該抽出された情報に応答する使用者の入力に基づいて、前記モデルをカスタマイズすること、
を含んで構成される方法。
【請求項１４】
前記エクストラクタは、前記使用者により決定される請求項１３記載の方法。
【請求項１５】
前記エクストラクタは、自動的に割り当てられる請求項１３記載の方法。
【請求項１６】
前記カスタマイズされたモデルに応じて、更新された情報を前記文書群から抽出すること、を更に含んで構成される請求項１３記載の方法。
【請求項１７】
前記カスタマイズすることは、
語彙モジュールに基づいて前記文書群に関連する前記複数のコンセプトを識別すること、
使用者による前記複数のコンセプトの選択を受信すること、及び、
該選択に応じて前記モデルを更新すること、
を含んで構成される請求項１３記載の方法。
【請求項１８】
前記カスタマイズすることは、
色、フォント、及び形状から成るグループより選択される固有識別子と、前記複数のコンセプトのうちの１つと、を関連付けること、
を含んで構成される請求項１３記載の方法。
【請求項１９】
文書群から得られる情報をモデル化する方法であって、
使用者にとって関心の高い複数のコンセプトを受信すること、
前記複数のコンセプトの表現を含むモデルであって、該モデル内の前記複数のコンセプトのうちの第１のコンセプトの表現がエクストラクタに対応する前記モデルを作成すること、
前記第１のコンセプトの表現の使用者選択に基づき、前記対応するエクストラクタを用いて、前記第１のコンセプトに関連する情報を前記文書群から抽出すること、
該抽出された情報に応答する使用者の入力に基づいて、前記モデルをカスタマイズすること、及び、
該カスタマイズされたモデルをエクスポートすること、
を含んで構成される方法。
【請求項２０】
前記文書群を前記カスタマイズされたモデルと共にエクスポートすること、
を更に含んで構成される請求項１９記載の方法。
【請求項２１】
前記文書群を前記カスタマイズされたモデルと共にエクスポートするときに、整合する文書群及び前記カスタマイズされたモデルの販売、交換、及び再使用を促進する標準化フォーマットを用いること、
を更に含んで構成される請求項１９記載の方法。
【請求項２２】
文書群に含まれる情報のモデルを作成する方法であって、
使用者にとって関心の高い複数のコンセプトを受信すること、
前記複数のコンセプトの表現を含むモデルであって、該モデル内の前記複数のコンセプトのうちの第１のコンセプトの表現がエクストラクタに対応する前記モデルを作成すること、
前記第１のコンセプトの表現の使用者選択に基づき、前記対応するエクストラクタを用いて、前記第１のコンセプトに関連する情報を前記文書群から抽出すること、及び、
該抽出された情報を前記使用者に対して表示すること、
を含んで構成される方法。
【請求項２３】
前記複数のコンセプトの夫々に対して使用者により指定された色を受信すること、及び、
前記複数のコンセプトの各表現に対して前記指定された色を含む前記抽出された情報を表示すること、
を更に含んで構成される請求項２２記載の方法。
【請求項２４】
前記抽出された情報に応答する使用者の入力に基づいて、前記モデルをカスタマイズすること、及び、
前記カスタマイズされたモデルに応じて、更新された情報を前記文書群から抽出すること、を更に含んで構成される請求項２２記載の方法。
【請求項２５】
前記抽出された情報は、前記コンセプトを示すようにマーク付けされた前記文書群から得られる文書の一部を含んで構成される請求項２２記載の方法。
【請求項２６】
前記抽出された情報は、前記文書群のサブセットを含んで構成される請求項２２記載の方法。
【請求項２７】
前記抽出された情報は、前記複数のコンセプトのうちの少なくとも１つを含む文書のリストを含んで構成される請求項２２記載の方法。
【請求項２８】
文書群から得られる情報をモデル化するシステムであって、
使用者にとって関心の高い複数のコンセプトを受信するように構成される受信コンポーネントと、
前記複数のコンセプトの表現を含むモデルであって、該モデル内の前記複数のコンセプトのうちの第１のコンセプトの表現がエクストラクタに対応する前記モデルを作成するように構成されるモデリングコンポーネントと、
前記第１のコンセプトの表現の使用者選択に基づき、前記対応するエクストラクタを用いて、前記第１のコンセプトに関連する情報を前記文書群から抽出するように構成される抽出コンポーネントと、
を含んで構成されるシステム。
【請求項２９】
文書群から得られる情報をモデル化するシステムであって、
使用者にとって関心の高い複数のコンセプトを受信する手段と、
前記複数のコンセプトの表現を含むモデルであって、該モデル内の前記複数のコンセプトのうちの第１のコンセプトの表現がエクストラクタに対応する前記モデルを作成する手段と、
前記第１のコンセプトの表現の使用者選択に基づき、前記対応するエクストラクタを用いて、前記第１のコンセプトに関連する情報を前記文書群から抽出する手段と、
を含んで構成されるシステム。
【請求項３０】
文書群から得られる情報をモデル化する方法を実行する命令を含むコンピュータ可読の媒体であって、
前記方法は、
使用者にとって関心の高い複数のコンセプトを受信すること、
前記複数のコンセプトの表現を含むモデルであって、該モデル内の前記複数のコンセプトのうちの第１のコンセプトの表現がエクストラクタに対応する前記モデルを作成すること、及び、
前記第１のコンセプトの表現の使用者選択に基づき、前記対応するエクストラクタを用いて、前記第１のコンセプトに関連する情報を前記文書群から抽出すること、
を含んで構成される、
媒体。
【請求項３１】
文書群から得られる情報をモデル化する方法であって、
使用者にとって関心の高い複数のコンセプトを受信すること、
前記複数のコンセプトの表現を含むモデルであって、前記表現が、夫々、前記使用者により決定されるエクストラクタと関連付けられる前記モデルを作成すること、
前記モデル内の少なくとも２つの表現及びこれらに関連付けられたエクストラクタを用いて、前記文書群から情報を抽出するように使用者の入力列を受信すること、
前記使用者の入力列に基づく記録を保存すること、
前記使用者にとって関心の高い新規のコンセプトを受信すること、
前記新規のコンセプトの表現を含むように前記モデルを更新すること、及び、
前記保存された記録に基づいた新規のエクストラクタを、前記新規のコンセプトの表現に自動的に割り当てること、
を含んで構成される方法。
【請求項３２】
前記新規のコンセプトは、前記文書群から情報を抽出した後に前記使用者により作成される請求項３１記載の方法。
【請求項３３】
エクストラクタを、前記保存された記録に基づいて、既存のコンセプトに割り当てること、
を更に含んで構成される請求項３１記載の方法。
【請求項３４】
前記記録を保存することは、前記文書群から取り出すテキストの使用者選択を受信することを含む請求項３１記載の方法。
【請求項３５】
前記新規のエクストラクタに基づいて、データベースを自動的に更新すること、
を更に含んで構成される請求項３１記載の方法。
【請求項３６】
文書群から抽出される情報を処理する方法であって、
使用者にとって関心の高い複数のコンセプトを受信すること、
前記複数のコンセプトの表現を含むモデルであって、該モデル内の前記複数のコンセプトのうちの第１のコンセプトの表現が第１のエクストラクタに対応する前記モデルを作成すること、
前記第１のコンセプトの表現の使用者選択に基づき、前記第１のエクストラクタを用いて、前記第１のコンセプトに関連する情報を前記文書群から抽出すること、及び、
抽出後の情報を作成するように、前記抽出された情報を処理すること、
を含んで構成される方法。
【請求項３７】
抽出後の情報を作成するように、前記抽出された情報を処理することは、
前記抽出された情報を、文書、グラフ、テーブル、マップ、スプレッドシート、及びチャートのうちの１つに集約すること、
を含む請求項３６記載の方法。
【請求項３８】
抽出後の情報を作成するように、前記抽出された情報を処理することは、
前記抽出された情報に対する使用者のカテゴリー選択を受信すること、
を含む請求項３６記載の方法。
【請求項３９】
抽出後の情報を作成するように、前記抽出された情報を処理することは、
前記文書群内の文書にステータスを割り当てること、
を含む請求項３６記載の方法。
【請求項４０】
前記モデルを、文書、グラフ、テーブル、マップ、スプレッドシート、及びチャートのうちの１つを用いて表示すること、
を更に含んで構成される請求項１記載の方法。
【請求項４１】
前記文書群内の文書を変更すること、
を更に含んで構成される請求項１記載の方法。

【図６】

【図１Ａ】

【図１Ｂ】

【図２】

【図３】

【図４】

【図５】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【図１３】

【図１４】

【図１５】

【図１６】

【図１７】

【図１８Ａ】

【図１８Ｂ】

【図１８Ｃ】

【図１９】

【図２０】

【図２１】

【図２２】

【図２３】

【図２４】

【図２５】

【図２６】

【図２７】

【図２８】

【図２９】

【図３０】

【公表番号】特表２００９−５３７９２８（Ｐ２００９−５３７９２８Ａ）
【公表日】平成２１年１０月２９日（２００９．１０．２９）
【国際特許分類】

物理学 (1,541,580)
- 計算；計数 (381,677)
  - 電気的デジタルデータ処理 (228,215)
    - 特定の機能に特に適合したデジタル計算またはデータ処理の装置また... (34,028)
      - 情報検索；そのためのデータベース構造 (17,914)

【出願番号】特願２００９−５１５３９８（Ｐ２００９−５１５３９８）
【出願日】平成１９年５月１０日（２００７．５．１０）
【国際出願番号】ＰＣＴ／ＵＳ２００７／０１１２５６
【国際公開番号】ＷＯ２００７／１３６５６０
【国際公開日】平成１９年１１月２９日（２００７．１１．２９）
【出願人】（５０８３６３２４７）ノブリス，インコーポレーテッド (1)
【氏名又は名称原語表記】ＮＯＢＬＩＳ，ＩＮＣ．
【Ｆターム（参考）】

検索装置 (67,127)

[ Back to top ]

情報の抽出及びモデリングの方法並びにそのシステム

メニュー

スポンサーリンク

次の公報 »

« 前の公報

情報の抽出及びモデリングの方法並びにそのシステム

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク