情報の抽出及びモデリングの方法並びにそのシステム
【課題】 文書群から得られる情報をモデル化するシステム及びその方法を開示する。
【解決手段】 ツールにより、使用者が、関心の高いコンセプトと、文書群から得られるコンセプト間のリレーションと、を抽出でき、かつ、モデル化できる。このツールは、モデル及び文書群から抽出されたコンセプトがカスタマイズされ、変更され、及び共有され得るように、モデルのデータベースを自動的に構成する。
【解決手段】 ツールにより、使用者が、関心の高いコンセプトと、文書群から得られるコンセプト間のリレーションと、を抽出でき、かつ、モデル化できる。このツールは、モデル及び文書群から抽出されたコンセプトがカスタマイズされ、変更され、及び共有され得るように、モデルのデータベースを自動的に構成する。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2006年5月17日出願の米国特許出願第11/434,847号の優先権を主張する。
【0002】
本発明は、情報の抽出に関し、より詳しくは、カスタマイズされたツールを用いて、文書群から情報を抽出し、この抽出された情報をモデル化する方法及びそのシステムに関する。
【背景技術】
【0003】
電子文書作成システム及びインターネットの急速な発展は、あらゆるタイプ(例えば、テキストファイル、ウェブページなど)の文書数の爆発的な増加をもたらしている。Google(登録商標)などのインターネット検索エンジンは、局所的に的を絞った文書群(document sets)を見つけ出す基本的な検索ツールを提供することによって、膨大な文書群を検索するニーズに応えている。例えば、キーワードのブール組み合わせ(Boolean combination)を作成し、これを用いて検索を絞り込むことができる。ここで、キーワードのブール組み合わせとは、キーワード間の関係を指定するための「AND」、「OR」、「NOT]などのブール演算子とキーワードとの組み合わせである。検索を絞り込む先進的な手法は、例えば、全体テキストマッチング(whole text matching)、又は、検索結果を使用者が以前に検索した文書の種類に合わせるユーザプロファイリング(user profiling)を含む。
【発明の概要】
【発明が解決しようとする課題】
【0004】
検索の高度化にかかわらず、使用者は、例えば、最も関連する文書を特定するために、多くの場合、扱いきれないほどの文書に目を通して、これらの文書を1つずつ検討しなければならない。更に、どれほど検索が高度化しても、利用可能な文書数が現在進行中で目覚しく増加しているため、検索能力の将来の進歩を考慮しても、関連する文書の多量の検索結果を使用者が受信し続けるであろうことは、確実であると思われる。
【0005】
局所的に的を絞った文書群に関する以下のタスクの全てを一般的な使用者が実行することを支援する直観的で使い易いツールは、現在のところ存在しない。(1)情報の内容について全ての群を分析する。(2)これら分析と使用者自身の専門知識とを用いて、使用者が文書群内のコンセプトの直観的な視覚モデルを作成できるようにする。(3)その後、文書内のそれらコンセプトの抽出及び配置を推進するためにモデルを用いる。(4)使用者が、抽出された情報を収集及び処理できるようにする。(5)使用者が、他の関心が高い関係者と共有するために、モデル、データ、及びレポートを簡便にエクスポートできるようにする。これにより、関係者は、自分のコンピュータにモデル及びデータをアップロードすることができる。(6)これらのステップの全ての簡単で直観的な反復(iteration)を支援する。
【0006】
技術分野の研究者は、何十万もの電子版研究論文にアクセスすることができる。これは、研究をますます複雑にすると共に、研究をますます加速させる。例えば、米国国立医学図書館は、生物医学研究の分野で1400万件以上のサイテーションにアクセスできるようにしている。多くの場合、研究者は、多量の文書群又は検索結果に直面したときに、より少量の一層関連がある情報群を取り出すために自分の検索手法で絞り込む必要がある。しかしながら、特に複雑な研究プロジェクトに対して、このような検索タイプは、必要とされる検索テキストの範囲に起因して、その作成及び処理が困難である。更に、この種の反復検索は、非常に時間がかかる可能性がある。加えて、この検索によって取り出された情報を、表示したり、保存したり、又は、複数の使用者で共有したりすることは容易ではない。
【0007】
例えば、炭疽菌(anthrax)の臨床試験(clinical trial)に関連がある論文についてPubMed(登録商標)検索を実行する研究者は、その検索エンジンに以下の検索語を入力し得る:「clinical trial AND anthrax AND test」。この検索では、100,000件以上の文書が返され、一般に、何千ものウェブページにわたって実際の文書へのリンクと共にテキストフラグメントが表示され得る。研究者は、少量の文書を見つけ出すために何千ものウェブページを検索するという大きな困難があるであろうし、また、情報を抽出するために各文書を1つずつ読むという大きな困難もあるであろう。研究者が、より少量で、より関連がある文書群を取り出すために検索を絞り込む場合、研究者は、元の検索に戻り、使用した検索語を変更しなければならない。最終的に、研究者は、20語以上を含む扱いきれないほどの検索文字列を入力することになるかもしれない。
【0008】
検索から得られる文書のリストを受信した後、多くの研究者は、何れの文書が実際に自分のニーズと関連するのかを確認するためにリストに目を通すという退屈なタスクを押し付けられる。関連があるように見える文書を開けなければならず、また、文書内に何が記載されているかを確認するために目を通さなければならない。更に、反復検索の結果を他者と共有することが困難である。なぜなら、研究者は、各検索語群のコピー、又は従来の検索ツールを用いて抽出された情報のコピーを簡単に保存することができないからである。その上、文書群は、単一文書内に十分に含まれていない収集情報を含み得るので、使用者は、文書群を、全部読むことが可能な小さなサイズに減らすことを望まない可能性もある。従って、容易に操作、絞り込み、保存、及び共有が可能な情報の持続的モデル(persistent model)を作成するツールが必要とされている。このモデルは、使用者が関心の高いコンセプトを定義することを支援する直観的で視覚的な補助を提供すると共に、このコンセプトの抽出を開始するため、又は、抽出された情報を分析、収集、及び出力するために、コンセプトと関連するエクストラクタ(extractor)を決定することを支援する直観的で視覚的な補助を提供する。
【0009】
情報を抽出することは、自然言語フォーマットである原文から情報を取り出すことである。既存の使用可能な抽出用デスクトップアプリケーションは、抜粋又は要約などの専用のタスクを実行するが、その実用性が限定的であり、使用者に設定の柔軟性を提供するものではない。典型的な重量級の又は企業スケールの抽出システムでは、専門家により、文書の種類から情報を抜粋、要約、及び表示するためにカスタマイズされた機能を設計することが可能である。訓練を受けた専門家は、例えば、表示用のテーブルフォーマットにテキストフラグメントを配置するエクストラクタを作成することができ、また、システムの一般的な使用者が要求した様々なマルチコンポーネントのコンセプトを表現するテンプレートを補うことができる。既存の使用可能なツールは、訓練用文書と類似する多量の文書群のカテゴリー化に用いられるコンセプト分類(concept taxonomy)を定義するために、特別に用意された訓練用文書群を必要とすることがある。また、既存のツールは、所定のカテゴリー(例えば、個人名、企業名、地名)に属するエンティティをロケート(locate)して強調表示することができ、また、特定のテキストパターンを識別するエクストラクタを専門家が決定することを許容する。
【0010】
InXight社製のFactFinder(登録商標)エディタ(www.inxight.com)のような既存の企業スケール抽出システムの1つの欠点としては、一般的な使用者、すなわち、システムをカスタマイズするための特別な訓練を受けていない人が、サブジェクト(主部)について個人のメンタルモデルを反映する持続的な又は移動可能(ポータブル)な情報モデルを作成できないという点がある。幾つかの市販ツールの他の欠点としては、テキスト内の特定情報をロケートし、それを強調表示することはできるが、強調表示された情報は、多くの場合、扱いにくいフォーマットで表示されてしまうという点がある。例えば、使用者が6,000件の文書について抽出を開始する場合に、抽出ツールは、使用者が要求したコンセプトを強調表示又はカラー化して6,000件の文書を表示する。この場合、たとえコンセプトがテキストにおいて強調表示されたとしても、典型的な使用者にとって多量の文書は依然として扱いにくい。また、既存の企業スケールシステムの他の欠点としては、システムを作動させるために訓練された専門家を必要とするので、人材の獲得及び管理に費用がかかるという点もある。このような抽出システムは、非常に高価であるので、同種の情報に関心の高い同様の使用者の大集団(例えば、情報分析者のグループ)のみでしか用いられない。
【0011】
従って、例えば、特定のキーワードを用いたインターネット検索により作成された文書群など、局所的に的を絞った文書群に含まれる情報を、使用者がモデル化、抽出及び収集できる軽量なツールが求められている。また、2人がサブジェクトエリアの同じメンタルモデルを有しているわけではないので、使用者が、情報の個人モデルを設計でき、文書から情報を反復的に抽出でき、それを分析でき、及び、使用者自身の情報の概念化及び組織化を反映するような方法で抽出情報を表示できるツールが求められている。
【課題を解決するための手段】
【0012】
本発明のある態様では、情報のモデルを作成する方法であって、文書群を準備すること、使用者にとって関心の高い複数のコンセプトを受信すること、コンセプトのモデルであって、モデルの視覚化に用いられる各グラフィック要素は、自動的に又は使用者により割り当てられる1以上のエクストラクタを有するモデルを作成すること、及び、モデルに応じて文書群から情報を抽出すること、を含んで構成される方法を提供する。
【0013】
本発明の他の態様では、文書群から得られる情報をモデル化する方法であって、使用者にとって関心の高い複数のコンセプトを受信すること、複数のコンセプトの表現を含むモデルであって、モデル内の複数のコンセプトのうちの第1のコンセプトの表現がエクストラクタに対応するモデルを作成すること、及び、第1のコンセプトの表現の使用者選択に基づき、対応するエクストラクタを用いて、第1のコンセプトに関連する情報を文書群から抽出すること、を含んで構成される方法を提供する。
【0014】
本発明の他の態様では、文書群から得られる情報をモデル化する方法であって、使用者にとって関心の高い複数のコンセプトを受信すること、複数のコンセプトの表現を含むモデルであって、モデル内の複数のコンセプトのうちの第1のコンセプトの表現がエクストラクタに対応するモデルを作成すること、第1のコンセプトの表現の使用者選択に基づき、対応するエクストラクタを用いて、第1のコンセプトに関連する情報を文書群から抽出すること、及び、抽出された情報に応答する使用者の入力に基づいて、モデルをカスタマイズすること、を含んで構成される方法を提供する。
【0015】
本発明の他の態様では、文書群から得られる情報をモデル化する方法であって、使用者にとって関心の高い複数のコンセプトを受信すること、複数のコンセプトの表現を含むモデルであって、モデル内の複数のコンセプトのうちの第1のコンセプトの表現がエクストラクタに対応するモデルを作成すること、第1のコンセプトの表現の使用者選択に基づき、対応するエクストラクタを用いて、第1のコンセプトに関連する情報を文書群から抽出すること、抽出された情報に応答する使用者の入力に基づいて、モデルをカスタマイズすること、及び、カスタマイズされたモデルをエクスポートすること、を含んで構成される方法を提供する。
【0016】
本発明の他の態様では、情報のモデルを作成する方法であって、文書群を準備すること、使用者にとって関心の高い複数のコンセプトを受信すること、コンセプトのモデルであって、モデルの視覚化に用いられる各グラフィック要素は、自動的に又は使用者により割り当てられる1以上のエクストラクタを有するモデルを作成すること、モデルに応じて文書群から情報を抽出すること、及び、抽出された情報を解釈、操作、及び分析する手段を用いて使用者に提供すること、を含んで構成される方法を提供する。
【0017】
本発明の他の態様では、文書群に含まれる情報のモデルを作成する方法であって、使用者にとって関心の高い複数のコンセプトを受信すること、複数のコンセプトの表現を含むモデルであって、モデル内の複数のコンセプトのうちの第1のコンセプトの表現がエクストラクタに対応するモデルを作成すること、第1のコンセプトの表現の使用者選択に基づき、対応するエクストラクタを用いて、第1のコンセプトに関連する情報を文書群から抽出すること、及び、抽出された情報を使用者に対して表示すること、を含んで構成される方法を提供する。
【0018】
本発明の他の態様では、文書群から得られる情報をモデル化するシステムであって、文書群から得られる情報をモデル化するシステムであって、使用者にとって関心の高い複数のコンセプトを受信するように構成される受信コンポーネントと、複数のコンセプトの表現を含むモデルであって、モデル内の複数のコンセプトのうちの第1のコンセプトの表現がエクストラクタに対応するモデルを作成するように構成されるモデリングコンポーネントと、第1のコンセプトの表現の使用者選択に基づき、対応するエクストラクタを用いて、第1のコンセプトに関連する情報を文書群から抽出するように構成される抽出コンポーネントと、を含んで構成されるシステムを提供する。
【0019】
本発明の他の態様では、文書群から得られる情報をモデル化するシステムであって、使用者にとって関心の高い複数のコンセプトを受信する手段と、複数のコンセプトの表現を含むモデルであって、モデル内の複数のコンセプトのうちの第1のコンセプトの表現がエクストラクタに対応するモデルを作成する手段と、第1のコンセプトの表現の使用者選択に基づき、対応するエクストラクタを用いて、第1のコンセプトに関連する情報を文書群から抽出する手段と、を含んで構成されるシステムを提供する。
【0020】
本発明の他の態様では、文書群から得られる情報をモデル化する方法を実行する命令を含むコンピュータ可読の媒体(meduim)であって、この方法は、使用者にとって関心の高い複数のコンセプトを受信すること、複数のコンセプトの表現を含むモデルであって、モデル内の複数のコンセプトのうちの第1のコンセプトの表現がエクストラクタに対応するモデルを作成すること、及び、第1のコンセプトの表現の使用者選択に基づき、対応するエクストラクタを用いて、第1のコンセプトに関連する情報を文書群から抽出すること、を含んで構成される、媒体を提供する。
【0021】
本発明の更なる目的及び効果は、以下の記載で一部が説明され、この一部の記載から本発明の更なる目的及び効果が明らかになるか、又は本発明の実施により確認することができる。本発明の目的及び効果は、添付の特許請求の範囲にて特に指摘した構成要素及び組み合わせによって実現及び達成されるであろう。
【0022】
上述した概略的な記載及び以下の詳細な記載は、単なる例示上及び説明上の記載であり、本発明の特許請求の範囲を限定するものではないことを理解するべきである。
【0023】
本明細書の一部に組み込まれて構成される添付図面は、本発明の幾つかの実施形態を示し、その記載と共に本発明の原理を説明するために用いられる。
【図面の簡単な説明】
【0024】
【図1A】本発明の一実施形態に従う典型的な情報の抽出及びモデリングシステムの構成図
【図1B】本発明の一実施形態に従う典型的なコンピュータシステムを示す図
【図2】本発明の一実施形態に従って、情報を抽出及びモデル化するシステムにより実行される典型的なステップを示すフローチャート
【図3】本発明の一実施形態に従って、原テキストを作成するシステムにより実行される典型的なステップを示すフローチャート
【図4】本発明の一実施形態に従って、原テキストを分析するシステムにより実行される典型的なステップを示すフローチャート
【図5】本発明の一実施形態に従って、情報を抽出及びモデル化するシステムにより実行される典型的なステップを示すフローチャート
【図6】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図7】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図8】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図9】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図10】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図11】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図12】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図13】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図14】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図15】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図16】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図17】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図18A】本発明の一実施形態に従う典型的なコンセプトテーブル及び文書分析テーブルを示す図
【図18B】本発明の一実施形態に従う典型的なコンセプトテーブル及び文書分析テーブルを示す図
【図18C】本発明の一実施形態に従う典型的なコンセプトテーブル及び文書分析テーブルを示す図
【図19】本発明の一実施形態に従う典型的なコンセプトテーブル及び文書分析テーブルを示す図
【図20】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図21】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図22】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図23】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図24】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図25】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図26】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図27】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図28】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図29】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図30】本発明の一実施形態に従って、モデルを共有するシステムにより実行される典型的なステップを示すフローチャート
【発明を実施するための形態】
【0025】
添付された図面を参照して、本発明の例示的な実施形態を詳述する。可能な限り、同一の参照番号は、同一又は類似の要素と関連するように図面の全体を通して用いられる。
【0026】
本発明の特定の実施形態に従うシステム及びその方法は、文書群から得られる情報をモデル化及び抽出するためのカスタマイズされたツールを提供する。このツールは、使用者が検索を望む情報の固有モデルを作成することを可能にするグラフィカルユーザインターフェースを含むことができる。使用者がモデルを作成して操作するときに、ツールはデータ抽出に備えて多くの自動タスクを実行する。モデルが作成されると、使用者は、抽出を開始し、結果を表示し、及び、次のデータ抽出の品質を向上させるためにモデルを改良することができる。
【0027】
使用者固有の思考プロセスを反映するモデルを開発するために、ツールは、様々なグラフィック表示を用いて、主要コンセプト及びデータ間の関係を使用者に入力するように指示することができる。例えば、使用者は、エンティティ関係図を用いて主要コンセプト及びそれらの接続を確認することを好むであろう。使用者は、エンティティノードとして表示される重要なコンセプトを入力するように指示され得る。この後、使用者は、ノード間のリレーション矢印(relation arrows)を用いてコンセプトを連結するように指示され得る。他の実施形態では、使用者は、テキストフラグメントのリストを入力することを選択し、関連性の高いものから低いものへと順にテキストフラグメントを並べることができる。
【0028】
使用者がモデルを作成して操作するときに、ツールは、使用者にとって関心の高いコンセプトを求めて文書群を検索するエクストラクタ(extractor)を自動的に生成する。エクストラクタには、単語頻度ベクトル(word frequency vector)、ヒューリスティックテキストサマリー(heuristic text summaries)、構造頻度(construct frequencies)、エンティティ−リレーション(entity-relations)など、多くの異なるタイプの検索ツールを組み込むことができる。また、ツールは、抽出されるコンセプトが便利かつ有意義な方法により保存されるであろう場所を準備するために使用者がモデルを作成している間に、データベースを自動的に構成する。
【0029】
図1Aは、本発明の一実施形態に従う典型的な情報の抽出及びモデリングシステムの構成図である。一実施形態では、図1Aに示すように、1以上のコンピュータ(例えば、ユーザステーション102)及び少なくとも1つの情報ソース106は、ネットワーククラウド104で表現されるネットワーク構成で接続される。ネットワーク104は、インターネット、ワイドエリアネットワーク、ローカルエリアネットワークであってもよく、又は、ユーザステーション102と情報記憶装置との間で情報を伝達するためのあらゆる他の伝達路(conduit)でもあってもよい。尚、2つのユーザステーション102を用いるのは、単なる説明のためのみであり、特定数のユーザステーションを用いることに本発明を限定するものではない。同様に、本発明に従って、任意数の情報ソース106を用いることができる。
【0030】
情報ソース106は、検索エンジン、ウェブページ、データベース(例えば、米国国立医学図書館のPubMed(登録商標)又はMEDLINE(登録商標)データベース)、又はその他の情報である。文書群116は、テキスト群、要約、ウェブページ、イメージ、レポート、レポートの抜粋、コンピュータファイル、又は情報を提供するために用いられる任意の他のソースである。文書群116は、使用者により作成されることが可能であり、使用者は、ツール122を用いて、文書を追加し、文書群116から文書又はその文書の一部を削除することができる。原テキスト(raw text)118は、POSタガー124への入力に適したテキストフォーマット又はその他のフォーマットの文書群116から得られる情報を含む、文書群116の一種である。POSタグ付けされたテキスト119は、処理され、かつ、品詞でタグ付けされた、原テキスト118の一種である。モデル120は、構造化され、かつ、コンピュータで保存可能な情報の表現である。この情報は、例えば、文書群116内に見られる物、コンセプト、動作、リレーションなどである。モデル120は、図11に関連して以下に詳述するディスプレイのようなユーザインターフェースディスプレイを介して、使用者に伝達される。ツール122は、図1Bに関連して以下に詳述するコンピュータシステムで作動可能なソフトウェアアプリケーションである。
【0031】
POSタガー124は、文書内の品詞(POS)(例えば、動詞、名詞など)に対応する単語にマーク付けをするソフトウェアアプリケーションであり、当該技術分野において周知である。語彙モジュール126は、文書群116内に見られる単語、コンセプト、又は、句(フレーズ)の辞書を提供するソフトウェアアプリケーションであり、当該技術分野において周知である。文書分析テーブル128は、品詞、コンセプト、リレーションなどの文書群116に関するデータを保存するデータベーステーブル又はその他のデータ構造である。文書分析モデル128は、初期のモデル120を自動で作成するためにツール122により用いられ、又は、モデル120を手動で変更するために使用者により用いられる。文書分析テーブル128については、図18A〜図18Cに関連して以下に詳述する。コンセプトテーブル129は、文書群116から抽出されたコンセプトを保存するデータベーステーブル又はその他のデータ構造であり、図19に関連して以下に詳述する。
【0032】
図1Bは、本発明の実施形態に従う典型的なコンピュータシステム150を示している。システム150は、中央処理装置(CPU)160、メモリ170、入出力(I/O)装置180、データベース190など、多くの構成要素を含み、様々な方法で実装され得る。例えば、統合プラットフォーム(例えば、ワークステーション、パーソナルコンピュータ、ラップトップなど)は、CPU160と、メモリ170と、I/O装置180と、を含んで構成される。このような構成において、構成要素160、170及び180は、ローカルバスインターフェースで接続することができる。データベース190(独立したデータベースシステムとして実装されたデータベース)へのアクセスは、直接通信リンク、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、及びその他の適切な接続方式の少なくとも1つを用いることにより促進され得る。システム150は、本発明に従って、処理及び操作を行うために複数の類似システムをネットワーク化する、大規模な情報抽出及びモデリングシステムの一部であってもよい。当業者であれば、システム150には多くの代替の構成があり得ることを認識するであろう。
【0033】
CPU160は、Intel(登録商標)社製のPentium(登録商標)系のマイクロプロセッサのような、1以上の周知の処理装置であってもよい。メモリ170は、本発明の実施形態に関する特定の機能を果たすためにCPU160で用いる情報を保存するように構成された1以上の記憶装置である。メモリ170は、磁気記憶装置、半導体記憶装置、テープ記憶装置、光学式記憶装置、又はその他のタイプの記憶装置であり得る。本発明に従う一実施形態において、メモリ170は、1以上のプログラム175を含んでおり、このプログラムは、CPU160で実行されるときに、本発明に従う処理及び操作を行う。例えば、メモリ170は、文書をアクセプト及び処理するプログラム175を含むことができ、原テキスト分析用のプログラム175を含むことができ、モデリング用のプログラム175を含むことができ、情報抽出用のプログラム175を含むことができる。
【0034】
本発明の実施形態に従う方法、システム、及び、製造品は、専用のタスクを行うように構成されたプログラム又はコンピュータに限定されるものではない。例えば、メモリ170は、CPU160で実行されるときに複数の機能を果たすプログラム175又はツール122を含んで構成されてもよい。すなわち、メモリ170は、抽出機能、テキスト分析機能、POSタグ付け機能、図示機能、コンセプトデータ及びリレーションデータのテーブルを保持するデータベース機能のようなその他の機能を果たす1以上のプログラム175を含んでもよい。また、CPU160は、システム150から遠隔設置された1以上のプログラムを実行してもよい。例えば、システム150は、実行のときに本発明の実施形態に関する機能を果たす1以上の遠隔(リモート)プログラムにアクセスしてもよい。
【0035】
メモリ170は、CPU160で実行されるときに当該技術分野で周知の複数の機能を果たすオペレーティングシステム(図示せず)を含んで構成されてもよい。例えば、オペレーティングシステムは、Microsoft Windows(登録商標)、Unix(登録商標)、Linux(登録商標)、アップルコンピュータオペレーティングシステム、携帯情報端末(Personal Digital Assistant)オペレーティングシステム(例えば、Microsoft CE(登録商標)、又は、その他のオペレーティングシステム)であってもよい。オペレーティングシステムの選択及びその使用は、決定的ではない。
【0036】
1以上のI/O装置180は、システム150によってデータの受信及び送信の少なくとも一方を可能にする1以上の入出力装置を含んで構成され得る。例えば、I/O装置180は、キーボード、タッチスクリーン、マウス、スキャナ、通信ポートなど、使用者からのデータ入力を可能にする1以上の入力装置を含むことができる。更に、I/O装置180は、ディスプレイスクリーン、CRTモニタ、LCDモニタ、プラズマディスプレイ、プリンタ、スピーカー装置、通信ポートなど、使用者へのデータ出力又はデータ表示を可能にする1以上の出力装置を含むことができる。I/O装置に組み込まれる入力装置及び出力装置の少なくとも一方の構成及び数は、決定的ではない。
【0037】
データベース190は、情報を保存し、かつ、システム150を介してアクセス及び管理の少なくとも一方が行われる1以上のデータベースを含んで構成され得る。例えば、データベース190は、Oracle(登録商標)データベース、Sybase(登録商標)データベース、又はその他のリレーショナルデータベースであってもよい。また、データベース190は、システムの一部であってもよい。尚、本発明のシステム及びその方法では、実際の任意のソース(例えば、インターネット及びその他の整理されたデータ群)からデータを得られるので、分離されたデータベースに限定されず、更には、データベースの使用に限定されない。
【0038】
文書群116は、情報ソース106から作成されることができ、ユーザステーション102で保存されることができる。文書群116は、ネットワークアクセスが可能な装置で、又は、その他のコンピュータで、局所的に保存されてもよい。以下に詳述するように、POSタガー124、語彙モジュール126、及びツール122を用いて、使用者は、文書群116から情報を取り出す1以上の持続的で移動可能なモデル120を作成することができる。
【0039】
図2は、本発明の一実施形態に従って、情報を抽出及びモデル化するシステムにより実行される典型的なステップを示すフローチャートである。使用者は、原テキスト118を作成するために、文書群116に対する第1の適用フィルタによってモデル120を作成することができる(ステップ210)。原テキストを作成するために文書群116にフィルタを適用する処理については、図3に関連して以下に詳述する。次に、ツール122は、文書分析テーブル128及びPOSタグ付けされた文書119を作成するために、例えば、当該技術分野で周知の語彙モジュール126及びPOSタガー124を用いて、原テキスト118を分析することができる(ステップ220)。一実施形態において、カスタマイズされた語彙モジュール126及びPOSタガー124は、タグ付け及び語彙分析を目的として原テキスト118に適用され得る。原テキスト分析処理については、図4に関連して以下に詳述する。次に、図5に関連して以下に詳述する抽出処理(ステップ230)では、モデル120を作成するために文書分析テーブル128を用いる。
【0040】
図3は、本発明の一実施形態に従って、原テキスト118を作成するシステムにより実行される典型的なステップを示すフローチャートである。図3に示すように、まず、使用者は、フィルタを適用する文書群116を選択することができる(ステップ310)。一実施形態において、使用者は、例えば、ユーザインターフェースを用いて、ユーザステーション102に保存された複数の文書群のリストから文書群116を選択することができる。他の実施形態において、使用者は、インターネットから文書群116をダウンロードし、又は、別の使用者から文書群116を受信することができる。更に、他の実施形態において、ツール122は、文書群116を自動的に選択することができる。
【0041】
次に、ツール122は、何れのフィルタを文書群116に適用するのかを決定することができる。一実施形態において、使用者は、例えば、ツール122に表示されたフィルタのリスト又はインターネット上からフィルタを選択することができる。他の実施形態において、ツール122は、文書群116内の情報のフォーマット又はタイプに基づいて適切なフィルタを自動的に決定することができる。例えば、文書群116内の文書がPDFフォーマットである場合は、ツール122は、文書群116内のPDF文書から原テキストを作成するために、当該技術分野で周知の適切なPDFフィルタを適用することができる。他の例では、文書群116がHTMLフォーマットである場合は、ツール122は、文書群116から原テキストを作成するために、当該技術分野で周知の適切なフィルタを適用することができる。次に、選択されたフィルタが、原テキスト118を作成するために適用され(ステップ330)、原テキスト118は、例えば、ユーザステーション102のメモリ170に局所的に保存され得る(ステップ340)。特定の実施形態では、原テキスト118は、ネットワーク104を介してアクセス可能なリモートロケーションに保存され得る。
【0042】
図4は、タグ付け及び語彙分析のための典型的な処理を示している。一実施形態において、使用者は、原テキスト118に対して語彙分析を実行するために、何れの語彙モジュール126を用いるかを決定することができる(ステップ410)。他の実施形態において、ツール122は、何れの語彙モジュール126を用いるかを自動的に決定することができる。例えば、ツール122は、原テキスト118がスポーツに関する情報を含むことを決定するために、原テキスト118を分析することができる。このため、ツール122は、原テキスト118に適用するスポーツに関する語彙モジュールを選択することができる。当業者であれば、語彙モジュール126の選択について多くの他の手段及び方法が存在することを理解するであろう。
【0043】
ツール122が、選択した語彙モジュール126及びPOSタガー124を原テキスト118に適用することで、POSタグ付け及び語彙分析が実行され得る(ステップ420)。POSタグ付けは、原テキスト118内の語、句、節、及びその他の文法構造を、これらに対応する品詞(例えば、名詞、動詞など)を用いて識別する。POSタガー124は、使用者により選択され、又は、ツール122により自動的に決定され得る。
【0044】
語彙分析の間(ステップ420)、ツール122は様々な方法で原テキスト118を分析することができる。例えば、ツール122は、原テキスト118内で頻繁に出現するn−グラム(n-grams)(すなわち、任意の文字又は単語の列におけるn個の要素の部分列)を特定することができ、一実施形態では、重複を除去するために、頻繁に出現するn−グラムをフィルタにかけることができる。他の例では、ツール122は、例えば、テキストの格(textual case)、名詞の個数、及び、下位語、類義語、頭字語を考慮に入れて、頻繁に出現する名詞を決定することができる。また、ツール122は、頻繁に出現する名詞を含む限定名詞句を見つけ出すと共に、動詞の変化、上位語、慣用句、及びトロポニム(troponym)を考慮に入れて、頻繁に出現する動詞構造を見つけ出すことができる。また、ツール122は、原テキスト118の名詞−前置詞構造を決定することができる。
【0045】
原テキストの分析が完了した後、ツール122は、文書分析テーブル128に文書分析の結果を保存することができ(ステップ430)、抽出処理で用いられるコンセプトテーブル129にコンセプトを自動的に保存することができる(ステップ435)。この詳細は、図5〜図19に関連して以下で説明する。また、一実施形態において、ツール122は、POSタグ付けされた文書119を作成することを目的として、語彙分析により識別された品詞、その他の文法構造、又はエンティティが原テキスト(図示せず)内で出現する箇所を示すために、原テキスト118にマーク付けをすることができる。最後に、ツール112は、使用者に対して原テキスト分析の結果を表示することができる(ステップ440)。
【0046】
図5は、使用者が、図4に関連して説明した処理により作成された原テキスト分析(ステップ510)にアクセスしたとき、及び、新規に作成されたモデル120又は既存のモデル120にアクセスしたとき、に開始される典型的な抽出処理を示している。次に、ツール122は、使用者によるコンセプトの選択及び定義付けを受信することができる(ステップ520)。この詳細は、図11〜図17に関連して以下で説明する。ステップ520で定義付けされたコンセプトが新規のデータベース129を必要とする場合、ツール122は、データベースを適宜変更する。使用者は、抽出されるコンセプトをコンセプトテーブル129に保存するための抽出を開始することができる(ステップ530)。ツール122は、使用者によって指示されたコンセプトを含めるためにPOSタグ付けされた文書にマーク付けをする(ステップ535)。次に、ツール122は、抽出された情報及びマーク付けされたテキストを表示すると共に、例えば、図11に関連して後述するユーザインターフェイディスプレイを用いて、モデル120を使用者に表示する(ステップ550)。使用者が絞り込みを要求する場合(ステップ560)、処理をループバックして継続することができる。
【0047】
ステップ510:使用者に対する原テキスト分析の表示
【0048】
図4に関連して上述した原テキスト分析を完了した後、ツール122は、使用者に対して原テキスト分析の結果を表示することができる(ステップ510)。図6は、本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示している。ツール122は、図6に示すようなメニュー600を表示することができ、これにより、文書群116の情報内容の概要及び原テキスト分析を使用者に提供することができる。
【0049】
図6に示すように、メニュー600は、例えば、N−グラム分析(N-gram Analysis)610、検索分析(Search Analysis)620、及び参加者−診療(Participants-Interventions)などの様々なオプションを使用者に提示することができる。各メニューオプションは、夫々が様々なサブオプションを含むことができる。当業者であれば、メニューオプション610、620、630は単なる例示を目的としており、これらのメニューオプションは、本発明の原理から逸脱することなく、追加、削除、又は変更することができることを認識するであろう。
【0050】
ツール122及びメニュー600を用いて、使用者は、原テキスト118又はPOSタグ付けされた文書119で見られる最も頻繁に出現するコンセプト又は品詞(例えば、名詞、動詞など)、コンセプト又は品詞の頻度、高頻度なトリガーフレーズ、及び、その他の構造の態様並びにコンセプトや品詞などの規則性、にアクセスすることができる。特定の実施形態では、この情報は、上述の図2〜図4に示した処理で作成され得る。例えば、図6に示すように、使用者は、n−グラムエンティティのリストを参照し(see a list of n-grams entities)、原n−グラムのリストを参照し(see a list of raw n-grams)、類似タームを検索し(search for similar terms)、名詞句のリストを参照し(see a list of noun phrases)、又は、動詞句のリストを参照(see a list of verb phrases)することができる。
【0051】
使用者がメニュー600から「n−グラムエンティティのリストの参照」を選択する場合、ツール122は、使用者に対して、n−グラムエンティティのリストを表示することができる。図7は、本発明の一実施形態に従って表示されるn−グラムのリストの典型的なユーザインターフェースディスプレイを示している。図7に示すように、ツール122は、頻繁に出現するn−グラム(例えば、「5-grams(5−グラム)」、「4-grams(4−グラム)」、「3-grams(3−グラム)」)、及び、該n−グラムがどの程度、文書群116内に出現しているのかを表す頻度、を表現することができる。
【0052】
原テキスト分析結果の検索
【0053】
使用者は、原テキスト分析の結果を検索することもできる。図6に戻り、例えば、使用者は、メニュー600からオプション「主部・動詞・目的部検索(Subject Verb Object Search)」622を選択することができる。そして、ツール122は、使用者が、例えば、主部、動詞、又は目的部を入力することによって文書群116を検索可能にするユーザインターフェースを表示することができる。図8は、本発明の一実施形態に従って、使用者が、主部・動詞・目的部検索タームを用いて文書群116を検索することができる典型的なユーザインターフェースディスプレイを示している。図8の検索ウインドウの「動詞」フィールドに複数の単語「caused by(起因する)」のような使用者の入力を受信した後、ツール122は、動詞「caused by」を含む全ての文書を見つけ出すために文書群116を検索することができる。使用者は、例えば、「discovered in(発見される)」、「found(見つかる)」、「retrieved(取り出される)」など、任意の動詞を図8の検索ウインドウの「動詞」フィールドに入力することができる。
【0054】
ツール122は、要求された動詞を含む、文書群116内の全ての文書を見つけ出し、この結果を使用者に提示することができる。図9は、本発明の一実施形態に従って検索の結果を使用者に表示する典型的なユーザインターフェースディスプレイを示している。一実施形態において、図9に示すように、ツール122は、主部、動詞、及び目的部を個々のデータフィールドに区切るユーザインターフェースに、「主部・動詞・目的部検索」の結果を夫々表示することができる。このようにして、使用者は、要求された動詞と、これに関連した文書内で用いられた主部及び目的部と、を含む各文書ごとの抜粋を参照することができる。使用者は、この文書をより詳細に表示する場合、例えば、図9の「DocID」データフィールドに示されたリンクを選択することによって、文書を選択することができる。
【0055】
文書群からの文書の移動
【0056】
一実施形態において、使用者は、文書群116から文書の追加、変更、又は削除を求めることができる。図10は、使用者が、例えば、移動させる1以上の文書に隣接するドロップのチェックボックス1010をクリックすることによって、文書群116から文書を移動するときに用いることができるユーザインターフェースである。
【0057】
ステップ520:エンティティリレーションの使用者選択の受信
【0058】
単にテキスト行のみを表示する代わりに、ツール122は、使用者がグラフを用いて文書群116を表示及び分析するためのモデル120を作成すること、を可能にすることができる。例えば、モデル120は、使用者によるエンティティ関係入力を用いることができるので、使用者は、文書群116内のエンティティ関係のグラフを表示及び変更することができる。図11は、本発明の一実施形態に従ってモデル120を表示することができる典型的なユーザインターフェースディスプレイを示している。例えば、図11に示すように、ツール122は、ノード1110及びリレーション1120のようなモデル120内のエンティティを作成するために使用者入力を受信することができる。ノード1100及びリレーション1120は、文書群116内の複数のコンセプトと、これらコンセプト間の関係と、を表現することができる。ノード1110は、例えば、使用者と関連がある情報のテキスト表現又はグラフ表現のようなコンセプトを含むことができる(例えば、使用者がコンセプトを表現するために「recombinant protective antigen(組み換え防御抗原)」という語を打ち込むことができる)。一実施形態において、モデル120は、上述のように、原テキスト分析の結果に基づいて、1以上のデフォルトノード1110を含むことができる。代替又は追加として、使用者は、ノード1110を作成することができる。例えば、使用者は、コンセプトを表現するノードを作成するためにテキストを入力することができる。
【0059】
図12は、本発明の一実施形態に従って、モデル120のノードを作成するために使用者の入力を受信する典型的なユーザインターフェースディスプレイを示している。ノード間にリレーションを追加する処理については、図24に関連して後述する。例えば、図12に示すように、使用者は、コンセプト「barium(バリウム)」を表現するノードを作成することができる。使用者は、選択メニュー1220にアクセスするために、モデル120上で、又は、ノード1210「radiation therapy(放射線治療)」のような任意の既存ノード上で右クリックすることができる。選択メニュー1220は、例えば、「百科事典(Encyclopedia)」、「ノード追加(Add Node)」、「ノード移動(Remove Node)」、「類義語の表示及び編集(View & Edit Synonyms)」、「ノード名称の変更(Change Node Name)」、「エッジ追加(Add Edge)」、「エッジ移動(Remove Edge)」「色管理(Manage Color)」、「単純抽出(Simple Extract)」、「サブクラス抽出(Extract Subclasses)」、及び「カスタムエクストラクタの追加又は編集(Add/Edit Custom Extractor)」など、様々なオプションを含むことができる。
【0060】
使用者は、選択メニュー1220から「ノード追加」を選択することができる。図13は、本発明の一実施形態に従って、使用者が「ノード追加」を選択した後にツール122が表示する典型的なユーザインターフェースディスプレイを示している。図13に示すように、ツール122は、使用者に対してポップアップウインドウ1310を表示することができる。ポップアップウインドウ1310を用いて、使用者は、「barium(バリウム)」など、文書群116に関連させるコンセプトを入力することができる。図14は、本発明の一実施形態に従って、使用者が新規のノードを作成した後にツール122が表示する典型的なユーザインターフェースディスプレイを示している。図14に示すように、ツール122は、モデル120に新規のノード1410「barium(バリウム)」を追加する。また、一実施形態において、ノード1410は、文書群を検索するために、及び、ノードとリレーションと類義語とを関連付けるために、ツール122により用いられるコンセプト番号「CN137-0」が割り振られ得る。
【0061】
類義語の追加
【0062】
使用者は、1以上のノードと関連するテキストフラグメントを含む類義語を追加することもできる。図15は、モデル120を表示するためのユーザインターフェースである。類義語をノードに追加するために、使用者は、モデル120で所望のノード、例えばノード1410「barium(バリウム)」を右クリックすることができ、ツール122は、選択メニュー1220を表示することができる。この後、使用者は、選択メニュー1220から「類義語の表示及び編集」を選択することができる。
【0063】
図16は、類義語を編集するためのポップアップウインドウ1610を表示するユーザインターフェースである。使用者は、テキストボックス1605に類義語を入力することができる。「追加(Add)」ボタン1640をクリックした後、類義語がディスプレイボックス1650内に表示されるであろう。例えば、使用者は、「Ba」、「barium enema(バリウム注腸)」及び「barium treatment(バリウム治療)」がコンセプトであるBarium(バリウム)に関連する類義語として扱われなければならない、と指定することができる。使用者が類義語を除去することを望む場合に、使用者は、類義語に隣接するチェックボックス1620をクリックすると共に、削除(delete)ボックス1630をクリックすることができる。一実施形態において、ツール122は、各ノードに対して多数の類義語を受け入れる(アクセプトする)ことができる。使用者は、ノードに追加する類義語を満足させると、ポップアップウインドウ1610を閉じることができる。当業者であれば、例えば、モデル120と同一のユーザインターフェースのテキストボックスでテキストを受信し、音声命令をアクセプトし、シソーラスのような補助的なデータソースから提案を受信し、又は、リストから単語を強調表示又は選択するなど、類義語をアクセプトするための多くの他の手段及び方法があることを認識するであろう。
【0064】
類義語がノードに追加された後、ツール122は、図17〜図23に関連して以下に詳述するように、POSタグ付けされた文書119内の各類義語の全ての発生を取り出すことができる。
【0065】
ステップ530:抽出の開始
【0066】
図17は、ツール122の使用者が、モデル120を用いて、文書群116からコンセプトを抽出及び操作することを可能にするサンプルユーザインターフェースである。文書群116から情報を抽出することは、自然言語フォーマットである原文から情報を取り出すことである。図5に関連して上述したように、モデル120を作成した後、又は、モデル120にアクセスした後、使用者は、コンセプトテーブル129又は文書分析テーブル128を作成若しくは絞り込みをするために、抽出を開始することができる(ステップ530)。一実施形態において、使用者は、図17に示すように、選択メニュー1220から「単純抽出」オプションを選択することによって抽出を開始することができる。ツール122は、抽出の進捗状況を使用者に通知するポップアップウインドウ1710を表示することができる。
【0067】
一実施形態において、ツール122は、1つのエクストラクタをデフォルトに設定することができるが、使用者が、例えば、より複雑なエクストラクタを作成するために、エクストラクタを追加又は編集することもできる。使用者は、デフォルト又は既存のエクストラクタを編集するために、又は、新規のエクストラクタを追加するために、選択メニュー1220から「カスタムエクストラクタの追加又は編集」を選択することができる。例えば、使用者は、既存の市販エディタを用いて、エクストラクタを追加することができる。
【0068】
次に、例えば、任意の新規な又は変更されたエンティティ若しくはリレーションを含めるために、コンセプトテーブル129が更新され得る(ステップ530)。また、ツール122は、何れの文書がコンセプトを含むのかを示すために、文書分析テーブル128を更新することもできる。一実施形態において、コンセプトテーブル129及び文書分析テーブル128は、ユーザステーション102のデータベースに局所的に保存され得る。また、コンセプトテーブル129及び文書分析テーブル128は、任意のネットワークアクセスが可能な装置に遠隔保存されてもよい。一実施形態において、コンセプトテーブル129は、使用者がモデル120を作成する前に、文書群116のn−グラム分析を含むように自動的に作成されてもよい。
【0069】
図18Aは、本発明の一実施形態に従う典型的な文書分析テーブルを示している。図18Aに示すように、文書分析テーブル128は、文書群116から作成される原テキスト118より抽出される情報を保存することができる。例えば、文書分析テーブル128は、例えば、行番号又はコンセプトの文(センテンス)位置などコンセプトが位置するPOSタグ付けされた文書119内の1以上の位置を保存することができる。また、文書分析テーブル128は、以下に詳述するように、文書群116内の何れの文書がどのようなコンセプトを含むのかを示すことができる。
【0070】
例えば、図18Aに示すように、文書分析テーブル128は、文書群116から抽出される特定のデータを含む文書コンセプトテーブル1810を含むことができる。文書コンセプトテーブル1810は、例えば、識別子、タイプ、コンセプト、又は文書群116に関連する他のデータなど、上述の処理で用いられる情報を保存する様々なデータフィールドを含むことができる。例えば、図18Aに示すように、テーブル1810は、文書識別子(例えば、PubMed(登録商標)識別子又はMEDLINE(登録商標)識別子)を保存する「DocumentID」データフィールドを含むことができる。また、テーブル1810は、各ノードに対応するコンセプト識別子を保存する「ConceptlD」データフィールドを含むことができる(例えば、識別子「C17102」は、モデル編集の間に割り当てられ得る)。
【0071】
「sentbegin」データフィールドは、文の最初の単語のインデックスを保存することができる(すなわち、ファイルの23番目の単語が文の最初の単語である場合、「sentbegin」フィールドは23の値を保存することができる)。「sentend」データフィールドは、文の最後の語のインデックスを保存することができる。「CNbegin」データフィールドは、コンセプトを表現するテキストフラグメントの最初の単語のインデックスを保存することができ、「CNend」データフィールドは、テキストフラグメントの最後の単語のインデックスを保存することができる。テキストフラグメントが1語のみを含む場合、「CNbegin」データフィールドと「CNend」データフィールドとの値は同一であり得る。
【0072】
他のデータフィールドは、モデル120を作成及び変更するツールにより用いられる他の情報を保存することができる。例えば、「CorpusID」データフィールドは、特定の文書群に割り当てられた番号を保存することができ、「OntologylD」データフィールドは、特定のモデル120に割り当てられた番号を保存することができ、「status」データフィールドは、他のデータを保存することができる。当業者であれば、多くの他の手段及び方法が、文書群116に関連する情報を保存するために使用可能であることを認識するであろう。
【0073】
ステップ535:POSタグ付けされた文書にマーク付けをする
【0074】
抽出が開始されると、POSタグ付けされた文書119は、ノード1110によって表現されたコンセプトを含めるためのマーク付けがなされ得る(ステップ535)。例えば、POSタグ付けされた文書119にコンセプトを描くために、インジケータが追加され得る。一実施形態において、ツール122は、モデル120で定義付けされた要求コンセプト及び要求リレーションを何れの文書が含むのかを特定するために、POSタグ付けされた文書119を検索すると共に、POSタグ付けされた文書119内のコンセプト及びリレーションを指定する。例えば、一実施形態において、POSタグ付けされた文書119内の各々の語が個々の行に保存されるように、POSタグ付けされた文書119が保存され得る。一実施形態において、各々の語は、適切な品詞タグ(例えば、名詞、動詞、代名詞)と共に保存され得る。ツール122は、コンセプトの先頭を示すために、行にコンセプトタグ(例えば、以下表1に示すコンセプトタグ「C17102:」)を追加することができる。コンセプトの末尾を示すために、ツール122は、行の最後に分離コンセプトタグ(例えば、「:C17102」)を追加することができる。
【表1】
【0075】
ツール122は、同一のコンセプトを表現する類義語を示すために、同一のコンセプトタグを用いて複数の類義語にマーク付けをすることができる。類義語は、使用者により選択されて、ノードに付随又は関連するコンセプトを含むことができる。例えば、使用者は、モデル120を作成する間に、「patient(患者)」の類義語として「person(人物)」を指定することができる。ツール122は、「person(人物)」と「patient(患者)」とが類義語として指定されたことを表現するために、表2に示すように、同一のインジケータ「CN200:」及び「:CN200」を用いて、単語「patient(患者)」及び「person(人物)」にマーク付けをする。
【表2】
【0076】
当業者であれば、コンセプト、類義語、リレーションなどを示すことを目的として、POSタグ付けされた文書119にタグを追加するために、多くの他の手段及び方法が使用可能であることを理解するであろう。例えば、POSタグ付けされた文書119がXMLフォーマットで保存される場合、標準のタグ−値のペアがXMLストラクチャ(構造)の適切な位置に追加され得る。
【0077】
一実施形態において、POSタグ付けされた文書119に追加されるタグに関連する情報は、文書分析テーブル128で保存され得る。図18B及び図18Cは、本発明の一実施形態に従う典型的な文書分析テーブルを示している。図18Bに示すように、文書分析テーブル128は、特定の文書内のコンセプトタグと、該タグに関連する頻度と、を保存するn−グラム分析テーブル1820を含むことができる。「urid」データフィールドは、例えば、簿記目的のために、データベースによって自動的に割り振られる固有行識別番号を保存することができる。「corpuslD」データフィールドは、文書群に割り当てられる識別番号を保存することができる。「n」データフィールドは、n−グラムのトークン数を保存することができ、「count」データフィールドは、n−グラムがコーパス(corpus)全体又は文書群に出現する回数を保存することができる。「frag」データフィールドは、n−グラム自体を保存することができる。
【0078】
図18Cは、図9に関連して上述した「主部・動詞・目的部検索」の結果のコラムを含む文書結果テーブル1830を示している。「urid」データフィールドは、例えば簿記目的のために、データベースによって自動的に割り当てられる固有行識別番号を保存することができる。「docid」データフィールドは、文書又は文書群に割り当てられる識別番号を保存することができる。「Subject」データフィールドは、例えば、テキストフラグメントとして、文の主部を保存することができる。「verbphrs」データフィールドは、文における主部と目的部との間に位置する動詞句を保存することができると共に、テキストフラグメントとして保存され得る。「Object」データフィールドは、テキストフラグメントとして、文の目的部を保存することができる。「conceptlD」は、図9に関連して上述した「主部・動詞・目的部検索」で使用者により選択された主部、動詞、及び目的部を有するステートメントに割り当てられるコンセプト識別子を保存することができる。「corpuslD」データフィールドは、コーパス又は文書群の識別子を保存することができ、「OntologylD」データフィールドは、モデルの識別子を保存することができる。
【0079】
コンセプトインジケータ
【0080】
また、一実施形態において、使用者は、例えば、調整可能な色をコンセプトに割り当てることによって、調節可能なインジケータをコンセプトに割り当てることができる。図19は、本発明の一実施形態に従う典型的なコンセプトテーブルを示している。例えば、図19に示すコンセプトテーブル1910は、様々なコンセプトと関連する色タイプを保存することができる。図19に示すように、コンセプトテーブル1910は、文書識別子(document identifiers)などの簿記識別子(bookkeeping identifiers)を保存する「cnuid」データフィールドを含むことができる。「cnid」データフィールドは、コンセプト識別子を保存することができる。このコンセプト識別子は、以下に詳述するように、モデル120を作成する間、又は、モデル120を改良した後に割り当てられ得る。「cnname」データフィールドは、プレースホルダー識別子を保存することができる。「descriptive」データフィールドは、与えられたコンセプトを表現する適切なテキストフラグメントを保存することができる。「colorstring」データフィールドは、使用者がノードに割り当てた色の16進エンコーディングを保存することができる。「colorstatus」データフィールドは、使用者が色を着色又は脱色したかを示すことができる。「ontologylD」データフィールドは、各コンセプトが属するモデル120を示すことができる。一実施形態において、1つのコンセプトテーブル1910は、複数のモデル120の情報を保存することができる。他の実施形態においては、複数のコンセプトテーブル1910が、様々なモデル120の情報を保存してもよい。
【0081】
ステップ550〜ステップ555:使用者に対するモデルの表示、及び、使用者に対する抽出された情報とマーク付けされた文書との表示
【0082】
次に、ツール122は、例えば、図11に示すグラフィカルユーザインターフェースを用いて、使用者に対してモデル120を表示することができる(ステップ550)。そして、ツール122は、図20〜図29に関連して以下に詳述するように、使用者に対して、抽出された情報及びマーク付けされた文書を表示することができる。
【0083】
ステップ560:絞り込み
【0084】
使用者がモデル120の絞り込みを望む場合、使用者は、絞り込みを要求するための様々なアクションを行うことができる(ステップ560)。例えば、使用者は、図20〜図29に関連して後述するように、ノード、リレーション、又は類義語をモデル120に追加することができる。
【0085】
抽出された情報の表示及び絞り込み
【0086】
図20は、本発明の一実施形態に従って、文書群116から抽出された情報を表示するユーザインターフェースを示している。図19に関連して上述したように、ツール120は、各コンセプト及びリレーションを表現するために、強調表示を行う他、例えば、色、下線、フォント変更などの調節可能なインジケータを用いて、単語、単語の組み合わせ、イメージ、及びその他の記号をマーク付けすることができる。調節可能なインジケータは、コンセプトが文書内の何れに位置しているのかを使用者に示すために、モデル120内のノードにより定義されるコンセプトと共に表示され得る。一実施形態では、異なるインジケータが、各ノードに割り当てられ得る。
【0087】
図19に関連して上述したように、インジケータは調節可能である。例えば、一実施形態において、使用者は、ノード又はリレーションをクリックし、例えば、各ノードに対応する色又はインジケータを変更するために、選択メニュー1220を用いて、「色管理」を選択することができる。
【0088】
要求されたコンセプトの絞り込み
【0089】
更に他の実施形態において、使用者は、文書群116から抽出されるコンセプト及びリレーションを更に絞り込むことができる。図21は、本発明の一実施形態に従って、使用者が特定のコンセプトを有する文書を選択又は除外するためにアクセスするユーザインターフェースを示している。例えば、図21に示すように、使用者は、モデル120内のコンセプトから複数のコンセプトを選択すると共に、例えば、「Must Have(なければならない)」、「Must Not Have(あってはならない)」、又は「May Have(あり得る)」など、対応するステータスを選択し、その後、この要求をツール122に送信することができる。ツール122は、使用者の選択に応じて、何れの文書がコンセプトを含み又は含まないのかを特定すると共に、この特定されたサブセットをユーザインターフェースで使用者に対して表示する。
【0090】
図22は、本発明の一実施形態に従って、図21による検索結果を表示するユーザインターフェースを示している。ツール122は、例えば、コンセプトの名称又は番号を用いて、要求されたコンセプトを有する文書群116からの文書を表示すると共に、使用者の検索により示されたステータス(状態)を表示することができる。また、ツール122は、図22に示すように、要求されたコンセプト、文書識別番号、文書タイトル、及び、検索により返された文書の番号を表示することができる。
【0091】
マーク付けされた文書の表示
【0092】
使用者は、文書及びそのマーク付けされたテキストを更に詳しく表示するために、図22のリストから任意の文書を選択することができる。図23は、本発明の一実施形態に従って、文書及びそのマーク付けされたテキストを表示するためにツール122が用いる典型的なユーザインターフェースディスプレイを示している。図23に示すように、コンセプト「anthrax(炭疽菌)」が、文書の全体にわたって強調表示される。また、コンセプト「protective antigen (PA) moiety(防御抗原(PA)部分)」、「CHO cells(CHO細胞)」、及び「edema factor(浮腫因子)」も強調表示され、異なる調整可能な色と共に強調表示されてもよい。調整可能な色は、図19〜図20に関連して上述したように、各コンセプトに関連するモデル120のノードに関連してもよい。
【0093】
リレーションの追加
【0094】
使用者は、モデル120内のコンセプト間のリレーションを追加することにより、モデル120の更なる絞り込みを望むことができる。リレーションは、特定のコンセプトが何らかの方法で接続されることを表現することができる。図24は、本発明の一実施形態に従って、モデル120を含む典型的なユーザインターフェースディスプレイを示している。図24に示すように、2つのノード間にリレーション又は「エッジ(edge)」を追加するために(例えば、「肺(lung)」で「ヒュルトレ細胞癌(hurthle cell carcinoma)」が見つかるという事実を表現するために)、使用者は、ノード「hurthle cell carcinoma(ヒュルトレ細胞癌)」2410の上を右クリックし、選択メニュー1220から「エッジ追加」を選択することができる。
【0095】
この後、使用者は、リレーション情報(例えば、リレーション及び対象ノード(target node)の名称)を、ユーザインターフェースに入力することができる。このようにして、使用者は、モデル120内の選択されたノードと他のノード(すなわち、対象ノード)との間の関連を指定することにより、モデル120を動的に変更することができる。図25は、本発明の一実施形態に従って、ツール122が、リレーションに対する使用者の入力をアクセプトするために表示する典型的なユーザインターフェースディスプレイを示している。図25に示すように、使用者は、ポップアップウインドウ2510の「エッジ追加」を用いて、接続するリレーションに対して、(例えば、コンセプト名称又はコンセプト番号によって識別される)新規のリレーション及び対象ノードの名称を入力することができる。例えば、リレーションは「is found in(見つかる)」、「is caused by(起因する)」、「includes(含む)」などである。
【0096】
図26は、本発明の一実施形態に従って、モデル120及び新規のリレーション2610「is_found_in」を含む典型的なユーザインターフェースディスプレイを示している。図26に示すように、モデル120は、「ヒュルトレ細胞癌(hurthle cell carcinoma)」が「肺(lung)」で「見つかる(is found in)」ことを示すように変更される。この柔軟性は、使用者によるモデル120の変更を可能にすると共に、得られた抽出結果を使用者自身のコンセプト群のメンタルマップに適合させることを可能にする。
【0097】
また、ツール122は、例えば、「is associated with(関連する)」、「is part of(一部である)」、「is included in(含まれる)」など、リレーション2160「is_found_in」を表す動詞変化及びトロポニムを割り当てることができる。また、ツール122は、自動的に変化(例えば、英語の動詞変化)を割り当てることができ、使用者は、リレーション2610「is_found_in」の類義語を作成することにより、他の動詞(及びその変化)を追加することができる。
【0098】
リレーションへの類義語の追加
【0099】
図27は、本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示している。図27に示すように、類義語をリレーションに追加するために、使用者は、例えば、リレーション2610「is_found_in」などのリレーションを右クリックし、選択メニュー1220からリレーションインスタンスの表示又は編集(View/Edit Relation Instances)を選択することができる。
【0100】
図28は、本発明の一実施形態に従って、ツール122が、リレーションに類義語を追加するために、使用者に対して表示することができる典型的なユーザインターフェースディスプレイを示している。図28に示すように、パネル2810は、使用者が本質的には同一の意味を有すると考える様々な動詞節を表示することができる。追加又は代替として、使用者は、モデル120を更にカスタマイズするために、リレーションに対して使用者独自の類義語を入力することができる。当業者であれば、図28に示す動詞節(例えば、「is found in(見つかる)」)が単なる例示を目的としていることを認識するであろう。
【0101】
次に、使用者は、文書群116からリレーションの全てのインスタンスを抽出する。図29は、本発明の一実施形態に従って、使用者が文書群116からリレーションのインスタンスを抽出できるようにする典型的なユーザインターフェースディスプレイを示している。一実施形態において、図29に示すように、使用者は、リレーション2610「is_found_in」を右クリックし、選択メニュー1220から「リレーション抽出(Extract Relation)」を選択することができる。リレーションのインスタンスを抽出した後、使用者は、リレーション及び関連するコンセプトの少なくとも一方の1以上のインスタンスを含む任意の文書を参照することができる。
【0102】
モデルの共有
【0103】
一実施形態において、モデル120は、共同研究及び効率改善を可能にするため、様々な使用者間で共有することができる。図30は、本発明の一実施形態に従って、モデルを共有するシステムにより実行される典型的なステップを示すフローチャートである。図30に示すように、使用者は、モデル120及びマーク付けされた文書群116を第2の使用者に送信することができる(ステップ3010)。また、第2の使用者は、上述のように、独立して文書群にアクセスし(ステップ3012)、文書群にフィルタを適用し(ステップ3014)、原テキストを分析し(ステップ3016)、及び、POSタグ付け並びに語彙分析を実行することができる(ステップ3018)。
【0104】
第2の使用者は、新規プロジェクトを作成することができ(ステップ3020)、図5に関連して上述したように、抽出処理を実行することができる(ステップ3030)。
【0105】
代替又は追加として、使用者は、インターネットを介して、モデル120を、販売、交換、又は共有することができる。例えば、ウェブサイトは、特定のトピックに関連する文書群116から情報を抽出する予定の研究者のために特に設計したモデル120のコレクションを含むことができる。一実施形態では、使用者は、様々な臨床試験に関連するモデル120を共有することができる。他の実施形態では、使用者は、スポーツ、音楽、法律的な話題、ニュース、健康、旅行、金融、技術、政治、教育、又はビジネスに関連するモデル120を共有することができる。モデル120は、使用者が、販売、購入、共有、交換、及び改良するために、ウェブサイトを介してアクセスできるようにしてもよい。一実施形態において、ツール122又はインターネットウェブサイトは、文書群116又は研究トピックに対する使用者の要求を受信することができ、文書群116又は検索トピックに関連する望ましいモデル120を用いて文書群116を検索することができる。
【0106】
当業者であれば、モデル120を作成するために様々な手段及び方法を用いることができることを認識するであろう。例えば、スプレッドシートのような表形式表示、グラフ、又は情報テーブルが、モデル120を表現するために用いられ得る。
【0107】
本発明の他の実施形態は、本明細書を考察することにより、又は、本明細書にて開示された本発明を実施することにより、当業者にとって自明となるであろう。本明細書及び実施形態は単に例示的なものとして考慮されるべきであり、本発明の真の範囲及び精神は、特許請求の範囲により示されている。
【技術分野】
【0001】
本出願は、2006年5月17日出願の米国特許出願第11/434,847号の優先権を主張する。
【0002】
本発明は、情報の抽出に関し、より詳しくは、カスタマイズされたツールを用いて、文書群から情報を抽出し、この抽出された情報をモデル化する方法及びそのシステムに関する。
【背景技術】
【0003】
電子文書作成システム及びインターネットの急速な発展は、あらゆるタイプ(例えば、テキストファイル、ウェブページなど)の文書数の爆発的な増加をもたらしている。Google(登録商標)などのインターネット検索エンジンは、局所的に的を絞った文書群(document sets)を見つけ出す基本的な検索ツールを提供することによって、膨大な文書群を検索するニーズに応えている。例えば、キーワードのブール組み合わせ(Boolean combination)を作成し、これを用いて検索を絞り込むことができる。ここで、キーワードのブール組み合わせとは、キーワード間の関係を指定するための「AND」、「OR」、「NOT]などのブール演算子とキーワードとの組み合わせである。検索を絞り込む先進的な手法は、例えば、全体テキストマッチング(whole text matching)、又は、検索結果を使用者が以前に検索した文書の種類に合わせるユーザプロファイリング(user profiling)を含む。
【発明の概要】
【発明が解決しようとする課題】
【0004】
検索の高度化にかかわらず、使用者は、例えば、最も関連する文書を特定するために、多くの場合、扱いきれないほどの文書に目を通して、これらの文書を1つずつ検討しなければならない。更に、どれほど検索が高度化しても、利用可能な文書数が現在進行中で目覚しく増加しているため、検索能力の将来の進歩を考慮しても、関連する文書の多量の検索結果を使用者が受信し続けるであろうことは、確実であると思われる。
【0005】
局所的に的を絞った文書群に関する以下のタスクの全てを一般的な使用者が実行することを支援する直観的で使い易いツールは、現在のところ存在しない。(1)情報の内容について全ての群を分析する。(2)これら分析と使用者自身の専門知識とを用いて、使用者が文書群内のコンセプトの直観的な視覚モデルを作成できるようにする。(3)その後、文書内のそれらコンセプトの抽出及び配置を推進するためにモデルを用いる。(4)使用者が、抽出された情報を収集及び処理できるようにする。(5)使用者が、他の関心が高い関係者と共有するために、モデル、データ、及びレポートを簡便にエクスポートできるようにする。これにより、関係者は、自分のコンピュータにモデル及びデータをアップロードすることができる。(6)これらのステップの全ての簡単で直観的な反復(iteration)を支援する。
【0006】
技術分野の研究者は、何十万もの電子版研究論文にアクセスすることができる。これは、研究をますます複雑にすると共に、研究をますます加速させる。例えば、米国国立医学図書館は、生物医学研究の分野で1400万件以上のサイテーションにアクセスできるようにしている。多くの場合、研究者は、多量の文書群又は検索結果に直面したときに、より少量の一層関連がある情報群を取り出すために自分の検索手法で絞り込む必要がある。しかしながら、特に複雑な研究プロジェクトに対して、このような検索タイプは、必要とされる検索テキストの範囲に起因して、その作成及び処理が困難である。更に、この種の反復検索は、非常に時間がかかる可能性がある。加えて、この検索によって取り出された情報を、表示したり、保存したり、又は、複数の使用者で共有したりすることは容易ではない。
【0007】
例えば、炭疽菌(anthrax)の臨床試験(clinical trial)に関連がある論文についてPubMed(登録商標)検索を実行する研究者は、その検索エンジンに以下の検索語を入力し得る:「clinical trial AND anthrax AND test」。この検索では、100,000件以上の文書が返され、一般に、何千ものウェブページにわたって実際の文書へのリンクと共にテキストフラグメントが表示され得る。研究者は、少量の文書を見つけ出すために何千ものウェブページを検索するという大きな困難があるであろうし、また、情報を抽出するために各文書を1つずつ読むという大きな困難もあるであろう。研究者が、より少量で、より関連がある文書群を取り出すために検索を絞り込む場合、研究者は、元の検索に戻り、使用した検索語を変更しなければならない。最終的に、研究者は、20語以上を含む扱いきれないほどの検索文字列を入力することになるかもしれない。
【0008】
検索から得られる文書のリストを受信した後、多くの研究者は、何れの文書が実際に自分のニーズと関連するのかを確認するためにリストに目を通すという退屈なタスクを押し付けられる。関連があるように見える文書を開けなければならず、また、文書内に何が記載されているかを確認するために目を通さなければならない。更に、反復検索の結果を他者と共有することが困難である。なぜなら、研究者は、各検索語群のコピー、又は従来の検索ツールを用いて抽出された情報のコピーを簡単に保存することができないからである。その上、文書群は、単一文書内に十分に含まれていない収集情報を含み得るので、使用者は、文書群を、全部読むことが可能な小さなサイズに減らすことを望まない可能性もある。従って、容易に操作、絞り込み、保存、及び共有が可能な情報の持続的モデル(persistent model)を作成するツールが必要とされている。このモデルは、使用者が関心の高いコンセプトを定義することを支援する直観的で視覚的な補助を提供すると共に、このコンセプトの抽出を開始するため、又は、抽出された情報を分析、収集、及び出力するために、コンセプトと関連するエクストラクタ(extractor)を決定することを支援する直観的で視覚的な補助を提供する。
【0009】
情報を抽出することは、自然言語フォーマットである原文から情報を取り出すことである。既存の使用可能な抽出用デスクトップアプリケーションは、抜粋又は要約などの専用のタスクを実行するが、その実用性が限定的であり、使用者に設定の柔軟性を提供するものではない。典型的な重量級の又は企業スケールの抽出システムでは、専門家により、文書の種類から情報を抜粋、要約、及び表示するためにカスタマイズされた機能を設計することが可能である。訓練を受けた専門家は、例えば、表示用のテーブルフォーマットにテキストフラグメントを配置するエクストラクタを作成することができ、また、システムの一般的な使用者が要求した様々なマルチコンポーネントのコンセプトを表現するテンプレートを補うことができる。既存の使用可能なツールは、訓練用文書と類似する多量の文書群のカテゴリー化に用いられるコンセプト分類(concept taxonomy)を定義するために、特別に用意された訓練用文書群を必要とすることがある。また、既存のツールは、所定のカテゴリー(例えば、個人名、企業名、地名)に属するエンティティをロケート(locate)して強調表示することができ、また、特定のテキストパターンを識別するエクストラクタを専門家が決定することを許容する。
【0010】
InXight社製のFactFinder(登録商標)エディタ(www.inxight.com)のような既存の企業スケール抽出システムの1つの欠点としては、一般的な使用者、すなわち、システムをカスタマイズするための特別な訓練を受けていない人が、サブジェクト(主部)について個人のメンタルモデルを反映する持続的な又は移動可能(ポータブル)な情報モデルを作成できないという点がある。幾つかの市販ツールの他の欠点としては、テキスト内の特定情報をロケートし、それを強調表示することはできるが、強調表示された情報は、多くの場合、扱いにくいフォーマットで表示されてしまうという点がある。例えば、使用者が6,000件の文書について抽出を開始する場合に、抽出ツールは、使用者が要求したコンセプトを強調表示又はカラー化して6,000件の文書を表示する。この場合、たとえコンセプトがテキストにおいて強調表示されたとしても、典型的な使用者にとって多量の文書は依然として扱いにくい。また、既存の企業スケールシステムの他の欠点としては、システムを作動させるために訓練された専門家を必要とするので、人材の獲得及び管理に費用がかかるという点もある。このような抽出システムは、非常に高価であるので、同種の情報に関心の高い同様の使用者の大集団(例えば、情報分析者のグループ)のみでしか用いられない。
【0011】
従って、例えば、特定のキーワードを用いたインターネット検索により作成された文書群など、局所的に的を絞った文書群に含まれる情報を、使用者がモデル化、抽出及び収集できる軽量なツールが求められている。また、2人がサブジェクトエリアの同じメンタルモデルを有しているわけではないので、使用者が、情報の個人モデルを設計でき、文書から情報を反復的に抽出でき、それを分析でき、及び、使用者自身の情報の概念化及び組織化を反映するような方法で抽出情報を表示できるツールが求められている。
【課題を解決するための手段】
【0012】
本発明のある態様では、情報のモデルを作成する方法であって、文書群を準備すること、使用者にとって関心の高い複数のコンセプトを受信すること、コンセプトのモデルであって、モデルの視覚化に用いられる各グラフィック要素は、自動的に又は使用者により割り当てられる1以上のエクストラクタを有するモデルを作成すること、及び、モデルに応じて文書群から情報を抽出すること、を含んで構成される方法を提供する。
【0013】
本発明の他の態様では、文書群から得られる情報をモデル化する方法であって、使用者にとって関心の高い複数のコンセプトを受信すること、複数のコンセプトの表現を含むモデルであって、モデル内の複数のコンセプトのうちの第1のコンセプトの表現がエクストラクタに対応するモデルを作成すること、及び、第1のコンセプトの表現の使用者選択に基づき、対応するエクストラクタを用いて、第1のコンセプトに関連する情報を文書群から抽出すること、を含んで構成される方法を提供する。
【0014】
本発明の他の態様では、文書群から得られる情報をモデル化する方法であって、使用者にとって関心の高い複数のコンセプトを受信すること、複数のコンセプトの表現を含むモデルであって、モデル内の複数のコンセプトのうちの第1のコンセプトの表現がエクストラクタに対応するモデルを作成すること、第1のコンセプトの表現の使用者選択に基づき、対応するエクストラクタを用いて、第1のコンセプトに関連する情報を文書群から抽出すること、及び、抽出された情報に応答する使用者の入力に基づいて、モデルをカスタマイズすること、を含んで構成される方法を提供する。
【0015】
本発明の他の態様では、文書群から得られる情報をモデル化する方法であって、使用者にとって関心の高い複数のコンセプトを受信すること、複数のコンセプトの表現を含むモデルであって、モデル内の複数のコンセプトのうちの第1のコンセプトの表現がエクストラクタに対応するモデルを作成すること、第1のコンセプトの表現の使用者選択に基づき、対応するエクストラクタを用いて、第1のコンセプトに関連する情報を文書群から抽出すること、抽出された情報に応答する使用者の入力に基づいて、モデルをカスタマイズすること、及び、カスタマイズされたモデルをエクスポートすること、を含んで構成される方法を提供する。
【0016】
本発明の他の態様では、情報のモデルを作成する方法であって、文書群を準備すること、使用者にとって関心の高い複数のコンセプトを受信すること、コンセプトのモデルであって、モデルの視覚化に用いられる各グラフィック要素は、自動的に又は使用者により割り当てられる1以上のエクストラクタを有するモデルを作成すること、モデルに応じて文書群から情報を抽出すること、及び、抽出された情報を解釈、操作、及び分析する手段を用いて使用者に提供すること、を含んで構成される方法を提供する。
【0017】
本発明の他の態様では、文書群に含まれる情報のモデルを作成する方法であって、使用者にとって関心の高い複数のコンセプトを受信すること、複数のコンセプトの表現を含むモデルであって、モデル内の複数のコンセプトのうちの第1のコンセプトの表現がエクストラクタに対応するモデルを作成すること、第1のコンセプトの表現の使用者選択に基づき、対応するエクストラクタを用いて、第1のコンセプトに関連する情報を文書群から抽出すること、及び、抽出された情報を使用者に対して表示すること、を含んで構成される方法を提供する。
【0018】
本発明の他の態様では、文書群から得られる情報をモデル化するシステムであって、文書群から得られる情報をモデル化するシステムであって、使用者にとって関心の高い複数のコンセプトを受信するように構成される受信コンポーネントと、複数のコンセプトの表現を含むモデルであって、モデル内の複数のコンセプトのうちの第1のコンセプトの表現がエクストラクタに対応するモデルを作成するように構成されるモデリングコンポーネントと、第1のコンセプトの表現の使用者選択に基づき、対応するエクストラクタを用いて、第1のコンセプトに関連する情報を文書群から抽出するように構成される抽出コンポーネントと、を含んで構成されるシステムを提供する。
【0019】
本発明の他の態様では、文書群から得られる情報をモデル化するシステムであって、使用者にとって関心の高い複数のコンセプトを受信する手段と、複数のコンセプトの表現を含むモデルであって、モデル内の複数のコンセプトのうちの第1のコンセプトの表現がエクストラクタに対応するモデルを作成する手段と、第1のコンセプトの表現の使用者選択に基づき、対応するエクストラクタを用いて、第1のコンセプトに関連する情報を文書群から抽出する手段と、を含んで構成されるシステムを提供する。
【0020】
本発明の他の態様では、文書群から得られる情報をモデル化する方法を実行する命令を含むコンピュータ可読の媒体(meduim)であって、この方法は、使用者にとって関心の高い複数のコンセプトを受信すること、複数のコンセプトの表現を含むモデルであって、モデル内の複数のコンセプトのうちの第1のコンセプトの表現がエクストラクタに対応するモデルを作成すること、及び、第1のコンセプトの表現の使用者選択に基づき、対応するエクストラクタを用いて、第1のコンセプトに関連する情報を文書群から抽出すること、を含んで構成される、媒体を提供する。
【0021】
本発明の更なる目的及び効果は、以下の記載で一部が説明され、この一部の記載から本発明の更なる目的及び効果が明らかになるか、又は本発明の実施により確認することができる。本発明の目的及び効果は、添付の特許請求の範囲にて特に指摘した構成要素及び組み合わせによって実現及び達成されるであろう。
【0022】
上述した概略的な記載及び以下の詳細な記載は、単なる例示上及び説明上の記載であり、本発明の特許請求の範囲を限定するものではないことを理解するべきである。
【0023】
本明細書の一部に組み込まれて構成される添付図面は、本発明の幾つかの実施形態を示し、その記載と共に本発明の原理を説明するために用いられる。
【図面の簡単な説明】
【0024】
【図1A】本発明の一実施形態に従う典型的な情報の抽出及びモデリングシステムの構成図
【図1B】本発明の一実施形態に従う典型的なコンピュータシステムを示す図
【図2】本発明の一実施形態に従って、情報を抽出及びモデル化するシステムにより実行される典型的なステップを示すフローチャート
【図3】本発明の一実施形態に従って、原テキストを作成するシステムにより実行される典型的なステップを示すフローチャート
【図4】本発明の一実施形態に従って、原テキストを分析するシステムにより実行される典型的なステップを示すフローチャート
【図5】本発明の一実施形態に従って、情報を抽出及びモデル化するシステムにより実行される典型的なステップを示すフローチャート
【図6】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図7】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図8】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図9】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図10】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図11】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図12】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図13】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図14】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図15】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図16】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図17】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図18A】本発明の一実施形態に従う典型的なコンセプトテーブル及び文書分析テーブルを示す図
【図18B】本発明の一実施形態に従う典型的なコンセプトテーブル及び文書分析テーブルを示す図
【図18C】本発明の一実施形態に従う典型的なコンセプトテーブル及び文書分析テーブルを示す図
【図19】本発明の一実施形態に従う典型的なコンセプトテーブル及び文書分析テーブルを示す図
【図20】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図21】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図22】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図23】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図24】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図25】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図26】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図27】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図28】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図29】本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示す図
【図30】本発明の一実施形態に従って、モデルを共有するシステムにより実行される典型的なステップを示すフローチャート
【発明を実施するための形態】
【0025】
添付された図面を参照して、本発明の例示的な実施形態を詳述する。可能な限り、同一の参照番号は、同一又は類似の要素と関連するように図面の全体を通して用いられる。
【0026】
本発明の特定の実施形態に従うシステム及びその方法は、文書群から得られる情報をモデル化及び抽出するためのカスタマイズされたツールを提供する。このツールは、使用者が検索を望む情報の固有モデルを作成することを可能にするグラフィカルユーザインターフェースを含むことができる。使用者がモデルを作成して操作するときに、ツールはデータ抽出に備えて多くの自動タスクを実行する。モデルが作成されると、使用者は、抽出を開始し、結果を表示し、及び、次のデータ抽出の品質を向上させるためにモデルを改良することができる。
【0027】
使用者固有の思考プロセスを反映するモデルを開発するために、ツールは、様々なグラフィック表示を用いて、主要コンセプト及びデータ間の関係を使用者に入力するように指示することができる。例えば、使用者は、エンティティ関係図を用いて主要コンセプト及びそれらの接続を確認することを好むであろう。使用者は、エンティティノードとして表示される重要なコンセプトを入力するように指示され得る。この後、使用者は、ノード間のリレーション矢印(relation arrows)を用いてコンセプトを連結するように指示され得る。他の実施形態では、使用者は、テキストフラグメントのリストを入力することを選択し、関連性の高いものから低いものへと順にテキストフラグメントを並べることができる。
【0028】
使用者がモデルを作成して操作するときに、ツールは、使用者にとって関心の高いコンセプトを求めて文書群を検索するエクストラクタ(extractor)を自動的に生成する。エクストラクタには、単語頻度ベクトル(word frequency vector)、ヒューリスティックテキストサマリー(heuristic text summaries)、構造頻度(construct frequencies)、エンティティ−リレーション(entity-relations)など、多くの異なるタイプの検索ツールを組み込むことができる。また、ツールは、抽出されるコンセプトが便利かつ有意義な方法により保存されるであろう場所を準備するために使用者がモデルを作成している間に、データベースを自動的に構成する。
【0029】
図1Aは、本発明の一実施形態に従う典型的な情報の抽出及びモデリングシステムの構成図である。一実施形態では、図1Aに示すように、1以上のコンピュータ(例えば、ユーザステーション102)及び少なくとも1つの情報ソース106は、ネットワーククラウド104で表現されるネットワーク構成で接続される。ネットワーク104は、インターネット、ワイドエリアネットワーク、ローカルエリアネットワークであってもよく、又は、ユーザステーション102と情報記憶装置との間で情報を伝達するためのあらゆる他の伝達路(conduit)でもあってもよい。尚、2つのユーザステーション102を用いるのは、単なる説明のためのみであり、特定数のユーザステーションを用いることに本発明を限定するものではない。同様に、本発明に従って、任意数の情報ソース106を用いることができる。
【0030】
情報ソース106は、検索エンジン、ウェブページ、データベース(例えば、米国国立医学図書館のPubMed(登録商標)又はMEDLINE(登録商標)データベース)、又はその他の情報である。文書群116は、テキスト群、要約、ウェブページ、イメージ、レポート、レポートの抜粋、コンピュータファイル、又は情報を提供するために用いられる任意の他のソースである。文書群116は、使用者により作成されることが可能であり、使用者は、ツール122を用いて、文書を追加し、文書群116から文書又はその文書の一部を削除することができる。原テキスト(raw text)118は、POSタガー124への入力に適したテキストフォーマット又はその他のフォーマットの文書群116から得られる情報を含む、文書群116の一種である。POSタグ付けされたテキスト119は、処理され、かつ、品詞でタグ付けされた、原テキスト118の一種である。モデル120は、構造化され、かつ、コンピュータで保存可能な情報の表現である。この情報は、例えば、文書群116内に見られる物、コンセプト、動作、リレーションなどである。モデル120は、図11に関連して以下に詳述するディスプレイのようなユーザインターフェースディスプレイを介して、使用者に伝達される。ツール122は、図1Bに関連して以下に詳述するコンピュータシステムで作動可能なソフトウェアアプリケーションである。
【0031】
POSタガー124は、文書内の品詞(POS)(例えば、動詞、名詞など)に対応する単語にマーク付けをするソフトウェアアプリケーションであり、当該技術分野において周知である。語彙モジュール126は、文書群116内に見られる単語、コンセプト、又は、句(フレーズ)の辞書を提供するソフトウェアアプリケーションであり、当該技術分野において周知である。文書分析テーブル128は、品詞、コンセプト、リレーションなどの文書群116に関するデータを保存するデータベーステーブル又はその他のデータ構造である。文書分析モデル128は、初期のモデル120を自動で作成するためにツール122により用いられ、又は、モデル120を手動で変更するために使用者により用いられる。文書分析テーブル128については、図18A〜図18Cに関連して以下に詳述する。コンセプトテーブル129は、文書群116から抽出されたコンセプトを保存するデータベーステーブル又はその他のデータ構造であり、図19に関連して以下に詳述する。
【0032】
図1Bは、本発明の実施形態に従う典型的なコンピュータシステム150を示している。システム150は、中央処理装置(CPU)160、メモリ170、入出力(I/O)装置180、データベース190など、多くの構成要素を含み、様々な方法で実装され得る。例えば、統合プラットフォーム(例えば、ワークステーション、パーソナルコンピュータ、ラップトップなど)は、CPU160と、メモリ170と、I/O装置180と、を含んで構成される。このような構成において、構成要素160、170及び180は、ローカルバスインターフェースで接続することができる。データベース190(独立したデータベースシステムとして実装されたデータベース)へのアクセスは、直接通信リンク、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、及びその他の適切な接続方式の少なくとも1つを用いることにより促進され得る。システム150は、本発明に従って、処理及び操作を行うために複数の類似システムをネットワーク化する、大規模な情報抽出及びモデリングシステムの一部であってもよい。当業者であれば、システム150には多くの代替の構成があり得ることを認識するであろう。
【0033】
CPU160は、Intel(登録商標)社製のPentium(登録商標)系のマイクロプロセッサのような、1以上の周知の処理装置であってもよい。メモリ170は、本発明の実施形態に関する特定の機能を果たすためにCPU160で用いる情報を保存するように構成された1以上の記憶装置である。メモリ170は、磁気記憶装置、半導体記憶装置、テープ記憶装置、光学式記憶装置、又はその他のタイプの記憶装置であり得る。本発明に従う一実施形態において、メモリ170は、1以上のプログラム175を含んでおり、このプログラムは、CPU160で実行されるときに、本発明に従う処理及び操作を行う。例えば、メモリ170は、文書をアクセプト及び処理するプログラム175を含むことができ、原テキスト分析用のプログラム175を含むことができ、モデリング用のプログラム175を含むことができ、情報抽出用のプログラム175を含むことができる。
【0034】
本発明の実施形態に従う方法、システム、及び、製造品は、専用のタスクを行うように構成されたプログラム又はコンピュータに限定されるものではない。例えば、メモリ170は、CPU160で実行されるときに複数の機能を果たすプログラム175又はツール122を含んで構成されてもよい。すなわち、メモリ170は、抽出機能、テキスト分析機能、POSタグ付け機能、図示機能、コンセプトデータ及びリレーションデータのテーブルを保持するデータベース機能のようなその他の機能を果たす1以上のプログラム175を含んでもよい。また、CPU160は、システム150から遠隔設置された1以上のプログラムを実行してもよい。例えば、システム150は、実行のときに本発明の実施形態に関する機能を果たす1以上の遠隔(リモート)プログラムにアクセスしてもよい。
【0035】
メモリ170は、CPU160で実行されるときに当該技術分野で周知の複数の機能を果たすオペレーティングシステム(図示せず)を含んで構成されてもよい。例えば、オペレーティングシステムは、Microsoft Windows(登録商標)、Unix(登録商標)、Linux(登録商標)、アップルコンピュータオペレーティングシステム、携帯情報端末(Personal Digital Assistant)オペレーティングシステム(例えば、Microsoft CE(登録商標)、又は、その他のオペレーティングシステム)であってもよい。オペレーティングシステムの選択及びその使用は、決定的ではない。
【0036】
1以上のI/O装置180は、システム150によってデータの受信及び送信の少なくとも一方を可能にする1以上の入出力装置を含んで構成され得る。例えば、I/O装置180は、キーボード、タッチスクリーン、マウス、スキャナ、通信ポートなど、使用者からのデータ入力を可能にする1以上の入力装置を含むことができる。更に、I/O装置180は、ディスプレイスクリーン、CRTモニタ、LCDモニタ、プラズマディスプレイ、プリンタ、スピーカー装置、通信ポートなど、使用者へのデータ出力又はデータ表示を可能にする1以上の出力装置を含むことができる。I/O装置に組み込まれる入力装置及び出力装置の少なくとも一方の構成及び数は、決定的ではない。
【0037】
データベース190は、情報を保存し、かつ、システム150を介してアクセス及び管理の少なくとも一方が行われる1以上のデータベースを含んで構成され得る。例えば、データベース190は、Oracle(登録商標)データベース、Sybase(登録商標)データベース、又はその他のリレーショナルデータベースであってもよい。また、データベース190は、システムの一部であってもよい。尚、本発明のシステム及びその方法では、実際の任意のソース(例えば、インターネット及びその他の整理されたデータ群)からデータを得られるので、分離されたデータベースに限定されず、更には、データベースの使用に限定されない。
【0038】
文書群116は、情報ソース106から作成されることができ、ユーザステーション102で保存されることができる。文書群116は、ネットワークアクセスが可能な装置で、又は、その他のコンピュータで、局所的に保存されてもよい。以下に詳述するように、POSタガー124、語彙モジュール126、及びツール122を用いて、使用者は、文書群116から情報を取り出す1以上の持続的で移動可能なモデル120を作成することができる。
【0039】
図2は、本発明の一実施形態に従って、情報を抽出及びモデル化するシステムにより実行される典型的なステップを示すフローチャートである。使用者は、原テキスト118を作成するために、文書群116に対する第1の適用フィルタによってモデル120を作成することができる(ステップ210)。原テキストを作成するために文書群116にフィルタを適用する処理については、図3に関連して以下に詳述する。次に、ツール122は、文書分析テーブル128及びPOSタグ付けされた文書119を作成するために、例えば、当該技術分野で周知の語彙モジュール126及びPOSタガー124を用いて、原テキスト118を分析することができる(ステップ220)。一実施形態において、カスタマイズされた語彙モジュール126及びPOSタガー124は、タグ付け及び語彙分析を目的として原テキスト118に適用され得る。原テキスト分析処理については、図4に関連して以下に詳述する。次に、図5に関連して以下に詳述する抽出処理(ステップ230)では、モデル120を作成するために文書分析テーブル128を用いる。
【0040】
図3は、本発明の一実施形態に従って、原テキスト118を作成するシステムにより実行される典型的なステップを示すフローチャートである。図3に示すように、まず、使用者は、フィルタを適用する文書群116を選択することができる(ステップ310)。一実施形態において、使用者は、例えば、ユーザインターフェースを用いて、ユーザステーション102に保存された複数の文書群のリストから文書群116を選択することができる。他の実施形態において、使用者は、インターネットから文書群116をダウンロードし、又は、別の使用者から文書群116を受信することができる。更に、他の実施形態において、ツール122は、文書群116を自動的に選択することができる。
【0041】
次に、ツール122は、何れのフィルタを文書群116に適用するのかを決定することができる。一実施形態において、使用者は、例えば、ツール122に表示されたフィルタのリスト又はインターネット上からフィルタを選択することができる。他の実施形態において、ツール122は、文書群116内の情報のフォーマット又はタイプに基づいて適切なフィルタを自動的に決定することができる。例えば、文書群116内の文書がPDFフォーマットである場合は、ツール122は、文書群116内のPDF文書から原テキストを作成するために、当該技術分野で周知の適切なPDFフィルタを適用することができる。他の例では、文書群116がHTMLフォーマットである場合は、ツール122は、文書群116から原テキストを作成するために、当該技術分野で周知の適切なフィルタを適用することができる。次に、選択されたフィルタが、原テキスト118を作成するために適用され(ステップ330)、原テキスト118は、例えば、ユーザステーション102のメモリ170に局所的に保存され得る(ステップ340)。特定の実施形態では、原テキスト118は、ネットワーク104を介してアクセス可能なリモートロケーションに保存され得る。
【0042】
図4は、タグ付け及び語彙分析のための典型的な処理を示している。一実施形態において、使用者は、原テキスト118に対して語彙分析を実行するために、何れの語彙モジュール126を用いるかを決定することができる(ステップ410)。他の実施形態において、ツール122は、何れの語彙モジュール126を用いるかを自動的に決定することができる。例えば、ツール122は、原テキスト118がスポーツに関する情報を含むことを決定するために、原テキスト118を分析することができる。このため、ツール122は、原テキスト118に適用するスポーツに関する語彙モジュールを選択することができる。当業者であれば、語彙モジュール126の選択について多くの他の手段及び方法が存在することを理解するであろう。
【0043】
ツール122が、選択した語彙モジュール126及びPOSタガー124を原テキスト118に適用することで、POSタグ付け及び語彙分析が実行され得る(ステップ420)。POSタグ付けは、原テキスト118内の語、句、節、及びその他の文法構造を、これらに対応する品詞(例えば、名詞、動詞など)を用いて識別する。POSタガー124は、使用者により選択され、又は、ツール122により自動的に決定され得る。
【0044】
語彙分析の間(ステップ420)、ツール122は様々な方法で原テキスト118を分析することができる。例えば、ツール122は、原テキスト118内で頻繁に出現するn−グラム(n-grams)(すなわち、任意の文字又は単語の列におけるn個の要素の部分列)を特定することができ、一実施形態では、重複を除去するために、頻繁に出現するn−グラムをフィルタにかけることができる。他の例では、ツール122は、例えば、テキストの格(textual case)、名詞の個数、及び、下位語、類義語、頭字語を考慮に入れて、頻繁に出現する名詞を決定することができる。また、ツール122は、頻繁に出現する名詞を含む限定名詞句を見つけ出すと共に、動詞の変化、上位語、慣用句、及びトロポニム(troponym)を考慮に入れて、頻繁に出現する動詞構造を見つけ出すことができる。また、ツール122は、原テキスト118の名詞−前置詞構造を決定することができる。
【0045】
原テキストの分析が完了した後、ツール122は、文書分析テーブル128に文書分析の結果を保存することができ(ステップ430)、抽出処理で用いられるコンセプトテーブル129にコンセプトを自動的に保存することができる(ステップ435)。この詳細は、図5〜図19に関連して以下で説明する。また、一実施形態において、ツール122は、POSタグ付けされた文書119を作成することを目的として、語彙分析により識別された品詞、その他の文法構造、又はエンティティが原テキスト(図示せず)内で出現する箇所を示すために、原テキスト118にマーク付けをすることができる。最後に、ツール112は、使用者に対して原テキスト分析の結果を表示することができる(ステップ440)。
【0046】
図5は、使用者が、図4に関連して説明した処理により作成された原テキスト分析(ステップ510)にアクセスしたとき、及び、新規に作成されたモデル120又は既存のモデル120にアクセスしたとき、に開始される典型的な抽出処理を示している。次に、ツール122は、使用者によるコンセプトの選択及び定義付けを受信することができる(ステップ520)。この詳細は、図11〜図17に関連して以下で説明する。ステップ520で定義付けされたコンセプトが新規のデータベース129を必要とする場合、ツール122は、データベースを適宜変更する。使用者は、抽出されるコンセプトをコンセプトテーブル129に保存するための抽出を開始することができる(ステップ530)。ツール122は、使用者によって指示されたコンセプトを含めるためにPOSタグ付けされた文書にマーク付けをする(ステップ535)。次に、ツール122は、抽出された情報及びマーク付けされたテキストを表示すると共に、例えば、図11に関連して後述するユーザインターフェイディスプレイを用いて、モデル120を使用者に表示する(ステップ550)。使用者が絞り込みを要求する場合(ステップ560)、処理をループバックして継続することができる。
【0047】
ステップ510:使用者に対する原テキスト分析の表示
【0048】
図4に関連して上述した原テキスト分析を完了した後、ツール122は、使用者に対して原テキスト分析の結果を表示することができる(ステップ510)。図6は、本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示している。ツール122は、図6に示すようなメニュー600を表示することができ、これにより、文書群116の情報内容の概要及び原テキスト分析を使用者に提供することができる。
【0049】
図6に示すように、メニュー600は、例えば、N−グラム分析(N-gram Analysis)610、検索分析(Search Analysis)620、及び参加者−診療(Participants-Interventions)などの様々なオプションを使用者に提示することができる。各メニューオプションは、夫々が様々なサブオプションを含むことができる。当業者であれば、メニューオプション610、620、630は単なる例示を目的としており、これらのメニューオプションは、本発明の原理から逸脱することなく、追加、削除、又は変更することができることを認識するであろう。
【0050】
ツール122及びメニュー600を用いて、使用者は、原テキスト118又はPOSタグ付けされた文書119で見られる最も頻繁に出現するコンセプト又は品詞(例えば、名詞、動詞など)、コンセプト又は品詞の頻度、高頻度なトリガーフレーズ、及び、その他の構造の態様並びにコンセプトや品詞などの規則性、にアクセスすることができる。特定の実施形態では、この情報は、上述の図2〜図4に示した処理で作成され得る。例えば、図6に示すように、使用者は、n−グラムエンティティのリストを参照し(see a list of n-grams entities)、原n−グラムのリストを参照し(see a list of raw n-grams)、類似タームを検索し(search for similar terms)、名詞句のリストを参照し(see a list of noun phrases)、又は、動詞句のリストを参照(see a list of verb phrases)することができる。
【0051】
使用者がメニュー600から「n−グラムエンティティのリストの参照」を選択する場合、ツール122は、使用者に対して、n−グラムエンティティのリストを表示することができる。図7は、本発明の一実施形態に従って表示されるn−グラムのリストの典型的なユーザインターフェースディスプレイを示している。図7に示すように、ツール122は、頻繁に出現するn−グラム(例えば、「5-grams(5−グラム)」、「4-grams(4−グラム)」、「3-grams(3−グラム)」)、及び、該n−グラムがどの程度、文書群116内に出現しているのかを表す頻度、を表現することができる。
【0052】
原テキスト分析結果の検索
【0053】
使用者は、原テキスト分析の結果を検索することもできる。図6に戻り、例えば、使用者は、メニュー600からオプション「主部・動詞・目的部検索(Subject Verb Object Search)」622を選択することができる。そして、ツール122は、使用者が、例えば、主部、動詞、又は目的部を入力することによって文書群116を検索可能にするユーザインターフェースを表示することができる。図8は、本発明の一実施形態に従って、使用者が、主部・動詞・目的部検索タームを用いて文書群116を検索することができる典型的なユーザインターフェースディスプレイを示している。図8の検索ウインドウの「動詞」フィールドに複数の単語「caused by(起因する)」のような使用者の入力を受信した後、ツール122は、動詞「caused by」を含む全ての文書を見つけ出すために文書群116を検索することができる。使用者は、例えば、「discovered in(発見される)」、「found(見つかる)」、「retrieved(取り出される)」など、任意の動詞を図8の検索ウインドウの「動詞」フィールドに入力することができる。
【0054】
ツール122は、要求された動詞を含む、文書群116内の全ての文書を見つけ出し、この結果を使用者に提示することができる。図9は、本発明の一実施形態に従って検索の結果を使用者に表示する典型的なユーザインターフェースディスプレイを示している。一実施形態において、図9に示すように、ツール122は、主部、動詞、及び目的部を個々のデータフィールドに区切るユーザインターフェースに、「主部・動詞・目的部検索」の結果を夫々表示することができる。このようにして、使用者は、要求された動詞と、これに関連した文書内で用いられた主部及び目的部と、を含む各文書ごとの抜粋を参照することができる。使用者は、この文書をより詳細に表示する場合、例えば、図9の「DocID」データフィールドに示されたリンクを選択することによって、文書を選択することができる。
【0055】
文書群からの文書の移動
【0056】
一実施形態において、使用者は、文書群116から文書の追加、変更、又は削除を求めることができる。図10は、使用者が、例えば、移動させる1以上の文書に隣接するドロップのチェックボックス1010をクリックすることによって、文書群116から文書を移動するときに用いることができるユーザインターフェースである。
【0057】
ステップ520:エンティティリレーションの使用者選択の受信
【0058】
単にテキスト行のみを表示する代わりに、ツール122は、使用者がグラフを用いて文書群116を表示及び分析するためのモデル120を作成すること、を可能にすることができる。例えば、モデル120は、使用者によるエンティティ関係入力を用いることができるので、使用者は、文書群116内のエンティティ関係のグラフを表示及び変更することができる。図11は、本発明の一実施形態に従ってモデル120を表示することができる典型的なユーザインターフェースディスプレイを示している。例えば、図11に示すように、ツール122は、ノード1110及びリレーション1120のようなモデル120内のエンティティを作成するために使用者入力を受信することができる。ノード1100及びリレーション1120は、文書群116内の複数のコンセプトと、これらコンセプト間の関係と、を表現することができる。ノード1110は、例えば、使用者と関連がある情報のテキスト表現又はグラフ表現のようなコンセプトを含むことができる(例えば、使用者がコンセプトを表現するために「recombinant protective antigen(組み換え防御抗原)」という語を打ち込むことができる)。一実施形態において、モデル120は、上述のように、原テキスト分析の結果に基づいて、1以上のデフォルトノード1110を含むことができる。代替又は追加として、使用者は、ノード1110を作成することができる。例えば、使用者は、コンセプトを表現するノードを作成するためにテキストを入力することができる。
【0059】
図12は、本発明の一実施形態に従って、モデル120のノードを作成するために使用者の入力を受信する典型的なユーザインターフェースディスプレイを示している。ノード間にリレーションを追加する処理については、図24に関連して後述する。例えば、図12に示すように、使用者は、コンセプト「barium(バリウム)」を表現するノードを作成することができる。使用者は、選択メニュー1220にアクセスするために、モデル120上で、又は、ノード1210「radiation therapy(放射線治療)」のような任意の既存ノード上で右クリックすることができる。選択メニュー1220は、例えば、「百科事典(Encyclopedia)」、「ノード追加(Add Node)」、「ノード移動(Remove Node)」、「類義語の表示及び編集(View & Edit Synonyms)」、「ノード名称の変更(Change Node Name)」、「エッジ追加(Add Edge)」、「エッジ移動(Remove Edge)」「色管理(Manage Color)」、「単純抽出(Simple Extract)」、「サブクラス抽出(Extract Subclasses)」、及び「カスタムエクストラクタの追加又は編集(Add/Edit Custom Extractor)」など、様々なオプションを含むことができる。
【0060】
使用者は、選択メニュー1220から「ノード追加」を選択することができる。図13は、本発明の一実施形態に従って、使用者が「ノード追加」を選択した後にツール122が表示する典型的なユーザインターフェースディスプレイを示している。図13に示すように、ツール122は、使用者に対してポップアップウインドウ1310を表示することができる。ポップアップウインドウ1310を用いて、使用者は、「barium(バリウム)」など、文書群116に関連させるコンセプトを入力することができる。図14は、本発明の一実施形態に従って、使用者が新規のノードを作成した後にツール122が表示する典型的なユーザインターフェースディスプレイを示している。図14に示すように、ツール122は、モデル120に新規のノード1410「barium(バリウム)」を追加する。また、一実施形態において、ノード1410は、文書群を検索するために、及び、ノードとリレーションと類義語とを関連付けるために、ツール122により用いられるコンセプト番号「CN137-0」が割り振られ得る。
【0061】
類義語の追加
【0062】
使用者は、1以上のノードと関連するテキストフラグメントを含む類義語を追加することもできる。図15は、モデル120を表示するためのユーザインターフェースである。類義語をノードに追加するために、使用者は、モデル120で所望のノード、例えばノード1410「barium(バリウム)」を右クリックすることができ、ツール122は、選択メニュー1220を表示することができる。この後、使用者は、選択メニュー1220から「類義語の表示及び編集」を選択することができる。
【0063】
図16は、類義語を編集するためのポップアップウインドウ1610を表示するユーザインターフェースである。使用者は、テキストボックス1605に類義語を入力することができる。「追加(Add)」ボタン1640をクリックした後、類義語がディスプレイボックス1650内に表示されるであろう。例えば、使用者は、「Ba」、「barium enema(バリウム注腸)」及び「barium treatment(バリウム治療)」がコンセプトであるBarium(バリウム)に関連する類義語として扱われなければならない、と指定することができる。使用者が類義語を除去することを望む場合に、使用者は、類義語に隣接するチェックボックス1620をクリックすると共に、削除(delete)ボックス1630をクリックすることができる。一実施形態において、ツール122は、各ノードに対して多数の類義語を受け入れる(アクセプトする)ことができる。使用者は、ノードに追加する類義語を満足させると、ポップアップウインドウ1610を閉じることができる。当業者であれば、例えば、モデル120と同一のユーザインターフェースのテキストボックスでテキストを受信し、音声命令をアクセプトし、シソーラスのような補助的なデータソースから提案を受信し、又は、リストから単語を強調表示又は選択するなど、類義語をアクセプトするための多くの他の手段及び方法があることを認識するであろう。
【0064】
類義語がノードに追加された後、ツール122は、図17〜図23に関連して以下に詳述するように、POSタグ付けされた文書119内の各類義語の全ての発生を取り出すことができる。
【0065】
ステップ530:抽出の開始
【0066】
図17は、ツール122の使用者が、モデル120を用いて、文書群116からコンセプトを抽出及び操作することを可能にするサンプルユーザインターフェースである。文書群116から情報を抽出することは、自然言語フォーマットである原文から情報を取り出すことである。図5に関連して上述したように、モデル120を作成した後、又は、モデル120にアクセスした後、使用者は、コンセプトテーブル129又は文書分析テーブル128を作成若しくは絞り込みをするために、抽出を開始することができる(ステップ530)。一実施形態において、使用者は、図17に示すように、選択メニュー1220から「単純抽出」オプションを選択することによって抽出を開始することができる。ツール122は、抽出の進捗状況を使用者に通知するポップアップウインドウ1710を表示することができる。
【0067】
一実施形態において、ツール122は、1つのエクストラクタをデフォルトに設定することができるが、使用者が、例えば、より複雑なエクストラクタを作成するために、エクストラクタを追加又は編集することもできる。使用者は、デフォルト又は既存のエクストラクタを編集するために、又は、新規のエクストラクタを追加するために、選択メニュー1220から「カスタムエクストラクタの追加又は編集」を選択することができる。例えば、使用者は、既存の市販エディタを用いて、エクストラクタを追加することができる。
【0068】
次に、例えば、任意の新規な又は変更されたエンティティ若しくはリレーションを含めるために、コンセプトテーブル129が更新され得る(ステップ530)。また、ツール122は、何れの文書がコンセプトを含むのかを示すために、文書分析テーブル128を更新することもできる。一実施形態において、コンセプトテーブル129及び文書分析テーブル128は、ユーザステーション102のデータベースに局所的に保存され得る。また、コンセプトテーブル129及び文書分析テーブル128は、任意のネットワークアクセスが可能な装置に遠隔保存されてもよい。一実施形態において、コンセプトテーブル129は、使用者がモデル120を作成する前に、文書群116のn−グラム分析を含むように自動的に作成されてもよい。
【0069】
図18Aは、本発明の一実施形態に従う典型的な文書分析テーブルを示している。図18Aに示すように、文書分析テーブル128は、文書群116から作成される原テキスト118より抽出される情報を保存することができる。例えば、文書分析テーブル128は、例えば、行番号又はコンセプトの文(センテンス)位置などコンセプトが位置するPOSタグ付けされた文書119内の1以上の位置を保存することができる。また、文書分析テーブル128は、以下に詳述するように、文書群116内の何れの文書がどのようなコンセプトを含むのかを示すことができる。
【0070】
例えば、図18Aに示すように、文書分析テーブル128は、文書群116から抽出される特定のデータを含む文書コンセプトテーブル1810を含むことができる。文書コンセプトテーブル1810は、例えば、識別子、タイプ、コンセプト、又は文書群116に関連する他のデータなど、上述の処理で用いられる情報を保存する様々なデータフィールドを含むことができる。例えば、図18Aに示すように、テーブル1810は、文書識別子(例えば、PubMed(登録商標)識別子又はMEDLINE(登録商標)識別子)を保存する「DocumentID」データフィールドを含むことができる。また、テーブル1810は、各ノードに対応するコンセプト識別子を保存する「ConceptlD」データフィールドを含むことができる(例えば、識別子「C17102」は、モデル編集の間に割り当てられ得る)。
【0071】
「sentbegin」データフィールドは、文の最初の単語のインデックスを保存することができる(すなわち、ファイルの23番目の単語が文の最初の単語である場合、「sentbegin」フィールドは23の値を保存することができる)。「sentend」データフィールドは、文の最後の語のインデックスを保存することができる。「CNbegin」データフィールドは、コンセプトを表現するテキストフラグメントの最初の単語のインデックスを保存することができ、「CNend」データフィールドは、テキストフラグメントの最後の単語のインデックスを保存することができる。テキストフラグメントが1語のみを含む場合、「CNbegin」データフィールドと「CNend」データフィールドとの値は同一であり得る。
【0072】
他のデータフィールドは、モデル120を作成及び変更するツールにより用いられる他の情報を保存することができる。例えば、「CorpusID」データフィールドは、特定の文書群に割り当てられた番号を保存することができ、「OntologylD」データフィールドは、特定のモデル120に割り当てられた番号を保存することができ、「status」データフィールドは、他のデータを保存することができる。当業者であれば、多くの他の手段及び方法が、文書群116に関連する情報を保存するために使用可能であることを認識するであろう。
【0073】
ステップ535:POSタグ付けされた文書にマーク付けをする
【0074】
抽出が開始されると、POSタグ付けされた文書119は、ノード1110によって表現されたコンセプトを含めるためのマーク付けがなされ得る(ステップ535)。例えば、POSタグ付けされた文書119にコンセプトを描くために、インジケータが追加され得る。一実施形態において、ツール122は、モデル120で定義付けされた要求コンセプト及び要求リレーションを何れの文書が含むのかを特定するために、POSタグ付けされた文書119を検索すると共に、POSタグ付けされた文書119内のコンセプト及びリレーションを指定する。例えば、一実施形態において、POSタグ付けされた文書119内の各々の語が個々の行に保存されるように、POSタグ付けされた文書119が保存され得る。一実施形態において、各々の語は、適切な品詞タグ(例えば、名詞、動詞、代名詞)と共に保存され得る。ツール122は、コンセプトの先頭を示すために、行にコンセプトタグ(例えば、以下表1に示すコンセプトタグ「C17102:」)を追加することができる。コンセプトの末尾を示すために、ツール122は、行の最後に分離コンセプトタグ(例えば、「:C17102」)を追加することができる。
【表1】
【0075】
ツール122は、同一のコンセプトを表現する類義語を示すために、同一のコンセプトタグを用いて複数の類義語にマーク付けをすることができる。類義語は、使用者により選択されて、ノードに付随又は関連するコンセプトを含むことができる。例えば、使用者は、モデル120を作成する間に、「patient(患者)」の類義語として「person(人物)」を指定することができる。ツール122は、「person(人物)」と「patient(患者)」とが類義語として指定されたことを表現するために、表2に示すように、同一のインジケータ「CN200:」及び「:CN200」を用いて、単語「patient(患者)」及び「person(人物)」にマーク付けをする。
【表2】
【0076】
当業者であれば、コンセプト、類義語、リレーションなどを示すことを目的として、POSタグ付けされた文書119にタグを追加するために、多くの他の手段及び方法が使用可能であることを理解するであろう。例えば、POSタグ付けされた文書119がXMLフォーマットで保存される場合、標準のタグ−値のペアがXMLストラクチャ(構造)の適切な位置に追加され得る。
【0077】
一実施形態において、POSタグ付けされた文書119に追加されるタグに関連する情報は、文書分析テーブル128で保存され得る。図18B及び図18Cは、本発明の一実施形態に従う典型的な文書分析テーブルを示している。図18Bに示すように、文書分析テーブル128は、特定の文書内のコンセプトタグと、該タグに関連する頻度と、を保存するn−グラム分析テーブル1820を含むことができる。「urid」データフィールドは、例えば、簿記目的のために、データベースによって自動的に割り振られる固有行識別番号を保存することができる。「corpuslD」データフィールドは、文書群に割り当てられる識別番号を保存することができる。「n」データフィールドは、n−グラムのトークン数を保存することができ、「count」データフィールドは、n−グラムがコーパス(corpus)全体又は文書群に出現する回数を保存することができる。「frag」データフィールドは、n−グラム自体を保存することができる。
【0078】
図18Cは、図9に関連して上述した「主部・動詞・目的部検索」の結果のコラムを含む文書結果テーブル1830を示している。「urid」データフィールドは、例えば簿記目的のために、データベースによって自動的に割り当てられる固有行識別番号を保存することができる。「docid」データフィールドは、文書又は文書群に割り当てられる識別番号を保存することができる。「Subject」データフィールドは、例えば、テキストフラグメントとして、文の主部を保存することができる。「verbphrs」データフィールドは、文における主部と目的部との間に位置する動詞句を保存することができると共に、テキストフラグメントとして保存され得る。「Object」データフィールドは、テキストフラグメントとして、文の目的部を保存することができる。「conceptlD」は、図9に関連して上述した「主部・動詞・目的部検索」で使用者により選択された主部、動詞、及び目的部を有するステートメントに割り当てられるコンセプト識別子を保存することができる。「corpuslD」データフィールドは、コーパス又は文書群の識別子を保存することができ、「OntologylD」データフィールドは、モデルの識別子を保存することができる。
【0079】
コンセプトインジケータ
【0080】
また、一実施形態において、使用者は、例えば、調整可能な色をコンセプトに割り当てることによって、調節可能なインジケータをコンセプトに割り当てることができる。図19は、本発明の一実施形態に従う典型的なコンセプトテーブルを示している。例えば、図19に示すコンセプトテーブル1910は、様々なコンセプトと関連する色タイプを保存することができる。図19に示すように、コンセプトテーブル1910は、文書識別子(document identifiers)などの簿記識別子(bookkeeping identifiers)を保存する「cnuid」データフィールドを含むことができる。「cnid」データフィールドは、コンセプト識別子を保存することができる。このコンセプト識別子は、以下に詳述するように、モデル120を作成する間、又は、モデル120を改良した後に割り当てられ得る。「cnname」データフィールドは、プレースホルダー識別子を保存することができる。「descriptive」データフィールドは、与えられたコンセプトを表現する適切なテキストフラグメントを保存することができる。「colorstring」データフィールドは、使用者がノードに割り当てた色の16進エンコーディングを保存することができる。「colorstatus」データフィールドは、使用者が色を着色又は脱色したかを示すことができる。「ontologylD」データフィールドは、各コンセプトが属するモデル120を示すことができる。一実施形態において、1つのコンセプトテーブル1910は、複数のモデル120の情報を保存することができる。他の実施形態においては、複数のコンセプトテーブル1910が、様々なモデル120の情報を保存してもよい。
【0081】
ステップ550〜ステップ555:使用者に対するモデルの表示、及び、使用者に対する抽出された情報とマーク付けされた文書との表示
【0082】
次に、ツール122は、例えば、図11に示すグラフィカルユーザインターフェースを用いて、使用者に対してモデル120を表示することができる(ステップ550)。そして、ツール122は、図20〜図29に関連して以下に詳述するように、使用者に対して、抽出された情報及びマーク付けされた文書を表示することができる。
【0083】
ステップ560:絞り込み
【0084】
使用者がモデル120の絞り込みを望む場合、使用者は、絞り込みを要求するための様々なアクションを行うことができる(ステップ560)。例えば、使用者は、図20〜図29に関連して後述するように、ノード、リレーション、又は類義語をモデル120に追加することができる。
【0085】
抽出された情報の表示及び絞り込み
【0086】
図20は、本発明の一実施形態に従って、文書群116から抽出された情報を表示するユーザインターフェースを示している。図19に関連して上述したように、ツール120は、各コンセプト及びリレーションを表現するために、強調表示を行う他、例えば、色、下線、フォント変更などの調節可能なインジケータを用いて、単語、単語の組み合わせ、イメージ、及びその他の記号をマーク付けすることができる。調節可能なインジケータは、コンセプトが文書内の何れに位置しているのかを使用者に示すために、モデル120内のノードにより定義されるコンセプトと共に表示され得る。一実施形態では、異なるインジケータが、各ノードに割り当てられ得る。
【0087】
図19に関連して上述したように、インジケータは調節可能である。例えば、一実施形態において、使用者は、ノード又はリレーションをクリックし、例えば、各ノードに対応する色又はインジケータを変更するために、選択メニュー1220を用いて、「色管理」を選択することができる。
【0088】
要求されたコンセプトの絞り込み
【0089】
更に他の実施形態において、使用者は、文書群116から抽出されるコンセプト及びリレーションを更に絞り込むことができる。図21は、本発明の一実施形態に従って、使用者が特定のコンセプトを有する文書を選択又は除外するためにアクセスするユーザインターフェースを示している。例えば、図21に示すように、使用者は、モデル120内のコンセプトから複数のコンセプトを選択すると共に、例えば、「Must Have(なければならない)」、「Must Not Have(あってはならない)」、又は「May Have(あり得る)」など、対応するステータスを選択し、その後、この要求をツール122に送信することができる。ツール122は、使用者の選択に応じて、何れの文書がコンセプトを含み又は含まないのかを特定すると共に、この特定されたサブセットをユーザインターフェースで使用者に対して表示する。
【0090】
図22は、本発明の一実施形態に従って、図21による検索結果を表示するユーザインターフェースを示している。ツール122は、例えば、コンセプトの名称又は番号を用いて、要求されたコンセプトを有する文書群116からの文書を表示すると共に、使用者の検索により示されたステータス(状態)を表示することができる。また、ツール122は、図22に示すように、要求されたコンセプト、文書識別番号、文書タイトル、及び、検索により返された文書の番号を表示することができる。
【0091】
マーク付けされた文書の表示
【0092】
使用者は、文書及びそのマーク付けされたテキストを更に詳しく表示するために、図22のリストから任意の文書を選択することができる。図23は、本発明の一実施形態に従って、文書及びそのマーク付けされたテキストを表示するためにツール122が用いる典型的なユーザインターフェースディスプレイを示している。図23に示すように、コンセプト「anthrax(炭疽菌)」が、文書の全体にわたって強調表示される。また、コンセプト「protective antigen (PA) moiety(防御抗原(PA)部分)」、「CHO cells(CHO細胞)」、及び「edema factor(浮腫因子)」も強調表示され、異なる調整可能な色と共に強調表示されてもよい。調整可能な色は、図19〜図20に関連して上述したように、各コンセプトに関連するモデル120のノードに関連してもよい。
【0093】
リレーションの追加
【0094】
使用者は、モデル120内のコンセプト間のリレーションを追加することにより、モデル120の更なる絞り込みを望むことができる。リレーションは、特定のコンセプトが何らかの方法で接続されることを表現することができる。図24は、本発明の一実施形態に従って、モデル120を含む典型的なユーザインターフェースディスプレイを示している。図24に示すように、2つのノード間にリレーション又は「エッジ(edge)」を追加するために(例えば、「肺(lung)」で「ヒュルトレ細胞癌(hurthle cell carcinoma)」が見つかるという事実を表現するために)、使用者は、ノード「hurthle cell carcinoma(ヒュルトレ細胞癌)」2410の上を右クリックし、選択メニュー1220から「エッジ追加」を選択することができる。
【0095】
この後、使用者は、リレーション情報(例えば、リレーション及び対象ノード(target node)の名称)を、ユーザインターフェースに入力することができる。このようにして、使用者は、モデル120内の選択されたノードと他のノード(すなわち、対象ノード)との間の関連を指定することにより、モデル120を動的に変更することができる。図25は、本発明の一実施形態に従って、ツール122が、リレーションに対する使用者の入力をアクセプトするために表示する典型的なユーザインターフェースディスプレイを示している。図25に示すように、使用者は、ポップアップウインドウ2510の「エッジ追加」を用いて、接続するリレーションに対して、(例えば、コンセプト名称又はコンセプト番号によって識別される)新規のリレーション及び対象ノードの名称を入力することができる。例えば、リレーションは「is found in(見つかる)」、「is caused by(起因する)」、「includes(含む)」などである。
【0096】
図26は、本発明の一実施形態に従って、モデル120及び新規のリレーション2610「is_found_in」を含む典型的なユーザインターフェースディスプレイを示している。図26に示すように、モデル120は、「ヒュルトレ細胞癌(hurthle cell carcinoma)」が「肺(lung)」で「見つかる(is found in)」ことを示すように変更される。この柔軟性は、使用者によるモデル120の変更を可能にすると共に、得られた抽出結果を使用者自身のコンセプト群のメンタルマップに適合させることを可能にする。
【0097】
また、ツール122は、例えば、「is associated with(関連する)」、「is part of(一部である)」、「is included in(含まれる)」など、リレーション2160「is_found_in」を表す動詞変化及びトロポニムを割り当てることができる。また、ツール122は、自動的に変化(例えば、英語の動詞変化)を割り当てることができ、使用者は、リレーション2610「is_found_in」の類義語を作成することにより、他の動詞(及びその変化)を追加することができる。
【0098】
リレーションへの類義語の追加
【0099】
図27は、本発明の一実施形態に従う典型的なユーザインターフェースディスプレイを示している。図27に示すように、類義語をリレーションに追加するために、使用者は、例えば、リレーション2610「is_found_in」などのリレーションを右クリックし、選択メニュー1220からリレーションインスタンスの表示又は編集(View/Edit Relation Instances)を選択することができる。
【0100】
図28は、本発明の一実施形態に従って、ツール122が、リレーションに類義語を追加するために、使用者に対して表示することができる典型的なユーザインターフェースディスプレイを示している。図28に示すように、パネル2810は、使用者が本質的には同一の意味を有すると考える様々な動詞節を表示することができる。追加又は代替として、使用者は、モデル120を更にカスタマイズするために、リレーションに対して使用者独自の類義語を入力することができる。当業者であれば、図28に示す動詞節(例えば、「is found in(見つかる)」)が単なる例示を目的としていることを認識するであろう。
【0101】
次に、使用者は、文書群116からリレーションの全てのインスタンスを抽出する。図29は、本発明の一実施形態に従って、使用者が文書群116からリレーションのインスタンスを抽出できるようにする典型的なユーザインターフェースディスプレイを示している。一実施形態において、図29に示すように、使用者は、リレーション2610「is_found_in」を右クリックし、選択メニュー1220から「リレーション抽出(Extract Relation)」を選択することができる。リレーションのインスタンスを抽出した後、使用者は、リレーション及び関連するコンセプトの少なくとも一方の1以上のインスタンスを含む任意の文書を参照することができる。
【0102】
モデルの共有
【0103】
一実施形態において、モデル120は、共同研究及び効率改善を可能にするため、様々な使用者間で共有することができる。図30は、本発明の一実施形態に従って、モデルを共有するシステムにより実行される典型的なステップを示すフローチャートである。図30に示すように、使用者は、モデル120及びマーク付けされた文書群116を第2の使用者に送信することができる(ステップ3010)。また、第2の使用者は、上述のように、独立して文書群にアクセスし(ステップ3012)、文書群にフィルタを適用し(ステップ3014)、原テキストを分析し(ステップ3016)、及び、POSタグ付け並びに語彙分析を実行することができる(ステップ3018)。
【0104】
第2の使用者は、新規プロジェクトを作成することができ(ステップ3020)、図5に関連して上述したように、抽出処理を実行することができる(ステップ3030)。
【0105】
代替又は追加として、使用者は、インターネットを介して、モデル120を、販売、交換、又は共有することができる。例えば、ウェブサイトは、特定のトピックに関連する文書群116から情報を抽出する予定の研究者のために特に設計したモデル120のコレクションを含むことができる。一実施形態では、使用者は、様々な臨床試験に関連するモデル120を共有することができる。他の実施形態では、使用者は、スポーツ、音楽、法律的な話題、ニュース、健康、旅行、金融、技術、政治、教育、又はビジネスに関連するモデル120を共有することができる。モデル120は、使用者が、販売、購入、共有、交換、及び改良するために、ウェブサイトを介してアクセスできるようにしてもよい。一実施形態において、ツール122又はインターネットウェブサイトは、文書群116又は研究トピックに対する使用者の要求を受信することができ、文書群116又は検索トピックに関連する望ましいモデル120を用いて文書群116を検索することができる。
【0106】
当業者であれば、モデル120を作成するために様々な手段及び方法を用いることができることを認識するであろう。例えば、スプレッドシートのような表形式表示、グラフ、又は情報テーブルが、モデル120を表現するために用いられ得る。
【0107】
本発明の他の実施形態は、本明細書を考察することにより、又は、本明細書にて開示された本発明を実施することにより、当業者にとって自明となるであろう。本明細書及び実施形態は単に例示的なものとして考慮されるべきであり、本発明の真の範囲及び精神は、特許請求の範囲により示されている。
【特許請求の範囲】
【請求項1】
文書群から得られる情報をモデル化する方法であって、
使用者にとって関心の高い複数のコンセプトを受信すること、
前記複数のコンセプトの表現を含むモデルであって、該モデル内の前記複数のコンセプトのうちの第1のコンセプトの表現がエクストラクタに対応する前記モデルを作成すること、及び、
前記第1のコンセプトの表現の使用者選択に基づき、前記対応するエクストラクタを用いて、前記第1のコンセプトに関連する情報を前記文書群から抽出すること、
を含んで構成される方法。
【請求項2】
前記エクストラクタは、前記使用者により決定される請求項1記載の方法。
【請求項3】
前記エクストラクタは、自動的に割り当てられる請求項1記載の方法。
【請求項4】
文法的な品詞及び語彙を識別するように文書群を検索すること、
を更に含んで構成される請求項1記載の方法。
【請求項5】
前記モデルを作成することは、コンセプトに対する類義語を受信することを含む請求項1記載の方法。
【請求項6】
前記複数のコンセプトのデータ構造を作成すること、及び、
前記文書群のうちの何れの文書が前記複数のコンセプトのうちの少なくとも1つを含むのかを示すように前記データ構造を更新すること、
を更に含んで構成される請求項1記載の方法。
【請求項7】
前記抽出される情報は、前記コンセプトを示すようにマーク付けされた前記文書群から得られる文書の一部を含んで構成される請求項1記載の方法。
【請求項8】
前記抽出される情報は、前記文書群のサブセットを含んで構成される請求項1記載の方法。
【請求項9】
前記抽出される情報は、前記複数のコンセプトのうちの少なくとも1つを含む文書のリストを含んで構成される請求項1記載の方法。
【請求項10】
前記複数のコンセプトの前記表現がエンティティとして表され、かつ、前記複数のコンセプト間の関係がエンティティ間のリレーションとして表されるように、エンティティ関係図を用いて前記モデルを表示すること、
を更に含んで構成される請求項1記載の方法。
【請求項11】
前記複数のコンセプトの夫々に対して使用者により指定された色を受信すること、及び、
前記モデルの前記表現に前記指定された色を追加すること、
を更に含んで構成される請求項1記載の方法。
【請求項12】
前記モデルは、前記複数のコンセプトのうちの2つのコンセプトの間に少なくとも1つのリレーションを含む請求項1記載の方法。
【請求項13】
文書群から得られる情報をモデル化する方法であって、
使用者にとって関心の高い複数のコンセプトを受信すること、
前記複数のコンセプトの表現を含むモデルであって、該モデル内の前記複数のコンセプトのうちの第1のコンセプトの表現がエクストラクタに対応する前記モデルを作成すること、
前記第1のコンセプトの表現の使用者選択に基づき、前記対応するエクストラクタを用いて、前記第1のコンセプトに関連する情報を前記文書群から抽出すること、及び、
該抽出された情報に応答する使用者の入力に基づいて、前記モデルをカスタマイズすること、
を含んで構成される方法。
【請求項14】
前記エクストラクタは、前記使用者により決定される請求項13記載の方法。
【請求項15】
前記エクストラクタは、自動的に割り当てられる請求項13記載の方法。
【請求項16】
前記カスタマイズされたモデルに応じて、更新された情報を前記文書群から抽出すること、を更に含んで構成される請求項13記載の方法。
【請求項17】
前記カスタマイズすることは、
語彙モジュールに基づいて前記文書群に関連する前記複数のコンセプトを識別すること、
使用者による前記複数のコンセプトの選択を受信すること、及び、
該選択に応じて前記モデルを更新すること、
を含んで構成される請求項13記載の方法。
【請求項18】
前記カスタマイズすることは、
色、フォント、及び形状から成るグループより選択される固有識別子と、前記複数のコンセプトのうちの1つと、を関連付けること、
を含んで構成される請求項13記載の方法。
【請求項19】
文書群から得られる情報をモデル化する方法であって、
使用者にとって関心の高い複数のコンセプトを受信すること、
前記複数のコンセプトの表現を含むモデルであって、該モデル内の前記複数のコンセプトのうちの第1のコンセプトの表現がエクストラクタに対応する前記モデルを作成すること、
前記第1のコンセプトの表現の使用者選択に基づき、前記対応するエクストラクタを用いて、前記第1のコンセプトに関連する情報を前記文書群から抽出すること、
該抽出された情報に応答する使用者の入力に基づいて、前記モデルをカスタマイズすること、及び、
該カスタマイズされたモデルをエクスポートすること、
を含んで構成される方法。
【請求項20】
前記文書群を前記カスタマイズされたモデルと共にエクスポートすること、
を更に含んで構成される請求項19記載の方法。
【請求項21】
前記文書群を前記カスタマイズされたモデルと共にエクスポートするときに、整合する文書群及び前記カスタマイズされたモデルの販売、交換、及び再使用を促進する標準化フォーマットを用いること、
を更に含んで構成される請求項19記載の方法。
【請求項22】
文書群に含まれる情報のモデルを作成する方法であって、
使用者にとって関心の高い複数のコンセプトを受信すること、
前記複数のコンセプトの表現を含むモデルであって、該モデル内の前記複数のコンセプトのうちの第1のコンセプトの表現がエクストラクタに対応する前記モデルを作成すること、
前記第1のコンセプトの表現の使用者選択に基づき、前記対応するエクストラクタを用いて、前記第1のコンセプトに関連する情報を前記文書群から抽出すること、及び、
該抽出された情報を前記使用者に対して表示すること、
を含んで構成される方法。
【請求項23】
前記複数のコンセプトの夫々に対して使用者により指定された色を受信すること、及び、
前記複数のコンセプトの各表現に対して前記指定された色を含む前記抽出された情報を表示すること、
を更に含んで構成される請求項22記載の方法。
【請求項24】
前記抽出された情報に応答する使用者の入力に基づいて、前記モデルをカスタマイズすること、及び、
前記カスタマイズされたモデルに応じて、更新された情報を前記文書群から抽出すること、を更に含んで構成される請求項22記載の方法。
【請求項25】
前記抽出された情報は、前記コンセプトを示すようにマーク付けされた前記文書群から得られる文書の一部を含んで構成される請求項22記載の方法。
【請求項26】
前記抽出された情報は、前記文書群のサブセットを含んで構成される請求項22記載の方法。
【請求項27】
前記抽出された情報は、前記複数のコンセプトのうちの少なくとも1つを含む文書のリストを含んで構成される請求項22記載の方法。
【請求項28】
文書群から得られる情報をモデル化するシステムであって、
使用者にとって関心の高い複数のコンセプトを受信するように構成される受信コンポーネントと、
前記複数のコンセプトの表現を含むモデルであって、該モデル内の前記複数のコンセプトのうちの第1のコンセプトの表現がエクストラクタに対応する前記モデルを作成するように構成されるモデリングコンポーネントと、
前記第1のコンセプトの表現の使用者選択に基づき、前記対応するエクストラクタを用いて、前記第1のコンセプトに関連する情報を前記文書群から抽出するように構成される抽出コンポーネントと、
を含んで構成されるシステム。
【請求項29】
文書群から得られる情報をモデル化するシステムであって、
使用者にとって関心の高い複数のコンセプトを受信する手段と、
前記複数のコンセプトの表現を含むモデルであって、該モデル内の前記複数のコンセプトのうちの第1のコンセプトの表現がエクストラクタに対応する前記モデルを作成する手段と、
前記第1のコンセプトの表現の使用者選択に基づき、前記対応するエクストラクタを用いて、前記第1のコンセプトに関連する情報を前記文書群から抽出する手段と、
を含んで構成されるシステム。
【請求項30】
文書群から得られる情報をモデル化する方法を実行する命令を含むコンピュータ可読の媒体であって、
前記方法は、
使用者にとって関心の高い複数のコンセプトを受信すること、
前記複数のコンセプトの表現を含むモデルであって、該モデル内の前記複数のコンセプトのうちの第1のコンセプトの表現がエクストラクタに対応する前記モデルを作成すること、及び、
前記第1のコンセプトの表現の使用者選択に基づき、前記対応するエクストラクタを用いて、前記第1のコンセプトに関連する情報を前記文書群から抽出すること、
を含んで構成される、
媒体。
【請求項31】
文書群から得られる情報をモデル化する方法であって、
使用者にとって関心の高い複数のコンセプトを受信すること、
前記複数のコンセプトの表現を含むモデルであって、前記表現が、夫々、前記使用者により決定されるエクストラクタと関連付けられる前記モデルを作成すること、
前記モデル内の少なくとも2つの表現及びこれらに関連付けられたエクストラクタを用いて、前記文書群から情報を抽出するように使用者の入力列を受信すること、
前記使用者の入力列に基づく記録を保存すること、
前記使用者にとって関心の高い新規のコンセプトを受信すること、
前記新規のコンセプトの表現を含むように前記モデルを更新すること、及び、
前記保存された記録に基づいた新規のエクストラクタを、前記新規のコンセプトの表現に自動的に割り当てること、
を含んで構成される方法。
【請求項32】
前記新規のコンセプトは、前記文書群から情報を抽出した後に前記使用者により作成される請求項31記載の方法。
【請求項33】
エクストラクタを、前記保存された記録に基づいて、既存のコンセプトに割り当てること、
を更に含んで構成される請求項31記載の方法。
【請求項34】
前記記録を保存することは、前記文書群から取り出すテキストの使用者選択を受信することを含む請求項31記載の方法。
【請求項35】
前記新規のエクストラクタに基づいて、データベースを自動的に更新すること、
を更に含んで構成される請求項31記載の方法。
【請求項36】
文書群から抽出される情報を処理する方法であって、
使用者にとって関心の高い複数のコンセプトを受信すること、
前記複数のコンセプトの表現を含むモデルであって、該モデル内の前記複数のコンセプトのうちの第1のコンセプトの表現が第1のエクストラクタに対応する前記モデルを作成すること、
前記第1のコンセプトの表現の使用者選択に基づき、前記第1のエクストラクタを用いて、前記第1のコンセプトに関連する情報を前記文書群から抽出すること、及び、
抽出後の情報を作成するように、前記抽出された情報を処理すること、
を含んで構成される方法。
【請求項37】
抽出後の情報を作成するように、前記抽出された情報を処理することは、
前記抽出された情報を、文書、グラフ、テーブル、マップ、スプレッドシート、及びチャートのうちの1つに集約すること、
を含む請求項36記載の方法。
【請求項38】
抽出後の情報を作成するように、前記抽出された情報を処理することは、
前記抽出された情報に対する使用者のカテゴリー選択を受信すること、
を含む請求項36記載の方法。
【請求項39】
抽出後の情報を作成するように、前記抽出された情報を処理することは、
前記文書群内の文書にステータスを割り当てること、
を含む請求項36記載の方法。
【請求項40】
前記モデルを、文書、グラフ、テーブル、マップ、スプレッドシート、及びチャートのうちの1つを用いて表示すること、
を更に含んで構成される請求項1記載の方法。
【請求項41】
前記文書群内の文書を変更すること、
を更に含んで構成される請求項1記載の方法。
【請求項1】
文書群から得られる情報をモデル化する方法であって、
使用者にとって関心の高い複数のコンセプトを受信すること、
前記複数のコンセプトの表現を含むモデルであって、該モデル内の前記複数のコンセプトのうちの第1のコンセプトの表現がエクストラクタに対応する前記モデルを作成すること、及び、
前記第1のコンセプトの表現の使用者選択に基づき、前記対応するエクストラクタを用いて、前記第1のコンセプトに関連する情報を前記文書群から抽出すること、
を含んで構成される方法。
【請求項2】
前記エクストラクタは、前記使用者により決定される請求項1記載の方法。
【請求項3】
前記エクストラクタは、自動的に割り当てられる請求項1記載の方法。
【請求項4】
文法的な品詞及び語彙を識別するように文書群を検索すること、
を更に含んで構成される請求項1記載の方法。
【請求項5】
前記モデルを作成することは、コンセプトに対する類義語を受信することを含む請求項1記載の方法。
【請求項6】
前記複数のコンセプトのデータ構造を作成すること、及び、
前記文書群のうちの何れの文書が前記複数のコンセプトのうちの少なくとも1つを含むのかを示すように前記データ構造を更新すること、
を更に含んで構成される請求項1記載の方法。
【請求項7】
前記抽出される情報は、前記コンセプトを示すようにマーク付けされた前記文書群から得られる文書の一部を含んで構成される請求項1記載の方法。
【請求項8】
前記抽出される情報は、前記文書群のサブセットを含んで構成される請求項1記載の方法。
【請求項9】
前記抽出される情報は、前記複数のコンセプトのうちの少なくとも1つを含む文書のリストを含んで構成される請求項1記載の方法。
【請求項10】
前記複数のコンセプトの前記表現がエンティティとして表され、かつ、前記複数のコンセプト間の関係がエンティティ間のリレーションとして表されるように、エンティティ関係図を用いて前記モデルを表示すること、
を更に含んで構成される請求項1記載の方法。
【請求項11】
前記複数のコンセプトの夫々に対して使用者により指定された色を受信すること、及び、
前記モデルの前記表現に前記指定された色を追加すること、
を更に含んで構成される請求項1記載の方法。
【請求項12】
前記モデルは、前記複数のコンセプトのうちの2つのコンセプトの間に少なくとも1つのリレーションを含む請求項1記載の方法。
【請求項13】
文書群から得られる情報をモデル化する方法であって、
使用者にとって関心の高い複数のコンセプトを受信すること、
前記複数のコンセプトの表現を含むモデルであって、該モデル内の前記複数のコンセプトのうちの第1のコンセプトの表現がエクストラクタに対応する前記モデルを作成すること、
前記第1のコンセプトの表現の使用者選択に基づき、前記対応するエクストラクタを用いて、前記第1のコンセプトに関連する情報を前記文書群から抽出すること、及び、
該抽出された情報に応答する使用者の入力に基づいて、前記モデルをカスタマイズすること、
を含んで構成される方法。
【請求項14】
前記エクストラクタは、前記使用者により決定される請求項13記載の方法。
【請求項15】
前記エクストラクタは、自動的に割り当てられる請求項13記載の方法。
【請求項16】
前記カスタマイズされたモデルに応じて、更新された情報を前記文書群から抽出すること、を更に含んで構成される請求項13記載の方法。
【請求項17】
前記カスタマイズすることは、
語彙モジュールに基づいて前記文書群に関連する前記複数のコンセプトを識別すること、
使用者による前記複数のコンセプトの選択を受信すること、及び、
該選択に応じて前記モデルを更新すること、
を含んで構成される請求項13記載の方法。
【請求項18】
前記カスタマイズすることは、
色、フォント、及び形状から成るグループより選択される固有識別子と、前記複数のコンセプトのうちの1つと、を関連付けること、
を含んで構成される請求項13記載の方法。
【請求項19】
文書群から得られる情報をモデル化する方法であって、
使用者にとって関心の高い複数のコンセプトを受信すること、
前記複数のコンセプトの表現を含むモデルであって、該モデル内の前記複数のコンセプトのうちの第1のコンセプトの表現がエクストラクタに対応する前記モデルを作成すること、
前記第1のコンセプトの表現の使用者選択に基づき、前記対応するエクストラクタを用いて、前記第1のコンセプトに関連する情報を前記文書群から抽出すること、
該抽出された情報に応答する使用者の入力に基づいて、前記モデルをカスタマイズすること、及び、
該カスタマイズされたモデルをエクスポートすること、
を含んで構成される方法。
【請求項20】
前記文書群を前記カスタマイズされたモデルと共にエクスポートすること、
を更に含んで構成される請求項19記載の方法。
【請求項21】
前記文書群を前記カスタマイズされたモデルと共にエクスポートするときに、整合する文書群及び前記カスタマイズされたモデルの販売、交換、及び再使用を促進する標準化フォーマットを用いること、
を更に含んで構成される請求項19記載の方法。
【請求項22】
文書群に含まれる情報のモデルを作成する方法であって、
使用者にとって関心の高い複数のコンセプトを受信すること、
前記複数のコンセプトの表現を含むモデルであって、該モデル内の前記複数のコンセプトのうちの第1のコンセプトの表現がエクストラクタに対応する前記モデルを作成すること、
前記第1のコンセプトの表現の使用者選択に基づき、前記対応するエクストラクタを用いて、前記第1のコンセプトに関連する情報を前記文書群から抽出すること、及び、
該抽出された情報を前記使用者に対して表示すること、
を含んで構成される方法。
【請求項23】
前記複数のコンセプトの夫々に対して使用者により指定された色を受信すること、及び、
前記複数のコンセプトの各表現に対して前記指定された色を含む前記抽出された情報を表示すること、
を更に含んで構成される請求項22記載の方法。
【請求項24】
前記抽出された情報に応答する使用者の入力に基づいて、前記モデルをカスタマイズすること、及び、
前記カスタマイズされたモデルに応じて、更新された情報を前記文書群から抽出すること、を更に含んで構成される請求項22記載の方法。
【請求項25】
前記抽出された情報は、前記コンセプトを示すようにマーク付けされた前記文書群から得られる文書の一部を含んで構成される請求項22記載の方法。
【請求項26】
前記抽出された情報は、前記文書群のサブセットを含んで構成される請求項22記載の方法。
【請求項27】
前記抽出された情報は、前記複数のコンセプトのうちの少なくとも1つを含む文書のリストを含んで構成される請求項22記載の方法。
【請求項28】
文書群から得られる情報をモデル化するシステムであって、
使用者にとって関心の高い複数のコンセプトを受信するように構成される受信コンポーネントと、
前記複数のコンセプトの表現を含むモデルであって、該モデル内の前記複数のコンセプトのうちの第1のコンセプトの表現がエクストラクタに対応する前記モデルを作成するように構成されるモデリングコンポーネントと、
前記第1のコンセプトの表現の使用者選択に基づき、前記対応するエクストラクタを用いて、前記第1のコンセプトに関連する情報を前記文書群から抽出するように構成される抽出コンポーネントと、
を含んで構成されるシステム。
【請求項29】
文書群から得られる情報をモデル化するシステムであって、
使用者にとって関心の高い複数のコンセプトを受信する手段と、
前記複数のコンセプトの表現を含むモデルであって、該モデル内の前記複数のコンセプトのうちの第1のコンセプトの表現がエクストラクタに対応する前記モデルを作成する手段と、
前記第1のコンセプトの表現の使用者選択に基づき、前記対応するエクストラクタを用いて、前記第1のコンセプトに関連する情報を前記文書群から抽出する手段と、
を含んで構成されるシステム。
【請求項30】
文書群から得られる情報をモデル化する方法を実行する命令を含むコンピュータ可読の媒体であって、
前記方法は、
使用者にとって関心の高い複数のコンセプトを受信すること、
前記複数のコンセプトの表現を含むモデルであって、該モデル内の前記複数のコンセプトのうちの第1のコンセプトの表現がエクストラクタに対応する前記モデルを作成すること、及び、
前記第1のコンセプトの表現の使用者選択に基づき、前記対応するエクストラクタを用いて、前記第1のコンセプトに関連する情報を前記文書群から抽出すること、
を含んで構成される、
媒体。
【請求項31】
文書群から得られる情報をモデル化する方法であって、
使用者にとって関心の高い複数のコンセプトを受信すること、
前記複数のコンセプトの表現を含むモデルであって、前記表現が、夫々、前記使用者により決定されるエクストラクタと関連付けられる前記モデルを作成すること、
前記モデル内の少なくとも2つの表現及びこれらに関連付けられたエクストラクタを用いて、前記文書群から情報を抽出するように使用者の入力列を受信すること、
前記使用者の入力列に基づく記録を保存すること、
前記使用者にとって関心の高い新規のコンセプトを受信すること、
前記新規のコンセプトの表現を含むように前記モデルを更新すること、及び、
前記保存された記録に基づいた新規のエクストラクタを、前記新規のコンセプトの表現に自動的に割り当てること、
を含んで構成される方法。
【請求項32】
前記新規のコンセプトは、前記文書群から情報を抽出した後に前記使用者により作成される請求項31記載の方法。
【請求項33】
エクストラクタを、前記保存された記録に基づいて、既存のコンセプトに割り当てること、
を更に含んで構成される請求項31記載の方法。
【請求項34】
前記記録を保存することは、前記文書群から取り出すテキストの使用者選択を受信することを含む請求項31記載の方法。
【請求項35】
前記新規のエクストラクタに基づいて、データベースを自動的に更新すること、
を更に含んで構成される請求項31記載の方法。
【請求項36】
文書群から抽出される情報を処理する方法であって、
使用者にとって関心の高い複数のコンセプトを受信すること、
前記複数のコンセプトの表現を含むモデルであって、該モデル内の前記複数のコンセプトのうちの第1のコンセプトの表現が第1のエクストラクタに対応する前記モデルを作成すること、
前記第1のコンセプトの表現の使用者選択に基づき、前記第1のエクストラクタを用いて、前記第1のコンセプトに関連する情報を前記文書群から抽出すること、及び、
抽出後の情報を作成するように、前記抽出された情報を処理すること、
を含んで構成される方法。
【請求項37】
抽出後の情報を作成するように、前記抽出された情報を処理することは、
前記抽出された情報を、文書、グラフ、テーブル、マップ、スプレッドシート、及びチャートのうちの1つに集約すること、
を含む請求項36記載の方法。
【請求項38】
抽出後の情報を作成するように、前記抽出された情報を処理することは、
前記抽出された情報に対する使用者のカテゴリー選択を受信すること、
を含む請求項36記載の方法。
【請求項39】
抽出後の情報を作成するように、前記抽出された情報を処理することは、
前記文書群内の文書にステータスを割り当てること、
を含む請求項36記載の方法。
【請求項40】
前記モデルを、文書、グラフ、テーブル、マップ、スプレッドシート、及びチャートのうちの1つを用いて表示すること、
を更に含んで構成される請求項1記載の方法。
【請求項41】
前記文書群内の文書を変更すること、
を更に含んで構成される請求項1記載の方法。
【図6】
【図1A】
【図1B】
【図2】
【図3】
【図4】
【図5】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18A】
【図18B】
【図18C】
【図19】
【図20】
【図21】
【図22】
【図23】
【図24】
【図25】
【図26】
【図27】
【図28】
【図29】
【図30】
【図1A】
【図1B】
【図2】
【図3】
【図4】
【図5】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18A】
【図18B】
【図18C】
【図19】
【図20】
【図21】
【図22】
【図23】
【図24】
【図25】
【図26】
【図27】
【図28】
【図29】
【図30】
【公表番号】特表2009−537928(P2009−537928A)
【公表日】平成21年10月29日(2009.10.29)
【国際特許分類】
【出願番号】特願2009−515398(P2009−515398)
【出願日】平成19年5月10日(2007.5.10)
【国際出願番号】PCT/US2007/011256
【国際公開番号】WO2007/136560
【国際公開日】平成19年11月29日(2007.11.29)
【出願人】(508363247)ノブリス,インコーポレーテッド (1)
【氏名又は名称原語表記】NOBLIS,INC.
【Fターム(参考)】
【公表日】平成21年10月29日(2009.10.29)
【国際特許分類】
【出願日】平成19年5月10日(2007.5.10)
【国際出願番号】PCT/US2007/011256
【国際公開番号】WO2007/136560
【国際公開日】平成19年11月29日(2007.11.29)
【出願人】(508363247)ノブリス,インコーポレーテッド (1)
【氏名又は名称原語表記】NOBLIS,INC.
【Fターム(参考)】
[ Back to top ]