コンピュータで実現される方法
文書のデジタル表現から自動的に抽出されたデータを見直しのために管理人に提示するコンピュータで実現される方法であって、抽出されたデータは、文書のデジタル表現中で識別されたエンティティの1つ以上のインスタンスに関する注釈エンティティデータを備え、注釈エンティティデータは文書のデジタル表現内のエンティティの識別されたインスタンスの場所を特定するデータを備え、方法は、(i)ディスプレイ画面の第1の領域に、文書のデジタル表現のユーザ選択可能部分を表示するステップを備え、注釈エンティティデータによって文書のデジタル表現の表示された部分内に位置すると特定されるエンティティの当該インスタンスは、注釈エンティティデータによって特定される場所でハイライトされ、さらに(ii)ディスプレイ画面の第2の領域に、文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストを表示するステップを備え、エンティティの列挙されたインスタンスのうち少なくとも1つは、それと関連付けられたユーザ選択可能ユーザインターフェイス要素を有し、さらに(iii)エンティティのインスタンスと関連付けられたユーザ選択可能ユーザインターフェイス要素をユーザが選択するのに応答して、選択されたユーザインターフェイス要素と関連付けられたエンティティのインスタンスが位置する文書のデジタル表現内の場所を含むように、第1の領域に表示される文書のデジタル表現の部分を調整するステップを備える、コンピュータで実現される方法が開示される。
【発明の詳細な説明】
【技術分野】
【0001】
発明の分野
本発明は、自動情報抽出手順によって文書のデジタル表現から抽出されたデータのキュレーションを容易にするユーザインターフェイスを提供するための、コンピュータで実現される方法に関する。
【背景技術】
【0002】
発明の背景
社会および業界で発生する情報量は増加の一途を辿り、そのために、その情報を記憶し、見つけ出し、かつ分析することが難しくなり続けている。科学および技術文献などの情報を印刷した形態で記憶し、手作業で索引付けることが十分に可能であった時代もあったが、そのような時代は過去のものとなり、電子的記憶、検索および分析システムが近代世界の不可欠な部分となっている。
【0003】
ある種の情報処理はコンピュータ化された分析のみによって十分に対処可能である。たとえば、サーチ可能なウェブページのディレクトリは、人間による介入なしに自動的に準備され、大量の情報を記憶し、かつどのウェブページが特定的な語を含むかなどの問合せに応答してこの情報を検索するように使用可能である。
【0004】
しかしながら、ある情報処理タスクを自動化することが不可能であったり、また人間ならば達成するであろう水準にまでこれを自動化することが不可能であったりする。たとえば、自然言語テキストを備える文書の正確な自動分析は特に困難な問題となる。
【0005】
自然言語テキスト文書の自動分析は、コンピュータ言語学とも称される、成長を続ける自然言語処理(NLP)という科学分野によって扱われている。NLPは、以前は人間が行わなければならなかったタスクを実行するように用いられているが、継続的に発展しながらも完全な科学には至っていない。コンピュータ化によるコストおよびスピード面での利点により、人間による分析よりもむしろ自然言語自動分析法を用いることが望ましいことがしばしばあるが、人間による分析が依然として必須である多くの用途が存在する。
【0006】
可能ならば自動分析されるのが理想的な大量の情報が存在する分野の一例は、たとえば生物医学的科学文献などの科学文献である。新たな科学的発見をして既存のデータから結論を引き出すためには、科学文献で言及される生物学的エンティティ同士の間の関係に関する情報を記憶し呼び出すことができることが望ましい。たとえば、ある科学論文が第1のタンパク質がインビボで第2のタンパク質と相互作用するという仮説を支持する証拠を提供している場合、サーチ可能なデータベースにその情報を記憶することが望ましい。そのようなデータベースは技術の進歩に対する貴重な助けとなることができる。
【0007】
国際特許出願公開番号WO2005/017692(コグニアコーポレーション(Cognia Corporation))は、(タンパク質、遺伝子、化合物などの)エンティティおよびこれらのエンティティ同士の間の相互作用についての情報を含む生物医学的研究で用いるためのリレーショナルデータベースを記載する。相互作用に関するデータは、相互作用についての証拠を提供する科学論文への参照番号とともにデータベースに記憶される。このように、データベースは、エンティティおよびエンティティ同士の間の相互作用についての情報を見つけ出すだけでなく、それにより科学文献内の関連のソースを識別するためにもユーザによって問合せされ得る。データは、科学文献を読み、個別の文献で参照されるエンティティおよびそれらの文献内でデータによって仮説を立てられ、論じられ、または証明される関係を識別する人間の管理人によって、データベースに入力される。コンピュータ−ユーザインターフェイスが管理人に提供され、このインターフェイスにより、管理人は、他のデータの中から、エンティティの名称の正規形を規定するオントロジブラウザを介してオプションを選択することによってデータを入力できるようになる。このように、管理人が入力したデータは標準化された用語を用いるので、異なる名前でエンティティが参照されることが回避され、これによりデータベースの品質が向上する。
【0008】
しかしながら、WO2005/017692に記載されるシステムの欠点は、データベースをコンパイルするのに熟練した管理人がかなりの時間量を費やす必要があり、これにはコストがかかる可能性があることである。
【0009】
PCT/GB2007/001170(アイティーアイ・スコットランド・リミテッド(ITI Scotland Limited))は、文書のデジタル表現中のエンティティのインスタンスに関し、文書のデジタル表現内でのエンティティのインスタンスの場所を含む注釈データが情報抽出装置によって自動的に準備され、コンピュータ−ユーザインターフェイスを用いて見直しのために人間の管理人に提示される情報抽出手順を開示する。この仕組みは、データベースをコンパイルするのに人間の管理人が要する時間を短縮する。
【発明の概要】
【発明が解決しようとする課題】
【0010】
本発明は、たとえばデータベースへのエクスポートのためにデータを見直ししながら管理人が用いるための、情報抽出装置によって文書のデジタル表現から自動的に抽出されたデータを見直すのに用いるための改良されたコンピュータ−ユーザインターフェイスを提供することを目的とする。
【課題を解決するための手段】
【0011】
発明の要約
本発明の第1の局面に従うと、文書のデジタル表現から自動的に抽出された抽出データを見直しのために管理人に提示するコンピュータで実現される方法であって、抽出されたデータは、文書のデジタル表現中で識別されたエンティティの1つ以上のインスタンスに関する注釈エンティティデータを備え、注釈エンティティデータは、文書のデジタル表現内のエンティティの識別されたインスタンスの場所を特定するデータを備え、方法は、
(i) ディスプレイ画面の第1の領域に、文書のデジタル表現のユーザ選択可能部分を表示するステップを備え、注釈エンティティデータによって文書のデジタル表現の表示された部分内に位置するとして特定されるエンティティの当該インスタンスは、注釈エンティティデータによって特定される場所でハイライトされ、さらに
(ii) ディスプレイ画面の第2の領域に、文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストを表示するステップを備え、エンティティの列挙されたインスタンスのうち少なくとも1つは、それと関連付けられたユーザ選択可能ユーザインターフェイス要素を有し、さらに
(iii) エンティティのインスタンスと関連付けられたユーザ選択可能ユーザインターフェイス要素をユーザが選択するのに応答して、選択されたユーザインターフェイス要素と関連付けられたエンティティのインスタンスが位置する文書のデジタル表現内の場所を含むように、第1の領域に表示される文書のデジタル表現の部分を調整するステップを備える、コンピュータで実現される方法が提供される。
【0012】
この方法により、管理人は、見直しのために検討しなければならない文書のデジタル表現のセクションをより早く見つけることができるようになり、必要に応じて、文書のデジタル表現をキュレーションする際に、エンティティの個別のインスタンスに関する注釈データを修正および/または入力することができるようになる。
【0013】
文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストは、たとえば、注釈エンティティデータが関するエンティティの自動識別されたインスタンスなどのエンティティの自動的に識別されたインスタンスを備えるか、またはそれらからなるリストであり得る。
【0014】
文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストは、管理人によって見直されたエンティティの識別されたインスタンスを備えるか、またはそれらからなるリストであり得る。
【0015】
文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストは、抽出されたデータ中で特定されなかったが管理人によって識別されたエンティティのインスタンスを備え得る。
【0016】
文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストは、キュレーションされたデータ記録がデータベースへの出力のために準備されたエンティティのインスタンスを備え得る。
【0017】
この方法は、エンティティの複数のインスタンスのリスト中の、エンティティの個別のインスタンスの付近から、文書のデジタル表現からのテキストのセグメントを表示するステップを備え得る。ユーザ選択可能ユーザインターフェイス要素は、エンティティの個別のインスタンスに関するテキストのセグメント、またはエンティティの個別のインスタンスに関するテキストのセグメントの部分を備え得る。たとえば、ユーザ選択可能ユーザインターフェイス要素は、エンティティの個別のインスタンスに関するテキストのセグメント内のエンティティを示すハイライトされたテキストであり得る。
【0018】
選択されたユーザインターフェイス要素と関連付けられたエンティティのインスタンスが位置する文書のデジタル表現内の場所を含むように、第1の領域に表示される文書のデジタル表現の部分を調整するステップは、選択されたユーザインターフェイス要素と関連付けられたエンティティのインスタンスが、たとえば第1の領域のほぼ中程などの第1の領域の特定的な部分内に位置するように、第1の領域に表示される文書のデジタル表現の部分を調整するステップを備え得る。
【0019】
好ましくは、方法は、関係の識別されたインスタンスの識別された場所で、第1の領域に表示される文書のデジタル表現の部分内に位置すると識別された関係のインスタンスをハイライトするステップをさらに備え、方法は、文書のデジタル表現中で識別された関係の複数のインスタンスのリストをディスプレイ画面の第2の領域に表示するステップをさらに備え、関係の列挙されたインスタンスのうち少なくとも1つは、それと関連付けられたユーザ選択可能ユーザインターフェイス要素を有し、さらに、関係のインスタンスと関連付けられたユーザ選択可能ユーザインターフェイス要素をユーザが選択するのに応答して、選択されたユーザインターフェイス要素と関連付けられた関係のインスタンスが位置する文書のデジタル表現内の場所を含むように、第1の領域に表示される文書のデジタル表現の部分を調整するステップを備える。関係の複数のインスタンスのリストは、エンティティの複数のインスタンスのリストと同時にまたは異なる時期に表示され得る。
【0020】
好ましくは、この方法は、エンティティ(およびオプションで関係)のインスタンスに関する抽出データを見直すためのコンピュータ−ユーザインターフェイス手段(たとえばコンピュータ−ユーザインターフェイス)をユーザに提供するステップをさらに備える。
【0021】
好ましくは、この方法は、エンティティ(およびオプションで関係)のインスタンスに関する新しいまたは修正されたデータを管理人から受けるように動作可能なコンピュータ−ユーザインターフェイス手段(たとえばコンピュータ−ユーザインターフェイス)をユーザに提供するステップをさらに備える。
【0022】
好ましくは、この方法は、管理人によって文書のデジタル表現内で識別されたが抽出データによっては特定されないエンティティ(およびオプションで関係)のインスタンスに関するデータを受けるように動作可能なコンピュータ−ユーザインターフェイス手段(たとえばコンピュータ−ユーザインターフェイス)をユーザに提供するステップをさらに備える。
【0023】
この方法は、たとえばディスプレイと電子通信するコンピュータなどの、ディスプレイと電子通信する演算装置によって典型的に実行される。このまたは各々のユーザ選択可能ユーザインターフェイス要素は、たとえば当該コンピュータと電子通信するマウスなどの、演算装置と関連付けられたポインティングデバイスを用いて典型的に選択可能である。このまたは各々のユーザ選択可能ユーザインターフェイス要素は、ユーザインターフェイス要素を含むディスプレイの領域上を、ポインタを動かすようにポインティングデバイスを操作することによって選択可能であり得る。たとえば、このまたは各々のユーザ選択可能ユーザインターフェイス要素は、「マウスオーバ」イベントに応答して選択可能であり得る。ユーザ選択可能ユーザインターフェイス要素の選択は、マウスボタンのクリックなどの、ユーザが作動させるさらなる選択イベントを要件としてもよいし、しなくてもよい。
【0024】
この方法は、情報抽出装置を用いてエンティティのインスタンスに関する注釈エンティティデータ(およびオプションで注釈関係データ)を自動的に抽出して見直し用の抽出データを準備するステップを備え得る。
【0025】
この方法は、発明の第17の局面に従う方法を実行するステップと、ディスプレイの第2の領域に、ノード要素の群からユーザが選択したノード要素の表現を表示するステップとを備え得、同じ非葉ノード要素の子であるエンティティのインスタンスと関連付けられた葉ノード要素の1つ以上の群は、エンティティの複数のインスタンスのリストとして表示され、各々の葉ノード要素は、エンティティの複数のインスタンスのリスト中のエンティティのインスタンスと関連付けられたユーザ選択可能ユーザインターフェイス要素として機能するかまたはこれを備える。
【0026】
発明の第1の局面のさらなるオプションの特徴は、発明の第1から第16の局面に関連して以下で論じられる特徴に対応する。
【0027】
本発明の第2の局面に従うと、文書のデジタル表現に関連付けられた注釈データを編集する方法であって、この方法は、演算装置によって実行される、
(i) 文書のデジタル表現および注釈データを入力データとして受けるステップを備え、注釈データは文書のデジタル表現中で識別されたエンティティの1つ以上のインスタンスに関する注釈エンティティデータを備え、注釈エンティティデータは、文書のデジタル表現中で識別された1つ以上のエンティティのインスタンスの識別子および文書のデジタル表現内のエンティティの識別されたインスタンスの場所を特定するデータを備え、エンティティのインスタンスの識別子はオントロジデータへの参照番号を備え、さらに
(ii) ディスプレイ画面の第1の領域に、(コンピュータ−ユーザインターフェイスなどの)コンピュータ−ユーザインターフェイス手段のユーザに対して文書のデジタル表現のユーザ選択可能部分を表示するステップを備え、注釈は注釈データに依存し、当該注釈は、注釈エンティティデータによって特定される文書のデジタル表現内の場所で、その場所が注釈エンティティデータ中に特定されるエンティティのインスタンスのうち1つ以上を少なくともハイライトすることを含み、さらに
(iii) コンピュータ−ユーザインターフェイス手段のユーザから受けた指示に応答して、修正された注釈データを準備するステップと、
(iv) 修正された注釈データから導出される出力データを出力するステップとを備え、
この方法はさらに、コンピュータ−ユーザインターフェイス手段が、ディスプレイ画面の第2の領域に、文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストを表示するように動作可能であるユーザ選択可能動作モードを提供するステップを備え、エンティティの列挙されたインスタンスのうち少なくとも1つは、それと関連付けられたユーザ選択可能ユーザインターフェイス要素を有し、さらに、エンティティのインスタンスと関連付けられたユーザ選択可能ユーザインターフェイス要素をユーザが選択するのに応答して、選択されたユーザインターフェイス要素と関連付けられたエンティティのインスタンスが位置する文書のデジタル表現内の場所を含むように、第1の領域に表示される文書のデジタル表現の部分を調整するステップを備える、方法が提供される。
【0028】
出力データは、好ましくは、修正された注釈データを備える。
好ましい実施例では、注釈データを編集する方法は、データベースに投入する方法の一部である。したがって、発明は、第3の局面では、データベースに投入する方法に拡張され、この方法は、本発明の第1の局面に従う方法によって、文書のデジタル表現と関連付けられた注釈データを編集するステップと、データベースに出力データを投入するステップとを備える。この明細書および添付の請求項内で「注釈データを編集する」とは、注釈データの変更などの注釈データの修正と、新しい注釈データまたは注釈データもしくはそれから導出されるデータを修正することによって新しい注釈データから導出される出力データの準備との両方を含む。
【0029】
好ましくは、注釈データは、文書のデジタル表現の自動コンピュータ分析によって得られる。
【0030】
このように、第4の局面では、発明は、発明の第3の局面に従うデータベースに投入する方法にも拡張され、注釈データを編集するステップのために入力データとして受けられる注釈データは、演算装置によって実行される、文書のデジタル表現を入力データとして受けるステップと、文書のデジタル表現を分析するステップと、文書のデジタル表現に含有されるエンティティの1つ以上のインスタンスを識別するステップと、エンティティの識別されたインスタンスのうち少なくともいくつかについては、文書のデジタル表現中で識別されたエンティティの1つ以上のインスタンスに関する注釈エンティティデータを備える注釈データを記憶するステップとによって得られ、注釈エンティティデータは、文書のデジタル表現中で識別された1つ以上のエンティティのインスタンスの識別子および文書のデジタル表現内のエンティティの識別されたインスタンスの場所を特定するデータを備え、エンティティの識別子はオントロジデータへの参照番号を備え、記憶された注釈データは注釈データを編集するステップのための入力データとして用いられる。
【0031】
したがって、発明は、演算装置による、文書のデジタル表現の自動分析によってまず導出される注釈データを人間の管理人が見直して修正できるようにするための方法を提供する。この方法は典型的には、複数の文書のデジタル表現の分析および見直しを可能にするように繰返されるであろう。
【0032】
文書のデジタル表現内のエンティティのインスタンスの場所を特定するデータを記憶するプロセスと、エンティティの識別されたインスタンスのうち1つ以上が文書のデジタル表現内の特定された場所でハイライトされた状態で、コンピュータ−ユーザインターフェイス手段のユーザに対して、文書の分析されたデジタル表現の少なくとも一部を表示することとは、人間の管理人が自動分析を見直してチェックすることを容易にする。我々は、文書のデジタル表現に対して注釈を付与することにより、チェックおよびキュレーションを必要とする関連の特徴を管理人が識別するのが容易になること、ならびに、WO2005/017692に記載のものなどのコンピュータ−ユーザインターフェイスを用いて管理人が印刷文書を読み、エンティティ、関係などに関するデータを入力するシステムと比較して彼らの作業速度が向上することを見出した。
【0033】
ある実施例では、注釈データに依存する注釈を、注釈データによって特定される文書のデジタル表現内の場所に表示することにより、人間の管理人が、演算のみによっては正確に判断することができない注釈データを追加できるようになる。これにより、人間の管理人が自動的に準備された注釈データを訂正および見直しするのが容易になる。
【0034】
修正された注釈データを準備するステップは、注釈データを修正するステップを備え得る。修正された注釈データを準備するステップは、コンピュータ−ユーザインターフェイス手段が提供する表示を対話的に更新するステップをさらに備え得る。管理人が注釈データを修正できるようにするとともにコンピュータ−ユーザ手段が提供する表示を対話的に更新することにより、発明は、人間の管理人が、たとえば2つ以上のエンティティ同士の間の関係に関連する注釈などの、エンティティの正しい注釈に依存する注釈データをより便利に追加、修正またはチェックできるようにし得る。この手順によって修正された結果的に得られる注釈データは、オントロジデータベースの作成もしくは修正および/またはトレーニング可能な情報抽出モジュールをトレーニングするためのトレーニングデータの準備に有用である。
【0035】
修正された注釈データを準備するステップは、コンピュータ−ユーザインターフェイス手段のユーザから受けた指示に応答して、注釈データから導出された(たとえばコピーまたは抽出された)仮の修正注釈データを表示するステップと、仮の修正注釈データを更新するステップとを備え得る。仮の修正注釈データは、当該注釈データに依存する表示された注釈をユーザが選択するのに応答して、注釈データから導出され得る。このように、仮の修正注釈データを表わす、ボタン、チェックボックス、テキスト入力欄、メニュー、ドロップダウンメニューなどのユーザに対して表示される1つ以上の対話的ユーザ−インターフェイス要素は、ユーザが選択した注釈に関する注釈データを用いて自動的に予め投入され得、ユーザには、仮の修正注釈データおよび1つ以上の対話的ユーザインターフェイス要素によるその表現を対話的に修正して修正注釈データを準備する選択肢が与えられ得る。この場合、入力データとして受けられた注釈データは修正されてもされなくてもよい。
【0036】
出力データは、注釈エンティティデータから導出される1つ以上のエンティティに関する出力エンティティデータを備え得る。出力エンティティデータは、好ましくは、1つ以上のエンティティの識別子を備える。典型的には、エンティティの識別子はオントロジデータへの参照番号である。出力データは、文書内のエンティティの1つ以上の識別されたインスタンスの場所を含み得るが、出力データは、文書のデジタル表現内のエンティティの識別されたインスタンスの場所を含まないことがある。
【0037】
好ましくは、出力データは文書識別子を備える。これにより、データベース中のデータをサポートする情報を含有する1つ以上の文書の識別が可能になる。
【0038】
好ましくは、注釈データは、文書のデジタル表現によって記述されるエンティティ同士の間の関係のインスタンスに関する注釈関係データを備える。修正注釈データを準備するステップは、コンピュータ−ユーザインターフェイス手段のユーザからエンティティ同士の間の関係の1つ以上のインスタンスに関するデータを受けるステップと、応じて修正注釈関係データを準備するステップとを備え得る。
【0039】
修正注釈データは当初の(すなわち受けた)注釈データとは異なるフォーマットであり得るが、修正注釈データは当初の(すなわち受けた)注釈データと同じフォーマットであってもよい。注釈データに関連して本明細書中で記載されるオプションのおよび好ましい特徴は、特に他に記載がなければ、適用可能な場合、この方法を通じて、修正注釈データおよび関連のある場合は仮の修正注釈データのオプションのおよび好ましい特徴であり得る。したがって、仮の修正注釈データは仮の修正注釈エンティティデータおよび仮の修正注釈関係データを備え得る。
【0040】
好ましくは、出力データは、エンティティ同士の間の1つ以上の関係に関する出力関係データを備え、この関係は文書によって記述され、当該データは修正注釈データから導出される1つ以上の関係に関する。
【0041】
出力関係データは、文書中で言及されるエンティティ同士の間の関係への文書中での参照番号の特定的なインスタンスに関し得る。関係は、文書全体の結論に関し得、たとえば、出力関係データは、文書の主題、文書の結論、または文書が論じるもしくはサポートする仮説である関係に関し得る。
【0042】
注釈データは注釈関係データを当初は備えないが、修正注釈データは注釈関係データを備えるかまたは備え得るであろう。このように、注釈関係データは、コンピュータ−ユーザインターフェイス手段のユーザから受けた指示に応答して初めて注釈データ内に含まれ得る。コンピュータ−ユーザインターフェイス手段が仮の修正注釈データを作成しかつ表示するように適合される場合、コンピュータ−ユーザインターフェイス手段は、ユーザが、仮の修正注釈データを修正してエンティティ間の関係を特定できるようにし得る。たとえば、ユーザは、関係が関連する1つ以上のエンティティを規定できるようになり得る。
【0043】
出力関係データは、文書のデジタル表現内に関係の1つ以上のインスタンスの場所を備え得る。注釈関係データは、文書のデジタル表現内に関係の場所を備え得る。文書のデジタル表現を分析するステップは、文書のデジタル表現内の関係の1つ以上のインスタンスの場所を識別するステップと、注釈データ内の関係の1つ以上のインスタンスの場所を特定する関係データを記憶するステップとを含み得る。このステップは、関係に関するオントロジデータを備え得るオントロジデータを参照して実行され得る。オプションで、注釈関係データは、データのデジタル表現内の関係の1つ以上のインスタンスの場所を備え、出力データは、データのデジタル表現内の関係のいずれのインスタンスの場所も備えない。
【0044】
文書のデジタル表現内のエンティティのインスタンスの場所を特定するデータの識別および記憶は、(エンティティ同士の間の関係を自動識別する実施例では)文書のデジタル表現内のエンティティ同士の間の関係の自動識別を容易にする。これは、文書がエンティティ同士の間の関係が存在することを示すか否かを判断する際に、当該技術分野で公知のいくつかの関係抽出アルゴリズムが、エンティティ同士の近接性またはエンティティの周囲のもしくはエンティティ間の単語を考慮するからである。文書のデジタル表現内のエンティティのインスタンスを特定するデータの識別および記憶は、マウスなどのポインティングデバイスを用いてエンティティを指すことにより、そのエンティティまたはそのエンティティに関する関係に関する修正注釈データを準備するのに用いられるエンティティをユーザが選択できるようにするコンピュータ−ユーザインターフェイス特徴を設けるのを容易にする。
【0045】
注釈データが注釈関係データを備える場合、この方法は、演算装置によって実行される、文書のデジタル表現中のエンティティの1つ以上のインスタンスを識別するステップを含み得るが、演算装置によって実行される、識別されたエンティティ同士の間の関係のインスタンスを識別するステップは含まないかもしれない。このように、注釈関係データは、コンピュータ−ユーザインターフェイス手段のユーザの行為に応じてのみ記憶され得る。しかしながら、好ましい実施例では、演算装置によって実行される文書のデジタル表現を分析するステップは、エンティティ同士の間の関係のインスタンスを自動識別するステップと、関係の識別されたインスタンスに関する注釈関係データを備える注釈データを記憶するステップとを含む。
【0046】
出力データは、(出力関係データなどの)関係に関するデータは備え得るが(出力エンティティデータなどの)エンティティに関するデータは備えなくてもよく、または(出力エンティティデータなどの)エンティティに関するデータは備え得るが(出力関係データなどの)関係に関するデータは備えなくてもよく、または(出力関係データおよび出力エンティティデータなどの)関係に関するデータとエンティティに関するデータとの両方を備えてもよい。
【0047】
コンピュータ−ユーザインターフェイス手段のユーザからの指示に応答した注釈データに対する修正は、好ましくは、エンティティのインスタンスに関する注釈エンティティデータを削除するステップ;たとえば、エンティティのインスタンスの場所を特定するデータまたはエンティティの識別子もしくはインスタンスを修正することにより(たとえば、エンティティの正規形への参照番号を追加することもしくはエンティティの正規形への参照番号をエンティティの異なる正規形への参照番号に修正することなどにより、オントロジデータへの参照番号を追加または修正することにより)エンティティのインスタンスに関する注釈エンティティデータを修正するステップ;エンティティのインスタンスに関する注釈エンティティデータを追加するステップ;関係のインスタンスに関する注釈関係データを削除するステップ;関係のインスタンスに関する注釈関係データを修正するステップ;関係のインスタンスに関する注釈関係データを追加するステップのうち1つ以上を備える。
【0048】
注釈エンティティデータおよび/または出力エンティティデータはエンティティのプロパティを備え得る。注釈関係データおよび/または出力関係データは関係のプロパティを備え得る。
【0049】
エンティティのプロパティは、エンティティの状態(たとえばエンティティがリン酸化されているか)、またはエンティティの場所(たとえば細胞内でのエンティティの場所)、またはエンティティのプロパティ(たとえばタンパク質の分子量)、またはエンティティが含まれるクラス(たとえばGタンパク質)、またはエンティティが分類される種もしくは分類群(たとえばキイロショウジョウバエまたは昆虫綱)のうち1つ以上を備え得る。出力エンティティデータは、文書のデジタル表現から自動的に導出されるエンティティのプロパティを備え得、文書のデジタル表現を分析するステップは、演算装置によって実行されるエンティティのプロパティを判断するステップを含み得る。このステップは、オントロジデータを参照して実行され得、オントロジデータはエンティティのプロパティに関するデータを備え得る。
【0050】
出力関係データは、文書のデジタル表現から自動的に導出される関係のプロパティを備え得、文書のデジタル表現を分析するステップは、演算装置によって実行される関係のプロパティを判断するステップを含み得る。このステップは、好ましくは、オントロジデータを参照して実行され、オントロジデータは関係のプロパティに関するデータを備え得る。
【0051】
コンピュータ−ユーザインターフェイス手段のユーザからの指示に応答した注釈エンティティデータまたは仮の修正注釈エンティティデータに対する修正は、エンティティのプロパティに関するデータの追加、削除または修正を備え得る。出力エンティティデータは、注釈エンティティデータから導出されるエンティティのプロパティに関するデータを備え得る。
【0052】
コンピュータ−ユーザインターフェイス手段のユーザからの指示に応答した注釈関係データまたは仮の修正注釈関係データに対する修正は、関係のプロパティに関するデータの追加、削除または修正を備え得る。出力関係データは、注釈関係データから導出される関係のプロパティに関するデータを備え得る。
【0053】
注釈エンティティデータまたは仮の修正注釈データをユーザが追加または修正できるようにする実施例では、コンピュータ−ユーザインターフェイス手段のユーザ(または自動プロセス)が、演算装置が文書のデジタル表現内のエンティティのインスタンスを識別した際に識別されなかったまたは正しく識別されなかったエンティティ同士の間の関係に関する注釈関係データを記憶できるようになる。コンピュータ−ユーザインターフェイス手段は、エンティティの誤った自動識別を訂正することによりユーザが注釈関係データもしくは仮の修正注釈データを修正できるようにするか、または、識別されていないエンティティもしくは識別はされたが関係が関するエンティティとして正しく自動識別されなかったエンティティの識別子をユーザが入力できるようにする、ユーザインターフェイス要素を備え得る。したがって、これにより、管理人は、注釈関係データまたは仮の修正注釈関係データを見直し、訂正することができるようになる。
【0054】
好ましい実施例では、注釈エンティティデータは、文書のデジタル表現内のエンティティの特定的なインスタンスに関するが、出力データはエンティティそれ自体に関する。たとえば、(恐らくはタンパク質の1つよりも多い同義語を用いて)文書のデジタル表現中で単一のタンパク質に対して5つの参照番号が存在し得るが、出力データは、文書のデジタル表現内のエンティティの特定的なインスタンスを参照することなく、エンティティそれ自体に関し得る(たとえば、出力データはエンティティそれ自体のプロパティを備え得る)。
【0055】
好ましい実施例では、注釈関係データは文書のデジタル表現内の関係の特定的なインスタンスに関するが、出力関係データは関係それ自体に関する。たとえば、(タンパク質の恐らくは1つよりも多い同義語を用いて)文書のデジタル表現中で2つのタンパク質の間の関係に対して4つの参照番号が存在し得るが、出力データは、文書のデジタル表現内の関係の特定的なインスタンスを参照することなく、関係それ自体に関し得る(たとえば、出力データは2つのタンパク質それら自体の間の関係のプロパティを備え得る)。
【0056】
文書が生物医学的情報を備える場合、エンティティは、化学種、オリゴヌクレオチド、オリゴペプチド、オリゴ糖、ポリヌクレオチド、ポリペプチドまたは多糖、タンパク質もしくは核酸などの生化学高分子、オルガネラ、細胞、ウイルスもしくは多細胞生物などの細胞レベル下成分を備え得る。エンティティはより大きなエンティティの一部(たとえばタンパク質のドメイン)であってもよく、またはエンティティの組合せ(たとえばタンパク質複合体)であってもよい。
【0057】
エンティティ識別子は、(たとえばデータを投入されるデータベース中のエンティティの受入番号などの)データを投入されるデータベース中のエンティティの識別子のエイリアスであり得る。エンティティ識別子は、データベース中のエンティティの識別子に分解可能であり得、方法は、エンティティ識別子を分解して、データを投入されるデータベース中の対応のエンティティの識別子を判断するステップを備え得る。
【0058】
好ましくは、エンティティ識別子は、特定のエンティティに関するオントロジデータ内のデータへの参照番号である。好ましくは、オントロジデータはエンティティの同義語を備える。オントロジデータは典型的には、エンティティの正規形を備える。方法は、エンティティ識別子を用いてオントロジデータからエンティティの正規化された同義語を検索するステップと、データベースに投入されるデータ中にエンティティの正規化された同義語を含めるステップとを備え得る。当業者は、エンティティの正規化された同義語が選択的事項であり、異なるオントロジにおいては異なり得ることを認めるであろう。
【0059】
注釈関係データ、およびオプションで出力関係データは、好ましくは、その間の関係が識別されたエンティティの識別子を備え、その間の関係が識別されたエンティティの識別子から単になり得る。識別子は、文書のデジタル表現内のエンティティの特定的なインスタンスの識別子(たとえばエンティティを示す特定の単語を示すコード)である可能性がある。これに代えて、それらは、エンティティの特定的な言及に関連していないエンティティの識別子(たとえば特定のタンパク質を示すコード)である可能性がある。
【0060】
注釈関係データ、およびオプションで出力関係データは、テキスト内の関係のインスタンスの場所を備え得る。たとえば、注釈関係データおよび/または出力関係データは、関係のインスタンスに関連するテキストが始まる文書のデジタル表現内の文字の識別子、および関係のインスタンスに関連するテキストが終わる文書のデジタル表現内の文字の識別子も備え得る。しかしながら、注釈関係データ、およびオプションで出力関係データは、関係のインスタンスの場所を備えない場合があり得る。いくつかの実施例では、注釈関係データは関係の1つ以上のインスタンスの場所を備えるが、出力関係データはこれを備えない。
【0061】
好ましい実施例では、注釈関係データは、文書のデジタル表現内にエンティティの特定のインスタンスの識別子を備える。エンティティの識別されたインスタンスの場所が記憶されるので、関係の場所は1つのエンティティから別のエンティティに拡張すると考えられ得る。
【0062】
注釈関係データは、エンティティの識別子を備え得る(たとえば、エンティティの識別子がエンティティの同義語を備えるオントロジデータへの参照番号であり得る)。好ましくは、注釈関係データは、たとえば、文字オフセットまたは単語識別子などのエンティティの特定的なインスタンスの識別子を備える。
【0063】
典型的には、エンティティ同士の間の関係は2つのエンティティの間の2値的な関係である。しかしながら、エンティティ同士の間の関係は2つ以上のエンティティの間の関係であり得る。エンティティ同士の間の関係は技術的な関係であり得る。たとえば、エンティティがタンパク質である場合、関係は、タンパク質同士の間の証明されたまたは仮説を立てられた技術的関係であり得る。たとえば、関係は、あるタンパク質が別のタンパク質と相互作用するというものであり得る。
【0064】
関係は方向を示してもよい。たとえば、注釈関係データおよび/または出力関係データは、相互作用の方向(たとえば第1のタンパク質が第2のタンパク質に作用したこと)を特定し得る。
【0065】
関係は仮説的なものであってもよい。関係は提案されてもよい。関係は文書中で明示的に述べられてもよい。関係は文書によって暗示されてもよい。関係は、たとえば、2つのエンティティが相互作用しないことまたは文書が結論をサポートしないことなど、否定的事実または仮説であってもよい。
【0066】
注釈関係データ、およびオプションで出力関係データは、文書のデジタル表現内の関係の場所を備え得る。注釈関係データ、およびオプションで出力関係データは、その関係を特定するテキストが始まり、終わる文書のデジタル表現内の場所を備え得る。場所は、2つ以上のエンティティの識別子を特定する注釈関係データおよびオプションで出力関係データによって、ならびにエンティティの2つ以上の識別されたインスタンスの場所を特定するデータを備える注釈データによって暗示され得る。注釈関係データは文書のデジタル表現内に1つ以上の関係の場所を備えるが、出力データは文書のデジタル表現内に1つ以上の関係の場所を備えないことがある。
【0067】
いずれかの識別された関係のうち少なくともいくつかに関するデータを表示するステップを方法が含み、かつ文書のデジタル表現内に当該関係の場所または文書のデジタル表現内の当該関係の場所をそこから導出可能なデータを注釈データが備える場合、いずれかの識別された関係のうち少なくともいくつかは、注釈データとして記憶された文書のデジタル表現内の場所に表示され得る。
【0068】
好ましくは、注釈関係データおよび/または出力関係データは、関係が関するエンティティを識別するテキストの断片を備える。テキストの断片は、文書のデジタル表現の断片に対応し得る。しかしながら、テキストの断片は、関係が関するエンティティの正規形を備え得る。方法は、オントロジデータを参照して、関係が関する1つ以上のエンティティの正規形を判断するステップと、出力関係データおよび/または注釈関係データおよび/または仮の修正注釈関係データ中に正規形を含めるステップとを含み得る。
【0069】
文書のデジタル表現内のエンティティの識別されたインスタンスの場所を特定する注釈エンティティデータは、文書のデジタル表現内のエンティティの識別されたインスタンスの場所を備え得る(たとえば、データは、エンティティのインスタンスが始まる文字と関連付けられた数字、またはエンティティのインスタンスを示す特定の単語に割当てられた数字を備え得る)。しかしながら、文書のデジタル表現内のエンティティの識別されたインスタンスの場所を特定するデータは、文書のデジタル表現内のエンティティの識別されたインスタンスの場所がそれから算出され得るデータを備え得る。好ましくは、エンティティデータ(たとえばエンティティの識別子)のいくらかまたはすべては、文書のデジタル表現内にインラインで埋込まれ、それは、文書のデジタル表現内のエンティティの場所を特定する文書のデジタル表現内のエンティティデータの場所である。
【0070】
文書のデジタル表現は注釈データを備え得る。好ましい実施例では、文書のデジタル表現および注釈データは、注釈データがファイル内にタグ付きの値の形式で記憶された状態で、マークアップ言語でファイルの形式で記憶されるデータを備えるか、またはそれからなる。たとえば、文書のデジタル表現は、XMLファイルの形式で記憶され得、そのフォーマットは、注釈データがタグ付きの値としてその中に含まれる、たとえばXML1.0またはXML1.1などのWWWコンソーシアム(www.w3.org/xmlを参照)によって時折発行されるようなXML標準に対応する。
【0071】
注釈関係データは、文書のデジタル表現内にインラインで記憶され得るが、好ましくは、注釈関係データは、文書のデジタル表現と同じファイル内に、または別個のファイルとしてスタンドオフ(standoff)注釈の形式で記憶される。
【0072】
修正注釈データは、記憶された注釈データを修正することによって準備され得る。修正注釈データは、異なる注釈データを記憶し、異なる注釈データを用いることによって修正され得る。修正注釈データは、まず注釈データから導出された仮の注釈データを修正することによって準備され得る。
【0073】
文書のデジタル表現は、好ましくは、テキストを表わすデータを備える。好ましくは、文書はテキストを備える。文書のデジタル表現は、好ましくは、文字がテキストのデータの整理、制御または表現のために用いられる情報の単位である文字を備える。文書のデジタル表現は、ASCII、ISO646またはISO/IEC10646(Unicode)などの認識された国際文字レパートリに従う文字を備え得る。
【0074】
文書は、学術論文、特許文書、書籍の章または書籍などのテキスト文書であり得る。しかしながら、文書は、画像またはスピーチを含み得る。文書は、印刷された書籍または論文として発行された文書などの印刷文書であり得る。文書は電子的なフォーマットであってもよく、たとえば、文書は、たとえばポータブルドキュメントフォーマット(PDF)ファイルとして電子的に発行されてもよい。文書が電子的フォーマットである場合、文書のデジタル表現は、文書、文書のコピー、または文書のプレーンテキスト表現であり得る。しかしながら、文書のデジタル表現は一般的に文書から導出される。たとえば、印刷文書は光学式文字認識ソフトウェアによってスキャンされ分析され得る。
【0075】
文書のデジタル表現は、文書の一部のみの表現を備え得る。デジタル表現は、文書に含まれる、たとえば画像、上付き、下付き、ページ番号、ページタイトルなどのうち1つ以上など、文書のいくつかの特徴を省略してもよい。文書のデジタル表現は、文書の電子的分析によって得られ得る。方法は、文書を分析して文書のデジタル表現を準備するステップを備え得る。好ましくは、文書のデジタル表現は、XMLファイルからマークアップを取除くことによっては準備されない。
【0076】
文書識別子は好ましくは文書を識別する。たとえば、文書識別子は、科学論文への参照番号、またはPubMed IDなどの識別コードもしくは受入番号を備え得る。しかしながら、文書識別子は、同じくまたは代わりに、文書のデジタル表現を識別し得る。たとえば、文書識別子は、文書のデジタル表現の個人コレクション内の文書のデジタル表現の識別子であり得る。注釈データは、文書の文書識別子および文書のデジタル表現の文書識別子を備え得る。文書識別子は、たとえば文書の要約などの文書の一部を識別し得る。同じ文書(またはそのデジタル表現)の異なる一部は異なる文書識別子を有し得る。たとえば、文書の要約の文書識別子は、文書のテキストの本文の文書識別子とは異なるものであり得る。文書識別子は、文書の集合の識別子を備え得る。
【0077】
文書は、科学論文、技術説明、または実験記録などの技術的文書であり得る。文書は、たとえば、生物医学情報、天体物理情報、地理情報、地球物理情報、数学情報、工学情報、または自然科学情報のうち1つ以上のいずれかの組合せなど、特定的な技術分野に関する情報を備え得る。文書は特許刊行物であってもよく、または特許情報を備えてもよい。方法は、同じ技術分野からのより多くの文書について繰返されて、当該技術分野のうち1つ以上のいずれの組合せにも関するデータをデータベースに投入し得る。
【0078】
方法は、1つ以上の判断基準を満たす文書のデジタル表現を検索するステップを含み得る。注釈データは、当該判断基準のうちいくつかまたはすべてを備え得、方法は、注釈データ中に当該判断基準のうちいくつかまたはすべてを記憶するステップを備え得る。方法は、それが元々検索された形式で文書のデジタル表現を記憶するステップと、ユーザ−インターフェイス手段のユーザが文書の元のデジタル表現を表示する手段を提供するステップとを含み得る。
【0079】
データベースは好ましくはリレーショナルデータベースであるが、データベースは、たとえば、オブジェクト指向データベース、オブジェクトリレーショナルデータベースまたはフラットファイルデータベースなどのいずれの種類のデータベースであってもよい。
【0080】
データベースは、好ましくは、エンティティに関するデータ、エンティティのプロパティに関するデータ、エンティティ同士の間の関係に関するデータ、およびエンティティ同士の間の関係のプロパティに関するデータのうちいくつかまたは好ましくはすべてを備える。
【0081】
コンピュータ−ユーザインターフェイス手段は、好ましくは、ユーザインターフェイスコンポーネントがその上に表示されるコンピュータモニタなどのディスプレイを備える。コンピュータ−ユーザインターフェイス手段は、好ましくは、キーボードおよび/または(コンピュータマウスなどの)ポインティングデバイスなどの、指示を与えるための手段を備える。
【0082】
エンティティのインスタンスは、周囲のテキストとは異ならせて(たとえば、異なる色、スタイルおよび/またはフォントで)エンティティのインスタンスを提示することにより、注釈エンティティデータが特定する文書のデジタル表現内の場所でハイライトされ得る。エンティティのインスタンスは、周囲のテキストとは異なる背景色上にそれらを表示することにより、注釈エンティティデータが特定する文書のデジタル表現内の場所でハイライトされ得る。
【0083】
関係のインスタンスは、周囲のテキストとは異ならせて(たとえば、異なる色、スタイルおよび/またはフォントで)関係のインスタンスを表示することにより、注釈関係データが特定する文書のデジタル表現内の場所でハイライトされ得る。関係のインスタンスは、周囲のテキストとは異なる背景色上にそれらを表示することにより、注釈関係データが特定する文書のデジタル表現内の場所でハイライトされ得る。しかしながら、関係のインスタンスは、その関係を記述する文書のデジタル表現内の場所以外で、コンピュータ−ユーザインターフェイス手段のユーザに表示されてもよい。
【0084】
コンピュータ−ユーザインターフェイス手段は、ユーザがエンティティの1つ以上のインスタンスを選択し、エンティティの当該選択されたインスタンスがエンティティの他のインスタンスとは異なってハイライトされた状態で文書のデジタル表現の少なくとも一部を選択的に表示、またはエンティティのハイライトされたインスタンスのみを選択的に表示できるようにするための手段を備え得る。
【0085】
コンピュータ−ユーザインターフェイス手段は、ユーザが関係の1つ以上のインスタンスを選択し、関係の当該選択されたインスタンスが関係の他のインスタンスとは異なってハイライトされた状態で文書のデジタル表現の少なくとも一部を選択的に表示、または関係のハイライトされたインスタンスのみを選択的に表示できるようにするための手段を備え得る。
【0086】
コンピュータ−ユーザインターフェイス手段は、コンピュータ−ユーザインターフェイス手段のユーザから受けた指示に応答して注釈データを修正するための手段を備え得、その修正は、ユーザに対して表示されるものに対する修正という結果を招くことはない。たとえば、コンピュータ−ユーザインターフェイス手段は、ユーザがトークン化を修正できるように適合され得るが、これは表示に影響しないであろう。
【0087】
コンピュータ−ユーザインターフェイス手段は、ユーザが、特定の関係に関する出力データをデータベースに投入するか否かを選択できるように適合され得、出力データをデータベースに投入するステップは、選択された1つ以上の関係のみに関するデータをデータベースに投入するステップを含む。好ましくは、コンピュータ−ユーザインターフェイス手段は、関係の特定のインスタンスに関する出力データをデータベースに投入するか否かをユーザが選択できるように適合される。
【0088】
コンピュータ−ユーザインターフェイス手段は、特定のエンティティに関するデータをデータベースに投入するか否かをユーザが選択できるように適合され得、出力データをデータベースに投入するステップは、選択されたエンティティに関するデータをデータベースに投入するか否かを判断するステップを含む。好ましくは、コンピュータ−ユーザインターフェイス手段は、ユーザが、エンティティの特定のインスタンスに関する出力データをデータベースに投入するか否かを選択できるように適合される。コンピュータ−ユーザインターフェイス手段は、ユーザが積極的にエンティティを選択して出力できるように適合され得、ユーザがエンティティを選択して出力した場合、そのエンティティに関するデータはデータベースに記憶される。
【0089】
たとえば、コンピュータ−ユーザインターフェイス手段は、選択(たとえばチェック)されて、エンティティの特定のインスタンスに関する注釈エンティティデータから導出されるエンティティに関する出力データをデータベースに投入することを示すことができる(たとえばチェックボックスなどの)ユーザインターフェイス項目を備え得る。
【0090】
コンピュータ−ユーザインターフェイス手段は、ユーザが積極的に関係を選択して出力できるように適合され得、ユーザが関係を選択して出力した場合、その関係に関するデータがデータベースに記憶される。
【0091】
たとえば、コンピュータ−ユーザインターフェイス手段は、選択(たとえばチェック)されて、関係の特定のインスタンスに関する注釈関係データから導出される関係に関する出力データをデータベースに投入することを示すことができる(たとえばチェックボックスなどの)ユーザ−インターフェイス項目を備え得る。
【0092】
コンピュータ−ユーザインターフェイス手段は、ユーザが文書を積極的に選択して出力できるように適合され得、ユーザが文書を選択して出力した場合、それについて注釈データが記憶されたその文書において参照されるすべてのエンティティおよび/または関係に関するデータがデータベースに記憶される。これに代えて、ユーザが文書を選択して出力した場合、その文書は、その文書の中で参照されるエンティティおよび/または関係に関するさらなるデータを伴わずに出力され得る。
【0093】
コンピュータ−ユーザインターフェイス手段は、ユーザが文書を拒否できるように適合され得、ユーザが文書を拒否した場合、その文書中で識別されたエンティティおよび/または関係に関するデータはデータベースに記憶されない。
【0094】
好ましくは、方法はまた、修正注釈データを記憶するステップ、または記憶のために修正注釈データを出力するステップも含む。したがって、注釈データは、後の段階で見直されたりまたは他の目的に用いられたりすることが可能である。文書のデジタル表現が注釈データを備える場合、修正注釈データは、文書のデジタル表現とその注釈データとの両方を備えるファイルを(たとえばXMLファイルとして)記憶することによって、出力データとして記憶されるかまたは出力され得る。
【0095】
オントロジデータはエンティティの正規形を備え得る。オントロジデータへのある参照番号または各々の参照番号は、オントロジデータ中のエンティティの正規形への参照番号を備え得る。オントロジデータは、エンティティおよびそれらのエンティティ同士の間の関係を特定する階層データ構造であり得る。オントロジデータは、エンティティおよび/またはエンティティの1つ以上の同義語の正規形を識別するフィールドによって索引付けされ得る。オントロジデータはオントロジデータベース中に記憶され得る。オントロジデータは、投入されるべきデータベース中に記憶され得る。オントロジデータは、投入されるべきデータベースから導出され得る。
【0096】
オントロジデータは関係の属性をさらに備え得る。
データベース中のエンティティおよび/または関係に関するデータは、オントロジデータを参照して記憶され得る。しかしながら、データベース中のエンティティおよび/または関係に関するデータは、第2のオントロジデータを参照して記憶され得、データベースに投入するステップは、参照番号をオントロジデータに翻訳して第2のオントロジデータを参照するステップを含み得る。参照番号をオントロジデータに翻訳するステップは典型的に、エンティティの識別子を翻訳するステップを備える。
【0097】
コンピュータ−ユーザインターフェイス手段は、ユーザがオントロジデータを修正できるように適合され得る。方法は、コンピュータ−ユーザインターフェイス手段のユーザを通じて受けた指示に応答してオントロジデータを修正するステップを備え得る。
【0098】
コンピュータ−ユーザインターフェイス手段は、ユーザが、エンティティに関するデータをオントロジデータに追加させることができるように適合され得る。方法は、コンピュータ−ユーザインターフェイス手段のユーザを通じて受けた指示に応答して、エンティティに関するオントロジデータをオントロジデータに追加するステップを備え得る。
【0099】
コンピュータ−ユーザインターフェイス手段は、ユーザが、関係に関するデータをオントロジデータに追加させることができるように適合され得る。方法は、コンピュータ−ユーザインターフェイス手段のユーザを通じて受けた指示に応答して、関係に関するオントロジデータをオントロジデータに追加するステップを備え得る。
【0100】
好ましくは、方法は、文書のさらなるデジタル表現の分析のために、コンピュータ−ユーザインターフェイス手段のユーザが受けた指示に応答して、修正された(または修正可能な)オントロジデータを用いるステップをさらに備える。
【0101】
好ましくは、文書のデジタル表現の分析は、文書のデジタル表現ならびに文書中にエンティティ(オプションでおよび/または関係)のインスタンスの場所を備える注釈データならびに識別されたエンティティ(オプションでおよび/または関係)の識別子を備えるトレーニングデータを用いてトレーニング可能なトレーニング可能情報抽出モジュールによって実行され、コンピュータ−ユーザインターフェイス手段は、文書のデジタル表現の中で参照される、文書の分析されたデジタル表現ならびにエンティティ(オプションでおよび/または関係)に関する注釈データがユーザによって選択されてトレーニング可能情報抽出モジュールをトレーニングするためのトレーニングデータとして用いられるように適合され、方法はさらに、選択されたトレーニングデータを備えるデータを用いてトレーニング可能情報抽出モジュールを再トレーニングするステップと、さらなる文書の分析において保持されたトレーニング可能情報抽出モジュールを用いるステップとを含む。
【0102】
好ましくは、文書のデジタル表現を分析するステップは、(トークン化ソフトウェアモジュールによって実行される)トークン化、(固有表現抽出ソフトウェアモジュールによって実行される)固有表現抽出、および(用語正規化モジュールによって実行される)用語正規化のステップを備える。文書のデジタル表現を分析するステップは、好ましくは、関係抽出のステップをさらに備える。
【0103】
用語正規化のステップは、好ましくは、オントロジデータを参照して実行される。用語正規化のステップは、好ましくは、文書のデジタル表現中で識別された1つ以上のエンティティのインスタンスの識別子を備える注釈エンティティデータを記憶するステップを含み、エンティティのインスタンスの識別子はオントロジデータ中のエンティティの識別子である。
【0104】
典型的に、トレーニング可能情報抽出モジュールは、固有表現抽出ソフトウェアモジュールを備える。固有表現抽出ソフトウェアは、文書のキュレーションされ、注釈付けされたデジタル表現を備える選択されたトレーニングデータを用いてトレーニング可能であり得る。固有表現抽出ソフトウェアモジュールは、好ましくは、選択されたトレーニングデータを備えるトレーニングデータ上でトレーニングされた最大エントロピーアルゴリズムを用いる。
【0105】
好ましくは、コンピュータ−ユーザインターフェイス手段は、ユーザが文書のデジタル表現のバッチを選択して分析し、次に順次におよび/または同時に、文書のデジタル表現のバッチを表示できるように、かつ文書のデジタル表現のバッチに関する注釈データを修正できるように適合される。文書のデジタル表現のバッチは、同じサーチ判断基準を満たしてもよい。文書のデジタル表現のバッチは、単一のサーチ要求に応答して検索されたかもしれない。
【0106】
発明の第2、第3および第4の局面のさらなるオプションの特徴は、第1の局面のオプションの特徴に対応する。
【0107】
本発明の第5の局面に従うと、第2のデータベースに投入する方法であって、本発明の第2、第3または第4の局面の方法によって第1のデータベースに投入するステップと、第1のデータベースに投入するのに用いられたデータのうちいくらかまたはすべてを第1のデータベースから第2のデータベースにエクスポートするステップとを備える、方法が提供される。
【0108】
第1および第2のデータベースは異なるフォーマットであってもよく、当該データのうちいくらかまたはすべてをエクスポートするステップは、エクスポートされたデータのフォーマットを翻訳するステップを備え得る。
【0109】
第1のデータベース中のエンティティ(および/または関係)の識別子は、第1のオントロジデータを参照し得、第2のデータベース中のエンティティ(および/または関係)の識別子は第2のオントロジデータを参照し得、当該データのうちいくらかまたはすべてをエクスポートするステップは、第1のオントロジデータへの参照番号を、第2のオントロジデータへの参照番号に翻訳するステップを備え得る。
【0110】
方法は、第2のオントロジデータからのオントロジデータを第1のオントロジデータにインポートするステップと、必要に応じてオントロジデータのフォーマットを変換するステップと、さらなる文書の分析の際にインポートされたオントロジデータを用いるステップとを含み得る。
【0111】
方法は、複数の第2のデータベースに投入するステップを備え得、データベースのうち少なくとも2つは異なるオントロジデータおよび/またはエンティティの異なる識別子を備える。複数の第2のデータベースのうち少なくとも2つは異なるフォーマットであってもよく、および/または、複数の第2のデータベースのうち少なくとも2つに記憶される識別子によって参照されるオントロジデータは異なるフォーマットであってもよい。
【0112】
方法は、さらなるデータベースを、発明の第1、第4の局面のうちいずれか1つの方法によってデータベースに投入された出力データのうちいくらかまたはすべてをそのデータベース内に含め、そのデータを必要に応じて別のフォーマットに翻訳または変換することによって、作成するステップをさらに備え得る。
【0113】
本発明の第6の局面に従うと、発明の第2、第4または第5の局面のうちいずれか1つの方法に従って投入されたデータベースが提供される。
【0114】
本発明の第7の局面に従うと、サーチ要求に応答してデータを出力する方法であって、発明の第2、第4または第5の局面の方法を用いてデータベースに投入するステップと、サーチ要求を受けるステップと、データベースに問合せてサーチ要求に関連のデータを検索するステップと、検索されたデータを出力するステップとを含む、方法が提供される。
【0115】
方法は、サーチ要求に応答して文書の1つ以上のデジタル表現を検索するステップと、その後発明の第3、第4または第5の局面の方法を用いて後にデータベースに投入するステップと、その後文書の当該検索されたデジタル表現に関するデータを備えるデータを出力するステップとを含み得る。
【0116】
方法は、サーチ要求をログ記録するステップ、およびその後の分析のために文書のさらなるデジタル表現を選択するステップ、またはその後の分析のために1つ以上の当該サーチ要求を満たす文書のさらなるデジタル表現を検索するステップを含み得る。
【0117】
方法は、(ウェブページなどの)ファイル内に、検索されたデータまたは検索されたデータから導出されたデータを含めるステップと、サーチ要求に応答してそのファイルを送信するステップとをさらに備え得る。
【0118】
本発明の第8の局面に従うと、オントロジデータを備えるオントロジデータベースを作成または修正する方法であって、演算装置によって実行される、
(i) 文書のデジタル表現を入力データとして受けるステップと、
(ii) 文書のデジタル表現を分析するステップと、文書のデジタル表現中に含有されるエンティティの1つ以上のインスタンスを識別するステップと、エンティティの識別されたインスタンスのうち少なくともいくつかについては、文書のデジタル表現中で識別されたエンティティの1つ以上のインスタンスに関する注釈エンティティデータを備える注釈データを記憶するステップとを備え、注釈エンティティデータは、文書のデジタル表現中で識別された1つ以上のエンティティのインスタンスの識別子と、文書のデジタル表現内のエンティティの識別されたインスタンスの場所を特定するデータとを備え、エンティティの識別子はオントロジデータへの参照番号を備え、さらに
(iii) ディスプレイ画面の第1の領域に、コンピュータ−ユーザインターフェイス手段のユーザに対して文書のデジタル表現のユーザ選択可能部分を表示するステップを備え、注釈は注釈データに依存し、当該注釈は、注釈エンティティデータによって特定された文書のデジタル表現内の場所で、その場所が注釈エンティティデータ中に特定されたエンティティのインスタンスのうち1つ以上を少なくともハイライトすることを含み、さらに
(iv) コンピュータ−ユーザインターフェイス手段のユーザにオントロジデータを修正する手段を提供するステップと、
(v) コンピュータ−ユーザインターフェイス手段のユーザから受けた指示に応答して修正注釈データを準備するステップと、
(vi) コンピュータ−ユーザインターフェイス手段のユーザが受けた指示に応答してオントロジデータを修正するステップとを備え、
方法は、コンピュータ−ユーザインターフェイス手段が、文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストをディスプレイ画面の第2の領域に表示するように動作可能なユーザ選択可能動作モードを提供するステップをさらに備え、エンティティの列挙されたインスタンスのうち少なくとも1つは、それと関連付けられたユーザ選択可能ユーザインターフェイス要素を有し、方法はさらに、エンティティのインスタンスと関連付けられたユーザ選択可能ユーザインターフェイス要素をユーザが選択するのに応答して、選択されたユーザインターフェイス要素と関連付けられたエンティティのインスタンスが位置する文書のデジタル表現内の場所を含むように、第1の領域に表示される文書のデジタル表現の部分を調整するステップを備える、方法が提供される。
【0119】
オントロジデータを修正するステップは、オントロジデータを削除するステップ、オントロジデータを追加するステップ、またはオントロジデータを修正するステップのうち1つ以上を備え得る。ステップ(iv)から(vi)はいずれの順番でもまたは並行して起こってもよい。
【0120】
オントロジデータはエンティティの正規形を備え得る。オントロジデータは、エンティティおよびそれらのエンティティ同士の間の関係を特定する階層データ構造であり得る。オントロジデータは、エンティティの正規形および/またはエンティティの1つ以上の同義語を識別するフィールドによって索引付けされ得る。オントロジデータは、関係に関するオントロジデータを備え得る。
【0121】
方法は、本発明の方法によって作成または修正されるオントロジデータのうちいくらかまたはすべてをそのデータベース内に含み、オプションで必要に応じてそのオントロジデータのフォーマットを変換することによってオントロジデータベースを作成するステップをさらに備え得る。
【0122】
方法は、修正注釈データから導出された出力データを出力するステップ、および/または修正注釈データから導出された出力データをデータベースに投入するステップをさらに備え得る。好ましいおよびオプションの特徴は、発明の第2、第3および第4の局面に関連して論じられたものに対応する。
【0123】
本発明の第9の局面に従うと、本発明の第8の局面の方法によって得られたオントロジデータが提供される。
【0124】
本発明の第10の局面に従うと、トレーニング可能情報抽出モジュールをトレーニングする方法であって、演算装置によって実行される、
(i) 文書のデジタル表現を入力データとして受けるステップと、
(ii) トレーニング可能情報抽出モジュールを用いて文書のデジタル表現を分析するステップとを備え、トレーニング可能情報抽出モジュールは、文書のデジタル表現中に含有されるエンティティの1つ以上のインスタンスを識別し、さらに、エンティティの識別されたインスタンスのうち少なくともいくつかについては、文書のデジタル表現中で識別されたエンティティの1つ以上のインスタンスに関する注釈エンティティデータを備える注釈データを記憶するステップを備え、注釈エンティティデータは、文書のデジタル表現中で識別された1つ以上のエンティティのインスタンスの識別子と、文書のデジタル表現内のエンティティの識別されたインスタンスの場所を特定するデータとを備え、エンティティの識別子はオントロジデータへの参照番号を備え、さらに
(iii) ディスプレイ画面の第1の領域において、コンピュータ−ユーザインターフェイス手段のユーザに対して文書のデジタル表現のユーザ選択可能部分を表示するステップを備え、注釈は注釈データに依存し、当該注釈は、注釈エンティティデータによって特定される文書のデジタル表現内の場所で、その場所が注釈エンティティデータ中で特定されるエンティティのインスタンスのうち1つ以上を少なくともハイライトすることを含み、さらに
(iv) コンピュータ−ユーザインターフェイス手段のユーザから受けた指示に応答して修正注釈データを準備するステップと、
(v) コンピュータ−ユーザインターフェイス手段のユーザに、トレーニング可能情報抽出モジュールをトレーニングする際に用いるための、文書のデジタル表現を選択する手段を提供するステップと、
(vi) 文書の選択されたデジタル表現の少なくとも一部を備えるトレーニングデータおよび文書の選択されたデジタル表現に関する修正注釈データを用いてトレーニング可能情報抽出モジュールを周期的に再トレーニングするステップとを備え、
方法はさらに、コンピュータ−ユーザインターフェイス手段が文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストをディスプレイ画面の第2の領域に表示するように動作可能なユーザ選択可能動作モードを提供するステップを備え、エンティティの列挙されたインスタンスのうち少なくとも1つは、それと関連付けられたユーザ選択可能ユーザインターフェイス要素を有し、さらに、エンティティのインスタンスと関連付けられたユーザ選択可能ユーザインターフェイス要素をユーザが選択するのに応答して、選択されたユーザインターフェイス要素と関連付けられたエンティティのインスタンスが位置する文書のデジタル表現内の場所を含むように、第1の領域に表示される文書のデジタル表現の部分を調整するステップを備える、方法が提供される。
【0125】
ユーザ−インターフェイス手段は、ユーザが情報抽出モジュールを再トレーニングするのに用いるために文書のデジタル表現の部分を選択できるように適合され得、文書のデジタル表現のその部分を用いて情報抽出モジュールを再トレーニングし得る。典型的に、情報抽出モジュールは、管理人が受けた、および必要な場合は修正した注釈データのみを用いて再トレーニングされるであろう。ステップ(iii)から(v)は同時にまたは並行して起こってもよい。
【0126】
トレーニング可能情報抽出モジュールは、トークン化モジュール、固有表現抽出モジュール、用語正規化モジュール、および関係抽出モジュールを備え得る。典型的に、固有表現抽出モジュールのみがトレーニング可能であるが、しかしながらトレーニング可能情報抽出モジュール内の他のモジュールがトレーニング可能であってもよい。
【0127】
方法は、修正注釈データから導出された出力データを出力するステップ、および/または修正注釈データから導出された出力データをデータベースに投入するステップをさらに備え得る。好ましいおよびオプションの特徴は、発明の第2、第3および第4の局面に関連して論じられた特徴に対応する。
【0128】
第11の局面では、発明は、本発明の第10の局面の方法によってトレーニングされる情報抽出モジュールを提供する。
【0129】
発明は、第12の局面で、文書のデジタル表現と関連付けられる注釈データを編集するためのシステムに拡張され、システムは、(コンピュータ−ユーザインターフェイスなどの)コンピュータ−ユーザインターフェイス手段と、(出力モジュールなどの)出力手段とを備え、
コンピュータ−ユーザインターフェイス手段は、文書のデジタル表現および注釈データを入力データとして受けるように動作可能であり、注釈データは、文書のデジタル表現中で識別されたエンティティの1つ以上のインスタンスに関する注釈エンティティデータを備え、注釈エンティティデータは、文書のデジタル表現中で識別された1つ以上のエンティティのインスタンスの識別子と、文書のデジタル表現内のエンティティの識別されたインスタンスの場所を特定するデータとを備え、エンティティのインスタンスの識別子はオントロジデータへの参照番号を備え、
コンピュータ−ユーザインターフェイス手段は、ディスプレイ画面の第1の領域において、コンピュータ−ユーザインターフェイス手段のユーザに対して文書のデジタル表現のユーザ選択可能部分を表示するように動作可能であり、注釈は注釈データに依存し、当該注釈は、注釈エンティティデータが特定する文書のデジタル表現内の場所で、その場所が注釈エンティティデータ中に特定されるエンティティのインスタンスのうち1つ以上を少なくともハイライトすることを含み、
コンピュータ−ユーザインターフェイス手段は、コンピュータ−ユーザインターフェイス手段のユーザから指示を受け、受けた指示に応答して修正注釈データを準備するように動作可能であり、
出力手段は、修正注釈データから導出された出力データを出力するように動作可能であり、
コンピュータ−ユーザインターフェイス手段は、ユーザ選択可能動作モードでは、ディスプレイ画面の第2の領域に、文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストを表示するように動作可能であり、エンティティの列挙されたインスタンスのうち少なくとも1つは、それと関連付けられたユーザ選択可能ユーザインターフェイス要素を有し、コンピュータ−ユーザインターフェイス手段は、エンティティのインスタンスと関連付けられたユーザ選択可能ユーザインターフェイス要素をユーザが選択するのに応答して、選択されたユーザインターフェイス要素と関連付けられたエンティティのインスタンスが位置する文書のデジタル表現内の場所を含むように、第1の領域に表示される文書のデジタル表現の部分を調整するように動作可能である、システムである。
【0130】
システムおよびシステムが処理するように適合されるデータの好ましいおよびオプションの特徴は、本発明の第2、第3および第4の局面に関連して論じられた特徴に対応する。
【0131】
発明は、第13の局面において、データベースに投入するためのシステムに拡張され、システムは、(コンピュータ−ユーザインターフェイスなどの)コンピュータ−ユーザインターフェイス手段と、(出力モジュールなどの)出力手段とを備え、
コンピュータ−ユーザインターフェイス手段は、文書のデジタル表現および注釈データを入力データとして受けるように動作可能であり、注釈データは、文書のデジタル表現中で識別されたエンティティの1つ以上のインスタンスに関する注釈エンティティデータを備え、注釈エンティティデータは、文書のデジタル表現中で識別された1つ以上のエンティティのインスタンスの識別子と、文書のデジタル表現内のエンティティの識別されたインスタンスの場所を特定するデータとを備え、エンティティのインスタンスの識別子はオントロジデータへの参照番号を備え、
コンピュータ−ユーザインターフェイス手段は、ディスプレイ画面の第1の領域において、コンピュータ−ユーザインターフェイス手段のユーザに対して文書のデジタル表現のユーザ選択可能部分を表示するように動作可能であり、注釈は注釈データに依存し、当該注釈は、注釈エンティティデータによって特定される文書のデジタル表現内の場所で、その場所が注釈エンティティデータ中で特定されるエンティティのインスタンスのうち1つ以上を少なくともハイライトすることを含み、
コンピュータ−ユーザインターフェイス手段は、コンピュータ−ユーザインターフェイス手段のユーザから指示を受け、受けた指示に応答して修正注釈データを準備するように動作可能であり、
出力手段は、修正注釈データから導出される出力データをデータベースに投入するように動作可能であり、
コンピュータ−ユーザインターフェイス手段は、ユーザ選択可能動作モードでは、ディスプレイ画面の第2の領域に、文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストを表示するように動作可能であり、エンティティの列挙されたインスタンスのうち少なくとも1つは、それと関連付けられたユーザ選択可能ユーザインターフェイス要素を有し、コンピュータ−ユーザインターフェイス手段は、エンティティのインスタンスと関連付けられたユーザ選択可能ユーザインターフェイス要素をユーザが選択するのに応答して、選択されたユーザインターフェイス要素と関連付けられたエンティティのインスタンスが位置する文書のデジタル表現内の場所を含むように、第1の領域に表示される文書のデジタル表現の部分を調整するように動作可能である、システムである。
【0132】
好ましくは、システムは、文書のデジタル表現を分析するように動作可能な(分析モジュールなどの)分析手段をさらに備える。
【0133】
システムおよびシステムが処理するように適合されるデータの好ましいおよびオプションの特徴は、発明の第2、第3および第4の局面に関連して論じられた特徴に対応する。
【0134】
第14の局面では、発明は、データベースに投入するためのシステムに拡張され、システムは、(分析モジュールなどの)分析手段と、(コンピュータ−ユーザインターフェイスなどの)コンピュータ−ユーザインターフェイス手段と、(出力モジュールなどの)出力手段とを備え、
分析手段は、文書のデジタル表現を入力データとして受け、文書のデジタル表現を分析し、文書のデジタル表現に含有されるエンティティの1つ以上のインスタンスを識別し、かつエンティティの識別されたインスタンスのうち少なくともいくつかについては、文書のデジタル表現中で識別されたエンティティの1つ以上のインスタンスに関する注釈エンティティデータを備える注釈データを記憶するように動作可能であり、注釈エンティティデータは、文書のデジタル表現中で識別された1つ以上のエンティティのインスタンスの識別子と、文書のデジタル表現内でエンティティの識別されたインスタンスの場所を特定するデータとを備え、エンティティの識別子はオントロジデータへの参照番号を備え、
コンピュータ−ユーザインターフェイス手段は、文書のデジタル表現および分析手段が記憶した注釈データを入力データとして受け、ディスプレイ画面の第1の領域において、コンピュータ−ユーザインターフェイス手段のユーザに対して文書のデジタル表現のユーザ選択可能部分を表示するように動作可能であり、注釈は注釈データに依存し、当該注釈は、注釈エンティティデータによって特定される文書のデジタル表現内の場所で、その場所が注釈エンティティデータ中で特定されるエンティティのインスタンスのうち1つ以上を少なくともハイライトすることを含み、
コンピュータ−ユーザインターフェイス手段は、コンピュータ−ユーザインターフェイス手段のユーザから指示を受け、受けた指示に応答して修正注釈データを準備するように動作可能であり、
出力手段は、修正注釈データから導出される出力データをデータベースに投入するように動作可能であり、
コンピュータ−ユーザインターフェイス手段は、ユーザ選択可能動作モードでは、ディスプレイ画面の第2の領域に、文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストを表示するように動作可能であり、エンティティの列挙されたインスタンスのうち少なくとも1つは、それと関連付けられたユーザ選択可能ユーザインターフェイス要素を有し、コンピュータ−ユーザインターフェイス手段は、エンティティのインスタンスと関連付けられたユーザ選択可能ユーザインターフェイス要素をユーザが選択するのに応答して、選択されたユーザインターフェイス要素と関連付けられたエンティティのインスタンスが位置する文書のデジタル表現内の場所を含むように、第1の領域に表示される文書のデジタル表現の部分を調整するように動作可能である、システムである。
【0135】
システムおよびシステムが処理するように適合されるデータの好ましいおよびオプションの特徴は、発明の第2、第3および第4の局面の好ましいおよびオプションの特徴に対応する。
【0136】
本発明の第15の局面に従うと、オントロジデータを備えるオントロジデータベースを作成または修正するためのシステムであって、(分析モジュールなどの)分析手段と、(コンピュータ−ユーザインターフェイスなどの)コンピュータ−ユーザインターフェイス手段と、(出力モジュールなどの)出力手段とを備え、
分析手段は、文書のデジタル表現を入力データとして受け、文書のデジタル表現を分析し、文書のデジタル表現に含有されるエンティティの1つ以上のインスタンスを識別し、エンティティの識別されたインスタンスのうち少なくともいくつかについては、文書のデジタル表現中で識別されたエンティティの1つ以上のインスタンスに関する注釈エンティティデータを備える注釈データを記憶するように動作可能であり、注釈エンティティデータは、文書のデジタル表現中で識別された1つ以上のエンティティのインスタンスの識別子と、文書のデジタル表現内のエンティティの識別されたインスタンスの場所を特定するデータとを備え、エンティティの識別子はオントロジデータへの参照番号を備え、
コンピュータ−ユーザインターフェイス手段は、文書のデジタル表現および分析手段によって記憶される注釈データを入力データとして受け、ディスプレイ画面の第1の領域において、コンピュータ−ユーザインターフェイス手段のユーザに対して文書のデジタル表現のユーザ選択可能部分を表示するように動作可能であり、注釈は注釈データに依存し、当該注釈は、注釈エンティティデータによって特定される文書のデジタル表現内の場所で、その場所が注釈エンティティデータ中で特定されるエンティティのインスタンスのうち1つ以上を少なくともハイライトすることを含み、
コンピュータ−ユーザインターフェイス手段は、コンピュータ−ユーザインターフェイス手段のユーザから指示を受け、受けた指示に応答して修正注釈データを準備するように動作可能であり、
コンピュータ−ユーザインターフェイス手段は、コンピュータ−ユーザインターフェイス手段のユーザから指示を受け、受けた指示に応答してオントロジデータを修正しかつオントロジデータを修正するように動作可能であり、
出力手段は、修正注釈データから導出される出力データをデータベースに投入するように動作可能であり、
コンピュータ−ユーザインターフェイス手段は、ユーザ選択可能動作モードでは、ディスプレイ画面の第2の領域に、文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストを表示するように動作可能であり、エンティティの列挙されたインスタンスのうち少なくとも1つは、それと関連付けられたユーザ選択可能ユーザインターフェイス要素を有し、コンピュータ−ユーザインターフェイス手段は、エンティティのインスタンスと関連付けられたユーザ選択可能ユーザインターフェイス要素をユーザが選択するのに応答して、選択されたユーザインターフェイス要素と関連付けられたエンティティのインスタンスが位置する文書のデジタル表現内の場所を含むように、第1の領域に表示される文書のデジタル表現の部分を調整するように動作可能である、システムが提供される。
【0137】
システムおよびシステムが処理するように適合されるデータの好ましいおよびオプションの特徴は、発明の第8の局面に関連して論じられた好ましいおよびオプションの特徴に対応する。
【0138】
第16の局面に従うと、発明は、トレーニング可能情報抽出モジュールをトレーニングするためのシステムに拡張され、システムは、(分析モジュールなどの)分析手段と、(コンピュータ−ユーザインターフェイスなどの)コンピュータ−ユーザインターフェイス手段と、(出力モジュールなどの)出力手段とを備え、
分析手段は、文書のデジタル表現を入力データとして受け、文書のデジタル表現を分析し、文書のデジタル表現に含有されるエンティティの1つ以上のインスタンスを識別し、エンティティの識別されたインスタンスのうち少なくともいくつかについては、文書のデジタル表現中で識別されたエンティティの1つ以上のインスタンスに関する注釈エンティティデータを備える注釈データを記憶するように動作可能なトレーニング可能情報抽出モジュールを備え、注釈エンティティデータは、文書のデジタル表現中で識別された1つ以上のエンティティのインスタンスの識別子と、文書のデジタル表現内のエンティティの識別されたインスタンスの場所を特定するデータとを備え、エンティティの識別子はオントロジデータへの参照番号を備え、
コンピュータ−ユーザインターフェイス手段は、文書のデジタル表現および分析手段によって記憶された注釈データを入力データとして受け、ディスプレイ画面の第1の領域において、コンピュータ−ユーザインターフェイス手段のユーザに対して文書のデジタル表現のユーザ選択可能部分を表示するように動作可能であり、注釈は注釈データに依存し、当該注釈は、注釈エンティティデータによって特定される文書のデジタル表現内の場所で、その場所が注釈エンティティデータ中で特定されるエンティティのインスタンスのうち1つ以上を少なくともハイライトすることを含み、
コンピュータ−ユーザインターフェイス手段は、コンピュータ−ユーザインターフェイス手段のユーザから指示を受け、受けた指示に応答して修正注釈データを準備するように動作可能であり、
コンピュータ−ユーザインターフェイス手段は、トレーニング可能情報抽出モジュールをトレーニングするのに用いるための文書のデジタル表現をユーザが選択する手段を備え、
出力手段は、修正注釈データから導出される出力データをデータベースに投入するように動作可能であり、
システムは、文書の選択されたデジタル表現の少なくとも一部および文書の選択されたデジタル表現に関する修正注釈データを備えるトレーニングデータを用いてトレーニング可能情報抽出モジュールを周期的に再トレーニングするように動作可能であり、
コンピュータ−ユーザインターフェイス手段は、ユーザ選択可能動作モードでは、ディスプレイ画面の第2の領域に、文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストを表示するように動作可能であり、エンティティの列挙されたインスタンスのうち少なくとも1つは、それと関連付けられたユーザ選択可能ユーザインターフェイス要素を有し、コンピュータ−ユーザインターフェイス手段は、エンティティのインスタンスと関連付けられたユーザ選択可能ユーザインターフェイス要素をユーザが選択するのに応答して、選択されたユーザインターフェイス要素と関連付けられたエンティティのインスタンスが位置する文書のデジタル表現内の場所を含むように、第1の領域に表示される文書のデジタル表現の部分を調整するように動作可能である、システムである。
【0139】
システムおよびシステムが処理するように適合されるデータの好ましいおよびオプションの特徴は、発明の第10の局面に関連して論じられた好ましいおよびオプションの特徴に対応する。
【0140】
本発明の第17の局面に従うと、文書のデジタル表現から自動的に抽出されたデータをユーザに提示するコンピュータで実現される方法であって、自動的に抽出されたデータは、文書のデジタル表現中で自動的に識別されたエンティティのインスタンスを特定するデータを備え、エンティティのインスタンスはそれと関連付けられた1つ以上のプロパティを有し、方法は、
ノード要素の群からユーザが選択したノード要素の表現を表示するステップを備え、ノード要素の群中の各々のノード要素は、親ノード要素および1つ以上の子ノード要素のうちいずれかまたはその両方を有し、さらに、分岐ツリー構造を形成するステップを備え、ノード要素の群中の少なくとも2つのノード要素は子ノード要素を有しない葉ノード要素であり、残余のノード要素は少なくとも1つの子ノード要素を有する非葉ノード要素であり、各々の表わされた非葉ノード要素は、当該表わされた非葉ノード要素の子ノード要素を表わすか否かを判断するようにユーザが選択可能であり、
各々の葉ノード要素は、自動的に抽出されたデータによって特定されるエンティティのインスタンスと関連付けられ、各々の非葉ノード要素はエンティティのインスタンスのプロパティの値と関連付けられ、それぞれの非葉ノード要素の究極の子である各々の葉ノード要素は、プロパティの同じそれぞれの値を有するエンティティのインスタンスと関連付けられることを特徴とする、コンピュータで実現される方法が提供される。
【0141】
「究極の子」とは、葉ノード要素に達するまでノード要素の子ノード要素を選択し、その子ノード要素のうち1つを選択することなどによって到達可能な葉ノード要素を指す。
【0142】
したがって、発明は、文書のデジタル表現中で識別され、1つ以上のプロパティの値に従ってグループ分けされたエンティティのインスタンスと関連付けられたノード要素を便利にかつ対話的にユーザが閲覧できるようにしてキュレーションプロセスを容易にする。
【0143】
葉ノード要素は典型的に、文書のデジタル表現内に、たとえばエンティティのインスタンスからなるまたはこれを含むテキストのセクションである、エンティティのインスタンスを表わす文字列を用いて表わされる。
【0144】
文書のデジタル表現の少なくとも一部はディスプレイの第1の領域に表示され得、ユーザが選択したノード要素の表現はディスプレイの第2の領域に表示され得る。葉ノード要素は、ユーザによって選択されると、それぞれの葉ノード要素が関するエンティティのインスタンスが文書のデジタル表現中でハイライトされる、および/または、ディスプレイの第1の領域における文書のデジタル表現の少なくとも一部の閲覧が、それぞれの葉ノード要素が関するエンティティのインスタンスを示すように修正される、ユーザ選択可能ユーザインターフェイス要素を備え得る。したがって、この方法は、ユーザが選択したノード要素の表現がディスプレイの第2の領域に表示され、葉ノード要素がそれらが関連付けられるエンティティのインスタンスの1つ以上のリストの形式で表わされる、発明の第1または第2の局面に従う方法であり得る。
【0145】
好ましくは、子として非葉ノード要素を有する少なくとも大部分の、および典型的には各々の非葉ノード要素については、各々の子非葉ノード要素は同じプロパティの異なる値と関連付けられる。
【0146】
好ましくは、同じ非葉ノード要素の子である非葉ノード要素が異なる値を有するというプロパティは、分岐ツリー構造内の少なくとも1つの、および典型的には各々の深さの各々の非葉ノード要素について同じである。
【0147】
好ましくは、少なくともいくつか、および典型的には各々の非葉ノード要素は、その非葉ノード要素の究極の子の数に対応する数字を含む画像によって表わされる。これにより、管理人は、1つ以上のプロパティの特定された値、または複数の値を有するエンティティのインスタンスの数を素早く認めることができるようになる。
【0148】
このように、各々の葉ノード要素は、好ましくは、ツリー構造の中でその上にある各々のノード要素と関連付けられるプロパティの値を有するエンティティのインスタンスと関連付けられる。ノード要素がツリー構造中で葉ノード要素の「上」にあるということは、1回以上ノード要素の親ノード要素を選択することによって到達可能なノード要素であることを意味する。
【0149】
少なくとも1つのプロパティは、文書のデジタル表現内のエンティティのインスタンスの場所であり得る。たとえば、プロパティは、エンティティのインスタンスが位置する、要約書、実験セクション、結果セクションなどの、文書のデジタル表現のセクションを示す可能な値を有し得る。これにより、見直し者は、文書のデジタル表現のどのセクションが比較的多くのまたは比較的少ないエンティティのインスタンスを含有するかの概略を得ることができるようになる。
【0150】
少なくとも1つのプロパティは、エンティティのインスタンスの種類であり得る。たとえば、方法が生物医学文献に関連して用いられる場合、プロパティは、タンパク質、遺伝子、実験方法、有機体などの可能な値を有し得る。
【0151】
少なくとも1つのプロパティは、文書のデジタル表現中のエンティティのインスタンスの表層形式であり得る。少なくとも1つのプロパティは、エンティティのインスタンスの正規化形式(canonical form)であり得る。たとえば、(各々が同じタンパク質を参照する)筋クレアチンキナーゼ、CKMMおよびCK−3という表層形式を備えるエンティティのインスタンスは、各々同じ親ノード要素を有し得る。
【0152】
好ましくは、同じ親ノード要素の子である異なるノード要素と関連付けられた異なる値を有するプロパティは、異なる適用例について異なり得る構成パラメータによって決まる。
【0153】
異なるノード要素と関連付けられた異なる値を有するプロパティのうち1つ以上は、たとえばエンティティのインスタンスが人間の管理人によってキュレーションされたか否かなど、エンティティのインスタンスのキュレーションのステータスであり得る。方法は、葉ノード要素と関連付けられたエンティティのインスタンスのキュレーションのステータスの変化に応答して、ツリー構造中の別の場所に葉ノード要素を移動させるステップを含み得る。
【0154】
図面を参照して説明される発明の実施例は、コンピュータ装置によって、および演算装置によっても行なわれる方法を備えるが、発明は、発明のプロセスを実行するまたはコンピュータを発明のコンピュータ装置として機能させるように適合されるプログラム指示、特に担体の上またはその中のプログラム指示、にも拡張される。プログラムは、部分的にコンパイルされた形式、または発明に従うプロセスの実現例において用いるのに好適ないずれかの他の形式などの、ソースコード、オブジェクトコード、中間コードソースの形式であり得る。担体は、プログラム指示を担持することができるいずれのエンティティまたはデバイスであってもよい。
【0155】
たとえば、担体は、たとえばCD ROMもしくは半導体ROMなどのROM、またはたとえばフロッピー(登録商標)ディスクもしくはハードディスクなどの磁気記録媒体などの記憶媒体を備え得る。さらに、担体は、電気もしくは光ケーブルまたは無線もしくは他の手段によって伝えられ得る電気または光信号などの伝送可能な担体であり得る。ケーブルによって直接に伝えられ得る信号でプログラムが具体化される場合、担体は、そのようなケーブルまたは他のデバイスもしくは手段によって構成され得る。
【0156】
以上論じた好ましいおよびオプションの特徴は、それらが適用可能な発明の各々の局面の好ましいおよびオプションの特徴である。疑念を回避するため、発明の第2および第3の局面の好ましいおよびオプションの特徴は、適用可能な場合は、発明の第4の局面に関連して論じた好ましいおよびオプションの特徴に対応する。
【0157】
発明は、以下の図面を参照して、例示の目的のためにのみさらに説明される。
【図面の簡単な説明】
【0158】
【図1】本発明に従うシステムを通る情報の主な流れの概略図である。
【図2】システムの重要な構成要素の概略図である。
【図3】システムアーキテクチャ内のレイヤの概略図である。
【図4】文書ファイルを検索し、それらを情報抽出の前にフィルタリングすることに係るステップのフロー図である。
【図5】情報抽出に係るステップのフロー図である。
【図6】システムによる分析に好適な例示的なテキストの図である。
【図7】情報抽出前の例示的なテキストに関するXMLファイルの図である。
【図8A】情報抽出後の例示的なテキストに関するXMLファイルの連続した部分を構成する図である。
【図8B】情報抽出後の例示的なテキストに関するXMLファイルの連続した部分を構成する図である。
【図8C】情報抽出後の例示的なテキストに関するXMLファイルの連続した部分を構成する図である。
【図8D】情報抽出後の例示的なテキストに関するXMLファイルの連続した部分を構成する図である。
【図9】識別されたエンティティに下線が付与され、識別された関係に標識が付与された、図6のテキストの図である。
【図10】キュレーションコンピュータ−ユーザインターフェイスの概略図である。
【図11】キュレーションコンピュータ−ユーザインターフェイスの画面図である。
【図12】樹形図展開後の、図11のキュレーションコンピュータ−ユーザインターフェイスの画面図である。
【図13】ユーザインターフェイス要素のユーザによって選択された後の、図12のキュレーションコンピュータ−ユーザインターフェイスの画面図である。
【図14】異なる表示モードでの図13のキュレーションコンピュータ−ユーザインターフェイスの画面図である。
【図15】オントロジデータフィードバックループの概略図である。
【図16】オントロジデータ保守システムの概略図である。
【図17】システム内のトレーニングデータのフィードバックの概略図である。
【発明を実施するための形態】
【0159】
例示的な実施例の詳細な説明
始めに、図1は、本発明に従う情報抽出システムを通る情報の主な流れの概略図である。例示的なシステムは、自然言語テキストを含む生物医学テキスト文書のデジタル表現からデータを抽出し、得られた抽出データを見直しのために人間の管理人に提示する。例示的なシステムは、抽出データが人間の管理人のチームによってキュレーションされる、文書の多数のデジタル表現の分析のために設計される。
【0160】
ソース文書2は文書ソースから検索される4。システムは文書のデジタル表現を分析するので、ソース文書は典型的には、たとえば、雑誌記事の全文またはMedline要約(Medlineは、MD、ベセズダ、国立医学図書館の商標である)の文書のデジタル表現であろう。しかし、文書は、印刷された形態で検索されてスキャンされてもよい。(文書のデジタル表現を構成する)文書ファイルは次に、分類されフィルタリングされ6、その後自然言語処理(NLP)方法を用いた情報抽出手順8を施され、その後コンピュータ−ユーザインターフェイスを用いて人間の管理人によってキュレーションされる10。キュレーションステップの後に、データはターゲットデータベース14にエクスポートされる12。システムを通る情報の流れを以下により深く論じる。
【0161】
図2は、システムの重要な構成要素の概略図である。アプリケーションサーバ16上で実行されるアプリケーションロジックは、スプリングフレームワーク(Spring Framework)コンテナ(スプリングフレームワークはwww.springframework.orgに記載されるオープンソースプロジェクトである)を用いてJ2EEアプリケーションサーバ(J2EEはサンマイクロシステムズ(Sun Mirosystems)の商標である)中で実行されるコアサービスのセットを介してシステムを制御する。(文書のデジタル表現を構成する)文書ファイルなどの関連データは、リレーショナルデータベース管理システム18によってXMLファイルの形式で検索可能に記憶される。情報抽出エンジン22は、単一のプロセッサまたは並列で動作する1つ以上のプロセッサによって実現される。ウェブブラウザ24は、システムへの管理者アクセスおよびキュレーションプロセスに対する制御を与える。キュレーションツール26はコンピュータ上のコンピュータ−ユーザインターフェイスを実現し、その各々は、ディスプレイ、キーボード、およびマウスなどのポインティングデバイスを有する。個別の構成要素はネットワークを通じて接続可能である。アプリケーションサーバは典型的には、インターネットプロトコルネットワークを通じてSOAPおよびHTTPを介してウェブブラウザおよびキュレーションツールと通信する。当業者は、システムのいくつかの構成要素が単一のコンピュータ上で実現可能であること、または個別の構成要素が単一のコンピュータもしくはコンピュータのクラスタ上で実現され得ることを認識するであろう。
【0162】
システムを構成するソフトウェアコンポーネントは、図3に概略的に図示されるレイヤ形態で説明可能である。提示ロジックはウェブアプリケーションレイヤ30中に封入され、ウェブブラウザ32を介したシステムの制御を可能にする。ウェブサービスコンポーネント34は、Java Web Start(登録商標)を用いてJava(登録商標)アプリケーションとしてウェブブラウザに配信される1つ以上のキュレーションツール26と通信する。(Java(登録商標)およびJava Web Start(登録商標)はサンマイクロシステムズの登録商標である。)
アプリケーションロジックの重要な局面は4つの重要なサービスの中に封入される。すなわち、ターゲットデータベースに投入するための出力データのエクスポートに関連するロジックを含むターゲットデータベース14との双方向通信に関連する制御ロジックを含むターゲットサービス36;集められ記憶された文書ファイルの集合に対してAPIとして働き、システムの他の構成要素が抽象的かつ制御された態様でデータに読出/書込アクセスできるようにする文書サービス38;システム内で用いられるオントロジの永続的表現を管理し、かつ情報抽出エンジンによる使用に好適なフォーマットのオントロジデータのエクスポートおよびターゲットデータベースからのオントロジデータのインポートも管理するオントロジサービス40;ならびにキュレーションジョブの開始およびモニタを可能にするように適合されるコンピュータ−ユーザインターフェイスを提供するウェブ層およびキュレーションジョブを扱うためのコア機能性を封入するサービスレイヤを備えるパイプラインマネージャサービス42である。データベース永続レイヤ44は、制御ロジックを提供し、JDBCを介したHibernateオブジェクト/リレーショナル永続性とクエリサービスまたはカスタマイズされたSQLを用いて(JDBCはサンマイクロシステムズの商標である。Hibernateは、www.hibernate.orgに記載されるオープンソースプロジェクトである)リレーショナルデータベース管理システム18にデータが均一に永続するようにする。情報抽出はJMSキュー45を介して切離され、自然言語処理(NLP)パイプライン48とインターフェイスする情報抽出エンジン46によって管理される。システムの別の重要な一部は、ターゲットサービスからターゲットデータベースへ出力データをマッピングするターゲットマッピング制御モジュール50である。
【0163】
文書検索
使用の際、文書ファイルは、パイプラインマネージャサービスの制御下で外部ソースから検索される。図4は、情報抽出前に文書ファイルを検索しそれらをフィルタリングすることに係るステップのフロー図である。文書ファイル100は、1つ以上の遠隔のソースから検索され102、キャッシュされる104。特定のサーチクエリを満たすまたは予め定められた判断基準に従う文書ファイルが受けられ得る。たとえば、ある判断基準を満たす文書は、PubMed(www.ncbi.nlm.nih.gov/entrez/query.fcgi)から周期的に自動的に検索され得る。
【0164】
次に文書ファイルは、必要に応じて異なるフォーマットに変換される105。文書ファイルは、マークアップを全く含まない、または比較的少ししか含まない、プレーンテキストを含むXMLファイルに変換される。ソフトウェアモジュールは、ポータブルドキュメントフォーマット(PDF)の文書ファイルをXMLに変換するように提供される。これらの文書ファイルは単にXMLマークアップを取除いたXMLマークアップファイルではないことが重要である。これは、マークアップXMLソースからマークアップを取除くことによって得られたテキストが常に元のプレーンテキストソースから直接に得られるものと同じではないからである。たとえば、XMLマークアップ文書は、特定のフラグメントを識別するのに下付きまたは上付きを用いてタンパク質のフラグメントを注釈付けし得る。たとえば、テキストフラグメントABC12-37を示すXMLマークアップからXMLマークアップが取除かれた場合、結果的に生じるプレーンテキストはABC12−37であろう。しかしながら、元のプレーンテキストソースからの同じ文書は、これを、ABC12−37またはABC 12−37またはABC(12−37)またはABC[12−37]としてマークアップし得る。
【0165】
変換された文書ファイルは記憶され106、元の検索された文書ファイルおよび変換された文書ファイルの両者ともが記憶装置に保持される。(必要に応じて変換された)文書ファイルは、オプションでフィルタリングされ108、最も関連のあるものが判断される。
【0166】
情報抽出
図5は、その後の情報抽出手順に係るステップのフロー図である。トークン化ソフトウェアモジュール110はXMLフォーマットのキャッシュされた文書ファイルを入力として受付け、トークン化マークアップを含む修正XMLファイル112を出力する。固有表現抽出ソフトウェアモジュール114は修正XMLファイル112を入力として受け、エンティティの個別のインスタンスが認識されマークアップされた、さらに修正されたXMLファイル116を出力する。固有表現抽出ソフトウェアモジュール114は、以前トレーニングデータ118に対してトレーニングされている。固有表現抽出ソフトウェアモジュールは、固有表現抽出ソフトウェアモジュールの性能を決めるデータとして機能する複数の異なる先行ファイルを備える。精度と再現率との間の異なるバランスを与えるように修正された異なる先行ファイル115は、異なる管理人による見直しのためにデータを抽出するのに用いるために提供された。トレーニングデータ118は以下にさらに説明される。次に修正XMLファイル116は、これもオントロジデータ122を入力として取る用語正規化ソフトウェアモジュール120によって処理されて、エンティティの個別のインスタンスがオントロジデータに記憶されるエンティティの正規形への参照番号によって標識付けされた、さらに修正されたXMLファイル124を出力する。次に修正XMLファイル124は、関係抽出ソフトウェアモジュール126によって処理され、これは、文書ファイル中で識別された関係に関するデータを含む注釈付きXMLファイル128を出力する。
【0167】
トークン化、固有表現抽出、用語正規化および関係抽出は各々、進行中の研究の重要な分野であり、これらの段階の各々を実行するためのソフトウェアは、自然言語処理の分野の当業者には周知である。例示的な情報抽出パイプラインにおいて、pdfおよびプレーンテキストなどのさまざまなフォーマット、ならびにNCPI/NLMアーカイビングおよび交換DTDなどのXMLフォーマットなどの、さまざまなフォーマットの入力文書が単純なXMLフォーマットに変換され、このフォーマットは、タンパク質および他の生物医学的エンティティの名称において重要であり得る上付きおよび下付きに関する情報などのフォーマット情報および文書構造のいくつかの有用な要素を保存する。文書は、〈p〉要素によってXML中で表わされる段落に分割されると思われる。トークン化の後、ルシーン(LUCENE)プロジェクト(アパッチソフトウェア財団(the Apache Software Foundation)、アパッチルシーン(Apache Lucene)、2005)からのデフォルトトークナイザおよび文境界検出を用いて、段落の中のテキストは、〈w〉(単語)要素を含有する〈s〉(文)要素からなる。このフォーマットはパイプラインを通じて永続する。付加的な情報および処理の間に追加される注釈データは一般的に、(たとえば、品詞タグなどの)単語に対する属性を追加することにより、またはスタンドオフマークアップにより記録される。スタンドオフマークアップは、IDおよびIDREF属性により、他の要素を指す要素からなる。これにより、テキストの重なる一部を参照できるようになり,スタンドオフ要素は、必ずしも元のテキストでは隣接していない他のスタンドオフ要素を参照できる。固有表現は、エンティティの開始および終了単語を指す〈ent〉要素によって表わされる。関係は、関係に参加する〈ent〉要素を指す〈argument〉子を用いて、〈relation〉要素によって表わされる。スタンドオフマークアップはデータと同じファイル内に記憶されるため、これはパイプラインを通じてユニットとして容易に受け渡し可能であるが、当業者はマークアップは他の文書に記憶され得ることを認識するであろう。
【0168】
入力された文書は次に、各段階の出力がXMLマークアップで符号化される、LT−TTT2ツールを用いて実現されるルールベース前処理ステップのシーケンスによって分析される(Grover, C., Tobin, R. and Matthews, M., Tools to Address the Interdependence between Tokenisation and Standoff Annotation, in Proceedings of NLPXML2-2006 (Multi-dimensional Markup in Natural Language Processing),pages 19-26, Trento, Italy, 2006)。トークン化および文分割の初期ステップの後に、MedPostデータ(Smith, L., Rindflesch, T. and Wilbur, W. J., MedPost: a part-of-speech tagger for biomedical text. Bioinformatics, 20 (14): 2320-2321, 2004)上でトレーニングされたC&C品詞タグ付けプログラム(tagger)(Curran, J. R. and Clark, S., Investigating GIS and smoothing for maximum entropy taggers, in Proceedings of the 11th Meeting of the Europian Chapter of the Association for Computational Linguistics (EACL-03), pages 91-98, Budapest, Hungary, 2003)を用いた品詞タグ付けが行なわれる。
【0169】
レマタイザ(lemmatiser)モジュールは、Morphaレマタイザ(Minnen, G., Carroll, J. and Pearce, D., Robust, applied morphological generation, in Processing of 1st International Natural Language Generation Conference (NLG '2000), 2000)を用いて、語形変化した名詞および動詞の語幹についての情報を得る。省略形およびそれらの長い形についての情報(たとえばB細胞リンカータンパク質(BLNK))は、シュバルツ(Schwartz)およびハースト(Hearst)のExtractAbbrevプログラム(Schwartz, A. S. and Hearst, M. A. Identifying abbreviation definitions in biomedical text, in Pacific Symposium on Biocomputing, pates 451-462, 2003)を呼び出すステップで計算される。ルックアップステップは、オントロジ情報を用いて種の科学的および一般的英語名称を識別し、用語識別コンポーネントにおいて下流で用いる。最後のステップは、LT−TTT2ルールベースチャンカー(chunker)を用いて、名詞および動詞の群ならびにそれらの先頭(heads)をマークアップする(Grover, C. and Tobin, R., Rule-Based Chunking and Reusability, in Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC, 2006), Genoa, Italy, 2006)。
【0170】
固有表現抽出モジュールはタンパク質を認識するのに用いられる。しかし、当業者は、タンパク質複合体、フラグメント、突然変異体および融合体、遺伝子、方法、薬剤による治療、細胞系などのエンティティの他のクラスを類似の方法によっても認識し得ることを認識するであろう。固有表現抽出モジュールは、CoNLL−2003共有タスク(Tiong Kim Sang, E. F. and De Mulder, F., Introduction to the CoNLL-2003 shared task: Language-independent named entity recognition, in Walter Daelemans and Miles Osborne, editors, Proceedings of CoNLL-2003, pages 142-147, Edmonton, Canada, 2003)のためにカラン(Curran)およびクラーク(Clark)によって開発された最大エントロピーマルコフモデル(MEMM)タグ付けプログラム(以下C&Cタグ付けプログラムと称されるCurran, J. R. and Clark, S., Language independent NER using a maximum entropy tagger, in Walter Daelemans and Miles Osborne, editors, Proceedings of CoNLL-2003, pages 164-167, Edmonton Canada, 2003)の変形版であった。
【0171】
バニラC&Cタグ付けプログラムは、CoNLL−2003などのニュースワイヤ固有表現抽出タスクに対する性能のために最適化されるので、タンパク質認識タスクに対するその性能を改良するように変形されたタグ付けプログラムが用いられる。生物医学的テキストのために特に設計される特別の特徴が含まれ、可能なタンパク質の名称を含む地名辞典(gazetteer)が組入れられ、省略形再タグ付けプログラムによって省略形との整合が確実にされ、統計的モデルのパラメータが最適化された。C&C実験特徴オプションを用いて追加された追加特徴は以下のとおりである:CHARACTER:典型的なタンパク質の名称に一致する正規の表現の集合;WORDSHAPE:C&C´wordtype´正射投影特徴の拡張版;HEADWORD:現在の名詞句の先頭の語(head word);ABBREVIATION:この文献において地名辞典用語の省略形として識別されるいずれの用語とも一致する;TITLE:文書のタイトルの名詞句に見られるいずれかの用語;WORDCOUNTER:文書の中で10個の最も一般的に登場するうちのいずれかの連続的な単語に一致する;VERB:文の中の各々の名詞句トークンに追加される動詞見出し語(lemma)情報;FONT:元の文書フォーマットに含有されるイタリックおよび下付きのテキスト。NOLAST:C&Cタグ付けプログラムの最後(メモリ)の特徴は取除かれた。変形されたC&Cタグ付けプログラムも、前処理されて共通の英語の単語を除去しかつトークン化されてパイプラインによって課されるトークン化に一致した、RefSeq(http://www.ncbi.nlm.nih.gov/RefSeq/)から導出されるタンパク質のリストの形式での地名辞典を用いて拡張された。地名辞典を用いて、文書中のタンパク質をタグ付けし、次にこのタグ付けに対応するバイオタグと、C&C実験特徴などの以前のおよび現在のバイオタグの二重字とを各単語に追加する。エンティティの群に対してカスケード化を実行する(たとえば、すべてのエンティティについて1つのモデル、特定的なエンティティの種類に対して1つ、および組合せ)。カスケード中のその後のモデルは、GUESS特徴を介して以前のものの推測へのアクセスを有する。C&Cタグ付けプログラムは、B. Alex, B. Haddow, and C. Grover, Recognising nested named entities in biomedical text, in Proceedings of BioNLP 2007, p.65-72, Prague, 2007に記載されるものに対応し、この内容はここに引用により援用される。
【0172】
使用において、C&Cタグ付けプログラムは、タグ付けプログラムの機能に影響を及ぼすパラメータを規定する先行ファイルを用いる。複数の異なる先行ファイルが提供されて、精度と再現率との間の異なるバランスで固有表現抽出を実行可能にし、これにより、人間の作成者によるその後の見直しのために異なるデータが抽出される複数の異なる動作モードで情報抽出が起こり得るようになる。各々の先行ファイル中の「タグ先行(tag prior)」パラメータは、バイオタグのうちの各々と関連したエンティティ決定しきい値を調整し、これにより、再現率に対して精度を優先するか、または精度に対して再現率を優先するかの決定境界を変更するように選択される。
【0173】
省略形再タグ付けプログラム(retagger)は後処理ステップとして実現され、ここでは、C&Cタグ付けプログラムの出力は再タグ付けされて、シュバルツおよびハーストの省略識別子によって予測される省略形と確実に整合するにようにされた。省略形の先行語がタンパク質としてタグ付けされていれば、同じ文書中のすべてのその後の省略形の出現は再タグ付けプログラムによってタンパク質としてタグ付けされる。
【0174】
用語識別ソフトウェアモジュールは4つの重要な構成要素を用いる。第1の構成要素は、エンティティの各々の言及の文脈を見ることによって文書中のエンティティの個別の言及の最も尤度の高い種を識別する種タグ付けプログラムである。種タグ付けプログラムは、「人」または「マウス」などの種を示す単語からの手がかりに特に注目する。種タグ付けプログラムは、手作業で注釈付けされたデータ上でトレーニングされた、サポートベクターマシン(Support Vector Machines)アルゴリズム(www.cs.waikato.ac.nz/~ml/weka, Witten, I. H. and Frank, E. (2005), Data Mining: Practical machine learning tools and techniques, second edition, Morgan Kaufmann, San Francisco, 2005)のWeka実現例を利用する。1つの実現例では、各々のトレーニングインスタンスは特徴−値の対として表わされ、ここではサイズ50の文脈ウィンドウで言及されるタンパク質と同時に起こるTF−IDF重み付け単語見出し語であり、値は、人間の注釈付け者によって言及されるタンパク質に割当てられた種である。種タグ付けプログラムは、最も尤度の高い識別された種だけでなく多数の代替的な種も出力し得る。
【0175】
種の識別の後、ファジーマッチャー(matcher)およびルールベースマッチャーの両者が呼び出され、その各々は独立して、オントロジ内で、エンティティの公知の同義語であるエンティティの言及と同様の表層形式を識別する。この段階からの出力は一連のスーツケース(suitcases)であり、そのうち1つが各々の表層形式について与えられる。各々の表層形式に関するスーツケースは、それぞれの表層形式と同じ同義語を有するオントロジからのエンティティの識別子を含む。
【0176】
ランク付けモジュールは、次にスーツケースを読出し、テキスト文書中のエンティティの各々の言及ごとに候補識別子のランク付けされたリストを生成する。ランク付けモジュールは、ヒューリスティックルールを用いることができる。これは、オントロジ中で最も低い数値を有する識別子を優先し;RefSeqオントロジ中の識別子への参照番号の数を考慮し;かつエンティティのインスタンスが、エンティティの同義語よりもむしろ、候補識別子が関連するエンティティの正規化形式と同一または同様であるか否かも考慮する。そして、関連のある場合、候補識別子が関連するタンパク質のアミノ酸長および/または候補識別子が関連するアイソホームの数(すなわち、CK−1、CK−2およびCK−3などのアイソホーム中に存在するエンティティの数字索引)である。当業者には馴染みのある標準的な実験を適用する結果、これらのさまざまな因子の重みが決まり、いずれの所与のトレーニングデータの組についても最良の性能を生じる、それらを処理するための順序付けがなされる。
【0177】
結果は、エンティティの各々の言及と関連して出力される、典型的には15個までの候補識別子のバッグ(bag)である。各々のバッグの中の候補識別子は、エンティティの各々の個別の言及の最も尤度の高い識別子であると考えられるものであり、それらはランク付けされた順で与えられる。候補識別子の各々に関する情報は管理人に与えられ得、管理人は候補識別子から好ましい識別子を選択できるようになり得る。管理人に与えられるリスト中のエントリの数を増加させるため、付加的な潜在的に関連のある候補識別子を、エンティティの各々の言及に対応する表層形式に関するスーツケースから入手してもよい。これに代えて、単一の最も尤度の高い識別子を出力する用語識別ソフトウェアモジュールを用いてもよい。
【0178】
用語識別の後、関係抽出モジュールは単純文脈特徴を用いて文書のデジタル表現中のタンパク質同士の間の2値的関係(タンパク質−タンパク質相互作用)を検出する。文内のタンパク質のあらゆる対について関係候補が作成され、その関連の特徴が抽出される。(homepages.inf.ed.ac.uk/s0450736/maxent_toolkit.htmlから入手可能な)最大エントロピー分類器を用いて各々のインスタンスに確率が割当てられ、しきい値を超えた確率を有するインスタンスが関係として受入れられる。用いられる特徴は、相互作用「P1−位置:P2−位置」のタンパク質言及の索引の組合せ;相互作用「P1:P2」のたんぱく質言及の語彙形式の組合せ;タンパク質言及の付近の3単語文脈における語彙形式、語幹形成/見出し語形成、品詞タグおよびチャンキング情報;2つのタンパク質言及同士の間のトークンにおける距離、2つのタンパク質言及同士の間の他の識別されたタンパク質言及の数;タンパク質言及同士の間に否定構造の連携があるか否か;文書が要約であるか全論文であるか;タンパク質言及の正規形;タンパク質同士の間の単語、および同じ態様の品詞タグを用いた別の特徴の連結(concatenation);単語集合(bag-of-words)方策におけるタンパク質同士の間およびタンパク質の直前/直後の単語;タンパク質言及付近の二重字および三重字、である。関係抽出モジュールは以下の情報も用いる:(Plake, C., Hakenberg, J. and Leser, U., Optimizing syntax-patterns for discovering protein-protein-interactions, in Proc ACM Symposium on Applied Computing, SAC, Bioinformatics Track, volume 1, pages 195-201, Santa Fe, USA, March 2005に記載される)付加的トレーニングデータとしてのBioCreAtIvEタスク1Aデータから導出されたタンパク質/遺伝子相互作用コーパス;相互作用、結合、阻害、リン酸化などの、タンパク質−タンパク質相互作用がいつ起こるかの情報であると判断された「相互作用単語」のリストがいくつかの特徴に用いられた;Plake他において用いられた22個の構文パターンが各々正規表現形「P1単語{0,n}|動詞単語{0,m}P2」でブール特徴として用いられる。以下の特徴のすべてはタンパク質言及の各々の対の前、その間およびその後に見出される最も近い相互作用の単語について抽出される。すなわち、15個のトークンのウィンドウ内に相互作用単語が存在するか否か;相互作用単語とそれに最も近いタンパク質との間の距離;相互作用単語の語彙形式および品詞タグ;相互作用単語がHead VerbまたはNounであるか;およびいくつの相互作用単語が文中に存在するか、である。
【0179】
例示的な文書
図6は、システムによる処理に好適な文書の例である。図7は、システムによる処理に好適なXMLファイルのタイトルおよび本文タグ内に含まれる同じ文書のXMLファイルである。テキストの本文は本文タグ内のブレーンテキストフォーマットで与えられる。図8A、図8B、図8Cおよび図8Dは、上述の手順による情報抽出後の例示的な文書に関する注釈付きXMLファイルの連続部分である。
【0180】
注釈付きXMLファイルは、(注釈エンティティデータを構成する)エンティティ200のインスタンスに関するタグを含む。各々のタグは、エンティティのインスタンスの参照番号(たとえばent id=“e4”)、エンティティの種類(たとえば、type=“protein”)、百分率としての用語正規化の信頼度(たとえばconf=“100”)、およびURIの形式でのそのエンティティに関するオントロジデータへの参照番号(たとえば、norm=http://www.cognia.com/txm/biomedical/#protein_P00502885)を特定する。(そのエンティティに関するオントロジデータへの参照番号は、オントロジデータへの参照番号であるエンティティのインスタンスの識別子を構成する)。エンティティの各々のインスタンスに関するタグは、データが関連する(〈w〉接頭辞および〈/w〉接尾辞を有する)単語直前のXMLファイル内にインラインに含まれる(それにより文書のデジタル表現内のエンティティの識別されたインスタンスの場所を特定するデータを構成する)。
【0181】
注釈付きXMLファイルは、文書識別子202、および文書ファイルが表わす文書のソースを特定するデータ204、および元の文書ファイル206を検索するために実行されるサーチのパラメータに関する情報も含む。
【0182】
テキスト中で識別された関係は、注釈付けされたXMLファイルの末尾でスタンドオフ注釈として記録される(図8Cおよび図8D)。(注釈関係データを構成する)関係220のインスタンスに関する注釈データは、関係のそのインスタンスの参照番号222、百分率としての関係抽出の信頼度224、関係が関するエンティティの正規形226、エンティティ228の種類(たとえばtype=“ppi”がタンパク質−タンパク質相互作用を示す)、および関係が関するエンティティの参照番号230、232を含む。
【0183】
図9は、図8Aから図8DのXMLファイル中で注釈付けされたエンティティに下線を付与し、図8Aから図8DのXMLファイル中で注釈付けされた関係が示された、図6の文書である。情報抽出手順は全般的に信頼できる結果を生成したが、間違いが存在することに留意されたい。特に、関係R6は間違っており、さらなる関係250は識別されていない。
【0184】
情報抽出に引き続き、注釈付けされたXMLファイルがリレーショナルデータベース管理システムに記憶される。後の段階で、注釈付けされたXMLファイルは、キュレーションツールコンピュータ−ユーザインターフェイスを介してキュレーションされ、人間の管理人が注釈データを追加し、削除し、かつ修正することを可能にする。たとえば、図9に示される注釈付き文書の場合、人間の管理人は関係R6を削除するかまたは訂正し得、手作業でさらなる関係250を追加し得る。人間の管理人がキュレーションデータを追加し、削除し、かつ修正することを可能にするとともに、キュレーションツールコンピュータ−ユーザインターフェイスは、人間の管理人がデータを選択してターゲットデータベースに出力できるようにもする。
【0185】
キュレーション
キュレーションツールコンピュータ−ユーザインターフェイスは、アプリケーションを実行するコンピュータにJava(登録商標)アプリケーションを配信するウェブサービスコンポーネントおよびキュレーションされるべき文書に関する注釈付けされたXMLファイルによって実現される。ユーザは、コンピュータのモニタおよびキーボードおよびコンピュータマウスなどの入力周辺装置を介してインターフェイスと対話する。
【0186】
図10は、キュレーションコンピュータ−ユーザインターフェイス300の画面図である。コンピュータ−ユーザインターフェイスは、文書304を示す(第1の領域として機能する)文書表示ウィンドウ302を表示する。エンティティ306の個別のインスタンスは、注釈データによって(すなわちXMLファイル内のエンティティのインスタンスに関するタグの場所によって)特定される文書中の場所でハイライトされる。この例では、エンティティの各々のインスタンスは、これを太字でレンダリングすることによってハイライトされる。エンティティのすべてのインスタンスが明瞭性のために標識付けされたわけではない。エンティティは、(たとえばメニュー選択肢を選択することによる)ユーザによる要求に応答してのみハイライトされてもよく、または常にハイライトされていてもよい。したがって、文書表示ウィンドウ内に見られる文書の一部は、注釈(太字テキスト)を含み、自然言語処理パイプラインによって識別されたエンティティをハイライトする。文書表示ウィンドウ内で、関係308は、関係を記述するテキストの周りのボックスでそれらをハイライトすることによって注釈付けされる。ボックスは、たとえば、色付きであってもよい。文書表示ウィンドウはさらに、ユーザが文書をスクロールできるようにする標準的ウィンドウスクロールバー310をさらに備える。
【0187】
キュレーションコンピュータ−ユーザインターフェイスは、自動識別された文書の特徴を、色付きバー314または文書内のそれらの場所に比例する細長いバー中の位置の他の視覚的インジケータで表わすことによって示す、第1の細長いバー312の形態のナビゲーションツールをさらに含む。タンパク質言及、または他の固有表現、識別された関係もしくは自動識別された(「初めに」、「材料および方法」などの)セクション見出しなどの異なる種類の特徴が異なる色付きバーまたは視覚的インジケータを用いて表示される。第2の細長いバー314は、現在文書表示ウィンドウ中に表示されている文書のセクション中に見られる第1の細長いバーに示される特徴の拡張された表現である。たとえば、色付きバー315は各々の識別された関係に並べて設けられている。第2の細長いバーは、表示されている文書のセクションがスクロールバーまたは他のコンピュータ−ユーザインターフェイス特徴を用いて変更されると動的に更新される。エンティティおよび関係を文書内のそれらの識別された場所に表わす注釈は、管理人による詳細な検討を必要とする文書の関連セクションの容易な識別を容易にする。
【0188】
ユーザインターフェイスは、マウスなどのポインティングデバイスまたは別のコンピュータ−ユーザインターフェイス特徴を用いて、自動識別された関係をユーザが選択する手段も提供し、これに応答して、選択された関係に関する自動識別された注釈データから仮の修正注釈データが準備される。次に仮の修正注釈データは注釈修正ウィンドウ316の中に表わされる。注釈修正ウィンドウは、エンティティ320の種類(たとえばタンパク質)の詳細を含む関係の第1の構成要素であるエンティティ、および自然言語情報抽出手順の間に自動識別されたエンティティの識別子322に関するデータを表わす第1のセクション318を備える。オントロジから得られるエンティティ324の名称の正規化形式も表示される。対応の情報は、関係が関する第2のエンティティと関連して、注釈修正ウィンドウの第2のセクション326の中に与えられる。
【0189】
管理人は、関係を正しく表わすものとして仮の修正注釈データを受付け、(ボタンまたはメニュー選択などの)ユーザ−インターフェイス特徴を用いて、仮の修正注釈データが正しいこと、およびこれを用いてターゲットデータベースへのエクスポート用の出力データを作成すべきであることを示し得る。しかしながら管理人は仮の修正注釈データを修正してもよく、たとえば、彼らは、チェックボックス330、テキストボックス、ドロップダウンメニュー332、リストなどの一般的なユーザ−インターフェイス特徴を用いて、識別されたエンティティのうち1つまたはその両方に関するデータを彼らが編集できるようにするボタン328などのユーザインターフェイス特徴を選択し得る。このように、管理人は、たとえばエンティティの誤った識別などの誤った注釈データを訂正したり、(たとえば省略されたエンティティなどの)情報抽出手順によって省略された注釈データを追加したりし得る。追加された注釈データは、情報抽出手順が抽出できないデータを含み得る。たとえば、情報抽出手順がエンティティを識別できるが、エンティティのプロパティを識別できない場合、ユーザがこのデータを入力することができ、これにより、情報抽出手順から導出されるデータしか出力することができないという欠点なしに、情報抽出手順のユーザから効率という利点を得る。管理人は、まったく新しい仮の修正注釈データ記録も作成し得る。たとえば、彼らは、情報抽出手順によって識別されなかった関係に関する仮の修正注釈データを作成し、次に仮の修正注釈データを編集し得る。
【0190】
閲覧および/または編集され得るエンティティに関する注釈データの例は、エンティティの種類、エンティティの識別子、エンティティの正規化形式、エンティティのプロパティ(たとえばそれが修飾されるか否かおよびどのように修飾されるか)を含む。閲覧および/または編集され得る関係に関する関係データの例は、関係が関するエンティティの識別子、たとえば関係に至る実験方法(たとえばアフィニティ精製)などの関係および関係のプロパティの記述、(たとえばリン酸化などの)相互作用の方法、ならびに関係が相互作用に関するか否かを含む。
【0191】
エンティティ(仮の注釈エンティティデータ)または関係(仮の注釈関係データ)に関する仮の注釈データが一旦編集されると、結果的に得られたデータはキュレーションされる(すなわち管理人によって承認される)と考えられ、その全体または一部が出力データとしてターゲットデータベースへのエクスポートのために記憶される。本質的に、仮の注釈データを構成する1つ以上の記録は、情報抽出手順によって準備され、次にターゲットデータベースへのエクスポートのために選択される前に編集された注釈データを用いて予め投入される。
【0192】
エクスポートのために記憶され得る注釈関係データの例は以下のとおりである。
「『Medline要約』コレクションからのものであり、PubMed ID456を有する文書ID123の文字オフセット100と文字オフセット200との間の、『p19』(タンパク質p19、オントロジID135)および『ADPリボシル化因子』(タンパク質Arf、オントロジID680)が相互作用すると言われている。」
このように、注釈関係データは、特定の関係を参照するテキストの断片の開始および終了場所への参照番号(『文字オフセット100』および『文字オフセット200』)、ならびに(内部文書識別子である『文書ID123』および対応の外部文書識別子である『PubMed ID456』を含む)文書識別子、ならびに文書のソース(「Medline要約」コレクション)の識別子、ならびに文書中で見出された状態(『p19』、『ADPリボシル化因子)およびその正規形(『p19』および『Arf』)の両方で関連のエンティティを示すテキストの両方を含み得る。注釈関係データはまた、エンティティの種類(『タンパク質』)、ならびにそれらのオントロジデータ内のID(『オントロジID680』および『オントロジID135』)、ならびに関係の性質の詳細(『相互作用すると言われている』)も含むことができる。
【0193】
当業者は、上記注釈関連データは多くの異なる態様で記憶され得ることを認識するであろう。注釈関係データのうちいくらかまたはすべてはターゲットデータベースにエクスポートされてもよい。
【0194】
上記例では、入力XMLファイル中の注釈データは修正されない。代替的な実施例では、仮の注釈データを編集して、編集された文書に関するXMLファイルとは別個の修正注釈データを形成するよりはむしろ、情報抽出手順によってもともと生成されたXMLファイル中の注釈データが修正される。たとえば、注釈データを含むXMLファイルの形式で文書を受けた場合、キュレーション手順は、修正注釈データを含むXMLファイルを出力することによって終了し得る。いくつかの状況ではこれは望ましくないであろう。なぜなら、XMLファイルに含まれる注釈データを修正するという付加的な演算ステップなしにキュレーションされた仮の注釈データを単に出力するのと比較して、XMLファイルを注釈データの変更を反映するように編集するためには付加的な処理が必要となるであろうからである。しかしながら、ある状況、特にシステムを用いて機械学習ベースの情報抽出モジュールをトレーニングするのに用いるのにトレーニングデータを準備する際は、基底注釈データを修正することが有利であり得る。
【0195】
オプションで、入力XMLファイル中のまたはこれに関する注釈データのシステムメモリ中のローカルコピーを編集手順の際に修正し、これを用いて注釈を有する文書の表示を動的に更新し得る。
【0196】
図11および図12を参照して、キュレーションツールコンピュータ−ユーザインターフェイスは、エンティティおよび/または関係がそれらの文書中の識別された場所でハイライトされた状態で、文書のデジタル表現304のユーザ選択可能部分を示す(ディスプレイの第1の領域として機能する)文書表示ウィンドウ302と(ディスプレイの第2の領域として機能する)ナビゲーションウィンドウ350とを同時に表示するユーザ選択可能サマリーモードを有する。ユーザ選択可能サマリーモードでは、キュレーションツールコンピュータ−ユーザインターフェイスは、NLPパイプラインによって自動識別されたエンティティのインスタンスについての情報を与える。したがって、ユーザ選択可能サマリーモードは、管理人が、エンティティの自動識別されたインスタンスを素早く見出してその文脈を閲覧できるようにする。
【0197】
ユーザは、文書表示ウィンドウ中の文書のデジタル表現の異なる部分を選択可能に閲覧し得、それにより、スクロールバーなどの従来のユーザインターフェイス要素およびキーボードまたはマウスなどの入力デバイスを用いてどの部分が見えるのかを選択し得る。
【0198】
ナビゲーションウィンドウは、ユーザ選択可能ノード要素354を有する分岐ツリー352の形態で、文書のデジタル表現内で識別されたエンティティおよび/または関係についての情報を提示する。ノード要素は、各々のノード要素が親ノード要素および1つ以上の子要素のいずれかまたは両者を有する分岐ツリーに論理的に配置され、ツリーのユーザ選択可能部分はいずれの所与の時期にも見ることができる。ノード要素のうちいくつかは、文書のデジタル表現中で自動識別されたエンティティの個別のインスタンスに関連する葉ノード要素であり、ナビゲーションウィンドウは、(文書中の場所、種類などの)1つ以上のプロパティの特定的な値を有するエンティティの個別のインスタンスに関するデータをユーザが素早く閲覧できるようにするユーザインターフェイスを提供する。
【0199】
(本明細書中では非葉ノード要素と称される)葉ノード要素以外のノード要素はユーザが選択可能であり、選択されると、ユーザが選択したノード要素の子ノード要素を表示するか否かを切換える。図11から図13に見られるように、ノード要素が表示される仕組みは、子ノードが、たとえば下にぶら下がるリストの形態でそれらの親ノードに隣接して、およびオプションで親ノードの一方の側に隣接して位置するように、ツリー構造を視覚的に表わす。
【0200】
樹形図は、文書のデジタル表現の異なるゾーン、すなわちタイトル356a、要約356b、結果セクション356c、ディスカッションセクション356dおよび参照番号セクション356e、に関する異なるユーザ選択可能ノード要素を有する。したがって、これらのノード要素の各々は文書のセクションと関連付けられ、文書のセクションと関連付けられた各々のノード要素は、その究極の子として、文書のそのセクションにあるものとして自動識別されたプロパティを有するエンティティの識別されたインスタンスに関する葉ノード要素を有する。図11に示される最も高レベルのビューでは、各々のゾーンの名称は、各々のゾーン中で自動識別されたエンティティの数を示す数字358とともに表示される。文書内のゾーンによるグループ分けは、管理人が、文書内のエンティティのインスタンスの分布を閲覧できる、および/または、彼らが見直すことを望むゾーン中のエンティティのインスタンスを素早くナビゲートできるようにするという点で有用である。
【0201】
第1のレベルのノード要素を選択することによって樹形図が一旦開かれると、選択された第1のレベルのノード要素に隣接して、たとえば、タンパク質、ドメイン、薬剤化合物、一時的変異体および突然変異体などの文書のデジタル表現の適切なセクション中で識別されたエンティティの各種類に関連して、別個の第2のレベルのノード360の要素が列挙される。これに応じて、したがって、各々の第2のレベルのノードはエンティティの種類と関連付けられ、各々は、その究極の子として、それぞれのエンティティの種類のものであるエンティティの識別されたインスタンスに関する葉ノード要素を有する。
【0202】
ユーザは第2のレベルのノードを選択してもよく、そうすると、樹形図が開き、文書のそれぞれのセクション中で少なくとも1つのインスタンスが識別されたそれぞれの種類の各々のエンティティについて提供される第3のレベルのノード362を示す。最後に、ユーザが第3のレベルのノードを選択したことに応答して、各々が文書中で識別されたエンティティの個別のインスタンス366に関連する葉ノード要素である第4のレベルのノード364が表示される。
【0203】
第4のレベルのノードは文書のデジタル表現の関連のセクション内の選択されたエンティティの個別のインスタンスのリストの中に形成される。各々のインスタンスは、エンティティ368の正規化形式および選択されたエンティティの個別のインスタンスのいずれかの側に延びる、文書のデジタル表現からのテキスト372のセグメントの形態のテキスト抜粋370によって表わされる。テキストのセグメント内の個別のインスタンスの実際の言及374はハイライトされる376。(エンティティの正規化形式を含む)エンティティの個別の言及に関連するテキストの行全体またはテキストのセグメントまたはエンティティのインスタンスの実際の言及は、ユーザ選択可能ユーザインターフェイス要素として機能する。
【0204】
ユーザは、コンピュータマウスなどのポインティングデバイスを用いてユーザ選択可能ユーザインターフェイス要素上をクリックし得る。ユーザインターフェイス要素の選択に応答して、文書表示ウィンドウ302中の文書のデジタル表現の表示は、図13に図示されるように調整され、これにより文書表示ウィンドウ内で見られる文書のデジタル表現の部分が、エンティティ378の選択された個別のインスタンスが文書のデジタル表現の表示部分のほぼ中程まで上昇して、エンティティの選択された個別のインスタンスのいずれかの側に延びる部分となる。エンティティの各々の識別されたインスタンスはハイライトされるが、エンティティの選択されたインスタンスは、ユーザの注意をエンティティのインスタンスに向けるため、さらにハイライト380される。
【0205】
したがって、ツリー構造は、各々の非葉ノード要素ごとに、各々の子ノード要素がそれぞれの子ノード要素の究極の子である葉ノードと関連付けられたエンティティのインスタンスの同じプロパティの異なる値に関連するように分岐する。葉要素のみの親である非葉ノード要素については、各々の葉要素は、非葉ノード要素と関連付けられたプロパティを有するエンティティの個別のインスタンスおよびツリー中の非葉ノード要素の上の非葉ノード要素に関連する。ツリー構造中のノード要素の群からユーザが選択した異なるノード要素の表示を容易にするため、ユーザは再び非葉ノード要素上をクリックしてもよく、すると非葉ノード要素の子ノード要素が消える。
【0206】
この例では、ツリー構造内の各々の深さに非葉子ノード要素を有する各々のノード要素ごとに、同じプロパティの異なる値と関連付けられる子ノード要素が設けられる。たとえば、エンティティのインスタンスの種類と関連付けられる第2のレベルのノード要素の異なる群が各々の第1のレベルのノード要素ごとに子ノード要素として設けられる。しかしながらそうである必要はなく、ツリー構造内の同じ深さの異なる非葉ノード要素に関して異なるプロパティの代替的な値と関連付けられる子ノード要素を設けることができる。
【0207】
典型的に、ツリー構造の分岐の基礎を形成するプロパティは、文書のデジタル表現が関する知識域(domain of knowledge)に依存し、代替的構成パラメータの群から編集可能および/または選択可能である構成パラメータによって決まる。
【0208】
図14は、文書表示ウィンドウが以前のとおりである、キュレーションツールコンピュータ−ユーザインターフェイスの別のユーザ選択可能動作モードを図示する。しかしながら、この動作モードでは、キュレーションされたエンティティウィンドウ382は文書表示ウィンドウと同時に表示される。エンティティ384のキュレーションされたインスタンスのリストは、キュレーションされたエンティティウィンドウに表示される。リスト中の各々のエントリは、エンティティのそれぞれのキュレーションされたインスタンスに関する。エンティティのキュレーションされたインスタンスとは、それに対して関連付けられた注釈エンティティデータが管理人によって見直しおよび/または入力され、必要に応じて修正され、およびデータベースへの出力のために選択された、自動的にまたは管理人によってもともと識別されたエンティティのインスタンスを指す。このユーザ選択可能動作モードにおけるエンティティのキュレーションされたインスタンスのリスト中に示されるデータは、典型的には、ターゲットデータベースへの出力のために選択された記録から取られる。
【0209】
リスト中の各々のエントリは、エンティティの種類386のサマリーと、エンティティ識別子のデータベース中のエンティティの識別子390(ここではRefSeq受入番号)、エンティティの正規化形式392、およびエンティティの種394を含むエンティティのインスタンスに帰するキュレーションされた注釈エンティティデータの記述388とを含む。リスト中の各々のエントリは、ユーザによって選択されると、文書表示ウィンドウ中の文書のデジタル表現の表示が以前のように調整されるようにし、それにより文書表示ウィンドウ中で見られる文書のデジタル表現の部分が、エンティティのそれぞれの個別のインスタンスが文書のデジタル表現の表示された部分のほぼ中程まで上昇して、関連のリストエントリが関するエンティティの個別のインスタンスのいずれかの側に延びる部分となる、ユーザ選択可能ユーザインターフェイス要素として機能するアイコン396も含む。エンティティの各々の識別されたインスタンスはハイライトされるが、関連のリストエントリが関するエンティティのインスタンスは、以前のように、ユーザの注意をエンティティのインスタンスに引きつけるため、さらにハイライトされる。
【0210】
ターゲットデータベースへのエクスポートのためにデータを見直すため、管理人は、文書のデジタル表現内のエンティティ(および/または関係)の個別の言及の周りの文脈を読まなければならない。発明の方法が提供するユーザインターフェイスにより、管理人は、文書のデジタル表現をキュレーションする際に、エンティティの個別のインスタンスに関する注釈データを見直し、および必要に応じて修正および/または入力するために検討しなければならない文書のデジタル表現のセクションをより素早く見つけられるようになる。管理人または第1の管理人の作業をチェックする第2の管理人は、図14に図示される動作モードでは、エンティティの個別のインスタンスに関するデータもチェックすることができる。
【0211】
エクスポート
周期的に、ターゲットサービスはキュレーションされたデータをターゲットデータベースにエクスポートする。ターゲットサービスはエクスポートすべきデータを順に系統的に進め、データがターゲットデータベース内に既に見出されるか否かをチェックする。見出されない場合、ターゲットデータベースのAPIを呼出すまたはSQLインサート/アップデートを生成することにより、データがターゲットデータベース中に挿入される。データをターゲットデータベース用の適切なフォーマットに翻訳する必要があるかもしれない。ターゲットデータベースが異なるオントロジデータを有する場合、これらの参照番号を翻訳する必要がある。この手順は、1つよりも多くのターゲットデータベースに投入するため繰返し可能であるまたは並行して実行可能である。
【0212】
発明の潜在的に重要なオプションの特徴は、キュレーションプロセスによって生成されたデータが将来的な文書ファイルの自動分析で用いられるフィードバックの提供である。
【0213】
フィードバック−オントロジデータ
図15は、情報抽出において用いるためのオントロジデータのフィードバックの概略図である。エンティティに関するオントロジデータ122は用語正規化のステップの際に用いられ、関係に関するオントロジデータも関係抽出のステップの際に用いられ得る。これらのステップの際に用いられるオントロジデータは、予め定められたオントロジデータ134とキュレーションプロセスの間に管理人によって追加された新たなオントロジデータ136との組合せである。このフィードバック手順は、情報抽出手順の信頼性を向上させ、費用効果を向上させ、ある状況ではシステム全体の精度を向上させる。新しいオントロジデータは、ときどき、情報抽出のために用いられるオントロジデータにバッチ式に追加可能であるか、または情報抽出のために用いられるオントロジデータに即時に追加されてもよい。
【0214】
より高度なオントロジ保守システムを図16に図示する。オントロジサブシステム400は、エンティティに関するオントロジデータ、およびオプションで(トークン化、固有表現抽出、用語正規化および関係抽出モジュールを備える)情報抽出モジュール402への関係を与える。オントロジデータはオントロジ記憶システム404に記憶され、情報抽出モジュールは、オントロジデータが保守担当者406および1人以上の管理人408によって修正可能となるように適合される。さらに、情報抽出モジュールはターゲットデータベース410からオントロジデータを受け、必要に応じてオントロジデータのフォーマットを翻訳する。これにより、ターゲットデータベースが更新されるとオントロジデータが更新されるようになる。ルックアップテーブルが記憶され、情報抽出およびキュレーションシステム中のエンティティ(およびオプションで関係)への参照番号をターゲットデータベース中のエンティティ(およびオプションで関係)にマッピングできるようにし得る。
【0215】
1つの例示的な実施例では、オントロジデータは単にエンティティ名称(たとえばタンパク質の名称)の語彙目録を備える。語彙目録内の各エンティティは一意なオントロジ識別子、その正規形を示すストリング、およびエンティティの同義語を示すストリングを有する。この種類の語彙目録は、より複雑なオントロジから関連の情報を抽出することによって容易に準備可能である。
【0216】
フィードバック−トレーニングデータ
図17は、システム内のトレーニングデータのフィードバックの概略図である。固有表現抽出モジュールは、まず、その目的のために与えられ、典型的にはそれらが正しく注釈付けされることを確実にするように注意深くチェックされた注釈付き文書ファイルからなるトレーニングデータを用いてトレーニングされる。
【0217】
キュレーションプロセスを実行する間、管理人は、彼らがキュレーションしていた文書またはその一部を選択することができ、すると彼らのキュレーションから生じた注釈付き文書ファイル(またはその一部)が選択された注釈付き文書ファイルのデータベース140中に記憶される。周期的に、固有表現抽出ソフトウェアモジュールは、選択された注釈付き文書ファイルのデータベースおよびさらに予め定められた注釈付き文書ファイル142のデータベースからのデータの双方を備えるトレーニングデータ118を用いて再トレーニングされる。この場合、キュレーションツールは典型的に、ユーザが、XMLファイルに含まれる基底注釈データを修正せずに、注釈データから導出されるデータを単に出力するよりもむしろ、注釈データを修正し、修正注釈データを出力XMLファイルに含められるようにするであろう。
【0218】
当業者は、情報抽出システム内の他のモジュールがこのように選択されたトレーニングデータを用いて再トレーニングされ得ることを認識するであろう。このようにトレーニングデータを選択することの重要な利点は、管理人が特定の文書ファイルの自動分析がいつ情報抽出システムによってまずく実行されたかを認識し、それにより再トレーニングにおいて用いるための特定の関連の文書ファイルを選択できることである。
【0219】
カスタマイズ
使用の際、情報抽出手順は、利用可能な先行ファイルの中から選択された先行ファイルを用いて固有表現抽出を実行することにより、複数の動作モードのうち1つに従って機能する。固有表現抽出ソフトウェアおよび特定の先行ファイルはともに、選択可能な代替的情報抽出モジュールの群から選択される情報抽出モジュールとして機能する。
【0220】
固有表現抽出モジュールが用いる先行ファイルは、エンティティの冒頭、エンティティのその後の一部、またはエンティティの一部ではないことを備えるトークンの尤度についての固有表現タグ付けプログラムの事前信念(prior belief)を手作業で変更することによって精度と再現率との間の異なるバランスを表示するように個別に選択された。これにより、管理人のグループ内の異なる管理人は異なるデータの組を見直しできるようになり、たとえば、ある管理人は精度を優先する情報抽出手順を用いて抽出されたデータを見直し得、他の管理人は精度よりも再現率を優先する情報抽出手順を用いて抽出されたデータを見直し得る。代替的にまたはさらに、管理人のグループはすべて再現率よりも精度を優先する情報抽出手順、または精度よりも再現率を優先する情報抽出手順を用いて抽出されたデータを見直し得る。しかしながら、グループ内の異なる管理人は、再現率よりも精度を優先する、または精度よりも再現率を優先するデータをそれぞれ異なる程度に見直してもよい。このように、データは、典型的には精度と再現率との間の異なるバランスを有する少なくとも2つの情報抽出動作モードを用いて文書の多数のデジタル表現から抽出され得、人間の管理人のチームの個別のメンバーは、異なる情報抽出動作モードで抽出されたデータを見直し得る。
【0221】
情報抽出は、抽出されたデータを見直しているであろう特定の管理人、または特定の動作モードをより好むことが分かっている管理人のグループのために、適切な動作モードで実行可能である。いくつかの実施例では、情報抽出は、2つ以上の動作モードで同じ文書に対して実行され、どの抽出データの組を特定の管理人に提示すべきかについての選択は後でなされる。
【0222】
この例では固有表現抽出モジュールのみが精度と再現率との間の異なるバランスを有する異なる動作モードを有するが、情報抽出パイプラインのいずれの段階または情報抽出パイプラインの段階の組合せも、精度と再現率との間の異なるバランスに最適化可能である。想定されるように、情報抽出手順の段階のうちあるものは再現率よりも精度を優先するように最適化可能であり、情報抽出手順の段階のうちあるものは精度よりも再現率を優先するように最適化可能である。
【0223】
フィードバック
管理人の成績を表わす好適な測定基準は、その特定の管理人についてまたは全般について情報抽出パイプラインを最適化するようにモニタ可能である。情報抽出パイプラインの個別の段階を実現する代替的なモジュールを試してみるためまたは情報抽出パイプラインの個別の段階を実現するモジュールを最適化するためにこれを用いることができる。
【0224】
好適な測定基準の例は、管理人が特定されたデータを見直すのにかかる時間、管理人によるキュレーションの速さ、究極の判断基準に対する管理人によって生じる誤りの率、特定されたデータを見直す管理人によるマウスクリックもしくはキー押下の数、またはキュレーションの間に省略したもしくは誤って抽出したデータを導入もしくは修正しながら彼らが必要とし得るデータを検索するために管理人によって動作可能なサーチエンジンを管理人が使用する回数を含む。
【0225】
たとえば、好適な測定基準は、管理人がサーチエンジンを用いた回数に関連する測定値であり得る。管理人は、自動情報抽出装置が文書のデジタル表現中のエンティティの言及のインスタンスを識別しなかった際または誤って識別した際にサーチエンジンを用い得る。サーチエンジンはRefSeqまたはMeSH語彙目録中の動作可能なサーチであり得る。
【0226】
これらの測定基準は、どの情報抽出動作モードが個別の管理人の最良の成績に繋がるかを判断するのに用いることも可能である。
【0227】
一貫性
情報抽出パイプラインはエンティティの個別の言及に関するデータを抽出し、エンティティの各々の個別の言及の文脈からそれらに識別子を割当てる。これは、特定の文字列が示すエンティティの異なるインスタンスに、文書のデジタル表現中の異なる場所で異なる識別子を割当て得るという効果を有する。時にはこれが正しいが、常にそうであるわけではない。
【0228】
代替的な実施例では、固有表現抽出モジュールは、同じ文字列を有するすべてのチャンクを同じエンティティの種類(たとえばタンパク質、遺伝子)に強制的に割当てるように変更される。同じ文字列を有するすべてのチャンクを強制的に同じエンティティの種類に割当てる1つの方法は、特定の種類のエンティティを表わすと識別される各々の文字列に、同じ文字列を有する文書中の各々のチャンクに同じ種類を波及させることである。文書のデジタル表現は典型的に、始めから終わりへ分析され、したがって文字列の最初のインスタンスに割当てられる識別子はこうして同じ文字列のすべての後続のインスタンスに割当てられる。同じ文字列を有するすべての固有表現に強制的に同じ識別子を割当てる第2の方法は、文書のデジタル表現に対して固有表現抽出を実行し、1つよりも多くの機会に固有表現として認識されるあらゆる文字列について、その文字列の各々のインスタンスに、最初の固有表現抽出ステップ中のその文字列の最も頻繁に割当てられた識別子の識別子を割当てることである。同一の文字列の一貫した解釈を強制する異なる方法は、異なる情報抽出動作モードで実現され得る。
【0229】
以上で引用された文献はこの引用により本明細書中に援用されている。
本明細書中に開示された発明の範囲内でさらなる変形および変更がなされ得る。
【技術分野】
【0001】
発明の分野
本発明は、自動情報抽出手順によって文書のデジタル表現から抽出されたデータのキュレーションを容易にするユーザインターフェイスを提供するための、コンピュータで実現される方法に関する。
【背景技術】
【0002】
発明の背景
社会および業界で発生する情報量は増加の一途を辿り、そのために、その情報を記憶し、見つけ出し、かつ分析することが難しくなり続けている。科学および技術文献などの情報を印刷した形態で記憶し、手作業で索引付けることが十分に可能であった時代もあったが、そのような時代は過去のものとなり、電子的記憶、検索および分析システムが近代世界の不可欠な部分となっている。
【0003】
ある種の情報処理はコンピュータ化された分析のみによって十分に対処可能である。たとえば、サーチ可能なウェブページのディレクトリは、人間による介入なしに自動的に準備され、大量の情報を記憶し、かつどのウェブページが特定的な語を含むかなどの問合せに応答してこの情報を検索するように使用可能である。
【0004】
しかしながら、ある情報処理タスクを自動化することが不可能であったり、また人間ならば達成するであろう水準にまでこれを自動化することが不可能であったりする。たとえば、自然言語テキストを備える文書の正確な自動分析は特に困難な問題となる。
【0005】
自然言語テキスト文書の自動分析は、コンピュータ言語学とも称される、成長を続ける自然言語処理(NLP)という科学分野によって扱われている。NLPは、以前は人間が行わなければならなかったタスクを実行するように用いられているが、継続的に発展しながらも完全な科学には至っていない。コンピュータ化によるコストおよびスピード面での利点により、人間による分析よりもむしろ自然言語自動分析法を用いることが望ましいことがしばしばあるが、人間による分析が依然として必須である多くの用途が存在する。
【0006】
可能ならば自動分析されるのが理想的な大量の情報が存在する分野の一例は、たとえば生物医学的科学文献などの科学文献である。新たな科学的発見をして既存のデータから結論を引き出すためには、科学文献で言及される生物学的エンティティ同士の間の関係に関する情報を記憶し呼び出すことができることが望ましい。たとえば、ある科学論文が第1のタンパク質がインビボで第2のタンパク質と相互作用するという仮説を支持する証拠を提供している場合、サーチ可能なデータベースにその情報を記憶することが望ましい。そのようなデータベースは技術の進歩に対する貴重な助けとなることができる。
【0007】
国際特許出願公開番号WO2005/017692(コグニアコーポレーション(Cognia Corporation))は、(タンパク質、遺伝子、化合物などの)エンティティおよびこれらのエンティティ同士の間の相互作用についての情報を含む生物医学的研究で用いるためのリレーショナルデータベースを記載する。相互作用に関するデータは、相互作用についての証拠を提供する科学論文への参照番号とともにデータベースに記憶される。このように、データベースは、エンティティおよびエンティティ同士の間の相互作用についての情報を見つけ出すだけでなく、それにより科学文献内の関連のソースを識別するためにもユーザによって問合せされ得る。データは、科学文献を読み、個別の文献で参照されるエンティティおよびそれらの文献内でデータによって仮説を立てられ、論じられ、または証明される関係を識別する人間の管理人によって、データベースに入力される。コンピュータ−ユーザインターフェイスが管理人に提供され、このインターフェイスにより、管理人は、他のデータの中から、エンティティの名称の正規形を規定するオントロジブラウザを介してオプションを選択することによってデータを入力できるようになる。このように、管理人が入力したデータは標準化された用語を用いるので、異なる名前でエンティティが参照されることが回避され、これによりデータベースの品質が向上する。
【0008】
しかしながら、WO2005/017692に記載されるシステムの欠点は、データベースをコンパイルするのに熟練した管理人がかなりの時間量を費やす必要があり、これにはコストがかかる可能性があることである。
【0009】
PCT/GB2007/001170(アイティーアイ・スコットランド・リミテッド(ITI Scotland Limited))は、文書のデジタル表現中のエンティティのインスタンスに関し、文書のデジタル表現内でのエンティティのインスタンスの場所を含む注釈データが情報抽出装置によって自動的に準備され、コンピュータ−ユーザインターフェイスを用いて見直しのために人間の管理人に提示される情報抽出手順を開示する。この仕組みは、データベースをコンパイルするのに人間の管理人が要する時間を短縮する。
【発明の概要】
【発明が解決しようとする課題】
【0010】
本発明は、たとえばデータベースへのエクスポートのためにデータを見直ししながら管理人が用いるための、情報抽出装置によって文書のデジタル表現から自動的に抽出されたデータを見直すのに用いるための改良されたコンピュータ−ユーザインターフェイスを提供することを目的とする。
【課題を解決するための手段】
【0011】
発明の要約
本発明の第1の局面に従うと、文書のデジタル表現から自動的に抽出された抽出データを見直しのために管理人に提示するコンピュータで実現される方法であって、抽出されたデータは、文書のデジタル表現中で識別されたエンティティの1つ以上のインスタンスに関する注釈エンティティデータを備え、注釈エンティティデータは、文書のデジタル表現内のエンティティの識別されたインスタンスの場所を特定するデータを備え、方法は、
(i) ディスプレイ画面の第1の領域に、文書のデジタル表現のユーザ選択可能部分を表示するステップを備え、注釈エンティティデータによって文書のデジタル表現の表示された部分内に位置するとして特定されるエンティティの当該インスタンスは、注釈エンティティデータによって特定される場所でハイライトされ、さらに
(ii) ディスプレイ画面の第2の領域に、文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストを表示するステップを備え、エンティティの列挙されたインスタンスのうち少なくとも1つは、それと関連付けられたユーザ選択可能ユーザインターフェイス要素を有し、さらに
(iii) エンティティのインスタンスと関連付けられたユーザ選択可能ユーザインターフェイス要素をユーザが選択するのに応答して、選択されたユーザインターフェイス要素と関連付けられたエンティティのインスタンスが位置する文書のデジタル表現内の場所を含むように、第1の領域に表示される文書のデジタル表現の部分を調整するステップを備える、コンピュータで実現される方法が提供される。
【0012】
この方法により、管理人は、見直しのために検討しなければならない文書のデジタル表現のセクションをより早く見つけることができるようになり、必要に応じて、文書のデジタル表現をキュレーションする際に、エンティティの個別のインスタンスに関する注釈データを修正および/または入力することができるようになる。
【0013】
文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストは、たとえば、注釈エンティティデータが関するエンティティの自動識別されたインスタンスなどのエンティティの自動的に識別されたインスタンスを備えるか、またはそれらからなるリストであり得る。
【0014】
文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストは、管理人によって見直されたエンティティの識別されたインスタンスを備えるか、またはそれらからなるリストであり得る。
【0015】
文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストは、抽出されたデータ中で特定されなかったが管理人によって識別されたエンティティのインスタンスを備え得る。
【0016】
文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストは、キュレーションされたデータ記録がデータベースへの出力のために準備されたエンティティのインスタンスを備え得る。
【0017】
この方法は、エンティティの複数のインスタンスのリスト中の、エンティティの個別のインスタンスの付近から、文書のデジタル表現からのテキストのセグメントを表示するステップを備え得る。ユーザ選択可能ユーザインターフェイス要素は、エンティティの個別のインスタンスに関するテキストのセグメント、またはエンティティの個別のインスタンスに関するテキストのセグメントの部分を備え得る。たとえば、ユーザ選択可能ユーザインターフェイス要素は、エンティティの個別のインスタンスに関するテキストのセグメント内のエンティティを示すハイライトされたテキストであり得る。
【0018】
選択されたユーザインターフェイス要素と関連付けられたエンティティのインスタンスが位置する文書のデジタル表現内の場所を含むように、第1の領域に表示される文書のデジタル表現の部分を調整するステップは、選択されたユーザインターフェイス要素と関連付けられたエンティティのインスタンスが、たとえば第1の領域のほぼ中程などの第1の領域の特定的な部分内に位置するように、第1の領域に表示される文書のデジタル表現の部分を調整するステップを備え得る。
【0019】
好ましくは、方法は、関係の識別されたインスタンスの識別された場所で、第1の領域に表示される文書のデジタル表現の部分内に位置すると識別された関係のインスタンスをハイライトするステップをさらに備え、方法は、文書のデジタル表現中で識別された関係の複数のインスタンスのリストをディスプレイ画面の第2の領域に表示するステップをさらに備え、関係の列挙されたインスタンスのうち少なくとも1つは、それと関連付けられたユーザ選択可能ユーザインターフェイス要素を有し、さらに、関係のインスタンスと関連付けられたユーザ選択可能ユーザインターフェイス要素をユーザが選択するのに応答して、選択されたユーザインターフェイス要素と関連付けられた関係のインスタンスが位置する文書のデジタル表現内の場所を含むように、第1の領域に表示される文書のデジタル表現の部分を調整するステップを備える。関係の複数のインスタンスのリストは、エンティティの複数のインスタンスのリストと同時にまたは異なる時期に表示され得る。
【0020】
好ましくは、この方法は、エンティティ(およびオプションで関係)のインスタンスに関する抽出データを見直すためのコンピュータ−ユーザインターフェイス手段(たとえばコンピュータ−ユーザインターフェイス)をユーザに提供するステップをさらに備える。
【0021】
好ましくは、この方法は、エンティティ(およびオプションで関係)のインスタンスに関する新しいまたは修正されたデータを管理人から受けるように動作可能なコンピュータ−ユーザインターフェイス手段(たとえばコンピュータ−ユーザインターフェイス)をユーザに提供するステップをさらに備える。
【0022】
好ましくは、この方法は、管理人によって文書のデジタル表現内で識別されたが抽出データによっては特定されないエンティティ(およびオプションで関係)のインスタンスに関するデータを受けるように動作可能なコンピュータ−ユーザインターフェイス手段(たとえばコンピュータ−ユーザインターフェイス)をユーザに提供するステップをさらに備える。
【0023】
この方法は、たとえばディスプレイと電子通信するコンピュータなどの、ディスプレイと電子通信する演算装置によって典型的に実行される。このまたは各々のユーザ選択可能ユーザインターフェイス要素は、たとえば当該コンピュータと電子通信するマウスなどの、演算装置と関連付けられたポインティングデバイスを用いて典型的に選択可能である。このまたは各々のユーザ選択可能ユーザインターフェイス要素は、ユーザインターフェイス要素を含むディスプレイの領域上を、ポインタを動かすようにポインティングデバイスを操作することによって選択可能であり得る。たとえば、このまたは各々のユーザ選択可能ユーザインターフェイス要素は、「マウスオーバ」イベントに応答して選択可能であり得る。ユーザ選択可能ユーザインターフェイス要素の選択は、マウスボタンのクリックなどの、ユーザが作動させるさらなる選択イベントを要件としてもよいし、しなくてもよい。
【0024】
この方法は、情報抽出装置を用いてエンティティのインスタンスに関する注釈エンティティデータ(およびオプションで注釈関係データ)を自動的に抽出して見直し用の抽出データを準備するステップを備え得る。
【0025】
この方法は、発明の第17の局面に従う方法を実行するステップと、ディスプレイの第2の領域に、ノード要素の群からユーザが選択したノード要素の表現を表示するステップとを備え得、同じ非葉ノード要素の子であるエンティティのインスタンスと関連付けられた葉ノード要素の1つ以上の群は、エンティティの複数のインスタンスのリストとして表示され、各々の葉ノード要素は、エンティティの複数のインスタンスのリスト中のエンティティのインスタンスと関連付けられたユーザ選択可能ユーザインターフェイス要素として機能するかまたはこれを備える。
【0026】
発明の第1の局面のさらなるオプションの特徴は、発明の第1から第16の局面に関連して以下で論じられる特徴に対応する。
【0027】
本発明の第2の局面に従うと、文書のデジタル表現に関連付けられた注釈データを編集する方法であって、この方法は、演算装置によって実行される、
(i) 文書のデジタル表現および注釈データを入力データとして受けるステップを備え、注釈データは文書のデジタル表現中で識別されたエンティティの1つ以上のインスタンスに関する注釈エンティティデータを備え、注釈エンティティデータは、文書のデジタル表現中で識別された1つ以上のエンティティのインスタンスの識別子および文書のデジタル表現内のエンティティの識別されたインスタンスの場所を特定するデータを備え、エンティティのインスタンスの識別子はオントロジデータへの参照番号を備え、さらに
(ii) ディスプレイ画面の第1の領域に、(コンピュータ−ユーザインターフェイスなどの)コンピュータ−ユーザインターフェイス手段のユーザに対して文書のデジタル表現のユーザ選択可能部分を表示するステップを備え、注釈は注釈データに依存し、当該注釈は、注釈エンティティデータによって特定される文書のデジタル表現内の場所で、その場所が注釈エンティティデータ中に特定されるエンティティのインスタンスのうち1つ以上を少なくともハイライトすることを含み、さらに
(iii) コンピュータ−ユーザインターフェイス手段のユーザから受けた指示に応答して、修正された注釈データを準備するステップと、
(iv) 修正された注釈データから導出される出力データを出力するステップとを備え、
この方法はさらに、コンピュータ−ユーザインターフェイス手段が、ディスプレイ画面の第2の領域に、文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストを表示するように動作可能であるユーザ選択可能動作モードを提供するステップを備え、エンティティの列挙されたインスタンスのうち少なくとも1つは、それと関連付けられたユーザ選択可能ユーザインターフェイス要素を有し、さらに、エンティティのインスタンスと関連付けられたユーザ選択可能ユーザインターフェイス要素をユーザが選択するのに応答して、選択されたユーザインターフェイス要素と関連付けられたエンティティのインスタンスが位置する文書のデジタル表現内の場所を含むように、第1の領域に表示される文書のデジタル表現の部分を調整するステップを備える、方法が提供される。
【0028】
出力データは、好ましくは、修正された注釈データを備える。
好ましい実施例では、注釈データを編集する方法は、データベースに投入する方法の一部である。したがって、発明は、第3の局面では、データベースに投入する方法に拡張され、この方法は、本発明の第1の局面に従う方法によって、文書のデジタル表現と関連付けられた注釈データを編集するステップと、データベースに出力データを投入するステップとを備える。この明細書および添付の請求項内で「注釈データを編集する」とは、注釈データの変更などの注釈データの修正と、新しい注釈データまたは注釈データもしくはそれから導出されるデータを修正することによって新しい注釈データから導出される出力データの準備との両方を含む。
【0029】
好ましくは、注釈データは、文書のデジタル表現の自動コンピュータ分析によって得られる。
【0030】
このように、第4の局面では、発明は、発明の第3の局面に従うデータベースに投入する方法にも拡張され、注釈データを編集するステップのために入力データとして受けられる注釈データは、演算装置によって実行される、文書のデジタル表現を入力データとして受けるステップと、文書のデジタル表現を分析するステップと、文書のデジタル表現に含有されるエンティティの1つ以上のインスタンスを識別するステップと、エンティティの識別されたインスタンスのうち少なくともいくつかについては、文書のデジタル表現中で識別されたエンティティの1つ以上のインスタンスに関する注釈エンティティデータを備える注釈データを記憶するステップとによって得られ、注釈エンティティデータは、文書のデジタル表現中で識別された1つ以上のエンティティのインスタンスの識別子および文書のデジタル表現内のエンティティの識別されたインスタンスの場所を特定するデータを備え、エンティティの識別子はオントロジデータへの参照番号を備え、記憶された注釈データは注釈データを編集するステップのための入力データとして用いられる。
【0031】
したがって、発明は、演算装置による、文書のデジタル表現の自動分析によってまず導出される注釈データを人間の管理人が見直して修正できるようにするための方法を提供する。この方法は典型的には、複数の文書のデジタル表現の分析および見直しを可能にするように繰返されるであろう。
【0032】
文書のデジタル表現内のエンティティのインスタンスの場所を特定するデータを記憶するプロセスと、エンティティの識別されたインスタンスのうち1つ以上が文書のデジタル表現内の特定された場所でハイライトされた状態で、コンピュータ−ユーザインターフェイス手段のユーザに対して、文書の分析されたデジタル表現の少なくとも一部を表示することとは、人間の管理人が自動分析を見直してチェックすることを容易にする。我々は、文書のデジタル表現に対して注釈を付与することにより、チェックおよびキュレーションを必要とする関連の特徴を管理人が識別するのが容易になること、ならびに、WO2005/017692に記載のものなどのコンピュータ−ユーザインターフェイスを用いて管理人が印刷文書を読み、エンティティ、関係などに関するデータを入力するシステムと比較して彼らの作業速度が向上することを見出した。
【0033】
ある実施例では、注釈データに依存する注釈を、注釈データによって特定される文書のデジタル表現内の場所に表示することにより、人間の管理人が、演算のみによっては正確に判断することができない注釈データを追加できるようになる。これにより、人間の管理人が自動的に準備された注釈データを訂正および見直しするのが容易になる。
【0034】
修正された注釈データを準備するステップは、注釈データを修正するステップを備え得る。修正された注釈データを準備するステップは、コンピュータ−ユーザインターフェイス手段が提供する表示を対話的に更新するステップをさらに備え得る。管理人が注釈データを修正できるようにするとともにコンピュータ−ユーザ手段が提供する表示を対話的に更新することにより、発明は、人間の管理人が、たとえば2つ以上のエンティティ同士の間の関係に関連する注釈などの、エンティティの正しい注釈に依存する注釈データをより便利に追加、修正またはチェックできるようにし得る。この手順によって修正された結果的に得られる注釈データは、オントロジデータベースの作成もしくは修正および/またはトレーニング可能な情報抽出モジュールをトレーニングするためのトレーニングデータの準備に有用である。
【0035】
修正された注釈データを準備するステップは、コンピュータ−ユーザインターフェイス手段のユーザから受けた指示に応答して、注釈データから導出された(たとえばコピーまたは抽出された)仮の修正注釈データを表示するステップと、仮の修正注釈データを更新するステップとを備え得る。仮の修正注釈データは、当該注釈データに依存する表示された注釈をユーザが選択するのに応答して、注釈データから導出され得る。このように、仮の修正注釈データを表わす、ボタン、チェックボックス、テキスト入力欄、メニュー、ドロップダウンメニューなどのユーザに対して表示される1つ以上の対話的ユーザ−インターフェイス要素は、ユーザが選択した注釈に関する注釈データを用いて自動的に予め投入され得、ユーザには、仮の修正注釈データおよび1つ以上の対話的ユーザインターフェイス要素によるその表現を対話的に修正して修正注釈データを準備する選択肢が与えられ得る。この場合、入力データとして受けられた注釈データは修正されてもされなくてもよい。
【0036】
出力データは、注釈エンティティデータから導出される1つ以上のエンティティに関する出力エンティティデータを備え得る。出力エンティティデータは、好ましくは、1つ以上のエンティティの識別子を備える。典型的には、エンティティの識別子はオントロジデータへの参照番号である。出力データは、文書内のエンティティの1つ以上の識別されたインスタンスの場所を含み得るが、出力データは、文書のデジタル表現内のエンティティの識別されたインスタンスの場所を含まないことがある。
【0037】
好ましくは、出力データは文書識別子を備える。これにより、データベース中のデータをサポートする情報を含有する1つ以上の文書の識別が可能になる。
【0038】
好ましくは、注釈データは、文書のデジタル表現によって記述されるエンティティ同士の間の関係のインスタンスに関する注釈関係データを備える。修正注釈データを準備するステップは、コンピュータ−ユーザインターフェイス手段のユーザからエンティティ同士の間の関係の1つ以上のインスタンスに関するデータを受けるステップと、応じて修正注釈関係データを準備するステップとを備え得る。
【0039】
修正注釈データは当初の(すなわち受けた)注釈データとは異なるフォーマットであり得るが、修正注釈データは当初の(すなわち受けた)注釈データと同じフォーマットであってもよい。注釈データに関連して本明細書中で記載されるオプションのおよび好ましい特徴は、特に他に記載がなければ、適用可能な場合、この方法を通じて、修正注釈データおよび関連のある場合は仮の修正注釈データのオプションのおよび好ましい特徴であり得る。したがって、仮の修正注釈データは仮の修正注釈エンティティデータおよび仮の修正注釈関係データを備え得る。
【0040】
好ましくは、出力データは、エンティティ同士の間の1つ以上の関係に関する出力関係データを備え、この関係は文書によって記述され、当該データは修正注釈データから導出される1つ以上の関係に関する。
【0041】
出力関係データは、文書中で言及されるエンティティ同士の間の関係への文書中での参照番号の特定的なインスタンスに関し得る。関係は、文書全体の結論に関し得、たとえば、出力関係データは、文書の主題、文書の結論、または文書が論じるもしくはサポートする仮説である関係に関し得る。
【0042】
注釈データは注釈関係データを当初は備えないが、修正注釈データは注釈関係データを備えるかまたは備え得るであろう。このように、注釈関係データは、コンピュータ−ユーザインターフェイス手段のユーザから受けた指示に応答して初めて注釈データ内に含まれ得る。コンピュータ−ユーザインターフェイス手段が仮の修正注釈データを作成しかつ表示するように適合される場合、コンピュータ−ユーザインターフェイス手段は、ユーザが、仮の修正注釈データを修正してエンティティ間の関係を特定できるようにし得る。たとえば、ユーザは、関係が関連する1つ以上のエンティティを規定できるようになり得る。
【0043】
出力関係データは、文書のデジタル表現内に関係の1つ以上のインスタンスの場所を備え得る。注釈関係データは、文書のデジタル表現内に関係の場所を備え得る。文書のデジタル表現を分析するステップは、文書のデジタル表現内の関係の1つ以上のインスタンスの場所を識別するステップと、注釈データ内の関係の1つ以上のインスタンスの場所を特定する関係データを記憶するステップとを含み得る。このステップは、関係に関するオントロジデータを備え得るオントロジデータを参照して実行され得る。オプションで、注釈関係データは、データのデジタル表現内の関係の1つ以上のインスタンスの場所を備え、出力データは、データのデジタル表現内の関係のいずれのインスタンスの場所も備えない。
【0044】
文書のデジタル表現内のエンティティのインスタンスの場所を特定するデータの識別および記憶は、(エンティティ同士の間の関係を自動識別する実施例では)文書のデジタル表現内のエンティティ同士の間の関係の自動識別を容易にする。これは、文書がエンティティ同士の間の関係が存在することを示すか否かを判断する際に、当該技術分野で公知のいくつかの関係抽出アルゴリズムが、エンティティ同士の近接性またはエンティティの周囲のもしくはエンティティ間の単語を考慮するからである。文書のデジタル表現内のエンティティのインスタンスを特定するデータの識別および記憶は、マウスなどのポインティングデバイスを用いてエンティティを指すことにより、そのエンティティまたはそのエンティティに関する関係に関する修正注釈データを準備するのに用いられるエンティティをユーザが選択できるようにするコンピュータ−ユーザインターフェイス特徴を設けるのを容易にする。
【0045】
注釈データが注釈関係データを備える場合、この方法は、演算装置によって実行される、文書のデジタル表現中のエンティティの1つ以上のインスタンスを識別するステップを含み得るが、演算装置によって実行される、識別されたエンティティ同士の間の関係のインスタンスを識別するステップは含まないかもしれない。このように、注釈関係データは、コンピュータ−ユーザインターフェイス手段のユーザの行為に応じてのみ記憶され得る。しかしながら、好ましい実施例では、演算装置によって実行される文書のデジタル表現を分析するステップは、エンティティ同士の間の関係のインスタンスを自動識別するステップと、関係の識別されたインスタンスに関する注釈関係データを備える注釈データを記憶するステップとを含む。
【0046】
出力データは、(出力関係データなどの)関係に関するデータは備え得るが(出力エンティティデータなどの)エンティティに関するデータは備えなくてもよく、または(出力エンティティデータなどの)エンティティに関するデータは備え得るが(出力関係データなどの)関係に関するデータは備えなくてもよく、または(出力関係データおよび出力エンティティデータなどの)関係に関するデータとエンティティに関するデータとの両方を備えてもよい。
【0047】
コンピュータ−ユーザインターフェイス手段のユーザからの指示に応答した注釈データに対する修正は、好ましくは、エンティティのインスタンスに関する注釈エンティティデータを削除するステップ;たとえば、エンティティのインスタンスの場所を特定するデータまたはエンティティの識別子もしくはインスタンスを修正することにより(たとえば、エンティティの正規形への参照番号を追加することもしくはエンティティの正規形への参照番号をエンティティの異なる正規形への参照番号に修正することなどにより、オントロジデータへの参照番号を追加または修正することにより)エンティティのインスタンスに関する注釈エンティティデータを修正するステップ;エンティティのインスタンスに関する注釈エンティティデータを追加するステップ;関係のインスタンスに関する注釈関係データを削除するステップ;関係のインスタンスに関する注釈関係データを修正するステップ;関係のインスタンスに関する注釈関係データを追加するステップのうち1つ以上を備える。
【0048】
注釈エンティティデータおよび/または出力エンティティデータはエンティティのプロパティを備え得る。注釈関係データおよび/または出力関係データは関係のプロパティを備え得る。
【0049】
エンティティのプロパティは、エンティティの状態(たとえばエンティティがリン酸化されているか)、またはエンティティの場所(たとえば細胞内でのエンティティの場所)、またはエンティティのプロパティ(たとえばタンパク質の分子量)、またはエンティティが含まれるクラス(たとえばGタンパク質)、またはエンティティが分類される種もしくは分類群(たとえばキイロショウジョウバエまたは昆虫綱)のうち1つ以上を備え得る。出力エンティティデータは、文書のデジタル表現から自動的に導出されるエンティティのプロパティを備え得、文書のデジタル表現を分析するステップは、演算装置によって実行されるエンティティのプロパティを判断するステップを含み得る。このステップは、オントロジデータを参照して実行され得、オントロジデータはエンティティのプロパティに関するデータを備え得る。
【0050】
出力関係データは、文書のデジタル表現から自動的に導出される関係のプロパティを備え得、文書のデジタル表現を分析するステップは、演算装置によって実行される関係のプロパティを判断するステップを含み得る。このステップは、好ましくは、オントロジデータを参照して実行され、オントロジデータは関係のプロパティに関するデータを備え得る。
【0051】
コンピュータ−ユーザインターフェイス手段のユーザからの指示に応答した注釈エンティティデータまたは仮の修正注釈エンティティデータに対する修正は、エンティティのプロパティに関するデータの追加、削除または修正を備え得る。出力エンティティデータは、注釈エンティティデータから導出されるエンティティのプロパティに関するデータを備え得る。
【0052】
コンピュータ−ユーザインターフェイス手段のユーザからの指示に応答した注釈関係データまたは仮の修正注釈関係データに対する修正は、関係のプロパティに関するデータの追加、削除または修正を備え得る。出力関係データは、注釈関係データから導出される関係のプロパティに関するデータを備え得る。
【0053】
注釈エンティティデータまたは仮の修正注釈データをユーザが追加または修正できるようにする実施例では、コンピュータ−ユーザインターフェイス手段のユーザ(または自動プロセス)が、演算装置が文書のデジタル表現内のエンティティのインスタンスを識別した際に識別されなかったまたは正しく識別されなかったエンティティ同士の間の関係に関する注釈関係データを記憶できるようになる。コンピュータ−ユーザインターフェイス手段は、エンティティの誤った自動識別を訂正することによりユーザが注釈関係データもしくは仮の修正注釈データを修正できるようにするか、または、識別されていないエンティティもしくは識別はされたが関係が関するエンティティとして正しく自動識別されなかったエンティティの識別子をユーザが入力できるようにする、ユーザインターフェイス要素を備え得る。したがって、これにより、管理人は、注釈関係データまたは仮の修正注釈関係データを見直し、訂正することができるようになる。
【0054】
好ましい実施例では、注釈エンティティデータは、文書のデジタル表現内のエンティティの特定的なインスタンスに関するが、出力データはエンティティそれ自体に関する。たとえば、(恐らくはタンパク質の1つよりも多い同義語を用いて)文書のデジタル表現中で単一のタンパク質に対して5つの参照番号が存在し得るが、出力データは、文書のデジタル表現内のエンティティの特定的なインスタンスを参照することなく、エンティティそれ自体に関し得る(たとえば、出力データはエンティティそれ自体のプロパティを備え得る)。
【0055】
好ましい実施例では、注釈関係データは文書のデジタル表現内の関係の特定的なインスタンスに関するが、出力関係データは関係それ自体に関する。たとえば、(タンパク質の恐らくは1つよりも多い同義語を用いて)文書のデジタル表現中で2つのタンパク質の間の関係に対して4つの参照番号が存在し得るが、出力データは、文書のデジタル表現内の関係の特定的なインスタンスを参照することなく、関係それ自体に関し得る(たとえば、出力データは2つのタンパク質それら自体の間の関係のプロパティを備え得る)。
【0056】
文書が生物医学的情報を備える場合、エンティティは、化学種、オリゴヌクレオチド、オリゴペプチド、オリゴ糖、ポリヌクレオチド、ポリペプチドまたは多糖、タンパク質もしくは核酸などの生化学高分子、オルガネラ、細胞、ウイルスもしくは多細胞生物などの細胞レベル下成分を備え得る。エンティティはより大きなエンティティの一部(たとえばタンパク質のドメイン)であってもよく、またはエンティティの組合せ(たとえばタンパク質複合体)であってもよい。
【0057】
エンティティ識別子は、(たとえばデータを投入されるデータベース中のエンティティの受入番号などの)データを投入されるデータベース中のエンティティの識別子のエイリアスであり得る。エンティティ識別子は、データベース中のエンティティの識別子に分解可能であり得、方法は、エンティティ識別子を分解して、データを投入されるデータベース中の対応のエンティティの識別子を判断するステップを備え得る。
【0058】
好ましくは、エンティティ識別子は、特定のエンティティに関するオントロジデータ内のデータへの参照番号である。好ましくは、オントロジデータはエンティティの同義語を備える。オントロジデータは典型的には、エンティティの正規形を備える。方法は、エンティティ識別子を用いてオントロジデータからエンティティの正規化された同義語を検索するステップと、データベースに投入されるデータ中にエンティティの正規化された同義語を含めるステップとを備え得る。当業者は、エンティティの正規化された同義語が選択的事項であり、異なるオントロジにおいては異なり得ることを認めるであろう。
【0059】
注釈関係データ、およびオプションで出力関係データは、好ましくは、その間の関係が識別されたエンティティの識別子を備え、その間の関係が識別されたエンティティの識別子から単になり得る。識別子は、文書のデジタル表現内のエンティティの特定的なインスタンスの識別子(たとえばエンティティを示す特定の単語を示すコード)である可能性がある。これに代えて、それらは、エンティティの特定的な言及に関連していないエンティティの識別子(たとえば特定のタンパク質を示すコード)である可能性がある。
【0060】
注釈関係データ、およびオプションで出力関係データは、テキスト内の関係のインスタンスの場所を備え得る。たとえば、注釈関係データおよび/または出力関係データは、関係のインスタンスに関連するテキストが始まる文書のデジタル表現内の文字の識別子、および関係のインスタンスに関連するテキストが終わる文書のデジタル表現内の文字の識別子も備え得る。しかしながら、注釈関係データ、およびオプションで出力関係データは、関係のインスタンスの場所を備えない場合があり得る。いくつかの実施例では、注釈関係データは関係の1つ以上のインスタンスの場所を備えるが、出力関係データはこれを備えない。
【0061】
好ましい実施例では、注釈関係データは、文書のデジタル表現内にエンティティの特定のインスタンスの識別子を備える。エンティティの識別されたインスタンスの場所が記憶されるので、関係の場所は1つのエンティティから別のエンティティに拡張すると考えられ得る。
【0062】
注釈関係データは、エンティティの識別子を備え得る(たとえば、エンティティの識別子がエンティティの同義語を備えるオントロジデータへの参照番号であり得る)。好ましくは、注釈関係データは、たとえば、文字オフセットまたは単語識別子などのエンティティの特定的なインスタンスの識別子を備える。
【0063】
典型的には、エンティティ同士の間の関係は2つのエンティティの間の2値的な関係である。しかしながら、エンティティ同士の間の関係は2つ以上のエンティティの間の関係であり得る。エンティティ同士の間の関係は技術的な関係であり得る。たとえば、エンティティがタンパク質である場合、関係は、タンパク質同士の間の証明されたまたは仮説を立てられた技術的関係であり得る。たとえば、関係は、あるタンパク質が別のタンパク質と相互作用するというものであり得る。
【0064】
関係は方向を示してもよい。たとえば、注釈関係データおよび/または出力関係データは、相互作用の方向(たとえば第1のタンパク質が第2のタンパク質に作用したこと)を特定し得る。
【0065】
関係は仮説的なものであってもよい。関係は提案されてもよい。関係は文書中で明示的に述べられてもよい。関係は文書によって暗示されてもよい。関係は、たとえば、2つのエンティティが相互作用しないことまたは文書が結論をサポートしないことなど、否定的事実または仮説であってもよい。
【0066】
注釈関係データ、およびオプションで出力関係データは、文書のデジタル表現内の関係の場所を備え得る。注釈関係データ、およびオプションで出力関係データは、その関係を特定するテキストが始まり、終わる文書のデジタル表現内の場所を備え得る。場所は、2つ以上のエンティティの識別子を特定する注釈関係データおよびオプションで出力関係データによって、ならびにエンティティの2つ以上の識別されたインスタンスの場所を特定するデータを備える注釈データによって暗示され得る。注釈関係データは文書のデジタル表現内に1つ以上の関係の場所を備えるが、出力データは文書のデジタル表現内に1つ以上の関係の場所を備えないことがある。
【0067】
いずれかの識別された関係のうち少なくともいくつかに関するデータを表示するステップを方法が含み、かつ文書のデジタル表現内に当該関係の場所または文書のデジタル表現内の当該関係の場所をそこから導出可能なデータを注釈データが備える場合、いずれかの識別された関係のうち少なくともいくつかは、注釈データとして記憶された文書のデジタル表現内の場所に表示され得る。
【0068】
好ましくは、注釈関係データおよび/または出力関係データは、関係が関するエンティティを識別するテキストの断片を備える。テキストの断片は、文書のデジタル表現の断片に対応し得る。しかしながら、テキストの断片は、関係が関するエンティティの正規形を備え得る。方法は、オントロジデータを参照して、関係が関する1つ以上のエンティティの正規形を判断するステップと、出力関係データおよび/または注釈関係データおよび/または仮の修正注釈関係データ中に正規形を含めるステップとを含み得る。
【0069】
文書のデジタル表現内のエンティティの識別されたインスタンスの場所を特定する注釈エンティティデータは、文書のデジタル表現内のエンティティの識別されたインスタンスの場所を備え得る(たとえば、データは、エンティティのインスタンスが始まる文字と関連付けられた数字、またはエンティティのインスタンスを示す特定の単語に割当てられた数字を備え得る)。しかしながら、文書のデジタル表現内のエンティティの識別されたインスタンスの場所を特定するデータは、文書のデジタル表現内のエンティティの識別されたインスタンスの場所がそれから算出され得るデータを備え得る。好ましくは、エンティティデータ(たとえばエンティティの識別子)のいくらかまたはすべては、文書のデジタル表現内にインラインで埋込まれ、それは、文書のデジタル表現内のエンティティの場所を特定する文書のデジタル表現内のエンティティデータの場所である。
【0070】
文書のデジタル表現は注釈データを備え得る。好ましい実施例では、文書のデジタル表現および注釈データは、注釈データがファイル内にタグ付きの値の形式で記憶された状態で、マークアップ言語でファイルの形式で記憶されるデータを備えるか、またはそれからなる。たとえば、文書のデジタル表現は、XMLファイルの形式で記憶され得、そのフォーマットは、注釈データがタグ付きの値としてその中に含まれる、たとえばXML1.0またはXML1.1などのWWWコンソーシアム(www.w3.org/xmlを参照)によって時折発行されるようなXML標準に対応する。
【0071】
注釈関係データは、文書のデジタル表現内にインラインで記憶され得るが、好ましくは、注釈関係データは、文書のデジタル表現と同じファイル内に、または別個のファイルとしてスタンドオフ(standoff)注釈の形式で記憶される。
【0072】
修正注釈データは、記憶された注釈データを修正することによって準備され得る。修正注釈データは、異なる注釈データを記憶し、異なる注釈データを用いることによって修正され得る。修正注釈データは、まず注釈データから導出された仮の注釈データを修正することによって準備され得る。
【0073】
文書のデジタル表現は、好ましくは、テキストを表わすデータを備える。好ましくは、文書はテキストを備える。文書のデジタル表現は、好ましくは、文字がテキストのデータの整理、制御または表現のために用いられる情報の単位である文字を備える。文書のデジタル表現は、ASCII、ISO646またはISO/IEC10646(Unicode)などの認識された国際文字レパートリに従う文字を備え得る。
【0074】
文書は、学術論文、特許文書、書籍の章または書籍などのテキスト文書であり得る。しかしながら、文書は、画像またはスピーチを含み得る。文書は、印刷された書籍または論文として発行された文書などの印刷文書であり得る。文書は電子的なフォーマットであってもよく、たとえば、文書は、たとえばポータブルドキュメントフォーマット(PDF)ファイルとして電子的に発行されてもよい。文書が電子的フォーマットである場合、文書のデジタル表現は、文書、文書のコピー、または文書のプレーンテキスト表現であり得る。しかしながら、文書のデジタル表現は一般的に文書から導出される。たとえば、印刷文書は光学式文字認識ソフトウェアによってスキャンされ分析され得る。
【0075】
文書のデジタル表現は、文書の一部のみの表現を備え得る。デジタル表現は、文書に含まれる、たとえば画像、上付き、下付き、ページ番号、ページタイトルなどのうち1つ以上など、文書のいくつかの特徴を省略してもよい。文書のデジタル表現は、文書の電子的分析によって得られ得る。方法は、文書を分析して文書のデジタル表現を準備するステップを備え得る。好ましくは、文書のデジタル表現は、XMLファイルからマークアップを取除くことによっては準備されない。
【0076】
文書識別子は好ましくは文書を識別する。たとえば、文書識別子は、科学論文への参照番号、またはPubMed IDなどの識別コードもしくは受入番号を備え得る。しかしながら、文書識別子は、同じくまたは代わりに、文書のデジタル表現を識別し得る。たとえば、文書識別子は、文書のデジタル表現の個人コレクション内の文書のデジタル表現の識別子であり得る。注釈データは、文書の文書識別子および文書のデジタル表現の文書識別子を備え得る。文書識別子は、たとえば文書の要約などの文書の一部を識別し得る。同じ文書(またはそのデジタル表現)の異なる一部は異なる文書識別子を有し得る。たとえば、文書の要約の文書識別子は、文書のテキストの本文の文書識別子とは異なるものであり得る。文書識別子は、文書の集合の識別子を備え得る。
【0077】
文書は、科学論文、技術説明、または実験記録などの技術的文書であり得る。文書は、たとえば、生物医学情報、天体物理情報、地理情報、地球物理情報、数学情報、工学情報、または自然科学情報のうち1つ以上のいずれかの組合せなど、特定的な技術分野に関する情報を備え得る。文書は特許刊行物であってもよく、または特許情報を備えてもよい。方法は、同じ技術分野からのより多くの文書について繰返されて、当該技術分野のうち1つ以上のいずれの組合せにも関するデータをデータベースに投入し得る。
【0078】
方法は、1つ以上の判断基準を満たす文書のデジタル表現を検索するステップを含み得る。注釈データは、当該判断基準のうちいくつかまたはすべてを備え得、方法は、注釈データ中に当該判断基準のうちいくつかまたはすべてを記憶するステップを備え得る。方法は、それが元々検索された形式で文書のデジタル表現を記憶するステップと、ユーザ−インターフェイス手段のユーザが文書の元のデジタル表現を表示する手段を提供するステップとを含み得る。
【0079】
データベースは好ましくはリレーショナルデータベースであるが、データベースは、たとえば、オブジェクト指向データベース、オブジェクトリレーショナルデータベースまたはフラットファイルデータベースなどのいずれの種類のデータベースであってもよい。
【0080】
データベースは、好ましくは、エンティティに関するデータ、エンティティのプロパティに関するデータ、エンティティ同士の間の関係に関するデータ、およびエンティティ同士の間の関係のプロパティに関するデータのうちいくつかまたは好ましくはすべてを備える。
【0081】
コンピュータ−ユーザインターフェイス手段は、好ましくは、ユーザインターフェイスコンポーネントがその上に表示されるコンピュータモニタなどのディスプレイを備える。コンピュータ−ユーザインターフェイス手段は、好ましくは、キーボードおよび/または(コンピュータマウスなどの)ポインティングデバイスなどの、指示を与えるための手段を備える。
【0082】
エンティティのインスタンスは、周囲のテキストとは異ならせて(たとえば、異なる色、スタイルおよび/またはフォントで)エンティティのインスタンスを提示することにより、注釈エンティティデータが特定する文書のデジタル表現内の場所でハイライトされ得る。エンティティのインスタンスは、周囲のテキストとは異なる背景色上にそれらを表示することにより、注釈エンティティデータが特定する文書のデジタル表現内の場所でハイライトされ得る。
【0083】
関係のインスタンスは、周囲のテキストとは異ならせて(たとえば、異なる色、スタイルおよび/またはフォントで)関係のインスタンスを表示することにより、注釈関係データが特定する文書のデジタル表現内の場所でハイライトされ得る。関係のインスタンスは、周囲のテキストとは異なる背景色上にそれらを表示することにより、注釈関係データが特定する文書のデジタル表現内の場所でハイライトされ得る。しかしながら、関係のインスタンスは、その関係を記述する文書のデジタル表現内の場所以外で、コンピュータ−ユーザインターフェイス手段のユーザに表示されてもよい。
【0084】
コンピュータ−ユーザインターフェイス手段は、ユーザがエンティティの1つ以上のインスタンスを選択し、エンティティの当該選択されたインスタンスがエンティティの他のインスタンスとは異なってハイライトされた状態で文書のデジタル表現の少なくとも一部を選択的に表示、またはエンティティのハイライトされたインスタンスのみを選択的に表示できるようにするための手段を備え得る。
【0085】
コンピュータ−ユーザインターフェイス手段は、ユーザが関係の1つ以上のインスタンスを選択し、関係の当該選択されたインスタンスが関係の他のインスタンスとは異なってハイライトされた状態で文書のデジタル表現の少なくとも一部を選択的に表示、または関係のハイライトされたインスタンスのみを選択的に表示できるようにするための手段を備え得る。
【0086】
コンピュータ−ユーザインターフェイス手段は、コンピュータ−ユーザインターフェイス手段のユーザから受けた指示に応答して注釈データを修正するための手段を備え得、その修正は、ユーザに対して表示されるものに対する修正という結果を招くことはない。たとえば、コンピュータ−ユーザインターフェイス手段は、ユーザがトークン化を修正できるように適合され得るが、これは表示に影響しないであろう。
【0087】
コンピュータ−ユーザインターフェイス手段は、ユーザが、特定の関係に関する出力データをデータベースに投入するか否かを選択できるように適合され得、出力データをデータベースに投入するステップは、選択された1つ以上の関係のみに関するデータをデータベースに投入するステップを含む。好ましくは、コンピュータ−ユーザインターフェイス手段は、関係の特定のインスタンスに関する出力データをデータベースに投入するか否かをユーザが選択できるように適合される。
【0088】
コンピュータ−ユーザインターフェイス手段は、特定のエンティティに関するデータをデータベースに投入するか否かをユーザが選択できるように適合され得、出力データをデータベースに投入するステップは、選択されたエンティティに関するデータをデータベースに投入するか否かを判断するステップを含む。好ましくは、コンピュータ−ユーザインターフェイス手段は、ユーザが、エンティティの特定のインスタンスに関する出力データをデータベースに投入するか否かを選択できるように適合される。コンピュータ−ユーザインターフェイス手段は、ユーザが積極的にエンティティを選択して出力できるように適合され得、ユーザがエンティティを選択して出力した場合、そのエンティティに関するデータはデータベースに記憶される。
【0089】
たとえば、コンピュータ−ユーザインターフェイス手段は、選択(たとえばチェック)されて、エンティティの特定のインスタンスに関する注釈エンティティデータから導出されるエンティティに関する出力データをデータベースに投入することを示すことができる(たとえばチェックボックスなどの)ユーザインターフェイス項目を備え得る。
【0090】
コンピュータ−ユーザインターフェイス手段は、ユーザが積極的に関係を選択して出力できるように適合され得、ユーザが関係を選択して出力した場合、その関係に関するデータがデータベースに記憶される。
【0091】
たとえば、コンピュータ−ユーザインターフェイス手段は、選択(たとえばチェック)されて、関係の特定のインスタンスに関する注釈関係データから導出される関係に関する出力データをデータベースに投入することを示すことができる(たとえばチェックボックスなどの)ユーザ−インターフェイス項目を備え得る。
【0092】
コンピュータ−ユーザインターフェイス手段は、ユーザが文書を積極的に選択して出力できるように適合され得、ユーザが文書を選択して出力した場合、それについて注釈データが記憶されたその文書において参照されるすべてのエンティティおよび/または関係に関するデータがデータベースに記憶される。これに代えて、ユーザが文書を選択して出力した場合、その文書は、その文書の中で参照されるエンティティおよび/または関係に関するさらなるデータを伴わずに出力され得る。
【0093】
コンピュータ−ユーザインターフェイス手段は、ユーザが文書を拒否できるように適合され得、ユーザが文書を拒否した場合、その文書中で識別されたエンティティおよび/または関係に関するデータはデータベースに記憶されない。
【0094】
好ましくは、方法はまた、修正注釈データを記憶するステップ、または記憶のために修正注釈データを出力するステップも含む。したがって、注釈データは、後の段階で見直されたりまたは他の目的に用いられたりすることが可能である。文書のデジタル表現が注釈データを備える場合、修正注釈データは、文書のデジタル表現とその注釈データとの両方を備えるファイルを(たとえばXMLファイルとして)記憶することによって、出力データとして記憶されるかまたは出力され得る。
【0095】
オントロジデータはエンティティの正規形を備え得る。オントロジデータへのある参照番号または各々の参照番号は、オントロジデータ中のエンティティの正規形への参照番号を備え得る。オントロジデータは、エンティティおよびそれらのエンティティ同士の間の関係を特定する階層データ構造であり得る。オントロジデータは、エンティティおよび/またはエンティティの1つ以上の同義語の正規形を識別するフィールドによって索引付けされ得る。オントロジデータはオントロジデータベース中に記憶され得る。オントロジデータは、投入されるべきデータベース中に記憶され得る。オントロジデータは、投入されるべきデータベースから導出され得る。
【0096】
オントロジデータは関係の属性をさらに備え得る。
データベース中のエンティティおよび/または関係に関するデータは、オントロジデータを参照して記憶され得る。しかしながら、データベース中のエンティティおよび/または関係に関するデータは、第2のオントロジデータを参照して記憶され得、データベースに投入するステップは、参照番号をオントロジデータに翻訳して第2のオントロジデータを参照するステップを含み得る。参照番号をオントロジデータに翻訳するステップは典型的に、エンティティの識別子を翻訳するステップを備える。
【0097】
コンピュータ−ユーザインターフェイス手段は、ユーザがオントロジデータを修正できるように適合され得る。方法は、コンピュータ−ユーザインターフェイス手段のユーザを通じて受けた指示に応答してオントロジデータを修正するステップを備え得る。
【0098】
コンピュータ−ユーザインターフェイス手段は、ユーザが、エンティティに関するデータをオントロジデータに追加させることができるように適合され得る。方法は、コンピュータ−ユーザインターフェイス手段のユーザを通じて受けた指示に応答して、エンティティに関するオントロジデータをオントロジデータに追加するステップを備え得る。
【0099】
コンピュータ−ユーザインターフェイス手段は、ユーザが、関係に関するデータをオントロジデータに追加させることができるように適合され得る。方法は、コンピュータ−ユーザインターフェイス手段のユーザを通じて受けた指示に応答して、関係に関するオントロジデータをオントロジデータに追加するステップを備え得る。
【0100】
好ましくは、方法は、文書のさらなるデジタル表現の分析のために、コンピュータ−ユーザインターフェイス手段のユーザが受けた指示に応答して、修正された(または修正可能な)オントロジデータを用いるステップをさらに備える。
【0101】
好ましくは、文書のデジタル表現の分析は、文書のデジタル表現ならびに文書中にエンティティ(オプションでおよび/または関係)のインスタンスの場所を備える注釈データならびに識別されたエンティティ(オプションでおよび/または関係)の識別子を備えるトレーニングデータを用いてトレーニング可能なトレーニング可能情報抽出モジュールによって実行され、コンピュータ−ユーザインターフェイス手段は、文書のデジタル表現の中で参照される、文書の分析されたデジタル表現ならびにエンティティ(オプションでおよび/または関係)に関する注釈データがユーザによって選択されてトレーニング可能情報抽出モジュールをトレーニングするためのトレーニングデータとして用いられるように適合され、方法はさらに、選択されたトレーニングデータを備えるデータを用いてトレーニング可能情報抽出モジュールを再トレーニングするステップと、さらなる文書の分析において保持されたトレーニング可能情報抽出モジュールを用いるステップとを含む。
【0102】
好ましくは、文書のデジタル表現を分析するステップは、(トークン化ソフトウェアモジュールによって実行される)トークン化、(固有表現抽出ソフトウェアモジュールによって実行される)固有表現抽出、および(用語正規化モジュールによって実行される)用語正規化のステップを備える。文書のデジタル表現を分析するステップは、好ましくは、関係抽出のステップをさらに備える。
【0103】
用語正規化のステップは、好ましくは、オントロジデータを参照して実行される。用語正規化のステップは、好ましくは、文書のデジタル表現中で識別された1つ以上のエンティティのインスタンスの識別子を備える注釈エンティティデータを記憶するステップを含み、エンティティのインスタンスの識別子はオントロジデータ中のエンティティの識別子である。
【0104】
典型的に、トレーニング可能情報抽出モジュールは、固有表現抽出ソフトウェアモジュールを備える。固有表現抽出ソフトウェアは、文書のキュレーションされ、注釈付けされたデジタル表現を備える選択されたトレーニングデータを用いてトレーニング可能であり得る。固有表現抽出ソフトウェアモジュールは、好ましくは、選択されたトレーニングデータを備えるトレーニングデータ上でトレーニングされた最大エントロピーアルゴリズムを用いる。
【0105】
好ましくは、コンピュータ−ユーザインターフェイス手段は、ユーザが文書のデジタル表現のバッチを選択して分析し、次に順次におよび/または同時に、文書のデジタル表現のバッチを表示できるように、かつ文書のデジタル表現のバッチに関する注釈データを修正できるように適合される。文書のデジタル表現のバッチは、同じサーチ判断基準を満たしてもよい。文書のデジタル表現のバッチは、単一のサーチ要求に応答して検索されたかもしれない。
【0106】
発明の第2、第3および第4の局面のさらなるオプションの特徴は、第1の局面のオプションの特徴に対応する。
【0107】
本発明の第5の局面に従うと、第2のデータベースに投入する方法であって、本発明の第2、第3または第4の局面の方法によって第1のデータベースに投入するステップと、第1のデータベースに投入するのに用いられたデータのうちいくらかまたはすべてを第1のデータベースから第2のデータベースにエクスポートするステップとを備える、方法が提供される。
【0108】
第1および第2のデータベースは異なるフォーマットであってもよく、当該データのうちいくらかまたはすべてをエクスポートするステップは、エクスポートされたデータのフォーマットを翻訳するステップを備え得る。
【0109】
第1のデータベース中のエンティティ(および/または関係)の識別子は、第1のオントロジデータを参照し得、第2のデータベース中のエンティティ(および/または関係)の識別子は第2のオントロジデータを参照し得、当該データのうちいくらかまたはすべてをエクスポートするステップは、第1のオントロジデータへの参照番号を、第2のオントロジデータへの参照番号に翻訳するステップを備え得る。
【0110】
方法は、第2のオントロジデータからのオントロジデータを第1のオントロジデータにインポートするステップと、必要に応じてオントロジデータのフォーマットを変換するステップと、さらなる文書の分析の際にインポートされたオントロジデータを用いるステップとを含み得る。
【0111】
方法は、複数の第2のデータベースに投入するステップを備え得、データベースのうち少なくとも2つは異なるオントロジデータおよび/またはエンティティの異なる識別子を備える。複数の第2のデータベースのうち少なくとも2つは異なるフォーマットであってもよく、および/または、複数の第2のデータベースのうち少なくとも2つに記憶される識別子によって参照されるオントロジデータは異なるフォーマットであってもよい。
【0112】
方法は、さらなるデータベースを、発明の第1、第4の局面のうちいずれか1つの方法によってデータベースに投入された出力データのうちいくらかまたはすべてをそのデータベース内に含め、そのデータを必要に応じて別のフォーマットに翻訳または変換することによって、作成するステップをさらに備え得る。
【0113】
本発明の第6の局面に従うと、発明の第2、第4または第5の局面のうちいずれか1つの方法に従って投入されたデータベースが提供される。
【0114】
本発明の第7の局面に従うと、サーチ要求に応答してデータを出力する方法であって、発明の第2、第4または第5の局面の方法を用いてデータベースに投入するステップと、サーチ要求を受けるステップと、データベースに問合せてサーチ要求に関連のデータを検索するステップと、検索されたデータを出力するステップとを含む、方法が提供される。
【0115】
方法は、サーチ要求に応答して文書の1つ以上のデジタル表現を検索するステップと、その後発明の第3、第4または第5の局面の方法を用いて後にデータベースに投入するステップと、その後文書の当該検索されたデジタル表現に関するデータを備えるデータを出力するステップとを含み得る。
【0116】
方法は、サーチ要求をログ記録するステップ、およびその後の分析のために文書のさらなるデジタル表現を選択するステップ、またはその後の分析のために1つ以上の当該サーチ要求を満たす文書のさらなるデジタル表現を検索するステップを含み得る。
【0117】
方法は、(ウェブページなどの)ファイル内に、検索されたデータまたは検索されたデータから導出されたデータを含めるステップと、サーチ要求に応答してそのファイルを送信するステップとをさらに備え得る。
【0118】
本発明の第8の局面に従うと、オントロジデータを備えるオントロジデータベースを作成または修正する方法であって、演算装置によって実行される、
(i) 文書のデジタル表現を入力データとして受けるステップと、
(ii) 文書のデジタル表現を分析するステップと、文書のデジタル表現中に含有されるエンティティの1つ以上のインスタンスを識別するステップと、エンティティの識別されたインスタンスのうち少なくともいくつかについては、文書のデジタル表現中で識別されたエンティティの1つ以上のインスタンスに関する注釈エンティティデータを備える注釈データを記憶するステップとを備え、注釈エンティティデータは、文書のデジタル表現中で識別された1つ以上のエンティティのインスタンスの識別子と、文書のデジタル表現内のエンティティの識別されたインスタンスの場所を特定するデータとを備え、エンティティの識別子はオントロジデータへの参照番号を備え、さらに
(iii) ディスプレイ画面の第1の領域に、コンピュータ−ユーザインターフェイス手段のユーザに対して文書のデジタル表現のユーザ選択可能部分を表示するステップを備え、注釈は注釈データに依存し、当該注釈は、注釈エンティティデータによって特定された文書のデジタル表現内の場所で、その場所が注釈エンティティデータ中に特定されたエンティティのインスタンスのうち1つ以上を少なくともハイライトすることを含み、さらに
(iv) コンピュータ−ユーザインターフェイス手段のユーザにオントロジデータを修正する手段を提供するステップと、
(v) コンピュータ−ユーザインターフェイス手段のユーザから受けた指示に応答して修正注釈データを準備するステップと、
(vi) コンピュータ−ユーザインターフェイス手段のユーザが受けた指示に応答してオントロジデータを修正するステップとを備え、
方法は、コンピュータ−ユーザインターフェイス手段が、文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストをディスプレイ画面の第2の領域に表示するように動作可能なユーザ選択可能動作モードを提供するステップをさらに備え、エンティティの列挙されたインスタンスのうち少なくとも1つは、それと関連付けられたユーザ選択可能ユーザインターフェイス要素を有し、方法はさらに、エンティティのインスタンスと関連付けられたユーザ選択可能ユーザインターフェイス要素をユーザが選択するのに応答して、選択されたユーザインターフェイス要素と関連付けられたエンティティのインスタンスが位置する文書のデジタル表現内の場所を含むように、第1の領域に表示される文書のデジタル表現の部分を調整するステップを備える、方法が提供される。
【0119】
オントロジデータを修正するステップは、オントロジデータを削除するステップ、オントロジデータを追加するステップ、またはオントロジデータを修正するステップのうち1つ以上を備え得る。ステップ(iv)から(vi)はいずれの順番でもまたは並行して起こってもよい。
【0120】
オントロジデータはエンティティの正規形を備え得る。オントロジデータは、エンティティおよびそれらのエンティティ同士の間の関係を特定する階層データ構造であり得る。オントロジデータは、エンティティの正規形および/またはエンティティの1つ以上の同義語を識別するフィールドによって索引付けされ得る。オントロジデータは、関係に関するオントロジデータを備え得る。
【0121】
方法は、本発明の方法によって作成または修正されるオントロジデータのうちいくらかまたはすべてをそのデータベース内に含み、オプションで必要に応じてそのオントロジデータのフォーマットを変換することによってオントロジデータベースを作成するステップをさらに備え得る。
【0122】
方法は、修正注釈データから導出された出力データを出力するステップ、および/または修正注釈データから導出された出力データをデータベースに投入するステップをさらに備え得る。好ましいおよびオプションの特徴は、発明の第2、第3および第4の局面に関連して論じられたものに対応する。
【0123】
本発明の第9の局面に従うと、本発明の第8の局面の方法によって得られたオントロジデータが提供される。
【0124】
本発明の第10の局面に従うと、トレーニング可能情報抽出モジュールをトレーニングする方法であって、演算装置によって実行される、
(i) 文書のデジタル表現を入力データとして受けるステップと、
(ii) トレーニング可能情報抽出モジュールを用いて文書のデジタル表現を分析するステップとを備え、トレーニング可能情報抽出モジュールは、文書のデジタル表現中に含有されるエンティティの1つ以上のインスタンスを識別し、さらに、エンティティの識別されたインスタンスのうち少なくともいくつかについては、文書のデジタル表現中で識別されたエンティティの1つ以上のインスタンスに関する注釈エンティティデータを備える注釈データを記憶するステップを備え、注釈エンティティデータは、文書のデジタル表現中で識別された1つ以上のエンティティのインスタンスの識別子と、文書のデジタル表現内のエンティティの識別されたインスタンスの場所を特定するデータとを備え、エンティティの識別子はオントロジデータへの参照番号を備え、さらに
(iii) ディスプレイ画面の第1の領域において、コンピュータ−ユーザインターフェイス手段のユーザに対して文書のデジタル表現のユーザ選択可能部分を表示するステップを備え、注釈は注釈データに依存し、当該注釈は、注釈エンティティデータによって特定される文書のデジタル表現内の場所で、その場所が注釈エンティティデータ中で特定されるエンティティのインスタンスのうち1つ以上を少なくともハイライトすることを含み、さらに
(iv) コンピュータ−ユーザインターフェイス手段のユーザから受けた指示に応答して修正注釈データを準備するステップと、
(v) コンピュータ−ユーザインターフェイス手段のユーザに、トレーニング可能情報抽出モジュールをトレーニングする際に用いるための、文書のデジタル表現を選択する手段を提供するステップと、
(vi) 文書の選択されたデジタル表現の少なくとも一部を備えるトレーニングデータおよび文書の選択されたデジタル表現に関する修正注釈データを用いてトレーニング可能情報抽出モジュールを周期的に再トレーニングするステップとを備え、
方法はさらに、コンピュータ−ユーザインターフェイス手段が文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストをディスプレイ画面の第2の領域に表示するように動作可能なユーザ選択可能動作モードを提供するステップを備え、エンティティの列挙されたインスタンスのうち少なくとも1つは、それと関連付けられたユーザ選択可能ユーザインターフェイス要素を有し、さらに、エンティティのインスタンスと関連付けられたユーザ選択可能ユーザインターフェイス要素をユーザが選択するのに応答して、選択されたユーザインターフェイス要素と関連付けられたエンティティのインスタンスが位置する文書のデジタル表現内の場所を含むように、第1の領域に表示される文書のデジタル表現の部分を調整するステップを備える、方法が提供される。
【0125】
ユーザ−インターフェイス手段は、ユーザが情報抽出モジュールを再トレーニングするのに用いるために文書のデジタル表現の部分を選択できるように適合され得、文書のデジタル表現のその部分を用いて情報抽出モジュールを再トレーニングし得る。典型的に、情報抽出モジュールは、管理人が受けた、および必要な場合は修正した注釈データのみを用いて再トレーニングされるであろう。ステップ(iii)から(v)は同時にまたは並行して起こってもよい。
【0126】
トレーニング可能情報抽出モジュールは、トークン化モジュール、固有表現抽出モジュール、用語正規化モジュール、および関係抽出モジュールを備え得る。典型的に、固有表現抽出モジュールのみがトレーニング可能であるが、しかしながらトレーニング可能情報抽出モジュール内の他のモジュールがトレーニング可能であってもよい。
【0127】
方法は、修正注釈データから導出された出力データを出力するステップ、および/または修正注釈データから導出された出力データをデータベースに投入するステップをさらに備え得る。好ましいおよびオプションの特徴は、発明の第2、第3および第4の局面に関連して論じられた特徴に対応する。
【0128】
第11の局面では、発明は、本発明の第10の局面の方法によってトレーニングされる情報抽出モジュールを提供する。
【0129】
発明は、第12の局面で、文書のデジタル表現と関連付けられる注釈データを編集するためのシステムに拡張され、システムは、(コンピュータ−ユーザインターフェイスなどの)コンピュータ−ユーザインターフェイス手段と、(出力モジュールなどの)出力手段とを備え、
コンピュータ−ユーザインターフェイス手段は、文書のデジタル表現および注釈データを入力データとして受けるように動作可能であり、注釈データは、文書のデジタル表現中で識別されたエンティティの1つ以上のインスタンスに関する注釈エンティティデータを備え、注釈エンティティデータは、文書のデジタル表現中で識別された1つ以上のエンティティのインスタンスの識別子と、文書のデジタル表現内のエンティティの識別されたインスタンスの場所を特定するデータとを備え、エンティティのインスタンスの識別子はオントロジデータへの参照番号を備え、
コンピュータ−ユーザインターフェイス手段は、ディスプレイ画面の第1の領域において、コンピュータ−ユーザインターフェイス手段のユーザに対して文書のデジタル表現のユーザ選択可能部分を表示するように動作可能であり、注釈は注釈データに依存し、当該注釈は、注釈エンティティデータが特定する文書のデジタル表現内の場所で、その場所が注釈エンティティデータ中に特定されるエンティティのインスタンスのうち1つ以上を少なくともハイライトすることを含み、
コンピュータ−ユーザインターフェイス手段は、コンピュータ−ユーザインターフェイス手段のユーザから指示を受け、受けた指示に応答して修正注釈データを準備するように動作可能であり、
出力手段は、修正注釈データから導出された出力データを出力するように動作可能であり、
コンピュータ−ユーザインターフェイス手段は、ユーザ選択可能動作モードでは、ディスプレイ画面の第2の領域に、文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストを表示するように動作可能であり、エンティティの列挙されたインスタンスのうち少なくとも1つは、それと関連付けられたユーザ選択可能ユーザインターフェイス要素を有し、コンピュータ−ユーザインターフェイス手段は、エンティティのインスタンスと関連付けられたユーザ選択可能ユーザインターフェイス要素をユーザが選択するのに応答して、選択されたユーザインターフェイス要素と関連付けられたエンティティのインスタンスが位置する文書のデジタル表現内の場所を含むように、第1の領域に表示される文書のデジタル表現の部分を調整するように動作可能である、システムである。
【0130】
システムおよびシステムが処理するように適合されるデータの好ましいおよびオプションの特徴は、本発明の第2、第3および第4の局面に関連して論じられた特徴に対応する。
【0131】
発明は、第13の局面において、データベースに投入するためのシステムに拡張され、システムは、(コンピュータ−ユーザインターフェイスなどの)コンピュータ−ユーザインターフェイス手段と、(出力モジュールなどの)出力手段とを備え、
コンピュータ−ユーザインターフェイス手段は、文書のデジタル表現および注釈データを入力データとして受けるように動作可能であり、注釈データは、文書のデジタル表現中で識別されたエンティティの1つ以上のインスタンスに関する注釈エンティティデータを備え、注釈エンティティデータは、文書のデジタル表現中で識別された1つ以上のエンティティのインスタンスの識別子と、文書のデジタル表現内のエンティティの識別されたインスタンスの場所を特定するデータとを備え、エンティティのインスタンスの識別子はオントロジデータへの参照番号を備え、
コンピュータ−ユーザインターフェイス手段は、ディスプレイ画面の第1の領域において、コンピュータ−ユーザインターフェイス手段のユーザに対して文書のデジタル表現のユーザ選択可能部分を表示するように動作可能であり、注釈は注釈データに依存し、当該注釈は、注釈エンティティデータによって特定される文書のデジタル表現内の場所で、その場所が注釈エンティティデータ中で特定されるエンティティのインスタンスのうち1つ以上を少なくともハイライトすることを含み、
コンピュータ−ユーザインターフェイス手段は、コンピュータ−ユーザインターフェイス手段のユーザから指示を受け、受けた指示に応答して修正注釈データを準備するように動作可能であり、
出力手段は、修正注釈データから導出される出力データをデータベースに投入するように動作可能であり、
コンピュータ−ユーザインターフェイス手段は、ユーザ選択可能動作モードでは、ディスプレイ画面の第2の領域に、文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストを表示するように動作可能であり、エンティティの列挙されたインスタンスのうち少なくとも1つは、それと関連付けられたユーザ選択可能ユーザインターフェイス要素を有し、コンピュータ−ユーザインターフェイス手段は、エンティティのインスタンスと関連付けられたユーザ選択可能ユーザインターフェイス要素をユーザが選択するのに応答して、選択されたユーザインターフェイス要素と関連付けられたエンティティのインスタンスが位置する文書のデジタル表現内の場所を含むように、第1の領域に表示される文書のデジタル表現の部分を調整するように動作可能である、システムである。
【0132】
好ましくは、システムは、文書のデジタル表現を分析するように動作可能な(分析モジュールなどの)分析手段をさらに備える。
【0133】
システムおよびシステムが処理するように適合されるデータの好ましいおよびオプションの特徴は、発明の第2、第3および第4の局面に関連して論じられた特徴に対応する。
【0134】
第14の局面では、発明は、データベースに投入するためのシステムに拡張され、システムは、(分析モジュールなどの)分析手段と、(コンピュータ−ユーザインターフェイスなどの)コンピュータ−ユーザインターフェイス手段と、(出力モジュールなどの)出力手段とを備え、
分析手段は、文書のデジタル表現を入力データとして受け、文書のデジタル表現を分析し、文書のデジタル表現に含有されるエンティティの1つ以上のインスタンスを識別し、かつエンティティの識別されたインスタンスのうち少なくともいくつかについては、文書のデジタル表現中で識別されたエンティティの1つ以上のインスタンスに関する注釈エンティティデータを備える注釈データを記憶するように動作可能であり、注釈エンティティデータは、文書のデジタル表現中で識別された1つ以上のエンティティのインスタンスの識別子と、文書のデジタル表現内でエンティティの識別されたインスタンスの場所を特定するデータとを備え、エンティティの識別子はオントロジデータへの参照番号を備え、
コンピュータ−ユーザインターフェイス手段は、文書のデジタル表現および分析手段が記憶した注釈データを入力データとして受け、ディスプレイ画面の第1の領域において、コンピュータ−ユーザインターフェイス手段のユーザに対して文書のデジタル表現のユーザ選択可能部分を表示するように動作可能であり、注釈は注釈データに依存し、当該注釈は、注釈エンティティデータによって特定される文書のデジタル表現内の場所で、その場所が注釈エンティティデータ中で特定されるエンティティのインスタンスのうち1つ以上を少なくともハイライトすることを含み、
コンピュータ−ユーザインターフェイス手段は、コンピュータ−ユーザインターフェイス手段のユーザから指示を受け、受けた指示に応答して修正注釈データを準備するように動作可能であり、
出力手段は、修正注釈データから導出される出力データをデータベースに投入するように動作可能であり、
コンピュータ−ユーザインターフェイス手段は、ユーザ選択可能動作モードでは、ディスプレイ画面の第2の領域に、文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストを表示するように動作可能であり、エンティティの列挙されたインスタンスのうち少なくとも1つは、それと関連付けられたユーザ選択可能ユーザインターフェイス要素を有し、コンピュータ−ユーザインターフェイス手段は、エンティティのインスタンスと関連付けられたユーザ選択可能ユーザインターフェイス要素をユーザが選択するのに応答して、選択されたユーザインターフェイス要素と関連付けられたエンティティのインスタンスが位置する文書のデジタル表現内の場所を含むように、第1の領域に表示される文書のデジタル表現の部分を調整するように動作可能である、システムである。
【0135】
システムおよびシステムが処理するように適合されるデータの好ましいおよびオプションの特徴は、発明の第2、第3および第4の局面の好ましいおよびオプションの特徴に対応する。
【0136】
本発明の第15の局面に従うと、オントロジデータを備えるオントロジデータベースを作成または修正するためのシステムであって、(分析モジュールなどの)分析手段と、(コンピュータ−ユーザインターフェイスなどの)コンピュータ−ユーザインターフェイス手段と、(出力モジュールなどの)出力手段とを備え、
分析手段は、文書のデジタル表現を入力データとして受け、文書のデジタル表現を分析し、文書のデジタル表現に含有されるエンティティの1つ以上のインスタンスを識別し、エンティティの識別されたインスタンスのうち少なくともいくつかについては、文書のデジタル表現中で識別されたエンティティの1つ以上のインスタンスに関する注釈エンティティデータを備える注釈データを記憶するように動作可能であり、注釈エンティティデータは、文書のデジタル表現中で識別された1つ以上のエンティティのインスタンスの識別子と、文書のデジタル表現内のエンティティの識別されたインスタンスの場所を特定するデータとを備え、エンティティの識別子はオントロジデータへの参照番号を備え、
コンピュータ−ユーザインターフェイス手段は、文書のデジタル表現および分析手段によって記憶される注釈データを入力データとして受け、ディスプレイ画面の第1の領域において、コンピュータ−ユーザインターフェイス手段のユーザに対して文書のデジタル表現のユーザ選択可能部分を表示するように動作可能であり、注釈は注釈データに依存し、当該注釈は、注釈エンティティデータによって特定される文書のデジタル表現内の場所で、その場所が注釈エンティティデータ中で特定されるエンティティのインスタンスのうち1つ以上を少なくともハイライトすることを含み、
コンピュータ−ユーザインターフェイス手段は、コンピュータ−ユーザインターフェイス手段のユーザから指示を受け、受けた指示に応答して修正注釈データを準備するように動作可能であり、
コンピュータ−ユーザインターフェイス手段は、コンピュータ−ユーザインターフェイス手段のユーザから指示を受け、受けた指示に応答してオントロジデータを修正しかつオントロジデータを修正するように動作可能であり、
出力手段は、修正注釈データから導出される出力データをデータベースに投入するように動作可能であり、
コンピュータ−ユーザインターフェイス手段は、ユーザ選択可能動作モードでは、ディスプレイ画面の第2の領域に、文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストを表示するように動作可能であり、エンティティの列挙されたインスタンスのうち少なくとも1つは、それと関連付けられたユーザ選択可能ユーザインターフェイス要素を有し、コンピュータ−ユーザインターフェイス手段は、エンティティのインスタンスと関連付けられたユーザ選択可能ユーザインターフェイス要素をユーザが選択するのに応答して、選択されたユーザインターフェイス要素と関連付けられたエンティティのインスタンスが位置する文書のデジタル表現内の場所を含むように、第1の領域に表示される文書のデジタル表現の部分を調整するように動作可能である、システムが提供される。
【0137】
システムおよびシステムが処理するように適合されるデータの好ましいおよびオプションの特徴は、発明の第8の局面に関連して論じられた好ましいおよびオプションの特徴に対応する。
【0138】
第16の局面に従うと、発明は、トレーニング可能情報抽出モジュールをトレーニングするためのシステムに拡張され、システムは、(分析モジュールなどの)分析手段と、(コンピュータ−ユーザインターフェイスなどの)コンピュータ−ユーザインターフェイス手段と、(出力モジュールなどの)出力手段とを備え、
分析手段は、文書のデジタル表現を入力データとして受け、文書のデジタル表現を分析し、文書のデジタル表現に含有されるエンティティの1つ以上のインスタンスを識別し、エンティティの識別されたインスタンスのうち少なくともいくつかについては、文書のデジタル表現中で識別されたエンティティの1つ以上のインスタンスに関する注釈エンティティデータを備える注釈データを記憶するように動作可能なトレーニング可能情報抽出モジュールを備え、注釈エンティティデータは、文書のデジタル表現中で識別された1つ以上のエンティティのインスタンスの識別子と、文書のデジタル表現内のエンティティの識別されたインスタンスの場所を特定するデータとを備え、エンティティの識別子はオントロジデータへの参照番号を備え、
コンピュータ−ユーザインターフェイス手段は、文書のデジタル表現および分析手段によって記憶された注釈データを入力データとして受け、ディスプレイ画面の第1の領域において、コンピュータ−ユーザインターフェイス手段のユーザに対して文書のデジタル表現のユーザ選択可能部分を表示するように動作可能であり、注釈は注釈データに依存し、当該注釈は、注釈エンティティデータによって特定される文書のデジタル表現内の場所で、その場所が注釈エンティティデータ中で特定されるエンティティのインスタンスのうち1つ以上を少なくともハイライトすることを含み、
コンピュータ−ユーザインターフェイス手段は、コンピュータ−ユーザインターフェイス手段のユーザから指示を受け、受けた指示に応答して修正注釈データを準備するように動作可能であり、
コンピュータ−ユーザインターフェイス手段は、トレーニング可能情報抽出モジュールをトレーニングするのに用いるための文書のデジタル表現をユーザが選択する手段を備え、
出力手段は、修正注釈データから導出される出力データをデータベースに投入するように動作可能であり、
システムは、文書の選択されたデジタル表現の少なくとも一部および文書の選択されたデジタル表現に関する修正注釈データを備えるトレーニングデータを用いてトレーニング可能情報抽出モジュールを周期的に再トレーニングするように動作可能であり、
コンピュータ−ユーザインターフェイス手段は、ユーザ選択可能動作モードでは、ディスプレイ画面の第2の領域に、文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストを表示するように動作可能であり、エンティティの列挙されたインスタンスのうち少なくとも1つは、それと関連付けられたユーザ選択可能ユーザインターフェイス要素を有し、コンピュータ−ユーザインターフェイス手段は、エンティティのインスタンスと関連付けられたユーザ選択可能ユーザインターフェイス要素をユーザが選択するのに応答して、選択されたユーザインターフェイス要素と関連付けられたエンティティのインスタンスが位置する文書のデジタル表現内の場所を含むように、第1の領域に表示される文書のデジタル表現の部分を調整するように動作可能である、システムである。
【0139】
システムおよびシステムが処理するように適合されるデータの好ましいおよびオプションの特徴は、発明の第10の局面に関連して論じられた好ましいおよびオプションの特徴に対応する。
【0140】
本発明の第17の局面に従うと、文書のデジタル表現から自動的に抽出されたデータをユーザに提示するコンピュータで実現される方法であって、自動的に抽出されたデータは、文書のデジタル表現中で自動的に識別されたエンティティのインスタンスを特定するデータを備え、エンティティのインスタンスはそれと関連付けられた1つ以上のプロパティを有し、方法は、
ノード要素の群からユーザが選択したノード要素の表現を表示するステップを備え、ノード要素の群中の各々のノード要素は、親ノード要素および1つ以上の子ノード要素のうちいずれかまたはその両方を有し、さらに、分岐ツリー構造を形成するステップを備え、ノード要素の群中の少なくとも2つのノード要素は子ノード要素を有しない葉ノード要素であり、残余のノード要素は少なくとも1つの子ノード要素を有する非葉ノード要素であり、各々の表わされた非葉ノード要素は、当該表わされた非葉ノード要素の子ノード要素を表わすか否かを判断するようにユーザが選択可能であり、
各々の葉ノード要素は、自動的に抽出されたデータによって特定されるエンティティのインスタンスと関連付けられ、各々の非葉ノード要素はエンティティのインスタンスのプロパティの値と関連付けられ、それぞれの非葉ノード要素の究極の子である各々の葉ノード要素は、プロパティの同じそれぞれの値を有するエンティティのインスタンスと関連付けられることを特徴とする、コンピュータで実現される方法が提供される。
【0141】
「究極の子」とは、葉ノード要素に達するまでノード要素の子ノード要素を選択し、その子ノード要素のうち1つを選択することなどによって到達可能な葉ノード要素を指す。
【0142】
したがって、発明は、文書のデジタル表現中で識別され、1つ以上のプロパティの値に従ってグループ分けされたエンティティのインスタンスと関連付けられたノード要素を便利にかつ対話的にユーザが閲覧できるようにしてキュレーションプロセスを容易にする。
【0143】
葉ノード要素は典型的に、文書のデジタル表現内に、たとえばエンティティのインスタンスからなるまたはこれを含むテキストのセクションである、エンティティのインスタンスを表わす文字列を用いて表わされる。
【0144】
文書のデジタル表現の少なくとも一部はディスプレイの第1の領域に表示され得、ユーザが選択したノード要素の表現はディスプレイの第2の領域に表示され得る。葉ノード要素は、ユーザによって選択されると、それぞれの葉ノード要素が関するエンティティのインスタンスが文書のデジタル表現中でハイライトされる、および/または、ディスプレイの第1の領域における文書のデジタル表現の少なくとも一部の閲覧が、それぞれの葉ノード要素が関するエンティティのインスタンスを示すように修正される、ユーザ選択可能ユーザインターフェイス要素を備え得る。したがって、この方法は、ユーザが選択したノード要素の表現がディスプレイの第2の領域に表示され、葉ノード要素がそれらが関連付けられるエンティティのインスタンスの1つ以上のリストの形式で表わされる、発明の第1または第2の局面に従う方法であり得る。
【0145】
好ましくは、子として非葉ノード要素を有する少なくとも大部分の、および典型的には各々の非葉ノード要素については、各々の子非葉ノード要素は同じプロパティの異なる値と関連付けられる。
【0146】
好ましくは、同じ非葉ノード要素の子である非葉ノード要素が異なる値を有するというプロパティは、分岐ツリー構造内の少なくとも1つの、および典型的には各々の深さの各々の非葉ノード要素について同じである。
【0147】
好ましくは、少なくともいくつか、および典型的には各々の非葉ノード要素は、その非葉ノード要素の究極の子の数に対応する数字を含む画像によって表わされる。これにより、管理人は、1つ以上のプロパティの特定された値、または複数の値を有するエンティティのインスタンスの数を素早く認めることができるようになる。
【0148】
このように、各々の葉ノード要素は、好ましくは、ツリー構造の中でその上にある各々のノード要素と関連付けられるプロパティの値を有するエンティティのインスタンスと関連付けられる。ノード要素がツリー構造中で葉ノード要素の「上」にあるということは、1回以上ノード要素の親ノード要素を選択することによって到達可能なノード要素であることを意味する。
【0149】
少なくとも1つのプロパティは、文書のデジタル表現内のエンティティのインスタンスの場所であり得る。たとえば、プロパティは、エンティティのインスタンスが位置する、要約書、実験セクション、結果セクションなどの、文書のデジタル表現のセクションを示す可能な値を有し得る。これにより、見直し者は、文書のデジタル表現のどのセクションが比較的多くのまたは比較的少ないエンティティのインスタンスを含有するかの概略を得ることができるようになる。
【0150】
少なくとも1つのプロパティは、エンティティのインスタンスの種類であり得る。たとえば、方法が生物医学文献に関連して用いられる場合、プロパティは、タンパク質、遺伝子、実験方法、有機体などの可能な値を有し得る。
【0151】
少なくとも1つのプロパティは、文書のデジタル表現中のエンティティのインスタンスの表層形式であり得る。少なくとも1つのプロパティは、エンティティのインスタンスの正規化形式(canonical form)であり得る。たとえば、(各々が同じタンパク質を参照する)筋クレアチンキナーゼ、CKMMおよびCK−3という表層形式を備えるエンティティのインスタンスは、各々同じ親ノード要素を有し得る。
【0152】
好ましくは、同じ親ノード要素の子である異なるノード要素と関連付けられた異なる値を有するプロパティは、異なる適用例について異なり得る構成パラメータによって決まる。
【0153】
異なるノード要素と関連付けられた異なる値を有するプロパティのうち1つ以上は、たとえばエンティティのインスタンスが人間の管理人によってキュレーションされたか否かなど、エンティティのインスタンスのキュレーションのステータスであり得る。方法は、葉ノード要素と関連付けられたエンティティのインスタンスのキュレーションのステータスの変化に応答して、ツリー構造中の別の場所に葉ノード要素を移動させるステップを含み得る。
【0154】
図面を参照して説明される発明の実施例は、コンピュータ装置によって、および演算装置によっても行なわれる方法を備えるが、発明は、発明のプロセスを実行するまたはコンピュータを発明のコンピュータ装置として機能させるように適合されるプログラム指示、特に担体の上またはその中のプログラム指示、にも拡張される。プログラムは、部分的にコンパイルされた形式、または発明に従うプロセスの実現例において用いるのに好適ないずれかの他の形式などの、ソースコード、オブジェクトコード、中間コードソースの形式であり得る。担体は、プログラム指示を担持することができるいずれのエンティティまたはデバイスであってもよい。
【0155】
たとえば、担体は、たとえばCD ROMもしくは半導体ROMなどのROM、またはたとえばフロッピー(登録商標)ディスクもしくはハードディスクなどの磁気記録媒体などの記憶媒体を備え得る。さらに、担体は、電気もしくは光ケーブルまたは無線もしくは他の手段によって伝えられ得る電気または光信号などの伝送可能な担体であり得る。ケーブルによって直接に伝えられ得る信号でプログラムが具体化される場合、担体は、そのようなケーブルまたは他のデバイスもしくは手段によって構成され得る。
【0156】
以上論じた好ましいおよびオプションの特徴は、それらが適用可能な発明の各々の局面の好ましいおよびオプションの特徴である。疑念を回避するため、発明の第2および第3の局面の好ましいおよびオプションの特徴は、適用可能な場合は、発明の第4の局面に関連して論じた好ましいおよびオプションの特徴に対応する。
【0157】
発明は、以下の図面を参照して、例示の目的のためにのみさらに説明される。
【図面の簡単な説明】
【0158】
【図1】本発明に従うシステムを通る情報の主な流れの概略図である。
【図2】システムの重要な構成要素の概略図である。
【図3】システムアーキテクチャ内のレイヤの概略図である。
【図4】文書ファイルを検索し、それらを情報抽出の前にフィルタリングすることに係るステップのフロー図である。
【図5】情報抽出に係るステップのフロー図である。
【図6】システムによる分析に好適な例示的なテキストの図である。
【図7】情報抽出前の例示的なテキストに関するXMLファイルの図である。
【図8A】情報抽出後の例示的なテキストに関するXMLファイルの連続した部分を構成する図である。
【図8B】情報抽出後の例示的なテキストに関するXMLファイルの連続した部分を構成する図である。
【図8C】情報抽出後の例示的なテキストに関するXMLファイルの連続した部分を構成する図である。
【図8D】情報抽出後の例示的なテキストに関するXMLファイルの連続した部分を構成する図である。
【図9】識別されたエンティティに下線が付与され、識別された関係に標識が付与された、図6のテキストの図である。
【図10】キュレーションコンピュータ−ユーザインターフェイスの概略図である。
【図11】キュレーションコンピュータ−ユーザインターフェイスの画面図である。
【図12】樹形図展開後の、図11のキュレーションコンピュータ−ユーザインターフェイスの画面図である。
【図13】ユーザインターフェイス要素のユーザによって選択された後の、図12のキュレーションコンピュータ−ユーザインターフェイスの画面図である。
【図14】異なる表示モードでの図13のキュレーションコンピュータ−ユーザインターフェイスの画面図である。
【図15】オントロジデータフィードバックループの概略図である。
【図16】オントロジデータ保守システムの概略図である。
【図17】システム内のトレーニングデータのフィードバックの概略図である。
【発明を実施するための形態】
【0159】
例示的な実施例の詳細な説明
始めに、図1は、本発明に従う情報抽出システムを通る情報の主な流れの概略図である。例示的なシステムは、自然言語テキストを含む生物医学テキスト文書のデジタル表現からデータを抽出し、得られた抽出データを見直しのために人間の管理人に提示する。例示的なシステムは、抽出データが人間の管理人のチームによってキュレーションされる、文書の多数のデジタル表現の分析のために設計される。
【0160】
ソース文書2は文書ソースから検索される4。システムは文書のデジタル表現を分析するので、ソース文書は典型的には、たとえば、雑誌記事の全文またはMedline要約(Medlineは、MD、ベセズダ、国立医学図書館の商標である)の文書のデジタル表現であろう。しかし、文書は、印刷された形態で検索されてスキャンされてもよい。(文書のデジタル表現を構成する)文書ファイルは次に、分類されフィルタリングされ6、その後自然言語処理(NLP)方法を用いた情報抽出手順8を施され、その後コンピュータ−ユーザインターフェイスを用いて人間の管理人によってキュレーションされる10。キュレーションステップの後に、データはターゲットデータベース14にエクスポートされる12。システムを通る情報の流れを以下により深く論じる。
【0161】
図2は、システムの重要な構成要素の概略図である。アプリケーションサーバ16上で実行されるアプリケーションロジックは、スプリングフレームワーク(Spring Framework)コンテナ(スプリングフレームワークはwww.springframework.orgに記載されるオープンソースプロジェクトである)を用いてJ2EEアプリケーションサーバ(J2EEはサンマイクロシステムズ(Sun Mirosystems)の商標である)中で実行されるコアサービスのセットを介してシステムを制御する。(文書のデジタル表現を構成する)文書ファイルなどの関連データは、リレーショナルデータベース管理システム18によってXMLファイルの形式で検索可能に記憶される。情報抽出エンジン22は、単一のプロセッサまたは並列で動作する1つ以上のプロセッサによって実現される。ウェブブラウザ24は、システムへの管理者アクセスおよびキュレーションプロセスに対する制御を与える。キュレーションツール26はコンピュータ上のコンピュータ−ユーザインターフェイスを実現し、その各々は、ディスプレイ、キーボード、およびマウスなどのポインティングデバイスを有する。個別の構成要素はネットワークを通じて接続可能である。アプリケーションサーバは典型的には、インターネットプロトコルネットワークを通じてSOAPおよびHTTPを介してウェブブラウザおよびキュレーションツールと通信する。当業者は、システムのいくつかの構成要素が単一のコンピュータ上で実現可能であること、または個別の構成要素が単一のコンピュータもしくはコンピュータのクラスタ上で実現され得ることを認識するであろう。
【0162】
システムを構成するソフトウェアコンポーネントは、図3に概略的に図示されるレイヤ形態で説明可能である。提示ロジックはウェブアプリケーションレイヤ30中に封入され、ウェブブラウザ32を介したシステムの制御を可能にする。ウェブサービスコンポーネント34は、Java Web Start(登録商標)を用いてJava(登録商標)アプリケーションとしてウェブブラウザに配信される1つ以上のキュレーションツール26と通信する。(Java(登録商標)およびJava Web Start(登録商標)はサンマイクロシステムズの登録商標である。)
アプリケーションロジックの重要な局面は4つの重要なサービスの中に封入される。すなわち、ターゲットデータベースに投入するための出力データのエクスポートに関連するロジックを含むターゲットデータベース14との双方向通信に関連する制御ロジックを含むターゲットサービス36;集められ記憶された文書ファイルの集合に対してAPIとして働き、システムの他の構成要素が抽象的かつ制御された態様でデータに読出/書込アクセスできるようにする文書サービス38;システム内で用いられるオントロジの永続的表現を管理し、かつ情報抽出エンジンによる使用に好適なフォーマットのオントロジデータのエクスポートおよびターゲットデータベースからのオントロジデータのインポートも管理するオントロジサービス40;ならびにキュレーションジョブの開始およびモニタを可能にするように適合されるコンピュータ−ユーザインターフェイスを提供するウェブ層およびキュレーションジョブを扱うためのコア機能性を封入するサービスレイヤを備えるパイプラインマネージャサービス42である。データベース永続レイヤ44は、制御ロジックを提供し、JDBCを介したHibernateオブジェクト/リレーショナル永続性とクエリサービスまたはカスタマイズされたSQLを用いて(JDBCはサンマイクロシステムズの商標である。Hibernateは、www.hibernate.orgに記載されるオープンソースプロジェクトである)リレーショナルデータベース管理システム18にデータが均一に永続するようにする。情報抽出はJMSキュー45を介して切離され、自然言語処理(NLP)パイプライン48とインターフェイスする情報抽出エンジン46によって管理される。システムの別の重要な一部は、ターゲットサービスからターゲットデータベースへ出力データをマッピングするターゲットマッピング制御モジュール50である。
【0163】
文書検索
使用の際、文書ファイルは、パイプラインマネージャサービスの制御下で外部ソースから検索される。図4は、情報抽出前に文書ファイルを検索しそれらをフィルタリングすることに係るステップのフロー図である。文書ファイル100は、1つ以上の遠隔のソースから検索され102、キャッシュされる104。特定のサーチクエリを満たすまたは予め定められた判断基準に従う文書ファイルが受けられ得る。たとえば、ある判断基準を満たす文書は、PubMed(www.ncbi.nlm.nih.gov/entrez/query.fcgi)から周期的に自動的に検索され得る。
【0164】
次に文書ファイルは、必要に応じて異なるフォーマットに変換される105。文書ファイルは、マークアップを全く含まない、または比較的少ししか含まない、プレーンテキストを含むXMLファイルに変換される。ソフトウェアモジュールは、ポータブルドキュメントフォーマット(PDF)の文書ファイルをXMLに変換するように提供される。これらの文書ファイルは単にXMLマークアップを取除いたXMLマークアップファイルではないことが重要である。これは、マークアップXMLソースからマークアップを取除くことによって得られたテキストが常に元のプレーンテキストソースから直接に得られるものと同じではないからである。たとえば、XMLマークアップ文書は、特定のフラグメントを識別するのに下付きまたは上付きを用いてタンパク質のフラグメントを注釈付けし得る。たとえば、テキストフラグメントABC12-37を示すXMLマークアップからXMLマークアップが取除かれた場合、結果的に生じるプレーンテキストはABC12−37であろう。しかしながら、元のプレーンテキストソースからの同じ文書は、これを、ABC12−37またはABC 12−37またはABC(12−37)またはABC[12−37]としてマークアップし得る。
【0165】
変換された文書ファイルは記憶され106、元の検索された文書ファイルおよび変換された文書ファイルの両者ともが記憶装置に保持される。(必要に応じて変換された)文書ファイルは、オプションでフィルタリングされ108、最も関連のあるものが判断される。
【0166】
情報抽出
図5は、その後の情報抽出手順に係るステップのフロー図である。トークン化ソフトウェアモジュール110はXMLフォーマットのキャッシュされた文書ファイルを入力として受付け、トークン化マークアップを含む修正XMLファイル112を出力する。固有表現抽出ソフトウェアモジュール114は修正XMLファイル112を入力として受け、エンティティの個別のインスタンスが認識されマークアップされた、さらに修正されたXMLファイル116を出力する。固有表現抽出ソフトウェアモジュール114は、以前トレーニングデータ118に対してトレーニングされている。固有表現抽出ソフトウェアモジュールは、固有表現抽出ソフトウェアモジュールの性能を決めるデータとして機能する複数の異なる先行ファイルを備える。精度と再現率との間の異なるバランスを与えるように修正された異なる先行ファイル115は、異なる管理人による見直しのためにデータを抽出するのに用いるために提供された。トレーニングデータ118は以下にさらに説明される。次に修正XMLファイル116は、これもオントロジデータ122を入力として取る用語正規化ソフトウェアモジュール120によって処理されて、エンティティの個別のインスタンスがオントロジデータに記憶されるエンティティの正規形への参照番号によって標識付けされた、さらに修正されたXMLファイル124を出力する。次に修正XMLファイル124は、関係抽出ソフトウェアモジュール126によって処理され、これは、文書ファイル中で識別された関係に関するデータを含む注釈付きXMLファイル128を出力する。
【0167】
トークン化、固有表現抽出、用語正規化および関係抽出は各々、進行中の研究の重要な分野であり、これらの段階の各々を実行するためのソフトウェアは、自然言語処理の分野の当業者には周知である。例示的な情報抽出パイプラインにおいて、pdfおよびプレーンテキストなどのさまざまなフォーマット、ならびにNCPI/NLMアーカイビングおよび交換DTDなどのXMLフォーマットなどの、さまざまなフォーマットの入力文書が単純なXMLフォーマットに変換され、このフォーマットは、タンパク質および他の生物医学的エンティティの名称において重要であり得る上付きおよび下付きに関する情報などのフォーマット情報および文書構造のいくつかの有用な要素を保存する。文書は、〈p〉要素によってXML中で表わされる段落に分割されると思われる。トークン化の後、ルシーン(LUCENE)プロジェクト(アパッチソフトウェア財団(the Apache Software Foundation)、アパッチルシーン(Apache Lucene)、2005)からのデフォルトトークナイザおよび文境界検出を用いて、段落の中のテキストは、〈w〉(単語)要素を含有する〈s〉(文)要素からなる。このフォーマットはパイプラインを通じて永続する。付加的な情報および処理の間に追加される注釈データは一般的に、(たとえば、品詞タグなどの)単語に対する属性を追加することにより、またはスタンドオフマークアップにより記録される。スタンドオフマークアップは、IDおよびIDREF属性により、他の要素を指す要素からなる。これにより、テキストの重なる一部を参照できるようになり,スタンドオフ要素は、必ずしも元のテキストでは隣接していない他のスタンドオフ要素を参照できる。固有表現は、エンティティの開始および終了単語を指す〈ent〉要素によって表わされる。関係は、関係に参加する〈ent〉要素を指す〈argument〉子を用いて、〈relation〉要素によって表わされる。スタンドオフマークアップはデータと同じファイル内に記憶されるため、これはパイプラインを通じてユニットとして容易に受け渡し可能であるが、当業者はマークアップは他の文書に記憶され得ることを認識するであろう。
【0168】
入力された文書は次に、各段階の出力がXMLマークアップで符号化される、LT−TTT2ツールを用いて実現されるルールベース前処理ステップのシーケンスによって分析される(Grover, C., Tobin, R. and Matthews, M., Tools to Address the Interdependence between Tokenisation and Standoff Annotation, in Proceedings of NLPXML2-2006 (Multi-dimensional Markup in Natural Language Processing),pages 19-26, Trento, Italy, 2006)。トークン化および文分割の初期ステップの後に、MedPostデータ(Smith, L., Rindflesch, T. and Wilbur, W. J., MedPost: a part-of-speech tagger for biomedical text. Bioinformatics, 20 (14): 2320-2321, 2004)上でトレーニングされたC&C品詞タグ付けプログラム(tagger)(Curran, J. R. and Clark, S., Investigating GIS and smoothing for maximum entropy taggers, in Proceedings of the 11th Meeting of the Europian Chapter of the Association for Computational Linguistics (EACL-03), pages 91-98, Budapest, Hungary, 2003)を用いた品詞タグ付けが行なわれる。
【0169】
レマタイザ(lemmatiser)モジュールは、Morphaレマタイザ(Minnen, G., Carroll, J. and Pearce, D., Robust, applied morphological generation, in Processing of 1st International Natural Language Generation Conference (NLG '2000), 2000)を用いて、語形変化した名詞および動詞の語幹についての情報を得る。省略形およびそれらの長い形についての情報(たとえばB細胞リンカータンパク質(BLNK))は、シュバルツ(Schwartz)およびハースト(Hearst)のExtractAbbrevプログラム(Schwartz, A. S. and Hearst, M. A. Identifying abbreviation definitions in biomedical text, in Pacific Symposium on Biocomputing, pates 451-462, 2003)を呼び出すステップで計算される。ルックアップステップは、オントロジ情報を用いて種の科学的および一般的英語名称を識別し、用語識別コンポーネントにおいて下流で用いる。最後のステップは、LT−TTT2ルールベースチャンカー(chunker)を用いて、名詞および動詞の群ならびにそれらの先頭(heads)をマークアップする(Grover, C. and Tobin, R., Rule-Based Chunking and Reusability, in Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC, 2006), Genoa, Italy, 2006)。
【0170】
固有表現抽出モジュールはタンパク質を認識するのに用いられる。しかし、当業者は、タンパク質複合体、フラグメント、突然変異体および融合体、遺伝子、方法、薬剤による治療、細胞系などのエンティティの他のクラスを類似の方法によっても認識し得ることを認識するであろう。固有表現抽出モジュールは、CoNLL−2003共有タスク(Tiong Kim Sang, E. F. and De Mulder, F., Introduction to the CoNLL-2003 shared task: Language-independent named entity recognition, in Walter Daelemans and Miles Osborne, editors, Proceedings of CoNLL-2003, pages 142-147, Edmonton, Canada, 2003)のためにカラン(Curran)およびクラーク(Clark)によって開発された最大エントロピーマルコフモデル(MEMM)タグ付けプログラム(以下C&Cタグ付けプログラムと称されるCurran, J. R. and Clark, S., Language independent NER using a maximum entropy tagger, in Walter Daelemans and Miles Osborne, editors, Proceedings of CoNLL-2003, pages 164-167, Edmonton Canada, 2003)の変形版であった。
【0171】
バニラC&Cタグ付けプログラムは、CoNLL−2003などのニュースワイヤ固有表現抽出タスクに対する性能のために最適化されるので、タンパク質認識タスクに対するその性能を改良するように変形されたタグ付けプログラムが用いられる。生物医学的テキストのために特に設計される特別の特徴が含まれ、可能なタンパク質の名称を含む地名辞典(gazetteer)が組入れられ、省略形再タグ付けプログラムによって省略形との整合が確実にされ、統計的モデルのパラメータが最適化された。C&C実験特徴オプションを用いて追加された追加特徴は以下のとおりである:CHARACTER:典型的なタンパク質の名称に一致する正規の表現の集合;WORDSHAPE:C&C´wordtype´正射投影特徴の拡張版;HEADWORD:現在の名詞句の先頭の語(head word);ABBREVIATION:この文献において地名辞典用語の省略形として識別されるいずれの用語とも一致する;TITLE:文書のタイトルの名詞句に見られるいずれかの用語;WORDCOUNTER:文書の中で10個の最も一般的に登場するうちのいずれかの連続的な単語に一致する;VERB:文の中の各々の名詞句トークンに追加される動詞見出し語(lemma)情報;FONT:元の文書フォーマットに含有されるイタリックおよび下付きのテキスト。NOLAST:C&Cタグ付けプログラムの最後(メモリ)の特徴は取除かれた。変形されたC&Cタグ付けプログラムも、前処理されて共通の英語の単語を除去しかつトークン化されてパイプラインによって課されるトークン化に一致した、RefSeq(http://www.ncbi.nlm.nih.gov/RefSeq/)から導出されるタンパク質のリストの形式での地名辞典を用いて拡張された。地名辞典を用いて、文書中のタンパク質をタグ付けし、次にこのタグ付けに対応するバイオタグと、C&C実験特徴などの以前のおよび現在のバイオタグの二重字とを各単語に追加する。エンティティの群に対してカスケード化を実行する(たとえば、すべてのエンティティについて1つのモデル、特定的なエンティティの種類に対して1つ、および組合せ)。カスケード中のその後のモデルは、GUESS特徴を介して以前のものの推測へのアクセスを有する。C&Cタグ付けプログラムは、B. Alex, B. Haddow, and C. Grover, Recognising nested named entities in biomedical text, in Proceedings of BioNLP 2007, p.65-72, Prague, 2007に記載されるものに対応し、この内容はここに引用により援用される。
【0172】
使用において、C&Cタグ付けプログラムは、タグ付けプログラムの機能に影響を及ぼすパラメータを規定する先行ファイルを用いる。複数の異なる先行ファイルが提供されて、精度と再現率との間の異なるバランスで固有表現抽出を実行可能にし、これにより、人間の作成者によるその後の見直しのために異なるデータが抽出される複数の異なる動作モードで情報抽出が起こり得るようになる。各々の先行ファイル中の「タグ先行(tag prior)」パラメータは、バイオタグのうちの各々と関連したエンティティ決定しきい値を調整し、これにより、再現率に対して精度を優先するか、または精度に対して再現率を優先するかの決定境界を変更するように選択される。
【0173】
省略形再タグ付けプログラム(retagger)は後処理ステップとして実現され、ここでは、C&Cタグ付けプログラムの出力は再タグ付けされて、シュバルツおよびハーストの省略識別子によって予測される省略形と確実に整合するにようにされた。省略形の先行語がタンパク質としてタグ付けされていれば、同じ文書中のすべてのその後の省略形の出現は再タグ付けプログラムによってタンパク質としてタグ付けされる。
【0174】
用語識別ソフトウェアモジュールは4つの重要な構成要素を用いる。第1の構成要素は、エンティティの各々の言及の文脈を見ることによって文書中のエンティティの個別の言及の最も尤度の高い種を識別する種タグ付けプログラムである。種タグ付けプログラムは、「人」または「マウス」などの種を示す単語からの手がかりに特に注目する。種タグ付けプログラムは、手作業で注釈付けされたデータ上でトレーニングされた、サポートベクターマシン(Support Vector Machines)アルゴリズム(www.cs.waikato.ac.nz/~ml/weka, Witten, I. H. and Frank, E. (2005), Data Mining: Practical machine learning tools and techniques, second edition, Morgan Kaufmann, San Francisco, 2005)のWeka実現例を利用する。1つの実現例では、各々のトレーニングインスタンスは特徴−値の対として表わされ、ここではサイズ50の文脈ウィンドウで言及されるタンパク質と同時に起こるTF−IDF重み付け単語見出し語であり、値は、人間の注釈付け者によって言及されるタンパク質に割当てられた種である。種タグ付けプログラムは、最も尤度の高い識別された種だけでなく多数の代替的な種も出力し得る。
【0175】
種の識別の後、ファジーマッチャー(matcher)およびルールベースマッチャーの両者が呼び出され、その各々は独立して、オントロジ内で、エンティティの公知の同義語であるエンティティの言及と同様の表層形式を識別する。この段階からの出力は一連のスーツケース(suitcases)であり、そのうち1つが各々の表層形式について与えられる。各々の表層形式に関するスーツケースは、それぞれの表層形式と同じ同義語を有するオントロジからのエンティティの識別子を含む。
【0176】
ランク付けモジュールは、次にスーツケースを読出し、テキスト文書中のエンティティの各々の言及ごとに候補識別子のランク付けされたリストを生成する。ランク付けモジュールは、ヒューリスティックルールを用いることができる。これは、オントロジ中で最も低い数値を有する識別子を優先し;RefSeqオントロジ中の識別子への参照番号の数を考慮し;かつエンティティのインスタンスが、エンティティの同義語よりもむしろ、候補識別子が関連するエンティティの正規化形式と同一または同様であるか否かも考慮する。そして、関連のある場合、候補識別子が関連するタンパク質のアミノ酸長および/または候補識別子が関連するアイソホームの数(すなわち、CK−1、CK−2およびCK−3などのアイソホーム中に存在するエンティティの数字索引)である。当業者には馴染みのある標準的な実験を適用する結果、これらのさまざまな因子の重みが決まり、いずれの所与のトレーニングデータの組についても最良の性能を生じる、それらを処理するための順序付けがなされる。
【0177】
結果は、エンティティの各々の言及と関連して出力される、典型的には15個までの候補識別子のバッグ(bag)である。各々のバッグの中の候補識別子は、エンティティの各々の個別の言及の最も尤度の高い識別子であると考えられるものであり、それらはランク付けされた順で与えられる。候補識別子の各々に関する情報は管理人に与えられ得、管理人は候補識別子から好ましい識別子を選択できるようになり得る。管理人に与えられるリスト中のエントリの数を増加させるため、付加的な潜在的に関連のある候補識別子を、エンティティの各々の言及に対応する表層形式に関するスーツケースから入手してもよい。これに代えて、単一の最も尤度の高い識別子を出力する用語識別ソフトウェアモジュールを用いてもよい。
【0178】
用語識別の後、関係抽出モジュールは単純文脈特徴を用いて文書のデジタル表現中のタンパク質同士の間の2値的関係(タンパク質−タンパク質相互作用)を検出する。文内のタンパク質のあらゆる対について関係候補が作成され、その関連の特徴が抽出される。(homepages.inf.ed.ac.uk/s0450736/maxent_toolkit.htmlから入手可能な)最大エントロピー分類器を用いて各々のインスタンスに確率が割当てられ、しきい値を超えた確率を有するインスタンスが関係として受入れられる。用いられる特徴は、相互作用「P1−位置:P2−位置」のタンパク質言及の索引の組合せ;相互作用「P1:P2」のたんぱく質言及の語彙形式の組合せ;タンパク質言及の付近の3単語文脈における語彙形式、語幹形成/見出し語形成、品詞タグおよびチャンキング情報;2つのタンパク質言及同士の間のトークンにおける距離、2つのタンパク質言及同士の間の他の識別されたタンパク質言及の数;タンパク質言及同士の間に否定構造の連携があるか否か;文書が要約であるか全論文であるか;タンパク質言及の正規形;タンパク質同士の間の単語、および同じ態様の品詞タグを用いた別の特徴の連結(concatenation);単語集合(bag-of-words)方策におけるタンパク質同士の間およびタンパク質の直前/直後の単語;タンパク質言及付近の二重字および三重字、である。関係抽出モジュールは以下の情報も用いる:(Plake, C., Hakenberg, J. and Leser, U., Optimizing syntax-patterns for discovering protein-protein-interactions, in Proc ACM Symposium on Applied Computing, SAC, Bioinformatics Track, volume 1, pages 195-201, Santa Fe, USA, March 2005に記載される)付加的トレーニングデータとしてのBioCreAtIvEタスク1Aデータから導出されたタンパク質/遺伝子相互作用コーパス;相互作用、結合、阻害、リン酸化などの、タンパク質−タンパク質相互作用がいつ起こるかの情報であると判断された「相互作用単語」のリストがいくつかの特徴に用いられた;Plake他において用いられた22個の構文パターンが各々正規表現形「P1単語{0,n}|動詞単語{0,m}P2」でブール特徴として用いられる。以下の特徴のすべてはタンパク質言及の各々の対の前、その間およびその後に見出される最も近い相互作用の単語について抽出される。すなわち、15個のトークンのウィンドウ内に相互作用単語が存在するか否か;相互作用単語とそれに最も近いタンパク質との間の距離;相互作用単語の語彙形式および品詞タグ;相互作用単語がHead VerbまたはNounであるか;およびいくつの相互作用単語が文中に存在するか、である。
【0179】
例示的な文書
図6は、システムによる処理に好適な文書の例である。図7は、システムによる処理に好適なXMLファイルのタイトルおよび本文タグ内に含まれる同じ文書のXMLファイルである。テキストの本文は本文タグ内のブレーンテキストフォーマットで与えられる。図8A、図8B、図8Cおよび図8Dは、上述の手順による情報抽出後の例示的な文書に関する注釈付きXMLファイルの連続部分である。
【0180】
注釈付きXMLファイルは、(注釈エンティティデータを構成する)エンティティ200のインスタンスに関するタグを含む。各々のタグは、エンティティのインスタンスの参照番号(たとえばent id=“e4”)、エンティティの種類(たとえば、type=“protein”)、百分率としての用語正規化の信頼度(たとえばconf=“100”)、およびURIの形式でのそのエンティティに関するオントロジデータへの参照番号(たとえば、norm=http://www.cognia.com/txm/biomedical/#protein_P00502885)を特定する。(そのエンティティに関するオントロジデータへの参照番号は、オントロジデータへの参照番号であるエンティティのインスタンスの識別子を構成する)。エンティティの各々のインスタンスに関するタグは、データが関連する(〈w〉接頭辞および〈/w〉接尾辞を有する)単語直前のXMLファイル内にインラインに含まれる(それにより文書のデジタル表現内のエンティティの識別されたインスタンスの場所を特定するデータを構成する)。
【0181】
注釈付きXMLファイルは、文書識別子202、および文書ファイルが表わす文書のソースを特定するデータ204、および元の文書ファイル206を検索するために実行されるサーチのパラメータに関する情報も含む。
【0182】
テキスト中で識別された関係は、注釈付けされたXMLファイルの末尾でスタンドオフ注釈として記録される(図8Cおよび図8D)。(注釈関係データを構成する)関係220のインスタンスに関する注釈データは、関係のそのインスタンスの参照番号222、百分率としての関係抽出の信頼度224、関係が関するエンティティの正規形226、エンティティ228の種類(たとえばtype=“ppi”がタンパク質−タンパク質相互作用を示す)、および関係が関するエンティティの参照番号230、232を含む。
【0183】
図9は、図8Aから図8DのXMLファイル中で注釈付けされたエンティティに下線を付与し、図8Aから図8DのXMLファイル中で注釈付けされた関係が示された、図6の文書である。情報抽出手順は全般的に信頼できる結果を生成したが、間違いが存在することに留意されたい。特に、関係R6は間違っており、さらなる関係250は識別されていない。
【0184】
情報抽出に引き続き、注釈付けされたXMLファイルがリレーショナルデータベース管理システムに記憶される。後の段階で、注釈付けされたXMLファイルは、キュレーションツールコンピュータ−ユーザインターフェイスを介してキュレーションされ、人間の管理人が注釈データを追加し、削除し、かつ修正することを可能にする。たとえば、図9に示される注釈付き文書の場合、人間の管理人は関係R6を削除するかまたは訂正し得、手作業でさらなる関係250を追加し得る。人間の管理人がキュレーションデータを追加し、削除し、かつ修正することを可能にするとともに、キュレーションツールコンピュータ−ユーザインターフェイスは、人間の管理人がデータを選択してターゲットデータベースに出力できるようにもする。
【0185】
キュレーション
キュレーションツールコンピュータ−ユーザインターフェイスは、アプリケーションを実行するコンピュータにJava(登録商標)アプリケーションを配信するウェブサービスコンポーネントおよびキュレーションされるべき文書に関する注釈付けされたXMLファイルによって実現される。ユーザは、コンピュータのモニタおよびキーボードおよびコンピュータマウスなどの入力周辺装置を介してインターフェイスと対話する。
【0186】
図10は、キュレーションコンピュータ−ユーザインターフェイス300の画面図である。コンピュータ−ユーザインターフェイスは、文書304を示す(第1の領域として機能する)文書表示ウィンドウ302を表示する。エンティティ306の個別のインスタンスは、注釈データによって(すなわちXMLファイル内のエンティティのインスタンスに関するタグの場所によって)特定される文書中の場所でハイライトされる。この例では、エンティティの各々のインスタンスは、これを太字でレンダリングすることによってハイライトされる。エンティティのすべてのインスタンスが明瞭性のために標識付けされたわけではない。エンティティは、(たとえばメニュー選択肢を選択することによる)ユーザによる要求に応答してのみハイライトされてもよく、または常にハイライトされていてもよい。したがって、文書表示ウィンドウ内に見られる文書の一部は、注釈(太字テキスト)を含み、自然言語処理パイプラインによって識別されたエンティティをハイライトする。文書表示ウィンドウ内で、関係308は、関係を記述するテキストの周りのボックスでそれらをハイライトすることによって注釈付けされる。ボックスは、たとえば、色付きであってもよい。文書表示ウィンドウはさらに、ユーザが文書をスクロールできるようにする標準的ウィンドウスクロールバー310をさらに備える。
【0187】
キュレーションコンピュータ−ユーザインターフェイスは、自動識別された文書の特徴を、色付きバー314または文書内のそれらの場所に比例する細長いバー中の位置の他の視覚的インジケータで表わすことによって示す、第1の細長いバー312の形態のナビゲーションツールをさらに含む。タンパク質言及、または他の固有表現、識別された関係もしくは自動識別された(「初めに」、「材料および方法」などの)セクション見出しなどの異なる種類の特徴が異なる色付きバーまたは視覚的インジケータを用いて表示される。第2の細長いバー314は、現在文書表示ウィンドウ中に表示されている文書のセクション中に見られる第1の細長いバーに示される特徴の拡張された表現である。たとえば、色付きバー315は各々の識別された関係に並べて設けられている。第2の細長いバーは、表示されている文書のセクションがスクロールバーまたは他のコンピュータ−ユーザインターフェイス特徴を用いて変更されると動的に更新される。エンティティおよび関係を文書内のそれらの識別された場所に表わす注釈は、管理人による詳細な検討を必要とする文書の関連セクションの容易な識別を容易にする。
【0188】
ユーザインターフェイスは、マウスなどのポインティングデバイスまたは別のコンピュータ−ユーザインターフェイス特徴を用いて、自動識別された関係をユーザが選択する手段も提供し、これに応答して、選択された関係に関する自動識別された注釈データから仮の修正注釈データが準備される。次に仮の修正注釈データは注釈修正ウィンドウ316の中に表わされる。注釈修正ウィンドウは、エンティティ320の種類(たとえばタンパク質)の詳細を含む関係の第1の構成要素であるエンティティ、および自然言語情報抽出手順の間に自動識別されたエンティティの識別子322に関するデータを表わす第1のセクション318を備える。オントロジから得られるエンティティ324の名称の正規化形式も表示される。対応の情報は、関係が関する第2のエンティティと関連して、注釈修正ウィンドウの第2のセクション326の中に与えられる。
【0189】
管理人は、関係を正しく表わすものとして仮の修正注釈データを受付け、(ボタンまたはメニュー選択などの)ユーザ−インターフェイス特徴を用いて、仮の修正注釈データが正しいこと、およびこれを用いてターゲットデータベースへのエクスポート用の出力データを作成すべきであることを示し得る。しかしながら管理人は仮の修正注釈データを修正してもよく、たとえば、彼らは、チェックボックス330、テキストボックス、ドロップダウンメニュー332、リストなどの一般的なユーザ−インターフェイス特徴を用いて、識別されたエンティティのうち1つまたはその両方に関するデータを彼らが編集できるようにするボタン328などのユーザインターフェイス特徴を選択し得る。このように、管理人は、たとえばエンティティの誤った識別などの誤った注釈データを訂正したり、(たとえば省略されたエンティティなどの)情報抽出手順によって省略された注釈データを追加したりし得る。追加された注釈データは、情報抽出手順が抽出できないデータを含み得る。たとえば、情報抽出手順がエンティティを識別できるが、エンティティのプロパティを識別できない場合、ユーザがこのデータを入力することができ、これにより、情報抽出手順から導出されるデータしか出力することができないという欠点なしに、情報抽出手順のユーザから効率という利点を得る。管理人は、まったく新しい仮の修正注釈データ記録も作成し得る。たとえば、彼らは、情報抽出手順によって識別されなかった関係に関する仮の修正注釈データを作成し、次に仮の修正注釈データを編集し得る。
【0190】
閲覧および/または編集され得るエンティティに関する注釈データの例は、エンティティの種類、エンティティの識別子、エンティティの正規化形式、エンティティのプロパティ(たとえばそれが修飾されるか否かおよびどのように修飾されるか)を含む。閲覧および/または編集され得る関係に関する関係データの例は、関係が関するエンティティの識別子、たとえば関係に至る実験方法(たとえばアフィニティ精製)などの関係および関係のプロパティの記述、(たとえばリン酸化などの)相互作用の方法、ならびに関係が相互作用に関するか否かを含む。
【0191】
エンティティ(仮の注釈エンティティデータ)または関係(仮の注釈関係データ)に関する仮の注釈データが一旦編集されると、結果的に得られたデータはキュレーションされる(すなわち管理人によって承認される)と考えられ、その全体または一部が出力データとしてターゲットデータベースへのエクスポートのために記憶される。本質的に、仮の注釈データを構成する1つ以上の記録は、情報抽出手順によって準備され、次にターゲットデータベースへのエクスポートのために選択される前に編集された注釈データを用いて予め投入される。
【0192】
エクスポートのために記憶され得る注釈関係データの例は以下のとおりである。
「『Medline要約』コレクションからのものであり、PubMed ID456を有する文書ID123の文字オフセット100と文字オフセット200との間の、『p19』(タンパク質p19、オントロジID135)および『ADPリボシル化因子』(タンパク質Arf、オントロジID680)が相互作用すると言われている。」
このように、注釈関係データは、特定の関係を参照するテキストの断片の開始および終了場所への参照番号(『文字オフセット100』および『文字オフセット200』)、ならびに(内部文書識別子である『文書ID123』および対応の外部文書識別子である『PubMed ID456』を含む)文書識別子、ならびに文書のソース(「Medline要約」コレクション)の識別子、ならびに文書中で見出された状態(『p19』、『ADPリボシル化因子)およびその正規形(『p19』および『Arf』)の両方で関連のエンティティを示すテキストの両方を含み得る。注釈関係データはまた、エンティティの種類(『タンパク質』)、ならびにそれらのオントロジデータ内のID(『オントロジID680』および『オントロジID135』)、ならびに関係の性質の詳細(『相互作用すると言われている』)も含むことができる。
【0193】
当業者は、上記注釈関連データは多くの異なる態様で記憶され得ることを認識するであろう。注釈関係データのうちいくらかまたはすべてはターゲットデータベースにエクスポートされてもよい。
【0194】
上記例では、入力XMLファイル中の注釈データは修正されない。代替的な実施例では、仮の注釈データを編集して、編集された文書に関するXMLファイルとは別個の修正注釈データを形成するよりはむしろ、情報抽出手順によってもともと生成されたXMLファイル中の注釈データが修正される。たとえば、注釈データを含むXMLファイルの形式で文書を受けた場合、キュレーション手順は、修正注釈データを含むXMLファイルを出力することによって終了し得る。いくつかの状況ではこれは望ましくないであろう。なぜなら、XMLファイルに含まれる注釈データを修正するという付加的な演算ステップなしにキュレーションされた仮の注釈データを単に出力するのと比較して、XMLファイルを注釈データの変更を反映するように編集するためには付加的な処理が必要となるであろうからである。しかしながら、ある状況、特にシステムを用いて機械学習ベースの情報抽出モジュールをトレーニングするのに用いるのにトレーニングデータを準備する際は、基底注釈データを修正することが有利であり得る。
【0195】
オプションで、入力XMLファイル中のまたはこれに関する注釈データのシステムメモリ中のローカルコピーを編集手順の際に修正し、これを用いて注釈を有する文書の表示を動的に更新し得る。
【0196】
図11および図12を参照して、キュレーションツールコンピュータ−ユーザインターフェイスは、エンティティおよび/または関係がそれらの文書中の識別された場所でハイライトされた状態で、文書のデジタル表現304のユーザ選択可能部分を示す(ディスプレイの第1の領域として機能する)文書表示ウィンドウ302と(ディスプレイの第2の領域として機能する)ナビゲーションウィンドウ350とを同時に表示するユーザ選択可能サマリーモードを有する。ユーザ選択可能サマリーモードでは、キュレーションツールコンピュータ−ユーザインターフェイスは、NLPパイプラインによって自動識別されたエンティティのインスタンスについての情報を与える。したがって、ユーザ選択可能サマリーモードは、管理人が、エンティティの自動識別されたインスタンスを素早く見出してその文脈を閲覧できるようにする。
【0197】
ユーザは、文書表示ウィンドウ中の文書のデジタル表現の異なる部分を選択可能に閲覧し得、それにより、スクロールバーなどの従来のユーザインターフェイス要素およびキーボードまたはマウスなどの入力デバイスを用いてどの部分が見えるのかを選択し得る。
【0198】
ナビゲーションウィンドウは、ユーザ選択可能ノード要素354を有する分岐ツリー352の形態で、文書のデジタル表現内で識別されたエンティティおよび/または関係についての情報を提示する。ノード要素は、各々のノード要素が親ノード要素および1つ以上の子要素のいずれかまたは両者を有する分岐ツリーに論理的に配置され、ツリーのユーザ選択可能部分はいずれの所与の時期にも見ることができる。ノード要素のうちいくつかは、文書のデジタル表現中で自動識別されたエンティティの個別のインスタンスに関連する葉ノード要素であり、ナビゲーションウィンドウは、(文書中の場所、種類などの)1つ以上のプロパティの特定的な値を有するエンティティの個別のインスタンスに関するデータをユーザが素早く閲覧できるようにするユーザインターフェイスを提供する。
【0199】
(本明細書中では非葉ノード要素と称される)葉ノード要素以外のノード要素はユーザが選択可能であり、選択されると、ユーザが選択したノード要素の子ノード要素を表示するか否かを切換える。図11から図13に見られるように、ノード要素が表示される仕組みは、子ノードが、たとえば下にぶら下がるリストの形態でそれらの親ノードに隣接して、およびオプションで親ノードの一方の側に隣接して位置するように、ツリー構造を視覚的に表わす。
【0200】
樹形図は、文書のデジタル表現の異なるゾーン、すなわちタイトル356a、要約356b、結果セクション356c、ディスカッションセクション356dおよび参照番号セクション356e、に関する異なるユーザ選択可能ノード要素を有する。したがって、これらのノード要素の各々は文書のセクションと関連付けられ、文書のセクションと関連付けられた各々のノード要素は、その究極の子として、文書のそのセクションにあるものとして自動識別されたプロパティを有するエンティティの識別されたインスタンスに関する葉ノード要素を有する。図11に示される最も高レベルのビューでは、各々のゾーンの名称は、各々のゾーン中で自動識別されたエンティティの数を示す数字358とともに表示される。文書内のゾーンによるグループ分けは、管理人が、文書内のエンティティのインスタンスの分布を閲覧できる、および/または、彼らが見直すことを望むゾーン中のエンティティのインスタンスを素早くナビゲートできるようにするという点で有用である。
【0201】
第1のレベルのノード要素を選択することによって樹形図が一旦開かれると、選択された第1のレベルのノード要素に隣接して、たとえば、タンパク質、ドメイン、薬剤化合物、一時的変異体および突然変異体などの文書のデジタル表現の適切なセクション中で識別されたエンティティの各種類に関連して、別個の第2のレベルのノード360の要素が列挙される。これに応じて、したがって、各々の第2のレベルのノードはエンティティの種類と関連付けられ、各々は、その究極の子として、それぞれのエンティティの種類のものであるエンティティの識別されたインスタンスに関する葉ノード要素を有する。
【0202】
ユーザは第2のレベルのノードを選択してもよく、そうすると、樹形図が開き、文書のそれぞれのセクション中で少なくとも1つのインスタンスが識別されたそれぞれの種類の各々のエンティティについて提供される第3のレベルのノード362を示す。最後に、ユーザが第3のレベルのノードを選択したことに応答して、各々が文書中で識別されたエンティティの個別のインスタンス366に関連する葉ノード要素である第4のレベルのノード364が表示される。
【0203】
第4のレベルのノードは文書のデジタル表現の関連のセクション内の選択されたエンティティの個別のインスタンスのリストの中に形成される。各々のインスタンスは、エンティティ368の正規化形式および選択されたエンティティの個別のインスタンスのいずれかの側に延びる、文書のデジタル表現からのテキスト372のセグメントの形態のテキスト抜粋370によって表わされる。テキストのセグメント内の個別のインスタンスの実際の言及374はハイライトされる376。(エンティティの正規化形式を含む)エンティティの個別の言及に関連するテキストの行全体またはテキストのセグメントまたはエンティティのインスタンスの実際の言及は、ユーザ選択可能ユーザインターフェイス要素として機能する。
【0204】
ユーザは、コンピュータマウスなどのポインティングデバイスを用いてユーザ選択可能ユーザインターフェイス要素上をクリックし得る。ユーザインターフェイス要素の選択に応答して、文書表示ウィンドウ302中の文書のデジタル表現の表示は、図13に図示されるように調整され、これにより文書表示ウィンドウ内で見られる文書のデジタル表現の部分が、エンティティ378の選択された個別のインスタンスが文書のデジタル表現の表示部分のほぼ中程まで上昇して、エンティティの選択された個別のインスタンスのいずれかの側に延びる部分となる。エンティティの各々の識別されたインスタンスはハイライトされるが、エンティティの選択されたインスタンスは、ユーザの注意をエンティティのインスタンスに向けるため、さらにハイライト380される。
【0205】
したがって、ツリー構造は、各々の非葉ノード要素ごとに、各々の子ノード要素がそれぞれの子ノード要素の究極の子である葉ノードと関連付けられたエンティティのインスタンスの同じプロパティの異なる値に関連するように分岐する。葉要素のみの親である非葉ノード要素については、各々の葉要素は、非葉ノード要素と関連付けられたプロパティを有するエンティティの個別のインスタンスおよびツリー中の非葉ノード要素の上の非葉ノード要素に関連する。ツリー構造中のノード要素の群からユーザが選択した異なるノード要素の表示を容易にするため、ユーザは再び非葉ノード要素上をクリックしてもよく、すると非葉ノード要素の子ノード要素が消える。
【0206】
この例では、ツリー構造内の各々の深さに非葉子ノード要素を有する各々のノード要素ごとに、同じプロパティの異なる値と関連付けられる子ノード要素が設けられる。たとえば、エンティティのインスタンスの種類と関連付けられる第2のレベルのノード要素の異なる群が各々の第1のレベルのノード要素ごとに子ノード要素として設けられる。しかしながらそうである必要はなく、ツリー構造内の同じ深さの異なる非葉ノード要素に関して異なるプロパティの代替的な値と関連付けられる子ノード要素を設けることができる。
【0207】
典型的に、ツリー構造の分岐の基礎を形成するプロパティは、文書のデジタル表現が関する知識域(domain of knowledge)に依存し、代替的構成パラメータの群から編集可能および/または選択可能である構成パラメータによって決まる。
【0208】
図14は、文書表示ウィンドウが以前のとおりである、キュレーションツールコンピュータ−ユーザインターフェイスの別のユーザ選択可能動作モードを図示する。しかしながら、この動作モードでは、キュレーションされたエンティティウィンドウ382は文書表示ウィンドウと同時に表示される。エンティティ384のキュレーションされたインスタンスのリストは、キュレーションされたエンティティウィンドウに表示される。リスト中の各々のエントリは、エンティティのそれぞれのキュレーションされたインスタンスに関する。エンティティのキュレーションされたインスタンスとは、それに対して関連付けられた注釈エンティティデータが管理人によって見直しおよび/または入力され、必要に応じて修正され、およびデータベースへの出力のために選択された、自動的にまたは管理人によってもともと識別されたエンティティのインスタンスを指す。このユーザ選択可能動作モードにおけるエンティティのキュレーションされたインスタンスのリスト中に示されるデータは、典型的には、ターゲットデータベースへの出力のために選択された記録から取られる。
【0209】
リスト中の各々のエントリは、エンティティの種類386のサマリーと、エンティティ識別子のデータベース中のエンティティの識別子390(ここではRefSeq受入番号)、エンティティの正規化形式392、およびエンティティの種394を含むエンティティのインスタンスに帰するキュレーションされた注釈エンティティデータの記述388とを含む。リスト中の各々のエントリは、ユーザによって選択されると、文書表示ウィンドウ中の文書のデジタル表現の表示が以前のように調整されるようにし、それにより文書表示ウィンドウ中で見られる文書のデジタル表現の部分が、エンティティのそれぞれの個別のインスタンスが文書のデジタル表現の表示された部分のほぼ中程まで上昇して、関連のリストエントリが関するエンティティの個別のインスタンスのいずれかの側に延びる部分となる、ユーザ選択可能ユーザインターフェイス要素として機能するアイコン396も含む。エンティティの各々の識別されたインスタンスはハイライトされるが、関連のリストエントリが関するエンティティのインスタンスは、以前のように、ユーザの注意をエンティティのインスタンスに引きつけるため、さらにハイライトされる。
【0210】
ターゲットデータベースへのエクスポートのためにデータを見直すため、管理人は、文書のデジタル表現内のエンティティ(および/または関係)の個別の言及の周りの文脈を読まなければならない。発明の方法が提供するユーザインターフェイスにより、管理人は、文書のデジタル表現をキュレーションする際に、エンティティの個別のインスタンスに関する注釈データを見直し、および必要に応じて修正および/または入力するために検討しなければならない文書のデジタル表現のセクションをより素早く見つけられるようになる。管理人または第1の管理人の作業をチェックする第2の管理人は、図14に図示される動作モードでは、エンティティの個別のインスタンスに関するデータもチェックすることができる。
【0211】
エクスポート
周期的に、ターゲットサービスはキュレーションされたデータをターゲットデータベースにエクスポートする。ターゲットサービスはエクスポートすべきデータを順に系統的に進め、データがターゲットデータベース内に既に見出されるか否かをチェックする。見出されない場合、ターゲットデータベースのAPIを呼出すまたはSQLインサート/アップデートを生成することにより、データがターゲットデータベース中に挿入される。データをターゲットデータベース用の適切なフォーマットに翻訳する必要があるかもしれない。ターゲットデータベースが異なるオントロジデータを有する場合、これらの参照番号を翻訳する必要がある。この手順は、1つよりも多くのターゲットデータベースに投入するため繰返し可能であるまたは並行して実行可能である。
【0212】
発明の潜在的に重要なオプションの特徴は、キュレーションプロセスによって生成されたデータが将来的な文書ファイルの自動分析で用いられるフィードバックの提供である。
【0213】
フィードバック−オントロジデータ
図15は、情報抽出において用いるためのオントロジデータのフィードバックの概略図である。エンティティに関するオントロジデータ122は用語正規化のステップの際に用いられ、関係に関するオントロジデータも関係抽出のステップの際に用いられ得る。これらのステップの際に用いられるオントロジデータは、予め定められたオントロジデータ134とキュレーションプロセスの間に管理人によって追加された新たなオントロジデータ136との組合せである。このフィードバック手順は、情報抽出手順の信頼性を向上させ、費用効果を向上させ、ある状況ではシステム全体の精度を向上させる。新しいオントロジデータは、ときどき、情報抽出のために用いられるオントロジデータにバッチ式に追加可能であるか、または情報抽出のために用いられるオントロジデータに即時に追加されてもよい。
【0214】
より高度なオントロジ保守システムを図16に図示する。オントロジサブシステム400は、エンティティに関するオントロジデータ、およびオプションで(トークン化、固有表現抽出、用語正規化および関係抽出モジュールを備える)情報抽出モジュール402への関係を与える。オントロジデータはオントロジ記憶システム404に記憶され、情報抽出モジュールは、オントロジデータが保守担当者406および1人以上の管理人408によって修正可能となるように適合される。さらに、情報抽出モジュールはターゲットデータベース410からオントロジデータを受け、必要に応じてオントロジデータのフォーマットを翻訳する。これにより、ターゲットデータベースが更新されるとオントロジデータが更新されるようになる。ルックアップテーブルが記憶され、情報抽出およびキュレーションシステム中のエンティティ(およびオプションで関係)への参照番号をターゲットデータベース中のエンティティ(およびオプションで関係)にマッピングできるようにし得る。
【0215】
1つの例示的な実施例では、オントロジデータは単にエンティティ名称(たとえばタンパク質の名称)の語彙目録を備える。語彙目録内の各エンティティは一意なオントロジ識別子、その正規形を示すストリング、およびエンティティの同義語を示すストリングを有する。この種類の語彙目録は、より複雑なオントロジから関連の情報を抽出することによって容易に準備可能である。
【0216】
フィードバック−トレーニングデータ
図17は、システム内のトレーニングデータのフィードバックの概略図である。固有表現抽出モジュールは、まず、その目的のために与えられ、典型的にはそれらが正しく注釈付けされることを確実にするように注意深くチェックされた注釈付き文書ファイルからなるトレーニングデータを用いてトレーニングされる。
【0217】
キュレーションプロセスを実行する間、管理人は、彼らがキュレーションしていた文書またはその一部を選択することができ、すると彼らのキュレーションから生じた注釈付き文書ファイル(またはその一部)が選択された注釈付き文書ファイルのデータベース140中に記憶される。周期的に、固有表現抽出ソフトウェアモジュールは、選択された注釈付き文書ファイルのデータベースおよびさらに予め定められた注釈付き文書ファイル142のデータベースからのデータの双方を備えるトレーニングデータ118を用いて再トレーニングされる。この場合、キュレーションツールは典型的に、ユーザが、XMLファイルに含まれる基底注釈データを修正せずに、注釈データから導出されるデータを単に出力するよりもむしろ、注釈データを修正し、修正注釈データを出力XMLファイルに含められるようにするであろう。
【0218】
当業者は、情報抽出システム内の他のモジュールがこのように選択されたトレーニングデータを用いて再トレーニングされ得ることを認識するであろう。このようにトレーニングデータを選択することの重要な利点は、管理人が特定の文書ファイルの自動分析がいつ情報抽出システムによってまずく実行されたかを認識し、それにより再トレーニングにおいて用いるための特定の関連の文書ファイルを選択できることである。
【0219】
カスタマイズ
使用の際、情報抽出手順は、利用可能な先行ファイルの中から選択された先行ファイルを用いて固有表現抽出を実行することにより、複数の動作モードのうち1つに従って機能する。固有表現抽出ソフトウェアおよび特定の先行ファイルはともに、選択可能な代替的情報抽出モジュールの群から選択される情報抽出モジュールとして機能する。
【0220】
固有表現抽出モジュールが用いる先行ファイルは、エンティティの冒頭、エンティティのその後の一部、またはエンティティの一部ではないことを備えるトークンの尤度についての固有表現タグ付けプログラムの事前信念(prior belief)を手作業で変更することによって精度と再現率との間の異なるバランスを表示するように個別に選択された。これにより、管理人のグループ内の異なる管理人は異なるデータの組を見直しできるようになり、たとえば、ある管理人は精度を優先する情報抽出手順を用いて抽出されたデータを見直し得、他の管理人は精度よりも再現率を優先する情報抽出手順を用いて抽出されたデータを見直し得る。代替的にまたはさらに、管理人のグループはすべて再現率よりも精度を優先する情報抽出手順、または精度よりも再現率を優先する情報抽出手順を用いて抽出されたデータを見直し得る。しかしながら、グループ内の異なる管理人は、再現率よりも精度を優先する、または精度よりも再現率を優先するデータをそれぞれ異なる程度に見直してもよい。このように、データは、典型的には精度と再現率との間の異なるバランスを有する少なくとも2つの情報抽出動作モードを用いて文書の多数のデジタル表現から抽出され得、人間の管理人のチームの個別のメンバーは、異なる情報抽出動作モードで抽出されたデータを見直し得る。
【0221】
情報抽出は、抽出されたデータを見直しているであろう特定の管理人、または特定の動作モードをより好むことが分かっている管理人のグループのために、適切な動作モードで実行可能である。いくつかの実施例では、情報抽出は、2つ以上の動作モードで同じ文書に対して実行され、どの抽出データの組を特定の管理人に提示すべきかについての選択は後でなされる。
【0222】
この例では固有表現抽出モジュールのみが精度と再現率との間の異なるバランスを有する異なる動作モードを有するが、情報抽出パイプラインのいずれの段階または情報抽出パイプラインの段階の組合せも、精度と再現率との間の異なるバランスに最適化可能である。想定されるように、情報抽出手順の段階のうちあるものは再現率よりも精度を優先するように最適化可能であり、情報抽出手順の段階のうちあるものは精度よりも再現率を優先するように最適化可能である。
【0223】
フィードバック
管理人の成績を表わす好適な測定基準は、その特定の管理人についてまたは全般について情報抽出パイプラインを最適化するようにモニタ可能である。情報抽出パイプラインの個別の段階を実現する代替的なモジュールを試してみるためまたは情報抽出パイプラインの個別の段階を実現するモジュールを最適化するためにこれを用いることができる。
【0224】
好適な測定基準の例は、管理人が特定されたデータを見直すのにかかる時間、管理人によるキュレーションの速さ、究極の判断基準に対する管理人によって生じる誤りの率、特定されたデータを見直す管理人によるマウスクリックもしくはキー押下の数、またはキュレーションの間に省略したもしくは誤って抽出したデータを導入もしくは修正しながら彼らが必要とし得るデータを検索するために管理人によって動作可能なサーチエンジンを管理人が使用する回数を含む。
【0225】
たとえば、好適な測定基準は、管理人がサーチエンジンを用いた回数に関連する測定値であり得る。管理人は、自動情報抽出装置が文書のデジタル表現中のエンティティの言及のインスタンスを識別しなかった際または誤って識別した際にサーチエンジンを用い得る。サーチエンジンはRefSeqまたはMeSH語彙目録中の動作可能なサーチであり得る。
【0226】
これらの測定基準は、どの情報抽出動作モードが個別の管理人の最良の成績に繋がるかを判断するのに用いることも可能である。
【0227】
一貫性
情報抽出パイプラインはエンティティの個別の言及に関するデータを抽出し、エンティティの各々の個別の言及の文脈からそれらに識別子を割当てる。これは、特定の文字列が示すエンティティの異なるインスタンスに、文書のデジタル表現中の異なる場所で異なる識別子を割当て得るという効果を有する。時にはこれが正しいが、常にそうであるわけではない。
【0228】
代替的な実施例では、固有表現抽出モジュールは、同じ文字列を有するすべてのチャンクを同じエンティティの種類(たとえばタンパク質、遺伝子)に強制的に割当てるように変更される。同じ文字列を有するすべてのチャンクを強制的に同じエンティティの種類に割当てる1つの方法は、特定の種類のエンティティを表わすと識別される各々の文字列に、同じ文字列を有する文書中の各々のチャンクに同じ種類を波及させることである。文書のデジタル表現は典型的に、始めから終わりへ分析され、したがって文字列の最初のインスタンスに割当てられる識別子はこうして同じ文字列のすべての後続のインスタンスに割当てられる。同じ文字列を有するすべての固有表現に強制的に同じ識別子を割当てる第2の方法は、文書のデジタル表現に対して固有表現抽出を実行し、1つよりも多くの機会に固有表現として認識されるあらゆる文字列について、その文字列の各々のインスタンスに、最初の固有表現抽出ステップ中のその文字列の最も頻繁に割当てられた識別子の識別子を割当てることである。同一の文字列の一貫した解釈を強制する異なる方法は、異なる情報抽出動作モードで実現され得る。
【0229】
以上で引用された文献はこの引用により本明細書中に援用されている。
本明細書中に開示された発明の範囲内でさらなる変形および変更がなされ得る。
【特許請求の範囲】
【請求項1】
文書のデジタル表現から自動的に抽出されたデータを見直しのために管理人に提示するコンピュータで実現される方法であって、抽出されたデータは、文書のデジタル表現中で識別されたエンティティの1つ以上のインスタンスに関する注釈エンティティデータを備え、注釈エンティティデータは、文書のデジタル表現内のエンティティの識別されたインスタンスの場所を特定するデータを備え、方法は、
(i) ディスプレイ画面の第1の領域に、文書のデジタル表現のユーザ選択可能部分を表示するステップを備え、注釈エンティティデータによって文書のデジタル表現の表示された部分内に位置するとして特定されるエンティティの前記インスタンスは、注釈エンティティデータによって特定される場所でハイライトされ、さらに
(ii) ディスプレイ画面の第2の領域に、文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストを表示するステップを備え、エンティティの列挙されたインスタンスのうち少なくとも1つは、それと関連付けられたユーザ選択可能ユーザインターフェイス要素を有し、さらに
(iii) エンティティのインスタンスと関連付けられたユーザ選択可能ユーザインターフェイス要素をユーザが選択するのに応答して、選択されたユーザインターフェイス要素と関連付けられたエンティティのインスタンスが位置する文書のデジタル表現内の場所を含むように、第1の領域に表示される文書のデジタル表現の部分を調整するステップを備える、コンピュータで実現される方法。
【請求項2】
文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストは、エンティティの自動的に識別されたインスタンスを備えるか、またはそれらからなる、請求項1に記載のコンピュータで実現される方法。
【請求項3】
文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストは、管理人によって見直されたエンティティの識別されたインスタンスを備えるか、またはそれらからなる、請求項1または2に記載のコンピュータで実現される方法。
【請求項4】
文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストは、抽出されたデータ中で特定されなかったが管理人によって識別されたエンティティのインスタンスを備え得る、先行するいずれか1つの請求項に記載のコンピュータで実現される方法。
【請求項5】
エンティティの複数のインスタンスのリスト中の、エンティティの個別のインスタンスの付近から、文書のデジタル表現からのテキストのセグメントを表示するステップを備える、先行するいずれか1つの請求項に記載のコンピュータで実現される方法。
【請求項6】
ユーザ選択可能ユーザインターフェイス要素は、エンティティの個別のインスタンスに関するテキストのセグメント、またはエンティティの個別のインスタンスに関するテキストのセグメントの部分を備える、請求項5に記載のコンピュータで実現される方法。
【請求項7】
選択されたユーザインターフェイス要素と関連付けられたエンティティのインスタンスが位置する文書のデジタル表現内の場所を含むように、第1の領域に表示される文書のデジタル表現の部分を調整するステップは、選択されたユーザインターフェイス要素と関連付けられたエンティティのインスタンスが第1の領域の特定的な部分内に位置するように、第1の領域に表示される文書のデジタル表現の部分を調整するステップを備える、先行するいずれか1つの請求項に記載のコンピュータで実現される方法。
【請求項8】
方法は、関係の識別されたインスタンスの識別された場所で、第1の領域に表示される文書のデジタル表現の部分内に位置すると識別された関係のインスタンスをハイライトするステップをさらに備え、方法は、文書のデジタル表現中で識別された関係の複数のインスタンスのリストをディスプレイ画面の第2の領域に表示するステップをさらに備え、関係の列挙されたインスタンスのうち少なくとも1つは、それと関連付けられたユーザ選択可能ユーザインターフェイス要素を有し、さらに、関係のインスタンスと関連付けられたユーザ選択可能ユーザインターフェイス要素をユーザが選択するのに応答して、選択されたユーザインターフェイス要素と関連付けられた関係のインスタンスが位置する文書のデジタル表現内の場所を含むように、第1の領域に表示される文書のデジタル表現の部分を調整するステップを備える、先行するいずれか1つの請求項に記載のコンピュータで実現される方法。
【請求項9】
関係の複数のインスタンスのリストは、エンティティの複数のインスタンスのリストとは異なる時期に表示される、請求項8に記載のコンピュータで実現される方法。
【請求項10】
方法は、エンティティのインスタンスに関する抽出されたデータを見直すためのコンピュータ−ユーザインターフェイス手段をユーザに提供するステップをさらに備える、先行するいずれか1つの請求項に記載のコンピュータで実現される方法。
【請求項11】
方法は、エンティティのインスタンスに関する新しいまたは修正されたデータを管理人から受けるように動作可能なコンピュータ−ユーザインターフェイス手段をユーザに提供するステップをさらに備える、請求項10に記載のコンピュータで実現される方法。
【請求項12】
方法は、管理人によって文書のデジタル表現内で識別されたが抽出データによっては特定されないエンティティのインスタンスに関するデータを受けるように動作可能なコンピュータ−ユーザインターフェイス手段をユーザに提供するステップをさらに備える、請求項10または11に記載のコンピュータで実現される方法。
【請求項13】
情報抽出装置を用いてエンティティのインスタンスに関する注釈エンティティデータを自動的に抽出して見直し用の抽出データを準備するステップを備える、先行するいずれか1つの請求項に記載のコンピュータで実現される方法。
【請求項14】
文書のデジタル表現から自動的に抽出されたデータをユーザに提示するコンピュータで実現される方法であって、自動的に抽出されたデータは、文書のデジタル表現中で自動的に識別されたエンティティのインスタンスを特定するデータを備え、エンティティのインスタンスはそれと関連付けられた1つ以上のプロパティを有し、方法は、
(i) ノード要素の群からユーザが選択したノード要素の表現を表示するステップを備え、ノード要素の群中の各々のノード要素は親ノード要素および1つ以上の子ノード要素のいずれかまたは両方を有し、さらに、分岐ツリー構造を形成するステップを備え、ノード要素の群中の少なくとも2つのノード要素は子ノード要素を有しない葉ノード要素であり、残余のノード要素は少なくとも1つの子ノード要素を有する非葉ノード要素であり、各々の表わされた非葉ノード要素は、前記表わされた非葉ノード要素の子ノード要素を表わすか否かを判断するようにユーザが選択可能であり、
(ii) 各々の葉ノード要素は、自動的に抽出されたデータによって特定されるエンティティのインスタンスと関連付けられ、各々の非葉ノード要素はエンティティのインスタンスのプロパティの値と関連付けられ、それぞれの非葉ノード要素の究極の子である各々の葉ノード要素は、プロパティの同じそれぞれの値を有するエンティティのインスタンスと関連付けられることを特徴とする、コンピュータで実現される方法。
【請求項15】
葉ノード要素は、エンティティのインスタンスを表わす文字列を用いて表わされる、請求項14に記載のコンピュータで実現される方法。
【請求項16】
子として非葉ノード要素を有する非葉ノード要素の少なくとも大部分については、各々の子非葉ノード要素は同じプロパティの異なる値と関連付けられる、請求項14または15に記載のコンピュータで実現される方法。
【請求項17】
同じ非葉要素の子である非葉要素が異なる値を有するというプロパティは、分岐ツリー構造内の少なくとも1つの深さの各々の非葉要素について同じである、請求項14から16のいずれか1つに記載のコンピュータで実現される方法。
【請求項18】
少なくともいくつかの非葉ノード要素は、その非葉ノード要素の究極の子の数に対応する数字を含む画像によって表わされる、請求項14から17のいずれか1つに記載のコンピュータで実現される方法。
【請求項19】
各々の葉ノード要素は、ツリー構造の中でその上にある各々のノード要素と関連付けられるプロパティの値を有するエンティティのインスタンスと関連付けられる、請求項14から18のいずれか1つに記載のコンピュータで実現される方法。
【請求項20】
少なくとも1つのプロパティは、文書のデジタル表現内のエンティティのインスタンスの場所を備える、請求項14から19のいずれか1つに記載のコンピュータで実現される方法。
【請求項21】
少なくとも1つのプロパティはエンティティのインスタンスの種類である、請求項14から20のいずれか1つに記載のコンピュータで実現される方法。
【請求項22】
少なくとも1つのプロパティは、エンティティのインスタンスの表層形式の正規化形式である、請求項14から21のいずれか1つに記載のコンピュータで実現される方法。
【請求項23】
同じ親ノード要素の子である異なるノード要素と関連付けられた異なる値を有するプロパティは、異なる適用例について異なり得る構成パラメータによって決まる、請求項14から22のいずれか1つに記載のコンピュータで実現される方法。
【請求項24】
異なるノード要素と関連付けられた異なる値を有するプロパティのうち1つ以上は、エンティティのインスタンスのキュレーションのステータスであり、方法は、葉ノード要素と関連付けられたエンティティのインスタンスのキュレーションのステータスの変化に応答して、ツリー構造中の別の場所に葉ノード要素を移動させるステップを含む、請求項14から23のいずれか1つに記載のコンピュータで実現される方法。
【請求項25】
文書のデジタル表現の少なくとも一部はディスプレイの第1の領域に表示され、ユーザが選択したノード要素の表現は、請求項1から13のいずれか1つに従う方法によってディスプレイの第2の領域に表示され、葉ノード要素は、ユーザによって選択されると、それぞれの葉ノード要素が関するエンティティのインスタンスが文書のデジタル表現中でハイライトされ、および/または、ディスプレイの第1の領域中の文書のデジタル表現の少なくとも一部のビューが修正されてそれぞれの葉ノード要素が関するエンティティのインスタンスを示すようにするユーザ選択可能ユーザインターフェイス要素として表わされ、葉ノード要素は、それらが関連付けられるエンティティのインスタンスの1つ以上のリストの形式で表わされる、請求項17または18に記載のコンピュータで実現される方法。
【請求項26】
先行するいずれか1つの請求項の方法を実行するように動作可能な演算装置。
【請求項27】
演算装置によって実行されると、演算装置に請求項1から25のうちいずれか1つの方法を実行させるコンピュータプログラムコード。
【請求項28】
請求項27に従うコンピュータプログラムコードを記憶するコンピュータ読出可能記憶媒体。
【請求項1】
文書のデジタル表現から自動的に抽出されたデータを見直しのために管理人に提示するコンピュータで実現される方法であって、抽出されたデータは、文書のデジタル表現中で識別されたエンティティの1つ以上のインスタンスに関する注釈エンティティデータを備え、注釈エンティティデータは、文書のデジタル表現内のエンティティの識別されたインスタンスの場所を特定するデータを備え、方法は、
(i) ディスプレイ画面の第1の領域に、文書のデジタル表現のユーザ選択可能部分を表示するステップを備え、注釈エンティティデータによって文書のデジタル表現の表示された部分内に位置するとして特定されるエンティティの前記インスタンスは、注釈エンティティデータによって特定される場所でハイライトされ、さらに
(ii) ディスプレイ画面の第2の領域に、文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストを表示するステップを備え、エンティティの列挙されたインスタンスのうち少なくとも1つは、それと関連付けられたユーザ選択可能ユーザインターフェイス要素を有し、さらに
(iii) エンティティのインスタンスと関連付けられたユーザ選択可能ユーザインターフェイス要素をユーザが選択するのに応答して、選択されたユーザインターフェイス要素と関連付けられたエンティティのインスタンスが位置する文書のデジタル表現内の場所を含むように、第1の領域に表示される文書のデジタル表現の部分を調整するステップを備える、コンピュータで実現される方法。
【請求項2】
文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストは、エンティティの自動的に識別されたインスタンスを備えるか、またはそれらからなる、請求項1に記載のコンピュータで実現される方法。
【請求項3】
文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストは、管理人によって見直されたエンティティの識別されたインスタンスを備えるか、またはそれらからなる、請求項1または2に記載のコンピュータで実現される方法。
【請求項4】
文書のデジタル表現中で識別されたエンティティの複数のインスタンスのリストは、抽出されたデータ中で特定されなかったが管理人によって識別されたエンティティのインスタンスを備え得る、先行するいずれか1つの請求項に記載のコンピュータで実現される方法。
【請求項5】
エンティティの複数のインスタンスのリスト中の、エンティティの個別のインスタンスの付近から、文書のデジタル表現からのテキストのセグメントを表示するステップを備える、先行するいずれか1つの請求項に記載のコンピュータで実現される方法。
【請求項6】
ユーザ選択可能ユーザインターフェイス要素は、エンティティの個別のインスタンスに関するテキストのセグメント、またはエンティティの個別のインスタンスに関するテキストのセグメントの部分を備える、請求項5に記載のコンピュータで実現される方法。
【請求項7】
選択されたユーザインターフェイス要素と関連付けられたエンティティのインスタンスが位置する文書のデジタル表現内の場所を含むように、第1の領域に表示される文書のデジタル表現の部分を調整するステップは、選択されたユーザインターフェイス要素と関連付けられたエンティティのインスタンスが第1の領域の特定的な部分内に位置するように、第1の領域に表示される文書のデジタル表現の部分を調整するステップを備える、先行するいずれか1つの請求項に記載のコンピュータで実現される方法。
【請求項8】
方法は、関係の識別されたインスタンスの識別された場所で、第1の領域に表示される文書のデジタル表現の部分内に位置すると識別された関係のインスタンスをハイライトするステップをさらに備え、方法は、文書のデジタル表現中で識別された関係の複数のインスタンスのリストをディスプレイ画面の第2の領域に表示するステップをさらに備え、関係の列挙されたインスタンスのうち少なくとも1つは、それと関連付けられたユーザ選択可能ユーザインターフェイス要素を有し、さらに、関係のインスタンスと関連付けられたユーザ選択可能ユーザインターフェイス要素をユーザが選択するのに応答して、選択されたユーザインターフェイス要素と関連付けられた関係のインスタンスが位置する文書のデジタル表現内の場所を含むように、第1の領域に表示される文書のデジタル表現の部分を調整するステップを備える、先行するいずれか1つの請求項に記載のコンピュータで実現される方法。
【請求項9】
関係の複数のインスタンスのリストは、エンティティの複数のインスタンスのリストとは異なる時期に表示される、請求項8に記載のコンピュータで実現される方法。
【請求項10】
方法は、エンティティのインスタンスに関する抽出されたデータを見直すためのコンピュータ−ユーザインターフェイス手段をユーザに提供するステップをさらに備える、先行するいずれか1つの請求項に記載のコンピュータで実現される方法。
【請求項11】
方法は、エンティティのインスタンスに関する新しいまたは修正されたデータを管理人から受けるように動作可能なコンピュータ−ユーザインターフェイス手段をユーザに提供するステップをさらに備える、請求項10に記載のコンピュータで実現される方法。
【請求項12】
方法は、管理人によって文書のデジタル表現内で識別されたが抽出データによっては特定されないエンティティのインスタンスに関するデータを受けるように動作可能なコンピュータ−ユーザインターフェイス手段をユーザに提供するステップをさらに備える、請求項10または11に記載のコンピュータで実現される方法。
【請求項13】
情報抽出装置を用いてエンティティのインスタンスに関する注釈エンティティデータを自動的に抽出して見直し用の抽出データを準備するステップを備える、先行するいずれか1つの請求項に記載のコンピュータで実現される方法。
【請求項14】
文書のデジタル表現から自動的に抽出されたデータをユーザに提示するコンピュータで実現される方法であって、自動的に抽出されたデータは、文書のデジタル表現中で自動的に識別されたエンティティのインスタンスを特定するデータを備え、エンティティのインスタンスはそれと関連付けられた1つ以上のプロパティを有し、方法は、
(i) ノード要素の群からユーザが選択したノード要素の表現を表示するステップを備え、ノード要素の群中の各々のノード要素は親ノード要素および1つ以上の子ノード要素のいずれかまたは両方を有し、さらに、分岐ツリー構造を形成するステップを備え、ノード要素の群中の少なくとも2つのノード要素は子ノード要素を有しない葉ノード要素であり、残余のノード要素は少なくとも1つの子ノード要素を有する非葉ノード要素であり、各々の表わされた非葉ノード要素は、前記表わされた非葉ノード要素の子ノード要素を表わすか否かを判断するようにユーザが選択可能であり、
(ii) 各々の葉ノード要素は、自動的に抽出されたデータによって特定されるエンティティのインスタンスと関連付けられ、各々の非葉ノード要素はエンティティのインスタンスのプロパティの値と関連付けられ、それぞれの非葉ノード要素の究極の子である各々の葉ノード要素は、プロパティの同じそれぞれの値を有するエンティティのインスタンスと関連付けられることを特徴とする、コンピュータで実現される方法。
【請求項15】
葉ノード要素は、エンティティのインスタンスを表わす文字列を用いて表わされる、請求項14に記載のコンピュータで実現される方法。
【請求項16】
子として非葉ノード要素を有する非葉ノード要素の少なくとも大部分については、各々の子非葉ノード要素は同じプロパティの異なる値と関連付けられる、請求項14または15に記載のコンピュータで実現される方法。
【請求項17】
同じ非葉要素の子である非葉要素が異なる値を有するというプロパティは、分岐ツリー構造内の少なくとも1つの深さの各々の非葉要素について同じである、請求項14から16のいずれか1つに記載のコンピュータで実現される方法。
【請求項18】
少なくともいくつかの非葉ノード要素は、その非葉ノード要素の究極の子の数に対応する数字を含む画像によって表わされる、請求項14から17のいずれか1つに記載のコンピュータで実現される方法。
【請求項19】
各々の葉ノード要素は、ツリー構造の中でその上にある各々のノード要素と関連付けられるプロパティの値を有するエンティティのインスタンスと関連付けられる、請求項14から18のいずれか1つに記載のコンピュータで実現される方法。
【請求項20】
少なくとも1つのプロパティは、文書のデジタル表現内のエンティティのインスタンスの場所を備える、請求項14から19のいずれか1つに記載のコンピュータで実現される方法。
【請求項21】
少なくとも1つのプロパティはエンティティのインスタンスの種類である、請求項14から20のいずれか1つに記載のコンピュータで実現される方法。
【請求項22】
少なくとも1つのプロパティは、エンティティのインスタンスの表層形式の正規化形式である、請求項14から21のいずれか1つに記載のコンピュータで実現される方法。
【請求項23】
同じ親ノード要素の子である異なるノード要素と関連付けられた異なる値を有するプロパティは、異なる適用例について異なり得る構成パラメータによって決まる、請求項14から22のいずれか1つに記載のコンピュータで実現される方法。
【請求項24】
異なるノード要素と関連付けられた異なる値を有するプロパティのうち1つ以上は、エンティティのインスタンスのキュレーションのステータスであり、方法は、葉ノード要素と関連付けられたエンティティのインスタンスのキュレーションのステータスの変化に応答して、ツリー構造中の別の場所に葉ノード要素を移動させるステップを含む、請求項14から23のいずれか1つに記載のコンピュータで実現される方法。
【請求項25】
文書のデジタル表現の少なくとも一部はディスプレイの第1の領域に表示され、ユーザが選択したノード要素の表現は、請求項1から13のいずれか1つに従う方法によってディスプレイの第2の領域に表示され、葉ノード要素は、ユーザによって選択されると、それぞれの葉ノード要素が関するエンティティのインスタンスが文書のデジタル表現中でハイライトされ、および/または、ディスプレイの第1の領域中の文書のデジタル表現の少なくとも一部のビューが修正されてそれぞれの葉ノード要素が関するエンティティのインスタンスを示すようにするユーザ選択可能ユーザインターフェイス要素として表わされ、葉ノード要素は、それらが関連付けられるエンティティのインスタンスの1つ以上のリストの形式で表わされる、請求項17または18に記載のコンピュータで実現される方法。
【請求項26】
先行するいずれか1つの請求項の方法を実行するように動作可能な演算装置。
【請求項27】
演算装置によって実行されると、演算装置に請求項1から25のうちいずれか1つの方法を実行させるコンピュータプログラムコード。
【請求項28】
請求項27に従うコンピュータプログラムコードを記憶するコンピュータ読出可能記憶媒体。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8A】
【図8B】
【図8C】
【図8D】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8A】
【図8B】
【図8C】
【図8D】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【公表番号】特表2011−501847(P2011−501847A)
【公表日】平成23年1月13日(2011.1.13)
【国際特許分類】
【出願番号】特願2010−529460(P2010−529460)
【出願日】平成20年10月17日(2008.10.17)
【国際出願番号】PCT/GB2008/050959
【国際公開番号】WO2009/050521
【国際公開日】平成21年4月23日(2009.4.23)
【出願人】(507194084)アイティーアイ・スコットランド・リミテッド (30)
【Fターム(参考)】
【公表日】平成23年1月13日(2011.1.13)
【国際特許分類】
【出願日】平成20年10月17日(2008.10.17)
【国際出願番号】PCT/GB2008/050959
【国際公開番号】WO2009/050521
【国際公開日】平成21年4月23日(2009.4.23)
【出願人】(507194084)アイティーアイ・スコットランド・リミテッド (30)
【Fターム(参考)】
[ Back to top ]