説明

キーワード抽出システム及びキーワード分類システム

【課題】遺伝子名、タンパク質名、疾患名等の辞書、命名ルール、機械学習などを利用せずに、日々蓄積されている大量の生物医学分野の学術文献から、遺伝子名やタンパク質名などのキーワードを効率的かつ高精度に抽出しカテゴリ分類するシステムを提供する。
【解決手段】生物医学分野に内在する特定の単語(概念語)と、これに共起する単語(共起語)とを抽出し、概念語と共起語の関連の強さを計算することにより、遺伝子名やタンパク質名などのキーワードの抽出と不要語の捨象とを動的に行い、さらに抽出したキーワードのカテゴリ化を行うシステム。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、日々蓄積されている生物医学分野における大量の学術文献からテキストマイニング技術を利用してキーワードを抽出しカテゴリ分類するためのキーワード抽出システム及びキーワード分類システムに関するものである。
【背景技術】
【0002】
現在、遺伝子間のネットワークや遺伝子の機能を解明するために、マイクロアレイを用いた遺伝子発現の網羅的な研究が盛んに行われている。膨大な量の遺伝子発現データから遺伝子間のネットワーク構築やある遺伝子の機能を調べるために、研究者は、日々蓄積されている大量の生物医学分野の学術文献から生物医学の知見を抽出する必要がある。生物医学分野では、The National Library of Medicine(NLM)の運営するMEDLINE(Web上の文献提供サービス)に1500万件以上(2004年現在)の学術論文が登録され、遺伝子名や遺伝子の機能に関する知見や、疾患の原因となる遺伝子や特定のタンパク質に関連する遺伝子などについての生物学的知見が数多く蓄積されており、ユーザは遺伝子名などのキーワードを入力して文献を検索し、目的とする遺伝子に関する文献を入手している。
【0003】
しかしながら、そのようにして入手される文献が必ずしも目的とする遺伝子に関連する文献であるとは限らない。例えば、遺伝子名には、”CAT”や”NEC”といった一般名詞や固有名詞と同一の名前が存在する。このような名前の遺伝子を検索するために、MEDLINEで”CAT”や”NEC”をキーワードとして検索しても、検索結果には動物のCATや企業名のNECに関する記述を含む文献が多数表示されてしまう。遺伝子名が一般名詞等と同一であったり一部重複している場合に、現在のMEDLINEでは両者を区別して検索することはできず、このような遺伝子名の検索が困難となっていることは非常に重要な課題である。また、マイクロアレイに限らず、プロテインチップにおいても、タンパク名やタンパク質の機能を調べる際に、同様の問題が発生する。
【0004】
以上のような問題に対処し、生物医学分野における文献検索を効率よく行うための準備段階として、遺伝子名とタンパク質名、遺伝子名と疾患名、タンパク質名と疾患名などの相互の関係を文献中から予め導き出しておき、それらを利用して効率の良い文献検索を行う様々なソフトウェア技術が開発されている。
【0005】
従来、文献から遺伝子名、タンパク質名、疾患名等を自動的に抽出する方法に関して、以下の3種類の方式が取られている。
(1)辞書ベース
遺伝子名、タンパク質名、疾患名の辞書を予め構築し、その辞書に基づいて遺伝子名、タンパク質名、疾患名等を抽出する方法
(2)記述ルールベース
遺伝子名やタンパク質名などの記述(命名)ルールを予め決定し、その記述ルールに基づいて遺伝子名やタンパク質名を抽出する方法
(3)機械学習
機械(コンピュータ)に予め遺伝子名やタンパク質名などが文献中にどのような形で使われているかその出現パターンを学習させ、過去の学習結果から遺伝子名やタンパク質名を推測する方法
【0006】
例えば、非特許文献1には上記の(1)辞書ベースによる抽出方法を実現する技術が記載されている。これは、ガン細胞における遺伝子発現と薬剤応答性の関係を抽出することを目的とし、UMLS(Unified Medical Language System)と呼ばれる医学分野の統制用語集を予め準備しておき、これを利用して文献群から遺伝子発現と薬剤応答性との関係を抽出する技術である。
【0007】
また、非特許文献2には、上記の(2)記述ルールベースによる抽出方法を実現する技術が記載されている。これは、タンパク質名が、接頭辞に”in-“などを持ち、接尾辞に”-ase”などを持ち、大文字や数字で構成された単語であるといったタンパク質名の記述方法の特徴に着目し、これらの記述のルール化を行うことにより、文献中からのタンパク質名の抽出を容易にする技術である。
【0008】
また、非特許文献3には上記の(3)を実現する技術が記載されている。これは、機械学習法を用いて、遺伝子名とシンボル名の抽出を実現するものである。シンボル名とは、遺伝子名を簡略化した名称である。例えば、がん抑制遺伝子breast cancer 2(遺伝子名)には、”BRCA2”という簡略化した名称があり、一般的に”BRCA2”をシンボル名と呼んでいる。機械学習を行うアルゴリズムには、隠れマルコフモデルを利用して、遺伝子名、シンボル名の抽出を行うものがある。
【0009】
以上が、文献中から遺伝子名、タンパク質名、疾患名等を抽出するために従来行われている技術である。
【0010】
一方で、広く情報検索や自然言語解析などの技術分野においても、テキストから必要とする情報を効率よく抽出するための様々な技術が提案されている。特許文献1に記載の関連語提示装置は、指定された語と関係が強い語をテキストから抽出して提示することを目的とした装置である。この装置では、予め形態素解析(後述)したテキスト情報を記憶部に記憶しておき、ユーザがキーワード部に単語を入力し、検索解析部でキーワードと共起(後述)した名詞を記憶部内の単語情報から抽出し、抽出した名詞を出現頻度とともに頻度テーブルに登録し、事前に指定した不要語リストから不要語を削除することにより、ユーザが入力した単語及びそれと共起する単語をペアで抽出するものである。
【0011】
ここで、キーワード抽出技術や自然言語解析に関して、本明細書中で用いられる用語について説明する。「共起」とは、同一の文献や文章の中に複数の単語が同時に出現することをいう。例えば、”The HLA-A gene locates on chromosome 6.” という文において、geneという単語はlocateやchromosomeと同時に出現しているので、geneとlocate、geneとchromosomeはそれぞれ共起(concurrence)する関係にあると言うことができる。多量の文章や文献の中で、ある単語Aと他の単語Bとの同じ文中における共起をカウントすることで、両単語が文章中で同時に使用される度合いを数量化して測ることが可能となる。また、本発明のキーワード抽出システム及びキーワード分類システムに関しては、同一文中に現れる2つの単語の出現位置が一定の語数以上離れていない場合のみを共起しているものと取り扱うこともできる(このような単語の出現の仕方をコロケーション、連語と呼ぶこともある)。
【0012】
「形態素解析」とは、日本語や英語などの自然言語で書かれた文を解析し、単語を各品詞に切り出す技術である。単語に一般名詞、固有名詞、動詞、形容詞などを識別するための品詞のタグが付けられる。
【0013】
「ステミング」とは、英語などの欧米系の言語において、語形変化の部分を取り去り、語幹の同一表現にまとめる処理のことをいう。これらの言語では、単語が語形変化することにより、性、数、格などの文法的性質を示すものとなるため、意味的に同一又は類似の単語が表層的には異なった単語として文章中に混在することになる。例えば、”retrieve”、”retrieves”、”retrieved”、”retrieving” などは、全て同一の語幹を有する異なった単語である。自然言語解析においてこれらの単語を別々の索引語として扱うとすると、索引語数が著しく増大することになってしまうため、上記のような単語については、語形変化の部分を取り去り、語幹の同一表現にまとめて、単語表現の多様性を吸収することが行われている。
【0014】
【非特許文献1】Rindflesch,T.,Tanabe,L.,Weinstein,J. and Hunter,L.(2000) EDGAR: extraction of drugs, genes, and relations from the biomedical literature. Pac.Symp.Biocomp.,5,517-528.
【非特許文献2】Fukuda,K., Tsunoda,T. Tamura,A., and Takagi,T. (1998). Toward Information Extractions:identifying protein names form biological papers. Pac.Symp.Biocomp.,3,707-718.
【非特許文献3】Proux,D.,Rechenmann,F.,Julliard,L.,Pillet,V., and Jacq,B.(1998) Detecting gene symbols and names in biological texts: a first step toward pertinent information extraction. In Genome Informatics Series: Proceedings of the Workshop on Genome Informatics, Vol 9,pp.72-80.
【特許文献1】特開平9-44523号公報
【発明の開示】
【発明が解決しようとする課題】
【0015】
しかしながら、文献から遺伝子名、タンパク質名、疾患名等を辞書ベースで抽出する上記(1)の手法では、辞書に未登録の単語や文献の執筆者が独自に定義した名称などに対応することができない。また、単語の表記のゆれ、例えば、大文字か小文字か、ハイフンの有無、ハイフンの位置などの違いに対応できないという問題もある。また、生物医学分野では、遺伝子名の数が日々増加しており、それに伴う辞書の更新や維持に膨大なコストがかかるという問題がある。
【0016】
また、文献から遺伝子名、タンパク質名等をルールベースで抽出する上記(2)の手法では、遺伝子名やタンパク質名ではない名称に対して設定したルールが誤って当てはまってしまう場合が多く見られる。例えば、タンパク質名抽出において、接頭辞が”in-”、接尾辞が”-ase”を持つ単語はタンパク質名であるというルールを設定している場合、接尾辞に”-ase”を持つ一般名詞”disease”なども上記ルールに当てはまるため、誤ってタンパク質名として抽出されてしまう。
【0017】
また、文献から遺伝子名、タンパク質名、疾患名等を機械学習の結果に従って抽出する上記(3)の手法では、抽出精度が機械学習に用いるデータセットに依存するという問題がある。例えば、免疫系に関する文献集合を学習データセットとして用い、遺伝子名やシンボル名の高い抽出精度を実現した場合でも、脳に関する文献集合など他の分野の文献データセットにおいて必ずしも同等の抽出精度が達成されるとは限らない。また、学習アルゴリズムは複数あるが、目的や研究分野によって最適な学習アルゴリズムを選択できなければ、所望の学習結果を得ることはできない。
【0018】
また、特許文献1に記載の技術は、指定された語と関係が強い語を抽出して提示することを目的とし、ユーザ入力単語と共起する名詞について出現頻度により優先順位を決定していくものである。このような出現頻度による単語の優先度順位付けは、文中にどのような単語が頻繁に登場するかといった傾向を知るのには適しているが、出現頻度の高い単語ほど文献中で重要な単語であるとは必ずしも限らない。また、出現頻度により単語を優先順位付けする場合、”is”、“are”、“have”等の不要語が上位に出現するので、これらの不要語を取り除くべく、不要語リストを事前に作成し静的に保持しておくのが一般的である。しかしながら、どの単語を不要語として不要語リストに登録するかの判断は、ユーザの判断に依らなければならず、不要語リストの質及び量によっては、キーワードの抽出精度が下がってしまうという問題がある。
【0019】
そこで、本発明は、上記した遺伝子名、タンパク質名、疾患名等の辞書、命名ルール、機械学習などを利用せずに、日々蓄積されている大量の生物医学分野の学術文献から、遺伝子名、タンパク質名、疾患名等のキーワードを効率的かつ高精度に抽出しカテゴリ分類するシステムを提供しようとするものである。
【課題を解決するための手段】
【0020】
上記解決課題に鑑みて鋭意研究の結果、本発明者は、生物医学分野に内在する特定の単語(概念語)と、これに共起する単語(共起語)とを抽出し、概念語と共起語の関連の強さを計算することにより、遺伝子名、タンパク質名、疾患名等のキーワードの抽出と不要語の捨象とを動的に行い、さらに抽出したキーワードのカテゴリ化を行うシステムを提案する。ここで、「概念語」とは、生物医学分野の文献等において内在的に用いられる単語であって、当該分野における用語をカテゴリ分類するための基本的枠組みとなり得る単語である。本発明では、生物医学分野における各単語は、以下の7種類のカテゴリに分類されると考える。
【0021】
1)geneに関する単語群
2)proteinに関する単語群
3)diseaseに関する単語群
4)cellに関する単語群
5)functionに関する単語群
6)processに関する単語群
7)experimentに関する単語群
ここで、”gene”、”protein”、”disease”、”cell”、”function”、”process”、”experiment”が生物医学分野における概念語である語である。
【0022】
以下、図1を参照しながら、本発明のキーワード抽出システム及びキーワード分類システムの概念について説明する。図1において、まず第1ステップとして、概念語と共起語との共起リストを作成する。gene、protein、cellなどの概念語の1つに注目し、予め用意してある生物医学分野の文献群における概念語と共起する各単語の共起件数をカウントし、一定回数以上カウントされた単語を共起語と定義して抽出する。続いて、抽出された各共起語と概念語との関連の強さ(後述)を計算し、概念語との関連が強い共起語を含んだ共起リストを動的に生成する。このとき、不要語は概念語との関連の強さが低くなるので、共起リストに含まれることはない。
【0023】
次に第2ステップとして、上記文献群において共起リストに含まれる各単語と固有フレーズや固有名詞(遺伝子名、タンパク質名、疾患名等)とが共起する件数をカウントし、一定回数以上カウントされたものをキーワードとして抽出する。さらに、上記7種類の概念語それぞれについて共起リスト作成及びキーワード抽出を行った結果、抽出されたキーワードが共起リスト中の各単語との共起件数が最も多くなったときの概念語を、そのキーワードの属するカテゴリとして決定する。
【0024】
すなわち、本発明は、コンピュータを用いて生物医学分野におけるキーワードを抽出するシステムであって、生物医学分野における文献データを蓄積した文献データベースと、生物医学分野における用語の基本的カテゴリを示す概念語の入力を受け付ける概念語入力部と、前記文献データ中で、前記入力された概念語と共起する共起語を検索し、その共起件数を計数する共起解析部と、検索された各共起語について、前記概念語との関連の強さを計算し、共起語、その共起件数及び関連の強さを含んだ共起リストを生成する共起リスト作成部と、生成した共起リストに含まれる各共起語について、前記文献データ中で、当該共起語と共起する単語を検索し、その共起件数を計数するキーワード計算部と、前記検索された単語のうち前記共起件数が一定数以上であるものをキーワードとして抽出するキーワード抽出部とを含んだシステムを提供するものである。
【0025】
本発明のキーワード抽出システムにおいて、前記共起リスト作成部は、前記共起件数が所定の閾値以上である共起語のみを共起リストに含めることを特徴とする。
【0026】
本発明のキーワード抽出システムにおいて、前記共起リスト作成部は、前記検索された各共起語とその関連の強さとをユーザに表示し、ユーザからの関連の強さの閾値の入力を受け付け、前記関連の強さが所定の閾値以上である共起語のみを共起リストに含めることを特徴とする。
【0027】
本発明のキーワード抽出システムにおいて、前記共起リスト作成部は、さらに、前記概念語との共起件数が一定数未満である共起語を前記共起リストから除外することを特徴とする。
【0028】
本発明のキーワード抽出システムにおいて、前記の各共起語と概念語との関連の強さは、前記文献データ中で当該共起語が出現する件数と、当該共起語の共起件数との比として求められることを特徴とする。
【0029】
本発明のキーワード抽出システムにおいて、前記共起リスト作成部は、前記共起語が品詞ごとに分類された共起リストを生成することを特徴とする。
【0030】
本発明は、また、上記のキーワード抽出システムを利用して抽出されたキーワードを分類するシステムであって、1以上の概念語について概念語ごとにキーワードを抽出し、抽出された各キーワードについて、各概念語が適用される場合における、前記キーワード計算部により計数された前記共起リストに含まれる共起語との共起件数の総数を比較し、前記総数が最多となるときに適用されている概念語のカテゴリに当該キーワードを分類することを特徴とするキーワード分類システムを提供するものである。
【0031】
本発明は、また、上記のキーワード抽出システムを利用して抽出されたキーワードを分類するシステムであって、1以上の概念語について概念語ごとにキーワードを抽出し、抽出された各キーワードについて、各概念語が適用される場合における、前記キーワード計算部により計数された前記共起リストに含まれる共起語との共起件数の総数の相対的割合を計算し、前記相対的割合の値を当該キーワードの分類のための指標としてユーザに表示することを特徴とするキーワード分類システムを提供するものである。
【0032】
本発明のキーワード抽出システム及びキーワード分類システムでは、前記文献データのテキストを、当該テキストに含まれる前記抽出されたキーワードが識別可能な態様で表示し、さらに、当該テキスト中でユーザが指定したキーワードについて、前記計算された相対的割合の値を表示することを特徴とする。
【0033】
本発明のキーワード抽出システム及びキーワード分類システムでは、前記1以上の概念語のそれぞれについて、抽出されたキーワードと当該キーワードについて計算された相対的割合の値とをリスト化したカテゴリリストを出力することを特徴とする。
【0034】
本発明のキーワード抽出システム及びキーワード分類システムにおいて、前記概念語は、”gene”、”protein”、”disease”、”cell”、”function”、”process”、”experiment”のうち少なくとも1つを含んでいることを特徴とする。
【発明の効果】
【0035】
以上、説明したように、本発明のキーワード抽出システム及びキーワード分類システムでは、従来技術のように遺伝子名、タンパク質名、疾患名等の辞書、命名ルール、機械学習などを利用せずとも、生物医学分野の文献等において内在的に用いられる概念語とそれに共起する単語に着目することにより、遺伝子名、タンパク質名、疾患名等のキーワードの抽出とキーワードのカテゴリ化を効率的かつ高精度に行うことができる。
【0036】
特に、生物医学分野では、遺伝子名が疾患名やタンパク質名と一致していることが多いため、キーワード抽出後にそのカテゴリ化を行うことによって、抽出したキーワード同士の関係(例えば、遺伝子名と遺伝子名、遺伝子名とタンパク質名、タンパク質名と病名など)を明らかにすることができる。
【発明を実施するための最良の形態】
【0037】
以下、添付図面を参照しながら、本発明のキーワード抽出システム及びキーワード分類システムを実施するための最良の形態を詳細に説明する。図2〜図10は、本発明の実施の形態を例示する図であり、これらの図において、同一の符号を付した部分は同一物を表わし、基本的な構成及び動作は同様であるものとする。
【0038】
本実施形態は、生物医学分野の文献をデータベース化したものを対象とし、概念語としてgeneを用い、geneと共起する共起語を抽出し、概念語と関連性の強い共起語をリスト化し、リスト化された共起語を用いて遺伝子名の抽出を行う例である。また、各概念語についてリスト化された共起語と遺伝子名の共起件数を計算し、その結果に基づき遺伝子名のカテゴリを決定する。概念語には、geneの他、protein、disease、cell、function、process、experimentを用いることができる。また、本明細書中で述べる共起件数とは、単語の出現数ではなく、単語が出現した文の件数のことである。つまり、同一文中で単語が複数回共起して出現した場合においても、共起件数は1件とする。また、本明細書において、「遺伝子」とは、geneやgenesなどの単語を指し、「遺伝子名」とは、breast cancer 2やBRCA2などの固有のフレーズや固有名詞を指すものとする。
【0039】
図2は、本実施形態におけるキーワード抽出システム及びキーワード分類システムの構成を概略的に示すシステム構成図である。図2において、本システムは、概念語入力部203、文献データベース204、共起解析部205、共起リスト作成部206、共起リスト編集部207、共起リストデータベース208、キーワード抽出部209、キーワード計算部210を有するコンピュータ201と、表示部202とを備えている。
【0040】
表示部202は、ユーザに必要な情報を提示するための手段であり、一般的にはディスプレイ等として構成されるが、他の出力手段であってもよい。概念語入力部203、共起解析部205、共起リスト作成部206、共起リスト編集部207、キーワード抽出部209、キーワード計算部210は、それぞれ所定の情報処理(後述)を実行するための手段であり、コンピュータ201上のプログラムとして具現される。
【0041】
文献データベース204には、生物医学分野の文献群がテキストデータとして予め記憶されている。文献は、全て同一の言語(本実施形態では英語)で記述されたものとする。図3は、文献データベース204の格納例を示す図である。図に示すテーブルは、7つの列から成り、列301は、列名が文献IDである。この文献IDは、文献を識別するために割り当てられた番号であり、通し番号になっている。列302は、文IDである。文献中の文(センテンス)を識別するために割り当てられた番号であり、文献全体の中で通し番号になっている。従って、文献IDと文IDとからセンテンスが特定される。列303は、文中に出現する単語の出現位置を格納する列である。文頭を1とし、文末のピリオドに達した場合、次の文の先頭は、再び1となる。文献ID、文ID及び出現位置から、文献中の各単語が特定される。列304は、文献中の単語を格納する列であり、列305は、単語の語幹を格納する列である。列306は、品詞の情報を格納する列である。品詞の情報は文を形態素解析することにより得られる。ここでは、”this”に代名詞であるDT、”gene”に一般名詞であるNN、”3q21”に固有名詞であるNNPが付されている。列306の品詞情報よって、文献中から固有名詞を抽出することが可能となる。列307は、フレーズの区切りの状態を示す列である。フレーズの先頭は「開始」で記述する。図に示す例では、”This gene …”というフレーズに対して、thisに「開始」が付され、geneには「継続」が付される。フレーズの末尾を示すピリオド、カンマ、接続詞には「0」が付される。列307を参照することによりフレーズの抽出が可能となる。
【0042】
図4は、図2に示すシステムにおいてキーワード抽出及びキーワード分類を実行する際の処理の流れを示すフローチャートである。図4において、まず、ユーザが概念語入力部203により概念語”gene”が入力されると(ステップ401)、共起解析部205は、文献データベース204から”gene”と共起する単語(名詞、動詞、形容詞などの共起語)を抽出し、各共起語の共起件数を計算する(ステップ402)。続いて、共起リスト作成部206は、概念語”gene”と抽出された各共起語との関連の強さを計算し、共起語ごとに共起件数と関連の強さとを、共起リスト編集部207と表示部202に出力する(ステップ403)。ここで、関連の強さとは、単語同士の結びつきの強さを示す指標であり、共起解析部205により計算された各共起語の文献中での共起件数と出現件数とを基に算出する。本実施形態では、関連の強さS(“単語”)は以下の式で求める。
S(“単語”)=(概念語と”単語”とが共起する件数)/(”単語”の全出現件数)
【0043】
図5(a)に、共起解析部205により生成されるデータ例を示す。このテーブルにおいて、列501は、抽出された共起語の列である。列502は、各共起語が概念語”gene”と同一文中に出現する共起件数を格納している。列503は、各共起語が抽出対象の文献中に出現した全件数を格納している。例えば、動詞”encode”が概念語”gene”と共起して出現する件数は5597件であり、全文献中に動詞”encode”が出現する件数は11738件である。一方、”is”、”are”、”have”など概念語と無関係に出現すると考えられる不要語が共起件数上位に含まれる。
【0044】
図5(b)に、共起リスト作成部206により生成されるデータ例を示す。このテーブルにおいて、列501〜503は図5(a)に示したものと同じである。列504は、各共起語について計算された概念語との関連の強さを格納している。例えば、動詞”encode”は、全出現件数が11738件、概念語”gene”との共起件数が5597件なので、関連の強さS(”encode”)は5597÷11738=0.47となる。関連の強さが1.0に近づくほど概念語”gene”と共起語との結びつきが強く、文中に同時に出現する可能性が高いことを意味する。
【0045】
共起語と概念語との関連の強さを求め、関連の強さの値を降順で並べることにより不要語が上位から下位へ移動している。尚、図5(a)において、共起件数を計算した場合においてあらゆる単語が抽出され得るため、共起件数の閾値を設定しておき、一定の閾値以下の共起語については除外するのが好ましい。例えば、各共起語が抽出対象の文献中に出現した全件数が1件の場合、図5(b)で述べる関連の強さの値は、各共起語が概念語”gene”と同一文中に出現する共起件数が1件であれば1.0になり、各共起語が概念語”gene”と同一文中に出現する共起件数が0件であれば0.0となる。この場合、概念語と共起語との関連の強さを反映する可能性が極めて低いため、一定件数以上出現する共起語を考慮する必要がある。
【0046】
図6は、表示部202において共起リスト作成部206からの出力データを表示する画面の例を示す図である。この画面601には、文献から抽出された共起語とその共起件数及び関連の強さが共起語の品詞ごとにタブで分類されて一覧表示されている。共起語は、関連の強さの値の降順に配列されている。ユーザがファイル取得ボタン601を押すことにより、共起リスト作成部206から取得されたデータが画面に表示される。また、ユーザは、テキストボックス603に関連の強さの閾値を入力することができる。例えば、図に示すように閾値を0.45とすると、一覧表示されている共起語のうち関連の強さが0.45以上の共起語のみが選択された状態となる。この状態でファイル保存ボタン602を押すと、当該閾値が共起リスト作成用に設定されることとなる。
【0047】
再び、図4において、上記したようにユーザから関連の強さの閾値が入力されると、共起リスト編集部207は、共起リスト作成部206からの出力データのうち、関連の強さが当該閾値以上である共起語のデータのみからなる共起リストを生成し、共起リストデータベース208に格納する(ステップ404)。このとき、生成された共起リストを表示部202に出力してもよい。このようにユーザが共起リスト候補の一覧表示を見ながら適切な閾値を設定することにより、概念語との関連の強さが低い”is”、”are”、”have”などの不要語を共起リストから確実に除外することができる。尚、ユーザが閾値を設定するのではなく、予め設定された閾値を用いて自動的に共起リスト生成を行ってもよい。また、これと合わせて、共起件数が一定数に満たない共起語を共起リストから除外することとしてもよい。
【0048】
尚、共起リストは概念語ごとに作成され、共起リストデータベース208に格納される。上記した例では、概念語として”gene”を入力しているが、”protein”や”disease”など他の概念語について上記同様の処理を行うと、それぞれ個別に共起リストが生成されて、共起リストデータベース208に格納されることになる。
【0049】
以上が図1に示す第1ステップに相当する処理である。続いて、第2ステップに相当する処理について説明するが、その前提として、本実施形態で用いる7つの概念語の全てについて第1ステップの処理が行われており、各概念語の共起リストが共起リストデータベース208に保持されているものとする。
【0050】
再び、図4において、キーワード抽出部209は、共起リストデータベース208に格納されている1つの概念語についての共起リストを選択し、その共起リストに含まれる各共起語と共起する単語を文献データベース204に格納された文献から検索し、これをキーワードとして抽出する(ステップ405)。続いて、キーワード計算部210は、抽出されたキーワードと共起語との共起件数を計算する(ステップ406)。キーワード計算部210における計算結果のデータ例を図7に示す。共起リストに含まれる”encode”、”mutation”、”expression”等の共起語との共起件数が高いキーワードは、遺伝子名、タンパク質名、疾患名等の固有フレーズや固有名詞である可能性が極めて高く、また、概念語との関連性が高いと考えられるため、いずれかの共起語との共起件数が一定数(本例では10件)以上である単語をキーワードとして決定する。尚、図7に示す計算結果の表示では、共起語との共起件数が一定数以上であったキーワードのみを表示している。一方で、ステップ405において抽出された単語であっても、いずれの共起語とも共起件数が一定数に満たないものは、キーワードとはならない。
【0051】
さらに、ステップ405〜406を共起リストデータベース208に格納されているそれぞれの概念語についての共起リストに対して実行した結果、各キーワードについて、概念語ごとに共起語が共起した件数(総数)を比較し、この共起件数が最大となる概念語をそのキーワードのカテゴリとして決定する(ステップ407)。決定されたカテゴリ分類は、結果を表示部202に出力される。キーワードをカテゴリ分類した結果の表示例を図8に示す。図8(a)に示すように、結果表示画面には、文献のセンテンスごとに、含まれている共起語(下線)とキーワード(太字・斜体)とが識別できるように表示される。この画面において、いずれかのキーワード(例として”aminoacylase-1 (ACY-1)”)を指定(マウスオーバーによる)すると、そのキーワードのカテゴリ分類結果を示すポップアップウィンドウが表示される。
【0052】
キーワードのカテゴリ分類結果は、概念語ごとにカテゴリ該当性を示す数値として表示されており、図に示す例では、キーワード”aminoacylase-1 (ACY-1)”のカテゴリは、”gene”が第1候補、”protein”が第2候補、…となる。キーワードのカテゴリ該当性は、各概念語についてのキーワードの共起件数の比として求めることができる(この例では、全概念語に対するカテゴリ該当性の総和は1となる)。例えば、概念語”gene”、”protein”、”cell”、…の共起リストを用いてキーワードの共起件数を計算した結果がそれぞれ160件、120件、40件、…であり(一定件数以上であり)、全概念語についてのキーワードの共起件数の総和が400件である場合、このキーワードの概念語”gene”、”protein”、”cell”、…に対する該当性は、0.4、0.3、0.1…となる。尚、概念語が1つしか入力されていない場合には、どのキーワードについても概念語”gene”に対するカテゴリ該当性が1.0となり、全てが”gene”カテゴリに属する結果となる。
【0053】
さらに、本システムでは、上記のカテゴリ分類の結果に基づき、カテゴリリストを作成することができる。カテゴリリストの例を図9に示す。図9(a)は、”gene”カテゴリについて作成される遺伝子名リストであり、図9の(b)は、”protein”カテゴリについて作成されるタンパク質名リストである。各カテゴリリストには、本システムにおいて抽出されたキーワードと当該カテゴリに対する該当性とが含まれている。このようなカテゴリリストは、遺伝子名、タンパク質名、疾患名等について自動的生成される精度の高い辞書に相当するものである。
【0054】
また、本システムでは、キーワードのカテゴリ分類の結果に基づき、文献から抽出されたキーワード間の相互関係、例えば、遺伝子名と疾患名の関係、遺伝子名とタンパク質名の関係などを具体的に判断することができる。図8(b)の画面において、中心となるキーワードを指定(マウスクリックによる)することにより、図10に示すキーワード間の相互関係を視覚的に示す画面が表示される。キーワード間の相互関係を示すリンク(キーワード間を連結する線)は、キーワード指定時(クリックによる)にデータベースに蓄積されている文献情報からキ―ワードと同一文中に出現する単語間の共起件数を計算し、ある一定の閾値以上(本例では共起件数が10件以上)の共起関係にあるキーワード間のリンクを表示する。また、キーワード間の共起の強さ(共起件数の多さ)はリンク(線)の太さとして反映される。つまり、キーワード間の共起が強い(共起件数が多い)リンクに対しては、リンクが太く表示され、共起が弱い(共起件数が少ない)リンクに対してはリンクが細く表示される。
【0055】
図10に示す例は、がん抑制遺伝子の遺伝子名である”p53”というキーワードを中心として、たんぱく質名あるいは細胞名である”NSF”や、疾患名である”cancer”とを表示している。キーワード”p53”のカテゴリ該当性は、”gene”に対して0.7であり、”protein”に対して0.3であるので、その割合に応じて表示枠を7:3に分割して表示している。同様に、キーワード”NSF”及び”cancer”についても、同様の表示をしている。
【0056】
以上、本発明のキーワード抽出システム及びキーワード分類システムについて、具体的な実施の形態を示して説明したが、本発明はこれらに限定されるものではない。当業者であれば、本発明の要旨を逸脱しない範囲内において、上記各実施形態又は他の実施形態にかかる発明の構成及び機能に様々な変更・改良を加えることが可能である。
【産業上の利用可能性】
【0057】
本発明のキーワード抽出システム及びキーワード分類システムは、文献等を格納した記憶手段、ユーザインタフェースを提供する入力手段、モニタ等の表示手段などを備えたコンピュータ上で実現され得るものであり、文献からのキーワード抽出及びキーワード分類という情報処理が上記の記憶手段、入力手段、表示手段等のハードウェア資源を用いて具体的に実現されるものであるから、産業上利用することができる発明である。
【図面の簡単な説明】
【0058】
【図1】本発明のキーワード抽出システム及びキーワード分類システムの全体概念を示す説明図である。
【図2】キーワード抽出システム及びキーワード分類システムの構成を概略的に示すシステム構成図である。
【図3】図2に示す文献データベースの格納例を示す図である
【図4】図2に示すシステムにおいてキーワード抽出及びキーワード分類を実行する際の処理の流れを示すフローチャートである。
【図5】(a)図2に示す共起解析部により生成されるデータ例を示す図である。 (b)図2に示す共起リスト作成部により生成されるデータ例を示す図である。
【図6】図2に示す表示部において共起リスト作成部からの出力データを表示する画面の例を示す図である。
【図7】図2に示すキーワード計算部における計算結果のデータ例を示す図である。
【図8】図2に示すキーワード計算部によりキーワードをカテゴリ分類した結果の表示例を示す図である。
【図9】キーワードのカテゴリ分類の結果に基づき、カテゴリリストを作成する例を示す図である。
【図10】キーワードのカテゴリ分類の結果に基づき、キーワード間の相互関係を視覚的に表示する例を示す図である。
【符号の説明】
【0059】
201・・・コンピュータ
202・・・表示部
203・・・概念語入力部
204・・・文献データベース
205・・・共起解析部
206・・・共起リスト作成部
207・・・共起リスト編集部
208・・・共起リストデータベース
209・・・キーワード抽出部
210・・・キーワード計算部

【特許請求の範囲】
【請求項1】
コンピュータを用いて生物医学分野におけるキーワードを抽出するシステムであって、
生物医学分野における文献データを蓄積した文献データベースと、
生物医学分野における用語の基本的カテゴリを示す概念語の入力を受け付ける概念語入力部と、
前記文献データ中で、前記入力された概念語と共起する共起語を検索し、その共起件数を計数する共起解析部と、
検索された各共起語について、前記概念語との関連の強さを計算し、共起語、その共起件数及び関連の強さを含んだ共起リストを生成する共起リスト作成部と、
生成した共起リストに含まれる各共起語について、前記文献データ中で、当該共起語と共起する単語を検索し、その共起件数を計数するキーワード計算部と、
前記検索された単語のうち前記共起件数が一定数以上であるものをキーワードとして抽出するキーワード抽出部とを含んだシステム。
【請求項2】
前記共起リスト作成部は、前記共起件数が所定の閾値以上である共起語のみを共起リストに含めることを特徴とする請求項1に記載のキーワード抽出システム。
【請求項3】
前記共起リスト作成部は、前記検索された各共起語とその関連の強さとをユーザに表示し、ユーザからの関連の強さの閾値の入力を受け付け、前記関連の強さが所定の閾値以上である共起語のみを共起リストに含めることを特徴とする請求項1に記載のキーワード抽出システム。
【請求項4】
前記共起リスト作成部は、前記概念語との共起件数が一定数未満である共起語を前記共起リストから除外することを特徴とする請求項2又は3に記載のキーワード抽出システム。
【請求項5】
前記の各共起語と概念語との関連の強さは、前記文献データ中で当該共起語が出現する件数と、当該共起語の共起件数との比として求められることを特徴とする請求項1から4のいずれか1項に記載のキーワード抽出システム。
【請求項6】
前記共起リスト作成部は、前記共起語が品詞ごとに分類された共起リストを生成することを特徴とする請求項1から5のいずれか1項に記載のキーワード抽出システム。
【請求項7】
請求項1から6のいずれか1項に記載のキーワード抽出システムを利用して抽出されたキーワードを分類するシステムであって、
1以上の概念語について概念語ごとにキーワードを抽出し、抽出された各キーワードについて、各概念語が適用される場合における、前記キーワード計算部により計数された前記共起リストに含まれる共起語との共起件数の総数を比較し、前記総数が最多となるときに適用されている概念語のカテゴリに当該キーワードを分類することを特徴とするキーワード分類システム。
【請求項8】
請求項1から6のいずれか1項に記載のキーワード抽出システムを利用して抽出されたキーワードを分類するシステムであって、
1以上の概念語について概念語ごとにキーワードを抽出し、抽出された各キーワードについて、各概念語が適用される場合における、前記キーワード計算部により計数された前記共起リストに含まれる共起語との共起件数の総数の相対的割合を計算し、前記相対的割合の値を当該キーワードの分類のための指標としてユーザに表示することを特徴とするキーワード分類システム。
【請求項9】
前記文献データのテキストを、当該テキストに含まれる前記抽出されたキーワードが識別可能な態様で表示し、さらに、当該テキスト中でユーザが指定したキーワードについて、前記計算された相対的割合の値を表示することを特徴とする請求項8に記載のキーワード分類システム。
【請求項10】
前記1以上の概念語のそれぞれについて、抽出されたキーワードと当該キーワードについて計算された相対的割合の値とをリスト化したカテゴリリストを出力することを特徴とする請求項8又は9に記載のキーワード分類システム。
【請求項11】
前記概念語は、”gene”、”protein”、”disease”、”cell”、”function”、”process”、”experiment”のうち少なくとも1つを含んでいることを特徴とする請求項1から10のいずれか1項に記載のシステム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2008−21028(P2008−21028A)
【公開日】平成20年1月31日(2008.1.31)
【国際特許分類】
【出願番号】特願2006−190779(P2006−190779)
【出願日】平成18年7月11日(2006.7.11)
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成16年度、独立行政法人新エネルギー・産業技術総合開発機構「遺伝子多様性モデル解析事業」に係る委託研究、産業活力再生特別措置法第30条の適用を受ける特許出願
【出願人】(000233055)日立ソフトウエアエンジニアリング株式会社 (1,610)
【出願人】(301021533)独立行政法人産業技術総合研究所 (6,529)
【Fターム(参考)】