説明

プログラムおよび情報処理装置

【課題】評価を表す表現について関連性の高い表現の候補を正確に特定する。
【解決手段】情報処理装置10が備える評価表現辞書114は、評価対象を評価するための評価項目を表す語と当該評価項目に対する評価値を表す語とを含む評価表現と、当該評価表現が肯定的な表現であるか否かを表す極性と、を関連付けて記憶する。評価表現抽出部130は、評価表現辞書114を参照し、処理対象の文字列に含まれる評価表現を処理対象の文字列から抽出し、抽出した評価表現それぞれの極性を特定する。評価表現分類部140は、抽出された評価表現の間で評価対象および極性が共通するか否かに基づいて、前記抽出された評価表現を1以上のグループに分類する。出力処理部170は、同一のグループに分類された評価表現が複数ある場合に、これら複数の評価表現を互いに関連付けて関連表現記憶部180に対して出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、プログラムおよび情報処理装置に関する。
【背景技術】
【0002】
自然言語処理の分野において、ある表現と同じ意味を持つ表現である同義表現や、ある表現を言い換えた言い換え表現を特定する技術が知られている。
【0003】
例えば、非特許文献1に記載の技術では、文における語の係り受け関係に基づいて、ある語とその修飾語または被修飾語とを接続する二部グラフを作成し、この二部グラフを用いて、互いに類似した係り受け関係を有する語同士を言い換え表現として特定する。
【0004】
また、特許文献1には、予め設定されたルールに従って、ある表現の同義表現や言い換え表現を特定する技術が開示されている。特許文献1には、ある表現と他の表現との間に括弧記号(「」、()など)があり、かつ一方の表現が括弧で囲まれている場合に、これらの表現を言い換え表現とするルールの例が記載されている。
【0005】
また、非特許文献2には、文中の語の構文のパターンに従って同義語などの関係を抽出するためのルールを定義しておき、このルールで定められた構文のパターンに現れる語同士を同義語などの関係を有する語として特定する技術が開示されている。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2006−293731号公報
【非特許文献】
【0007】
【非特許文献1】山本和英,「テキストからの語彙的換言知識の獲得」,言語処理学会第8回年次大会,pp.639−642,2002年3月
【非特許文献2】Marti A.Hearst,“Automatic Acquisition of Hyponyms from Large Text Corpora“,Proceedings of 14th International Conference of Computational Linguistics,1992年
【発明の概要】
【発明が解決しようとする課題】
【0008】
ところで、何らかの対象に対する評価を表す表現では、互いに異なる意味の語句が、同一の構文または類似した構文の文中に現れることがある。また、評価を表す表現では、異なる意味の語句の前後に同一の単語が現れることもある。したがって、評価を表す表現に対して関連性が高い表現の候補を、ある表現を含む文の構文または当該表現の前後の単語を参考にして特定した場合、互いに異なる意味の表現を、互いに関連性が高い表現の候補として特定してしまう可能性がある。
【0009】
本発明は、ある表現を含む文の構文または当該表現の前後の単語を参考にして関連性が高い表現の候補を特定する技術と比較して、より正確に、評価を表す表現について関連性が高い表現の候補を特定するプログラムおよび情報処理装置を提供することを目的とする。
【課題を解決するための手段】
【0010】
請求項1に係る発明は、評価対象を評価するための評価項目を表す語と当該評価項目に対する評価値を表す語とを含む評価表現と、当該評価表現が肯定的な表現であるか否かを表す極性と、を関連付けて記憶した評価表現記憶手段を参照して、処理対象の文字列に含まれる前記評価表現を前記処理対象の文字列から抽出し、抽出した評価表現それぞれの極性を特定する特定ステップと、前記抽出した評価表現の間で前記評価対象および前記極性が共通するか否かに基づいて、前記抽出した評価表現を1以上のグループに分類する分類ステップと、前記分類ステップで同一のグループに分類された評価表現が複数ある場合に、これら複数の評価表現を互いに関連付けて関連表現記憶手段に対して出力する出力ステップと、をコンピュータに実行させるためのプログラムである。
【0011】
請求項2に係る発明は、請求項1に係る発明において、前記分類ステップにおいて、前記抽出した評価表現を前記処理対象の文字列における出現順に並べた場合に、連続する評価表現の間で前記評価対象および前記極性が共通していれば、当該連続する評価表現を同じグループに分類する。
【0012】
請求項3に係る発明は、請求項1または2に係る発明において、前記出力ステップにおいて、前記複数の評価表現のうち、前記評価項目を表す語が互いに共通の意味クラスにある評価表現については、当該評価表現の間の関連付けを行わない。
【0013】
請求項4に係る発明は、請求項1から3のいずれか1項に係る発明において、前記コンピュータに、さらに、前記出力ステップにおける出力の対象となる前記複数の評価表現それぞれについて、当該評価表現を含む文字列を前記処理対象の文字列から抽出する抽出ステップを実行させ、前記抽出ステップで抽出される文字列は、前記処理対象の文字列において当該評価表現の前記評価項目を表す語または前記評価値を表す語との間に係り受け関係を有する語句を含み、前記出力ステップにおいて、前記複数の評価表現それぞれについて抽出した文字列を互いに関連付けて前記関連表現記憶手段に対して出力する。
【0014】
請求項5に係る発明は、請求項4に係る発明において、前記出力ステップにおいて、前記複数の評価表現それぞれについて抽出した文字列のうち、互いに共通の意味クラスにある語が含まれる文字列については、当該文字列の間の関連付けを行わない。
【0015】
請求項6に係る発明は、請求項1から5のいずれか1項に係る発明において、前記コンピュータに、さらに、前記評価表現記憶手段に記憶された評価表現における前記評価項目のうち数値で評価値が表され得る評価項目を表す語のそれぞれと、当該評価項目の評価値の基準値と、を関連付けて記憶した基準値情報記憶手段を参照し、前記処理対象の文字列から、前記基準値情報記憶手段に記憶された評価項目を表す語と当該評価項目の評価値に相当する数値とを抽出し、抽出した評価項目に関連付けられた前記基準値と抽出した数値とを比較した結果に基づいて、当該評価項目と当該数値との組合せに相当する前記評価表現およびその極性を前記評価表現記憶手段において特定する第2特定ステップを実行させ、前記第2特定ステップで特定した評価表現をさらに前記分類ステップの処理対象とする。
【0016】
請求項7に係る発明は、評価対象を評価するための評価項目を表す語と当該評価項目に対する評価値を表す語とを含む評価表現と、当該評価表現が肯定的な表現であるか否かを表す極性と、を関連付けて記憶した評価表現記憶手段を参照して、処理対象の文字列に含まれる前記評価表現を前記処理対象の文字列から抽出し、抽出した評価表現それぞれの極性を特定する特定手段と、前記特定手段が抽出した評価表現の間で前記評価対象および前記極性が共通するか否かに基づいて、前記抽出した評価表現を1以上のグループに分類する分類手段と、前記分類手段で同一のグループに分類された評価表現が複数ある場合に、これら複数の評価表現を互いに関連付けて関連表現記憶手段に対して出力する出力手段と、を備えることを特徴とする情報処理装置である。
【発明の効果】
【0017】
請求項1または7に係る発明によると、ある表現を含む文の構文または当該表現の前後の単語を参考にして関連性が高い表現の候補を特定する技術と比較して、より正確に、評価を表す表現について関連性が高い表現の候補を特定することができる。
【0018】
請求項2に係る発明によると、処理対象の文字列における出現順で連続して、同じ評価対象について肯定的な評価または否定的な評価を表す評価表現同士を互いに関連付けて出力できる。
【0019】
請求項3に係る発明によると、評価項目を表す語が互いに共通の意味クラスにある評価表現同士を関連付けないようにすることができる。
【0020】
請求項4に係る発明によると、互いに関連付けられる複数の評価表現のそれぞれと、当該評価表現の評価項目を表す語または評価値を表す語との間に係り受け関係を有する語句と、を含む文字列を処理対象の文字列から抽出し、抽出した文字列を互いに関連付けて出力できる。
【0021】
請求項5に係る発明によると、互いに共通の意味クラスにある語を含む文字列同士を関連付けないようにすることができる。
【0022】
請求項6に係る発明によると、数値で評価が表される評価項目を含む評価表現について関連性が高い表現の候補を特定できる。
【図面の簡単な説明】
【0023】
【図1】情報処理装置の内部構成の概略の例を示すブロック図である。
【図2】評価表現辞書のデータ内容の例を示す図である。
【図3】処理対象のテキストの例を示す図である。
【図4】処理対象のテキストから抽出される評価表現のグループ分けの例を説明するための図である。
【図5】関連表現記憶部のデータ内容の例を示す図である。
【図6】情報処理装置が行う処理の手順の例を示すフローチャートである。
【図7】処理対象のテキストから抽出される評価表現のグループ分けの他の例を説明するための図である。
【図8】処理対象のテキストの他の例を示す図である。
【図9】基準値の情報の例を示す図である。
【図10】コンピュータのハードウエア構成の例を示すブロック図である。
【発明を実施するための形態】
【0024】
本発明の実施形態の例では、処理対象のテキスト(文章)を解析することで、何らかの評価対象を評価する表現の言い換え表現の候補を特定する。ここで、ある表現の「言い換え表現」とは、当該ある表現と何らかの関連があることから当該ある表現と置換可能な表現を指す。例えば、ある表現の「言い換え表現」は、当該ある表現と同じ意味を有する表現であってもよいし、当該ある表現と類似した意味を有する表現であってもよい。また、本実施形態の例では、各人の知識や考え方によっては必ずしも置換可能と認められないような表現同士であっても、一方の表現を他方の言い換え表現の候補として特定することもある。例えば、ある専門分野における評価の表現を他の表現に言い換えることで、当該専門分野の知識を有しない者にとって、その評価についての理解の助けになり得る場合、当該専門分野の専門家にとって必ずしも置換可能とは認められない表現同士であっても、言い換え表現の候補とすることがある。したがって、本発明の実施形態の例では、ある語の言い換え表現の候補とは、当該ある語に対して関連性が高い表現であると捉えられる。以下では、ある表現の言い換え表現の候補となる表現、つまり、ある表現に対して関連性が高い表現を「関連表現」と呼ぶ。
【0025】
図1は、本発明の一実施形態の例による情報処理装置の内部構成の概略を示すブロック図である。情報処理装置10は、参照データ記憶部110、コーパス解析部120、評価表現抽出部130、評価表現分類部140、関連表現生成部150、意味クラス判定部160、出力処理部170、および関連表現記憶部180を備える。
【0026】
参照データ記憶部110は、処理対象のテキストの解析において用いられる各種のデータを記憶する。参照データ記憶部110は、解析辞書112、評価表現辞書114、および意味辞書116を備える。
【0027】
解析辞書112は、単語と当該単語の文法上の役割などを表す情報とを対応づけて記憶すると共に、処理対象のテキストが記述された言語(本例では日本語)の文法規則を記憶した辞書である。解析辞書112には、一般的な単語だけでなく、様々な専門分野で用いられる専門用語も登録しておいてよい。例えば、特定の専門分野の文章を処理対象とする場合、当該特定の専門分野の専門用語を解析辞書112に登録しておく。本実施形態の例では、医療分野の文章が情報処理装置10の処理対象であり、一般的な単語と共に医療分野の専門用語が解析辞書112に登録されるものとする。
【0028】
評価表現辞書114は、何らかの評価対象に対する評価を表す評価表現と、その評価表現が肯定的な評価であるか否定的な評価であるかを示す極性と、を関連付けて記憶する。本実施形態の例の評価表現辞書114は、医療分野における評価表現およびその極性を記憶する。図2に、評価表現辞書114のデータ内容の一例を示す。
【0029】
図2には、評価対象の状態の変化を評価する評価表現の例を示す。図2の例では、評価表現辞書114において、評価の「対象」、「属性」、および「評価値」の組からなる評価表現のそれぞれに関連付けて、当該評価表現の極性が登録される。評価表現の「対象」は、その評価表現における評価対象を表す。図2に例示する評価表現は、すべて、「肝臓」が評価対象である。評価表現の「属性」は、評価対象を評価するための評価項目を表す語である。図2には、属性として、「肝機能」,「GOP」,「GPT」の各語を含む評価表現の例が示される。評価表現の「評価値」は、対応する属性の評価の良し悪しを表す語である。図2には、評価値として、「改善」,「悪化」,「低下」,「減少」,「増加」,「上昇」の各語を含む評価表現の例が示される。図2に例示する評価値は、いずれも、評価対象の状態の変化を表す語である。また、各評価表現に関連付けられた「極性」は、当該評価表現が肯定的であるか否定的であるかを表す。図2の表では、極性の値「positive」は当該評価表現が肯定的であることを表し、極性の値「negative」は当該評価表現が否定的であることを表す。
【0030】
評価表現辞書114のデータ内容は、情報処理装置10の後述の各要素が処理を開始する前に予め生成して登録しておく。例えば、処理対象とするテキストに関連する分野(本実施形態の例では医療分野)における複数の文章から、評価対象、属性、および評価値を含む評価表現を抽出して極性を決定し、当該評価表現と当該極性とを関連付けて評価表現辞書114に登録することで、評価表現辞書114のデータ内容を生成する。評価表現の抽出および極性の決定は、従来から知られている技術を用いて行えばよい。例えば、特開2005−235014号公報および参考文献1(小林のぞみ,乾健太郎,松本裕治,立石健二,福島俊一共著,「意見抽出のための評価表現の収集」,自然言語処理,12(2),2005年)などに記載された手法を用いればよい。
【0031】
再び図1を参照し、意味辞書116は、一般的な単語および専門用語の意味に関する情報を記憶する。本実施形態の例では、意味辞書116は、一般的な単語および専門用語についてのシソーラスを含む。シソーラスは、単語の概念上の上位/下位関係、部分/全体関係、同義関係、類義関係などによって単語を分類し、体系づけた辞書であり、単語の分類に応じた階層構造を有する。また、本実施形態の例の意味辞書116は、各単語の同義語を表す同義語辞書をさらに含む。
【0032】
図1の説明に戻り、コーパス解析部120は、解析辞書112を参照して、処理対象のテキストに対して形態素解析および構文解析を行う。形態素解析および構文解析は、自然言語処理の技術において従来から知られている手法を用いて行えばよい。コーパス解析部120による解析は、後述の各部における処理のための前処理である。
【0033】
なお、処理対象のテキストは、例えば、文書を記憶したデータベース(図示しない)から取得される。本実施形態の例では、医師、看護師、および医療機関のスタッフなどが作成した文書(学術論文や患者の病状についてのレポートなど)を記憶したデータベース中の文書から処理対象のテキストを取得するものとする。データベース中の全文書に含まれるすべての文章を処理対象のテキストとしてもよいし、データベース中の文書のうちユーザが指定した文書に含まれる文章のすべてを処理対象のテキストとしてもよい。あるいは、データベース中の1以上の文書においてユーザが指定した1以上の部分に含まれる文章を処理対象のテキストとしてもよい。
【0034】
評価表現抽出部130は、評価表現辞書114を参照し、コーパス解析部120が解析した処理対象のテキストから評価表現を抽出する。以下、図3に示す文章「GPT優位の肝機能の悪化が認められた。GOPの増加、GPTの著明な上昇。補液などを行い速やかな肝機能の改善を認めた。・・・」が処理対象のテキストである場合を例にとり、評価表現抽出部130による評価表現の抽出の様子を説明する。本例において、評価表現辞書114には、図2に例示するデータ内容が登録されているとする。
【0035】
評価表現抽出部130は、評価表現辞書114に登録された評価表現に含まれる、属性を表す語および評価値を表す語を処理対象のテキストにおいて特定する。図3において破線の四角で囲まれた語が、評価表現抽出部130により特定される属性および評価値の語の例である。さらに、評価表現抽出部130は、特定した評価値と組になる属性を特定する。特定した評価値に対応する属性は、例えば、処理対象のテキストの係り受け関係に基づいて特定してもよいし、あるいは、参考文献2(飯田龍,小林のぞみ,乾健太郎,松本裕治,立石健二,福島俊一共著,「意見抽出を目的とした機械学習による属性‐評価値対同定」,情報処理学会自然言語処理研究会,2005−NL−165)に記載されているように機械学習の手法を用いて特定してもよい。参考文献2に記載された手法では、処理対象のテキストから<対象,属性,評価値>の3つ組で表される評価表現(当該文献中では「意見」と呼ばれる)を抽出する問題を、(1)<属性,評価値>の対を同定する問題、および(2)同定した対が意見性を持つか否か(どのような記述を意見とみなすかを表す条件を満たすか否か)を判定する問題に分けて、それぞれ、機械学習に基づく手法を用いて解析することで、評価表現を抽出する。図3において、組となる属性と評価値とは破線矢印で接続されている。評価表現抽出部130は、処理対象のテキストにおいて特定した属性を表す語と評価値を表す語との組を抽出する。図3の例では、(属性,評価値)の組として、(肝機能,悪化),(GOP,増加),(GPT,上昇),(肝機能,改善)が抽出される。
【0036】
なお、図3を参照する本例では、評価表現抽出部130は、評価表現における評価対象を、処理対象のテキストとは別に取得する。例えば、評価表現抽出部130は、処理対象のテキストを含む文書をデータベースから取得して解析し、当該文書の主題を表す文字列を特定し、この文字列から、評価表現辞書114に記憶された評価対象を表す語を抽出する。文書の主題を表す文字列は、例えば、文書の名称であってよい。また、例えば当該文書が患者の病状についてのレポートである場合、当該患者の病名を記述した文字列を、文書の主題を表す文字列としてもよい。また、当該文書の主題を表す文字列を特定する代わりに、当該文書において処理対象のテキストを含む部分(章、節、項目など)のタイトルに相当する文字列を特定し、この文字列から評価対象を表す語を抽出してもよい。以上の例において、文書中のどのような文字列から評価対象を表す語を抽出するか、および、評価対象を表す語の抽出の基となる文字列が文書中のどこに存在し得るかを表す情報は、予め設定されて参照データ記憶部110に記憶されており、この情報を参照して、評価表現抽出部130は文書の解析および評価対象の抽出を行えばよい。また、他の例では、ユーザによる処理対象のテキストの指定を受け付けると共に、評価対象の指定をユーザから受け付けてもよい。評価表現抽出部130は、上述の各例のように取得した評価対象を、処理対象のテキストから抽出した属性と評価値との組に対応づけて、(対象,属性,評価値)の3つ組からなる評価表現とする。図3の例では、評価対象「肝臓」が取得され、評価表現(肝臓,肝機能,悪化),(肝臓,GOP,増加),(肝臓,GPT,上昇),(肝臓,肝機能,改善)が得られるとする。
【0037】
さらに、評価表現抽出部130は、抽出した評価表現のそれぞれについて、評価表現辞書114において当該評価表現に関連付けて登録された極性の値を取得する。図3の例の処理対象のテキストから抽出される評価表現(対象,属性,評価値)と各評価表現について取得される極性の値とを図4に例示する。図4の表に示す各評価表現の極性の値は、図2に例示する評価表現辞書114において当該評価表現に関連付けられた極性の値である。
【0038】
図1の説明に戻り、評価表現分類部140は、抽出された評価表現の間で、属性を表す語および極性が共通するか否かに基づいて、抽出された評価表現を1以上のグループに分類する。同じグループに分類された複数の評価表現は、互いに関連表現の候補となる。
【0039】
図4を参照し、評価表現分類部140による分類の一具体例を説明する。図4の表は、図3の例の処理対象のテキストから抽出された評価表現およびその極性を、処理対象のテキストにおける評価表現の出現の順に上の行から下の行に向かって並べたものである。本例では、評価表現分類部140は、処理対象のテキストで連続して出現する評価表現の間で、評価対象および極性が共通するものを同じグループに分類する。同一の評価対象に対し、同じ極性の評価表現が連続して記述されている場合、記述を行った者の評価対象に対する態度が一貫していると認められる。よって、このような評価表現同士は、同一の評価対象に対して、同様の評価を言い換えて表現したものである可能性がある。したがって、評価表現分類部140は、このような評価表現同士を、関連表現の候補として同じグループに分類する。図4を参照し、評価対象が「肝臓」で、極性が「negative」で連続している最初の3つの評価表現がグループ1に分類され、評価対象がグループ1と同じ「肝臓」であっても、極性が「positive」で異なる4つめの評価表現は、グループ2に分類される。
【0040】
再び図1を参照し、関連表現生成部150は、評価表現分類部140による分類の結果を用いて、関連表現の組を生成する。例えば、関連表現生成部150は、評価表現分類部140が評価表現を分類したグループのうち複数の評価表現を含むグループについて、当該グループに含まれる評価表現のそれぞれを含む文字列を処理対象の文字列から抽出する。ここで各評価表現について抽出される文字列は、処理対象のテキストにおいて、評価表現の属性を表す語または評価値を表す語との間に係り受け関係を有する語句を含む。例えば、図4の例のグループ1に含まれる評価表現(肝臓,肝機能,悪化)の場合、処理対象のテキスト(図3)から、属性「肝機能」および評価値「悪化」を含む、「肝機能の悪化」,「GPT優位の肝機能の悪化」などの文字列が抽出される。また、評価表現(肝臓,GOP,増加)の場合、文字列「GOPの増加」が抽出され、評価表現(肝臓,GPT,上昇)の場合、文字列「GPTの上昇」,「GPTの著明な上昇」が抽出される。なお、関連表現生成部150は、評価表現の属性および評価値を含む文字列のうち、構文上、句または文として成立する最小単位の文字列(構文上の最短のパスにより得られる文字列)だけを処理対象のテキストから抽出してもよい。この場合、文字列「肝機能の悪化」,「GOPの増加」,「GPTの上昇」が処理対象のテキストから抽出される。
【0041】
関連表現生成部150は、あるグループに含まれる各評価表現について抽出した文字列のうちの2つずつを関連表現の組とする。ただし、評価表現における属性を表す語同士が共通の意味クラスに属すると判定される文字列同士は関連表現の組としない。また、処理対象の文字列から評価表現について抽出した文字列においても、共通の意味クラスに属すると判定される語を含む文字列同士を関連表現の組とすることはない。ここで、意味クラスとはシソーラス辞書等で共通の意味素でまとめられた語の集合のことであり、意味素とは意味を計算機で扱う際に用いる意味の基本単位である。例えば、意味素が「動物」である場合、意味クラスは「犬」や「馬」や「猿」といった語の集合となる。関連表現生成部150は、意味クラス判定部160に依頼して、あるグループに含まれる評価表現の属性を表す語のうち互いに共通の意味クラスにあるものが存在するか否か、および、評価表現について抽出した文字列において互いに共通の意味クラスにある語を含む文字列が存在するか否かを判定させる。
【0042】
意味クラス判定部160は、関連表現生成部150からの依頼を受けて、互いに共通の意味クラスにある語を判定する。ある評価対象を評価する評価表現において異なる事柄を表す複数の語が現れる場合は、これらの語が共通の意味クラスを持つ場合と捉えることができる。例えば、図3および図4を参照する上述の例において、評価表現の属性「GOP」,「GPT」は、互いに異なる検査項目を表す。よって、本例では、「GOP」および「GPT」が互いに共通する意味クラスにある語と判定される。本実施形態の例の意味クラス判定部160は、意味辞書116を参照して、語同士が共通の意味クラスにあるか否かを判定する。より具体的には、意味辞書116に含まれるシソーラスにおいて意味クラスが同じであり、かつ、意味辞書116に含まれる同義語辞書において同義語として登録されていない語同士を、互いに共通の意味クラスにあると判定する。ここで、複数の語の意味クラスが同じであるか否かは、シソーラスが有する概念の階層構造に従って判定すればよい。例えば、シソーラスの階層構造において、複数の語に相当する各概念(の項目)の直近の上位に位置する概念が同一である場合に、意味クラスが同じであると判定すればよい。言い換えると、シソーラスの階層構造に対応する木構造において、複数の語にそれぞれ対応するノードが同一の親ノードを有する場合に、意味クラスが同じであると判定すればよい。上述の「GOP」,「GPT」の例の場合、これらの語は、シソーラスの階層構造において、同じ「検査値」の概念(意味クラス)の直近の下位概念に属し、同義語ではないことから、共通の意味クラスにあると判定されるものとする。
【0043】
出力処理部170は、関連表現生成部150が生成した関連表現の組を出力する処理を行う。例えば、生成された関連表現の組を関連表現記憶部180に対して出力する。この出力処理により、関連表現の組が関連表現記憶部180に登録される。また、出力処理部170は、関連表現の組を図示しない表示装置に表示させる処理を行ってもよい。
【0044】
関連表現記憶部180は、関連表現生成部150が生成し、出力処理部170により出力された関連表現の組を記憶する。図5に、関連表現記憶部180のデータ内容の一例を示す。図5は、図3の処理対象テキストから図4の評価表現が抽出された場合に関連表現生成部150が生成する関連表現の組の例を示す。図5の表の1行に記載された2つの表現が1つの関連表現の組を表す。図5を参照すると、評価表現(肝臓,肝機能,悪化)に基づく表現「肝機能の悪化」と、評価表現(肝臓,GOP,増加)に基づく表現「GOPの増加」と、が関連表現の組として登録されている。また、「肝機能の悪化」と、評価表現(肝臓,GPT,上昇)に基づく表現「GPTの上昇」および「GPTの著明な上昇」のそれぞれとが関連付けられて登録されている。さらに、評価表現(肝臓,肝機能,悪化)に基づく表現「GPT優位の肝機能の悪化」と、「GPTの上昇」および「GPT」のそれぞれとが関連付けられて登録されている。なお、意味クラス判定部160により属性を表す語が共通の意味クラスにあると判定される評価表現(肝臓,GOP,増加)および(肝臓,GPT,上昇)に基づく表現同士は、関連表現の組として登録されていない。また、表現「GPT優位の肝機能の悪化」は、「GPT」の語を含むことから、これと共通の意味クラスにある語「GOP」を含む「GOPの増加」と関連付けられていない。
【0045】
以下、図6を参照し、情報処理装置10が行う処理の手順の例を説明する。情報処理装置10は、例えば、図示しない入力装置を用いてユーザが処理の開始を指示したときに、図6の例の手順の処理を開始する。
【0046】
まず、情報処理装置10は、処理対象のテキストを取得する(ステップS10)。本例では、医療分野の文書を記憶したデータベース中の文書から処理対象のテキストを取得する。
【0047】
情報処理装置10のコーパス解析部120は、処理対象のテキストに対し、形態素解析および構文解析を行う(ステップS12)。ステップS12では、解析辞書112が参照される。
【0048】
ステップS12の後、評価表現抽出部130は、処理対象のテキストから、評価表現を抽出する(ステップS14)。評価表現抽出部130は、図3を参照して上述した例のように、評価表現辞書114を参照して、処理対象のテキストから属性を表す語と評価値を表す語との組を抽出する。さらに、処理対象のテキストを含む文書から、あるいは、ユーザの指定により、処理対象のテキスト中の評価表現における評価対象を取得し、取得した評価対象を、抽出した属性と評価値との組に対応づけて、(評価対象,属性,評価値)により表される評価表現を得る。
【0049】
評価表現抽出部130は、ステップS14で抽出した評価表現のそれぞれの極性を特定する(ステップS16)。本例の評価表現抽出部130は、抽出した評価表現のそれぞれについて、当該評価表現に関連付けて評価表現辞書114に登録された極性の値を取得する。評価表現抽出部130は、ステップS14,S16の結果を評価表現分類部140に渡す。上述の図4は、ステップS14,S16の結果として得られる評価表現とその極性の例である。
【0050】
評価表現分類部140は、ステップS14で抽出された評価表現を、これらの評価表現の間で評価対象および極性が共通するか否かに基づいて、1以上のグループに分類する(ステップS18)。評価表現分類部140は、図4を参照して上述した例のように、処理対象のテキストにおける出現順で連続する評価表現の間で、評価対象および極性が共通する場合に、これらの連続する評価表現を同じグループに分類する。図4の例では、抽出された評価表現のすべてにおいて評価対象が「肝臓」で共通であるため、同じ極性が連続していれば同じグループに分類される。
【0051】
ステップS18における分類結果の他の例として、図7に、抽出された評価表現において異なる評価対象を含むものがある場合の例を示す。図7の表を参照し、対象Aについての評価表現が3つ、対象Bについての評価表現が4つ、対象Cについての評価表現が1つ、ステップS14で抽出されたとする。また、これらの評価表現は、図7の表の上の行から順に処理対象のテキスト中に出現していたとする。このとき、対象Aで極性「positive」が連続する2つの評価表現がグループaに分類され、その次の対象Aの評価表現(極性「negative」)は、単独でグループbに分類される。さらに、対象Bで極性「negative」が連続する2つの評価表現がグループcに、対象Bで極性「positive」が連続する2つの評価表現がグループdに分類され、残りの対象Cの評価表現はさらに他のグループeに分類される。
【0052】
評価表現分類部140は、ステップS18における分類の結果を関連表現生成部150に渡す。
【0053】
次に、関連表現生成部150は、各グループについて、評価表現の属性を表す語のうち共通の意味クラスにある語が存在するか否かを意味クラス判定部160に判定させる(ステップS20)。例えば、関連表現生成部150は、複数の評価表現を含むグループについて、当該グループに含まれる評価表現の属性を表す語のうち、互いに共通の意味クラスにあるものが存在するか否かを意味クラス判定部160に判定させる。図4のグループ1の例の場合、「肝機能」と「GOP」、「肝機能」と「GPT」、および「GOP」と「GPT」の3種類の組合せについて、互いに共通の意味クラスにあるか否かを意味クラス判定部160に判定させる。この例では、意味クラス判定部160は、上記で説明したように、「GOP」と「GPT」とが共通の意味クラスにあると判定し、「肝機能」と「GOP」、「肝機能」と「GPT」については共通の意味クラスにないと判定する。
【0054】
共通の意味クラスにあるか否かの判定の後、関連表現生成部150は、複数の評価表現を含む各グループの各評価表現を含む文字列を処理対象のテキストから抽出する(ステップS22)。図4のグループ1の場合、ステップS22で、上述のように、図3の処理対象テキストから、「肝機能の悪化」、「GPT優位の肝機能の悪化」、「GOPの増加」、「GPTの上昇」および「GPTの著明な上昇」が抽出される。関連表現生成部150は、同じグループの各評価表現について抽出した文字列のうちの2つずつを関連表現の組とする。ただし、ステップS20で共通の意味クラスにあると判定された語を含む文字列同士は関連表現の組としない。関連表現生成部150は、生成した関連表現の組を出力処理部170に渡す。
【0055】
ステップS22の後、出力処理部170は、関連表現生成部150から受け取った関連表現の組を関連表現記憶部180に登録する(ステップS24)。上述の図5は、ステップS24における登録の結果の例である。ステップS24の後、図6の例の手順の処理は終了する。
【0056】
図6の例の手順の処理により、関連表現記憶部180には、関連表現の組、つまり、言い換え可能な(互いに関連性の高い)表現の候補の組が登録される。関連表現記憶部180は、文章の検索処理などに用いられる。例えば、ユーザにより入力された検索クエリに含まれる表現の関連表現を関連表現記憶部180から取得し、入力された検索クエリに含まれる表現だけでなく、この表現の関連表現も検索キーとして文書を検索するといった処理を行うことが考えられる。
【0057】
以上、図3から図5を参照して説明した例では、処理対象のテキストにおいて、評価表現の属性および評価値の両方が1つの文に含まれている。処理対象のテキストの他の例では、評価表現の属性および評価値が異なる文に出現していてもよい。例えば、図8を参照し、処理対象のテキストが「血小板の調査結果が得られた。著明な低下が認められる。HHV−6ウイルス量の増加が認められる。HHV−6の再活性化が関与していた可能性も考えられる。」であるとする。図8における破線の四角および破線矢印は、図3と同様、評価表現の属性を表す語とその評価値を表す語との組を示す。図8では、評価表現の属性と評価値との組として、(血小板,低下),(HHV−6ウイルス量,増加),(HHV−6,再活性化)が抽出され、これらの3つの評価表現が図6のステップS18で同じグループに分類されるとする。(血小板,低下)の組は、属性を表す語「血小板」と評価値を表す語「低下」とが2つの異なる文に出現している。このような場合、(血小板,低下)を含む文字列として、例えば、「血小板の調査結果が得られた。低下が認められる。」および「血小板の調査結果が得られた。著明な低下が認められる。」が抽出され、(HHV−6ウイルス量,増加),(HHV−6,再活性化)に基づく文字列「HHV−6ウイルス量の増加」,「HHV−6の再活性化」などの関連表現として関連表現記憶部180に登録され得る。
【0058】
以上で説明した実施形態の例は、本発明の実施の形態の一例に過ぎず、各種の変形例があってよい。
【0059】
一変形例では、評価表現の属性のうち数値で評価値が表され得る属性について、処理対象のテキストにおいて当該属性の評価値を表す数値が記述されている場合に、評価表現抽出部130は、当該属性を表す語と数値との組を処理対象のテキストから抽出してもよい。この変形例では、評価表現辞書114または意味辞書116において、さらに、評価表現のうち評価値が数値で表され得る属性(評価項目)の評価値の基準値を表す情報を記憶しておく。例えば、医療における各種の検査項目は、評価表現の属性となることがあり、かつ、数値によって評価値が表される。よって、本変形例の評価表現辞書114または意味辞書116は、評価表現における属性のうち検査項目を表す語と当該検査項目の検査値の基準値を表す情報とを関連付けて記憶する。図9に、このような基準値の情報の例を示す。図9の例の表は、評価表現の属性のうち数値で評価値が表され得る検査項目を表す語と、その評価値の基準値とが互いに関連付けられている。図9に例示するような基準値の情報は、例えば、医療機関で行われ得る検査の検査項目およびその基準値を用いて予め生成されて評価表現辞書114または意味辞書116に登録される。
【0060】
図2の例のデータ内容に加えて図9の例の基準値の情報が評価表現辞書114に登録されている場合に、例えば、文「γ−GTPは110となり、肝機能の低下が見られる。」を処理対象のテキストとしたとする。このとき、評価表現抽出部130は、属性と評価値との組として、(γ−GTP,110)および(肝機能,低下)を抽出する。なお、評価対象としては「肝臓」が取得される。処理対象テキストから抽出される評価表現(肝臓,肝機能,低下)は、評価表現辞書114に登録された評価表現そのものであり、その極性は「negative」である。評価表現抽出部130は、抽出した属性と数値との組(γ−GTP,110)については、図9の例の基準値の情報を参照し、「γ−GTP」の基準値「50以下」と抽出した数値「110」とを比較する。この比較の結果、抽出した数値「110」の方が基準値よりも大きいことから、例えば、属性「γ−GTP」を含む評価表現のうち、数値が大きくなる変化を表す評価値「増加」または「上昇」を含む評価表現(肝臓,γ−GTP,増加)または(肝臓,γ−GTP,上昇)を、(γ−GTP,110)に対応する評価表現として選択する。そして、選択した評価表現の極性を評価表現辞書114から取得し、この評価表現およびその極性を、処理対象のテキストから抽出した他の評価表現(肝臓,肝機能,低下)およびその極性と共に、評価表現分類部140による分類処理の対象とする。なお、関連表現生成部150は、属性と数値との組に対応する評価表現について、処理対象のテキストから文字列を抽出する処理を行うとき、当該属性と数値とを含む文字列(例「γ−GTPは110」)を抽出してもよいし、当該数値を、対応する評価表現の評価値の語に置き換えた文字列(例「γ−GTPは増加」)を取得してもよい。
【0061】
図9を参照する本変形例において、処理対象のテキストから抽出された属性と数値との組に対応する評価表現は、当該抽出された数値と、当該属性に関連付けられた基準値と、の比較の結果に基づいて特定される。例えば、抽出された数値が基準値よりも大きければ、数値が大きくなる変化を表す語(増加、上昇など)を評価値として含み、かつ当該数値と組として抽出された属性を含む評価表現を対応する評価表現とする。逆に、抽出された数値が基準値よりも小さければ、数値が小さくなる変化を表す語(減少、低下など)を評価値として含み、かつ当該数値と組として抽出された属性を含む評価表現を対応する評価表現とする。また、抽出された数値が基準値と同じであれば、対応する評価表現は存在しないことにしてよい。なお、属性の基準値が数値の範囲によって表されている場合、抽出した数値が基準値の範囲の上限を超えていれば、数値が大きくなる変化を表す語を含む評価表現を、抽出した数値が基準値の範囲の下限を下回っていれば、数値が小さくなる変化を表す評価表現を、対応する評価表現とすればよい。
【0062】
以上で説明した実施形態および変形例では、評価対象の状態の変化を評価する評価表現(上昇、増加、低下、減少など、変化を表す評価値を含む)が評価表現辞書114に登録される。他の変形例では、状態の変化を評価する評価表現だけでなく、評価対象の状態そのものを評価する評価表現を評価表現辞書に登録しておいてもよい。例えば、「良い」,「悪い」,「高い」,「低い」,「大きい」,「小さい」など、時間による変化を表す語ではなく、単に状態を記述する語を評価値として含む評価表現をさらに評価表現辞書114に登録しておいてもよい。この場合、数値で評価値が表される属性を含む評価表現を処理する上述の変形例において、処理対象のテキストから抽出した数値と、対応する属性に関連付けられた基準値と、の大小関係に応じた語を評価値として含む評価表現を、当該抽出した数値および属性の組に相当する評価表現とすればよい。例えば、抽出した数値が基準値よりも大きい場合に、「高い」の語を含む評価表現を、抽出した数値が基準値よりも小さい場合に「低い」の語を含む評価表現を、当該数値と属性との組に対応する評価表現とする。また、抽出した数値が基準値と同じであれば、その数値と属性との組に対応する評価表現は存在しないと判定する。
【0063】
また、以上の説明では、評価表現分類部140は、処理対象のテキストにおける出現順に連続する評価表現の間で評価対象および極性が共通するものを同じグループに分類する。一変形例では、評価表現分類部140は、処理対象のテキストにおける出現順を考慮せずに、単に、評価対象および極性が共通する評価表現を同じグループに分類してもよい。この場合、処理対象のテキストにおける出現順で連続している評価表現でなくても、評価対象および極性が共通していれば同じグループに分類される。さらに他の例では、処理対象のテキスト中の接続詞やモダリティをさらに用いて分類してもよいし、機械学習に基づくクラスタリングの問題として分類を行ってもよい。
【0064】
また、以上の説明では、意味クラス判定部160は、シソーラスにおける意味クラスが同一であって同義語でない語同士を共通の意味クラスにある異なる語と判定する。一変形例では、従来から知られている構文解析の手法を用いて、処理対象のテキストにおいて属性を表す語を含む句が並置構造を有する(例えば、「GOPの増加、GPTの著明な上昇」では、2つの句が並置されている)ことを検出し、この検出結果とシソーラスにおける意味クラスの判定とを組み合わせて、共通の意味クラスにある異なる語の有無を判定してもよい。
【0065】
また、以上の説明では、関連表現生成部150により、評価表現を含む文字列を処理対象のテキストから抽出し、抽出した文字列同士を関連付けて関連表現記憶部180に登録する。一変形例では、抽出した評価表現自体を関連表現記憶部180にさらに登録してもよい。例えば、図4を参照し、同じグループ1に分類された3つの評価表現(肝臓,肝機能,悪化),(肝臓,GOP,増加),(肝臓,GPT,上昇)について、属性を表す語が共通の意味クラスにない組である、(肝臓,肝機能,悪化)と(肝臓,GOP,増加)、(肝臓,肝機能,悪化)と(肝臓,GPT,上昇)を関連表現記憶部180に登録してもよい。また、評価表現自体を関連表現記憶部180に登録する場合、処理対象のテキストから評価表現を含む文字列を抽出し、抽出した文字列を関連付けて関連表現記憶部180に登録する処理は省略してもよい。
【0066】
なお、関連表現生成部150は、必ずしも、関連表現の「組」を明示的に生成しなくてもよい。評価表現分類部140によって同じグループに分類された評価表現であって互いに共通の意味クラスにある語を含まない複数の評価表現(および各評価表現に基づき処理対象のテキストから抽出された文字列)を互いに関連付けて関連表現記憶部180に登録しておけばよい。
【0067】
また、以上では、対象、属性、および評価値の3種類の値の組からなる評価表現を評価表現辞書114に登録する。一変形例では、評価対象を含まずに、属性を表す語と評価値を表す語との組からなる評価表現を評価表現辞書114に登録しておき、処理対象のテキストから抽出した属性と評価値との組を評価表現として上述の実施形態および各種の変形例の処理を同様に行ってもよい。この例の場合、属性を表す語から評価対象を特定すればよい。例えば、各評価対象と、その属性を表す語と、を関連付ける情報を評価表現辞書114または意味辞書116に登録しておき、処理対象のテキストから抽出した属性を表す語に関連付けられた評価対象を、当該属性を含む評価表現の評価対象として特定する。
【0068】
なお、以上では、医療分野の文章を処理対象のテキストとする場合の例を説明した。当然ながら、本実施形態の例の処理は、他の専門分野の文章を処理対象のテキストとする場合も上記の説明と同様に行ってよい。あるいは、専門分野に限られない、一般的な文章を処理対象のテキストとしてもよい。
【0069】
以上に例示した情報処理装置10は、典型的には、汎用のコンピュータにて上述の情報処理装置10の各部の機能又は処理内容を記述したプログラムを実行することにより実現される。コンピュータは、例えば、ハードウエアとして、図10に示すように、CPU(中央演算装置)80、メモリ(一次記憶)82、各種I/O(入出力)インタフェース84等がバス86を介して接続された回路構成を有する。また、そのバス86に対し、例えばI/Oインタフェース84経由で、ハードディスクドライブ(HDD)88やCDやDVD、フラッシュメモリなどの各種規格の可搬型の不揮発性記録媒体を読み取るためのディスクドライブ90が接続される。このようなドライブ88又は90は、メモリに対する外部記憶装置として機能する。実施形態の処理内容が記述されたプログラムがCDやDVD等の記録媒体を経由して、又はネットワーク経由で、HDD88等の固定記憶装置に保存され、コンピュータにインストールされる。固定記憶装置に記憶されたプログラムがメモリに読み出されCPUにより実行されることにより、実施形態の処理が実現される。
【0070】
なお、以上では、情報処理装置10を1台のコンピュータにより実現する例の実施形態を説明したが、上述した情報処理装置10の各種の例の機能を複数のコンピュータに分散させて実現してもよい。
【符号の説明】
【0071】
10 情報処理装置、80 CPU、82 メモリ、84 I/Oインタフェース、86 バス、88 HDD、90 ディスクドライブ、110 参照データ記憶部、112 解析辞書、114 評価表現辞書、116 意味辞書、120 コーパス解析部、130 評価表現抽出部、140 評価表現分類部、150 関連表現生成部、160 意味クラス判定部、170 出力処理部、180 関連表現記憶部。

【特許請求の範囲】
【請求項1】
評価対象を評価するための評価項目を表す語と当該評価項目に対する評価値を表す語とを含む評価表現と、当該評価表現が肯定的な表現であるか否かを表す極性と、を関連付けて記憶した評価表現記憶手段を参照して、処理対象の文字列に含まれる前記評価表現を前記処理対象の文字列から抽出し、抽出した評価表現それぞれの極性を特定する特定ステップと、
前記抽出した評価表現の間で前記評価対象および前記極性が共通するか否かに基づいて、前記抽出した評価表現を1以上のグループに分類する分類ステップと、
前記分類ステップで同一のグループに分類された評価表現が複数ある場合に、これら複数の評価表現を互いに関連付けて関連表現記憶手段に対して出力する出力ステップと、
をコンピュータに実行させるためのプログラム。
【請求項2】
前記分類ステップにおいて、前記抽出した評価表現を前記処理対象の文字列における出現順に並べた場合に、連続する評価表現の間で前記評価対象および前記極性が共通していれば、当該連続する評価表現を同じグループに分類する、
ことを特徴とする請求項1に記載のプログラム。
【請求項3】
前記出力ステップにおいて、前記複数の評価表現のうち、前記評価項目を表す語が互いに共通の意味クラスにある評価表現については、当該評価表現の間の関連付けを行わない、
ことを特徴とする請求項1または2に記載のプログラム。
【請求項4】
前記コンピュータに、さらに、前記出力ステップにおける出力の対象となる前記複数の評価表現それぞれについて、当該評価表現を含む文字列を前記処理対象の文字列から抽出する抽出ステップを実行させ、
前記抽出ステップで抽出される文字列は、前記処理対象の文字列において当該評価表現の前記評価項目を表す語または前記評価値を表す語との間に係り受け関係を有する語句を含み、
前記出力ステップにおいて、前記複数の評価表現それぞれについて抽出した文字列を互いに関連付けて前記関連表現記憶手段に対して出力する、
ことを特徴とする請求項1から3のいずれか1項に記載のプログラム。
【請求項5】
前記出力ステップにおいて、前記複数の評価表現それぞれについて抽出した文字列のうち、互いに共通の意味クラスにある語が含まれる文字列については、当該文字列の間の関連付けを行わない、
ことを特徴とする請求項4に記載のプログラム。
【請求項6】
前記コンピュータに、さらに、前記評価表現記憶手段に記憶された評価表現における前記評価項目のうち数値で評価値が表され得る評価項目を表す語のそれぞれと、当該評価項目の評価値の基準値と、を関連付けて記憶した基準値情報記憶手段を参照し、前記処理対象の文字列から、前記基準値情報記憶手段に記憶された評価項目を表す語と当該評価項目の評価値に相当する数値とを抽出し、抽出した評価項目に関連付けられた前記基準値と抽出した数値とを比較した結果に基づいて、当該評価項目と当該数値との組合せに相当する前記評価表現およびその極性を前記評価表現記憶手段において特定する第2特定ステップを実行させ、
前記第2特定ステップで特定した評価表現をさらに前記分類ステップの処理対象とする、
ことを特徴とする請求項1から5のいずれか1項に記載のプログラム。
【請求項7】
評価対象を評価するための評価項目を表す語と当該評価項目に対する評価値を表す語とを含む評価表現と、当該評価表現が肯定的な表現であるか否かを表す極性と、を関連付けて記憶した評価表現記憶手段を参照して、処理対象の文字列に含まれる前記評価表現を前記処理対象の文字列から抽出し、抽出した評価表現それぞれの極性を特定する特定手段と、
前記特定手段が抽出した評価表現の間で前記評価対象および前記極性が共通するか否かに基づいて、前記抽出した評価表現を1以上のグループに分類する分類手段と、
前記分類手段で同一のグループに分類された評価表現が複数ある場合に、これら複数の評価表現を互いに関連付けて関連表現記憶手段に対して出力する出力手段と、
を備えることを特徴とする情報処理装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2012−8701(P2012−8701A)
【公開日】平成24年1月12日(2012.1.12)
【国際特許分類】
【出願番号】特願2010−142670(P2010−142670)
【出願日】平成22年6月23日(2010.6.23)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】