説明

辞書の妥当性を評価する装置、方法およびプログラム

【課題】表記語を代表語に対応付けた辞書の妥当性を評価する。
【解決手段】テキストに表記された表記語を変換する辞書の妥当性を評価する装置であって、少なくとも1つの表記語を、当該少なくとも1つの表記語を代表する代表語に対応付けて、語句のカテゴリー毎に記録している辞書記録部と、一のカテゴリーの代表語が他のカテゴリーの表記語と一致し得ることを条件に、当該一のカテゴリーが当該他のカテゴリーに依存する依存関係を記録している関係記録部と、辞書記録部において第1のカテゴリーの代表語が第2のカテゴリーの表記語と一致し、かつ、第1のカテゴリーが第2のカテゴリーに依存する依存関係が関係記録部に記録されていないことを条件に、当該表記語が、当該代表語により代表される語句として妥当でないと評価する評価部とを備える装置を提供する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、辞書の妥当性を評価する装置、方法およびプログラムに関する。特に、本発明は、テキストに表記された表記語を変換する辞書の妥当性を評価する装置、方法およびプログラムに関する。
【背景技術】
【0002】
従来、テキストマイニングにおいては、語句の表記の揺らぎが問題となっていた。例えば、あるテキストにおいてある語句が出現する一方で、他のテキストにおいてはその語句とは意味が同じで表記が異なる語句が出現する場合がある。この場合には、その意味の語句が頻繁に出現する場合であっても、表記が統一されていないためにその頻度を適切に評価できなかった。
【0003】
これに対して、従来、互いに意味の等しい語句として選択された複数の表記語を、それらを代表する代表語に変換する技術が用いられている。例えば、「製品名」といった特定のカテゴリーに属するキーワードの出現分布を求める場合には、そのカテゴリーに対応して予め準備された辞書によって、テキスト中の表記語を代表語に変換する。この辞書は、表記語から代表語に変換する変換ルールを含む。
【0004】
一例として、遺伝子のカテゴリーにおいて、表記語「TAP1」、表記語「ABC transporter, MHC 1」、表記語「Cim」、表記語「Abcb2」、表記語「RING4」、および、表記語「Ham1」は、何れも代表語「TAP1」に変換される。即ちこれらの表記語は何れも同義であるため、代表語「TAP1」として統一的に処理される。特に、ライフサイエンスの分野では、表記の揺らぎのみならず、そもそも表記の異なる語句が同一の意味を有する場合があり、この変換処理はテキストマイニングに欠かせない場合が多い。
【0005】
この変換ルールは、適用分野や目的に応じて独自に作成する必要がある。また変換ルールは外部リソースから生成されることもあれば、複数の作成者による手作業で生成されることもある。例えば、複数の外部リソースを統合して作成した辞書は、ライフサイエンス分野を中心とした多くのテキストマイニングソリューションで使用される。
【0006】
一般的にテキストマイニングで使用される辞書には、表記語を代表語に対応付けた辞書(以下、表記語辞書)と、代表語をその代表語が属するカテゴリーに対応付けた辞書(以下、カテゴリー辞書)との2種類がある。多くのテキストマイニングソリューションではこのような辞書を複数の独立した外部リソースから作成することが多い。例えば、ライフサイエンス分野向けのテキストマイニングシステムでは、辞書リソースとして以下のような複数のリソースを利用する。
【0007】
・ライフサイエンス用語:UMLS(非特許文献1を参照。)
・遺伝子:LocusLink(非特許文献2を参照。)
・たんぱく質:SwissProt(非特許文献3を参照。)
【0008】
上記のLocusLinkやSwissProtは、遺伝子情報やたんぱく質情報についての公開データベースであり、テキスト処理のための辞書として構築されたものではない。また、UMLSはそれ自体が多くのリソースから作成された巨大なリソースである。これらの既存のリソースに基づいて表記語辞書を作成すれば、多くの語彙に対応する辞書を効率的に作成することができる。また、複数の外部リソースを統合した辞書システムを利用しても、表記語辞書を効率的に作成することができる(非特許文献4および5を参照。)。
【0009】
【非特許文献1】Unified Medical Language System, URL:http://www.nlm.nih.gov/research/umls/
【非特許文献2】LocusLink, URL:http://www.ncbi.nlm.nih.gov/projects/LocusLink/
【非特許文献3】SwissProt, URL:http://www.ebi.ac.uk/swissprot/
【非特許文献4】VisionClaire, URL:http://www.hitachi.co.jp/products/lifescience/product/tool/document/2002564_12525.html
【非特許文献5】Koike and Takagi, Gene/protein/family name recognition in biomedical literature, BioLINK2004
【非特許文献6】Tuason, O. and Chen, L., Liu, H., Blake, J.A., and Friedman, C. 2004. Proc. of Pacific Symposium on Biocomputing,238-249.
【発明の開示】
【発明が解決しようとする課題】
【0010】
しかしながら、複数の異なる外部リソースを統合して辞書を作成した場合には、テキストマイニングにおける統計処理や検索処理を妨害し得る語句が辞書に混入する場合がある。そのような語句をノイズエントリと呼ぶ。ノイズエントリは、外部リソースが言語処理を目的として作成していない場合や、外部リソースのエントリ数が膨大で日々更新されることから管理が不十分である場合に発生すると考えられる。
【0011】
例えば、ある外部リソースにおいて、遺伝子カテゴリーの代表語である「Spna2」には表記語「brain」対応付けられている(Spna2はある遺伝子の名称)。この場合、特定の遺伝子名に比べて「brain」の出現頻度は非常に多いので、「Spna2」の出現頻度は本来よりも非常の大きくなってしまう。その他、代表語とそれに対応する表記語として不適切な実例を以下に示す。
【0012】
代表語「NR1D2」に対応する表記語「beta」。代表語「Nsg2」に対応する表記語「8.5」。代表語「ATRN」に対応する表記語「mg」。代表語「ELK3」に対応する表記語「Net」。代表語「ASH2L」に対応する表記語「703」。代表語「D2Dcr32」に対応する表記語「7-7」。代表語「PFKM」に対応する表記語「6.6」。代表語「RBPMS」に対応する表記語「3603」。
【0013】
これらのうち、数字や単位については、辞書に記録すべきでない語句として予め設定しておくことで辞書から除外できると考えられる。しかしながら、そのような語句の設定を利用者の作業にゆだねると、利用者の経験や能力によってその精度は異なってしまう。また、そのような語句を全て除去することは困難である。また、基準よりも高頻度で出現する一般語は、ノイズエントリの可能性が高い語句として、辞書から除外する方法も考えられる(非特許文献5および6を参照。)。
【0014】
これらの技術において、一般語かどうかはネットワーク上で利用できる一般語辞書を利用して判定している。しかしながら、この技術では、一般語と専門用語を明確に区別できないので、専門用語であっても一般語辞書に掲載されていれば辞書から削除されてしまうという問題があった。
【0015】
また、複数の外部リソースを統合して辞書を作成する場合には、あるカテゴリーの表記語が他のカテゴリーの代表語に一致する場合もある。従来は、このように複数のカテゴリーが同一語句を含む場合において、カテゴリー間の関係を考慮して辞書の妥当性を判断することはできなかった。
【0016】
そこで本発明は、上記の課題を解決することのできる装置、方法およびプログラムを提供することを目的とする。この目的は特許請求の範囲における独立項に記載の特徴の組み合わせにより達成される。また従属項は本発明の更なる有利な具体例を規定する。
【課題を解決するための手段】
【0017】
上記課題を解決するために、本発明の第1の形態においては、テキストに表記された表記語を変換する辞書の妥当性を評価する装置であって、少なくとも1つの表記語を、当該少なくとも1つの表記語を代表する代表語に対応付けて、語句のカテゴリー毎に記録している辞書記録部と、一のカテゴリーの代表語が他のカテゴリーの表記語と一致し得ることを条件に、当該一のカテゴリーが当該他のカテゴリーに依存する依存関係を記録している関係記録部と、辞書記録部において第1のカテゴリーの代表語が第2のカテゴリーの表記語と一致し、かつ、第1のカテゴリーが第2のカテゴリーに依存する依存関係が関係記録部に記録されていないことを条件に、当該表記語が、当該代表語により代表される語句として妥当でないと評価する評価部とを備える装置、当該装置によって辞書の妥当性を評価する方法、および、当該装置として情報処理装置を機能させるプログラムを提供する。
【0018】
本発明の第2の形態においては、テキストに表記された表記語を変換する辞書の妥当性を評価する装置であって、少なくとも1つの表記語を、当該少なくとも1つの表記語を代表する代表語に対応付けて、語句のカテゴリー毎に記録している辞書記録部と、予め定められた基準カテゴリーにおける予め定められた基準テキストにおいて、予め定められた基準語句が出現する出現頻度である基準頻度を記録している頻度記録部と、辞書記録部において基準カテゴリーについて記録された表記語が基準テキストに出現する出現頻度を算出する頻度算出部と、頻度算出部により算出された出現頻度の基準頻度に対する乖離度がより小さいことを条件に、当該乖離度がより大きい場合と比較して当該表記語の妥当性を高く評価する評価部とを備える装置、当該装置によって辞書の妥当性を評価する方法、および、当該装置として情報処理装置を機能させるプログラムを提供する。
【0019】
本発明の第3の形態においては、テキストに表記された表記語を変換する辞書の妥当性を評価する装置であって、少なくとも1つの表記語を、当該少なくとも1つの表記語を代表する代表語に対応付けて記録している辞書記録部と、複数のテキストをカテゴリー毎に分類して記録するテキスト記録部と、予め定められた基準語句を含むテキストの集合について、カテゴリー毎のテキスト数の分布を記録している分布記録部と、テキスト記録部に記録された複数のテキストのうち、辞書記録部に記録された表記語を含むテキストについて、カテゴリー毎のテキスト数の分布を生成する分布生成部と、分布記録部に記録されたテキスト数の分布、および、分布生成部により生成されたテキスト数の分布の乖離度がより小さいことを条件に、当該乖離度がより大きい場合と比較して、当該表記語の妥当性を高く評価する評価部とを備える装置、当該装置によって辞書の妥当性を評価する方法、および、当該装置として情報処理装置を機能させるプログラムを提供する。
【0020】
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの特徴群のサブコンビネーションもまた、発明となりうる。
【発明の効果】
【0021】
本発明によれば、表記語を代表語に対応付けた辞書の妥当性を評価することができる。
【発明を実施するための最良の形態】
【0022】
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
【0023】
図1は、評価装置10の概要を示す。評価装置10は、評価ユニット20と、辞書記録部100とを有する。評価ユニット20は、テキストに表記された表記語を変換する辞書の妥当性を評価する。辞書記録部100は、少なくとも1つの表記語を、当該少なくとも1つの表記語を代表する代表語に対応付けて、語句のカテゴリー毎に記録している。具体的には、辞書記録部100は、ネットワークを介して接続されたリソース30−1〜Nの各々から表記語および代表語の組を取得し、それらを統合して記録する。
【0024】
ここで、リソース30−1〜Nは、互いに異なる管理者によって管理されている場合もあり、また、テキストマイニング専用に構築されていない場合もある。このため、表記語および代表語の対応付けが不適切な場合がある。本実施例に係る評価装置10は、辞書記録部100に記録された辞書の妥当性を評価することにより、不要な語句の削除や不適切な語句の訂正を利用者に促すことを目的とする。
【0025】
図2は、辞書記録部100のデータ構造の一例を示す。辞書記録部100は、少なくとも1つの表記語を、当該少なくとも1つの表記語を代表する代表語に対応付けて、語句のカテゴリー毎に記録している。辞書記録部100に記録される語句は、例えば、化学物質名、または、遺伝子を構成する塩基の名称などの専門用語である。そして、辞書記録部100は、これらの専門用語を、それが用いられる技術分野のカテゴリー毎に記録する。例えば、辞書記録部100は、語句のカテゴリーとして、遺伝子カテゴリーと、化合物カテゴリーとを有する。
【0026】
また、表記語とは、テキストマイニングの対象となるテキストに含まれる語句の表記である。テキストには、そのテキストの作成者の個性やその他の事情によって、同一の意味を有する複数の異なる表記語が表記される場合がある。このため、表記語をテキストマイニングの対象としたのでは、同一の意味を有する語句の出現頻度を適切に評価できない場合がある。このため、辞書記録部100は、同一の意味を有する複数の表記語を統一的に評価するために、これらの表記語を同一の代表語に変換するための辞書を記録する。
【0027】
具体的には、辞書記録部100は、表記語A−1、表記語A−2、および、表記語A−3の各々を遺伝子Aという代表語に変換するべく、これらの表記語を遺伝子Aに対応付けて記録している。同様に、辞書記録部100は、表記語C−1、表記語C−2、および、表記語C−3の各々を化合物Cという代表語に変換するべく、表記語C−1、表記語C−2、および、表記語C−3を化合物Cに対応付けて記録している。
【0028】
ここで、表記語と代表語の関係は、例えば、互いに同一の意味を有する関係である。これに代えて、代表語は、各表記語の通称であってもよく、例えば、複数の表記語から選択された1つの表記語と同一であってもよい。また、代表語は、各表記語の総称であってもよい。
【0029】
図3は、評価ユニット20の機能構成を示す。評価ユニット20は、3つの方法の組み合わせによって表記語の妥当性を評価する。具体的には、評価ユニット20は、第1の方法によって表記語の妥当性を評価する第1部分22と、第2の方法によって表記語の妥当性を評価する第2部分25と、第3の方法によって表記語の妥当性を評価する第3部分28とを有する。また、評価ユニット20は、これらの方法に基づいて妥当性を総合評価する評価部120と、評価に用いられるテキストを記録しているテキスト記録部180とを有する。
【0030】
第1部分22は、関係記録部110と、入力部130と、警告部140とを有する。関係記録部110は、一のカテゴリーが他のカテゴリーの表記語と一致し得ることを条件に、当該一のカテゴリーが当該他のカテゴリーに依存する依存関係を記録している。評価部120は、この依存関係を用いて表記語の妥当性を判断する。具体的には、評価部120は、辞書記録部100において第1のカテゴリーの代表語が第2のカテゴリーの表記語と一致するか否かを判断する。そして、評価部120は、一致することを条件に、当該第1のカテゴリーが当該第2のカテゴリーに依存する依存関係が関係記録部110に記録されているか否かを判断する。記録されていないことを条件に、評価部120は、その表記語が、その代表語により代表される語句として妥当でないと評価する。
【0031】
関係記録部110に記録されるカテゴリーは、利用者の指定によって追加されてもよい。具体的には、入力部130は、新規カテゴリーの指定を、当該新規カテゴリーが他のカテゴリーに依存する依存関係、または、他のカテゴリーが当該新規カテゴリーに依存する依存関係に対応付けて利用者から入力する。そして、警告部140は、入力された依存関係および関係記録部110に既に記録された依存関係に基づいて、依存の循環関係が存在するか判断する。
【0032】
ここで、依存の循環関係とは、例えば、一のカテゴリーが新規カテゴリーに依存し、かつ、新規カテゴリーが他のカテゴリーに依存し、かつ、当該他のカテゴリーが当該一のカテゴリーに依存する関係を言う。このような循環関係が検出されたことを条件に、警告部140は、依存関係が不適切である旨を利用者に警告して、依存関係の修正を促す。循環関係が検出されなければ、警告部140は、入力された依存関係を関係記録部110に記録する。
【0033】
第2部分25は、頻度記録部150と、頻度算出部160とを有する。頻度記録部150は、予め定められた基準カテゴリーにおける予め定められた基準テキストにおいて、予め定められた基準語句が出現する出現頻度である基準頻度を記録している。ここで、基準語句は、表記語の典型例として辞書の管理者等によって予め選択された語句である。また、基準頻度は、頻度算出部160により算出されてもよい。そして、頻度算出部160は、辞書記録部100においてその基準カテゴリーについて記録された表記語がその基準テキストに出現する出現頻度を算出する。例えば、基準テキストはテキスト記録部180に記録されており、頻度算出部160は、テキスト記録部180から基準テキストを取得してその基準テキストについて表記語の出現頻度を算出してもよい。
【0034】
評価部120は、頻度算出部160により算出された出現頻度の、頻度記録部150に記録されている基準頻度に対する後述の乖離度がより小さいことを条件に、当該乖離度がより大きい場合と比較してその表記語の妥当性を高く評価する。
【0035】
第3部分28は、分布記録部170と、分布生成部190とを有する。分布記録部170は、予め定められた基準語句を含むテキストの集合について、テキストの属性毎のテキスト数の分布を記録している。この分布は、分布生成部190に生成されてもよい。分布生成部190は、複数のテキストの各々を当該テキストの属性に対応付けてテキスト記録部180から取得する。そして、分布生成部190は、これら複数のテキストのうち、辞書記録部100に記録された表記語を含むテキストについて、属性毎のテキスト数の分布を生成する。
【0036】
ここで、テキストの属性とは、例えば、テキストの内容分類を示す識別子、または、テキスト作成者や作成組織を示す識別子などの、テキストを分類・管理することを目的に当該テキストに付された識別子である。具体的には、テキストの作成者がテキスト作成開始時にこの属性をテキストに含めて作成してもよいし、テキストの管理者がテキストをデータベースに登録する場合にこの属性をテキストに追加してもよい。なお、この属性は、上述のカテゴリーとは異なる概念であってもよい。
【0037】
評価部120は、分布記録部170に記録されたテキスト数の分布、および、分布生成部190により生成されたテキスト数の分布の乖離度がより小さいことを条件に、当該乖離度がより大きい場合と比較して、当該表記語の妥当性を高く評価する。
【0038】
図4は、関係記録部110のデータ構造を示す。関係記録部110は、一のカテゴリーの代表語が他のカテゴリーの表記語と一致し得ることを条件に、当該一のカテゴリーが当該他のカテゴリーに依存する依存関係を記録している。例えば、図4(a)において、各円はカテゴリーを示し、円と円とを結ぶ矢印は依存関係を示す。即ち、カテゴリー1はカテゴリー3および4に依存する。また、カテゴリー3およびカテゴリー4は相互に依存する。即ち、カテゴリー1の代表語は、カテゴリー3または4の表記語と一致し得る。また、カテゴリー3の代表語はカテゴリー4の表記語と一致し得る。また、カテゴリー4の代表語はカテゴリー3の表記語と一致し得る。
【0039】
具体的なデータ構造の一例を図4(b)に示す。関係記録部110は、例えば、各々のカテゴリーを行に配置し、各々のカテゴリーを列に配置した表形式の構造に、依存関係が存在するか否かを示すフラグを記録する。例えば、列に配置されたカテゴリー1と、行に配置されたカテゴリー2とが交差する要素は1であるので、カテゴリー1はカテゴリー2に依存する依存関係を有する。
【0040】
これに代えて、関係記録部110は、各々のカテゴリーが他の各々のカテゴリーに依存する依存関係の程度を示す依存度を記録してもよい。例えば、図4(b)に示した表形式の構造において、関係記録部110は、表の各要素として、依存関係の程度を示す依存度を記録してもよい。カテゴリー1がカテゴリー2に依存する依存度をP(1,2)と表す。即ちP(1,2)は、カテゴリー1の代表語がカテゴリー2の表記語と一致する可能性の高さを示す。
【0041】
この例において、評価部120は、カテゴリー1がカテゴリー2に依存するフラグが記録されている場合においては、依存関係があると判断する。また、依存度P(1,2)が定義されている場合には、ある閾値以上の依存度であれば、依存関係があると判断する。カテゴリー間の依存度は利用者が知識に基づいて定義することが可能である。また、外部リソースから得られる情報に基づいて算出してもよい。
【0042】
図5は、頻度記録部150のデータ構造の一例を示す。頻度記録部150は、予め定められた基準カテゴリーにおける予め定められた基準テキストにおいて、予め定められた基準語句が出現する出現頻度である基準頻度を記録している。例えば、頻度記録部150は、遺伝子カテゴリーを基準カテゴリーとして、その遺伝子カテゴリーの中のAAAという基準語句が出現する頻度として、0.01%を記録している。この出現頻度は、基準テキストに含まれる全ての語句のうちAAAの割合である。これに代えて、出現頻度とは、テキスト1ページ当たりに基準語句が出現する回数、または、テキストのデータサイズ1KB毎に基準語句が出現する回数であってもよい。
【0043】
図6は、分布記録部170のデータ構造の一例を示す。分布記録部170は、カテゴリー毎に、当該カテゴリーに含まれる予め定められた基準語句を含むテキストの集合について、属性毎のテキスト数の分布を記録している。例えば、図示のように、分布記録部170は、頻度算出部160に記録された複数のテキストのうち、遺伝子カテゴリーの基準語句AAAを含むテキストの集合について、属性毎のテキスト数の分布を記録している。属性毎のテキスト数の分布とは、例えば、属性値が1のテキストの確率密度は10%、属性値が2のテキストの確率密度は12%といった、属性値に応じたテキスト数の分布を示す。
【0044】
図7は、評価装置10が表記語の妥当性を評価する処理の処理フローを示す。評価部120は、妥当性評価の対象とすべき表記語と、それに対応する代表語の組を辞書記録部100から入力する(S700)。以降、この表記語を含むカテゴリーをカテゴリーAとする。次に、評価部120は、カテゴリーの依存関係に基づいてその表記語の妥当性を評価する(S710)。例えば、評価部120は、カテゴリーAにおけるこの表記語が、辞書記録部100における他のカテゴリーにおける代表語と一致し、かつ、当該他のカテゴリーがカテゴリーAに依存する依存関係が関係記録部110に記録されていないことを条件に、この表記語が妥当でないと評価する。
【0045】
妥当でないと評価されたことを条件に(S720:YES)、評価部120は、その表記語が妥当でないと判断して(S725)、処理を終了する。一方で、上記の依存関係が記録されていることを条件に(S720:NO)、評価部120は、その表記語の出現頻度に基づいてその表記語の妥当性を評価する(S730)。例えば、評価部120は、頻度算出部160により算出された出現頻度の基準頻度に対する乖離度が、予め定められた基準よりも大きいことを条件に、当該表記語が妥当でないと評価する。
【0046】
妥当でないと評価されたことを条件に(S740:YES)、評価部120は、その表記語が妥当でないと判断して(S725)、処理を終了する。一方で、上記の乖離度が予め定められた基準以下であることを条件に(S740:NO)、評価部120は、その表記語を含むテキスト群における属性毎のテキスト数の分布に基づいて、その表記語の妥当性を評価する(S750)。例えば、評価部120は、分布記録部170に記録されたテキスト数の分布、および、分布生成部190により生成されたテキスト数の分布の乖離度が、予め定められた基準よりも大きいことを条件に、当該表記語が妥当でないと評価する。
【0047】
妥当でないと評価されたことを条件に(S760:YES)、評価部120は、その表記語が妥当でないと判断して(S725)処理を終了する。一方で、妥当であると評価されたことを条件に(S760:NO)、評価部120は、その表記語が妥当と判断して(S770)処理を終了する。
【0048】
以上、本図において説明したように、評価装置10は、第1の方法から第3の方法までの各方法をこの順に順次行うことにより表記語の妥当性を判断する。ここで、各方法の処理時間を考察するところ、第1の方法は関係記録部110から依存度を取得する処理のみを要し、その処理時間は極めて短い。一方で、第2の方法は出現頻度の算出および乖離度の算出を必要とし、その処理時間は第1の方法よりも長いと考えられる。更に、第3の方法はテキスト数の分布を算出する処理を要し、その処理時間は第2の方法よりも長いと考えられる。このように、本実施例における評価装置10は、第1から第3の方法をその処理時間の短い順に順次実行し、先に実行した方法では妥当性が不明な場合にのみ次に方法を実行する。これにより、妥当性を評価する全体処理の時間を短くして効率を高めることができる。
【0049】
また、本図の処理の流れは一例であり、第1の方法から第3の方法までを組み合わせる多様な手段が考えられる。例えば、評価部120は、第1から第3の各々の方法によってある表記語について評価した妥当性を数値化し、その数値の合計値をその表記語の妥当性として評価してもよい。
【0050】
図8は、S710の処理の詳細を示す。評価部120は、評価対象の表記語が、辞書記録部100における他の何れかのカテゴリーにおける代表語と一致するか否かを判断する(S800)。他の何れのカテゴリーにおける代表語とも一致しなければ(S800:NO)、本図の処理を終了する。一方で、他の何れかのカテゴリーの代表語と一致したことを条件に(S800:YES)、評価部120は、当該他のカテゴリーがカテゴリーAに依存する依存度を関係記録部110から検索する。以降、当該他のカテゴリーをカテゴリーBとする。
【0051】
より詳細には、評価部120は、カテゴリーAを列の要素とし、カテゴリーBを行の要素として、図4(b)に示した表から要素を検索し、カテゴリーAのカテゴリーBへの依存度を求める。この要素を、P(A,B)とする。この要素P(A,B)を当該表記語の妥当性として評価する。そして、評価された妥当性が基準未満であれば(S820:YES)、評価部120は、当該表記語が妥当でないと評価する(S840)。
【0052】
図9は、S730の処理の詳細を示す。頻度記録部150は、基準カテゴリーにおける基準テキストにおいて、予め定められた基準語句であるAAAが出現する出現頻度である基準頻度を記録している。この基準テキストは、例えば、テキスト記録部180に記録されているテキストの集合である。そして、頻度算出部160は、辞書記録部100においてその基準カテゴリーについて記録された表記語を順次選択する。いま、選択された表記語を表記語A−1とする。そして、頻度算出部160は、表記語A−1がテキスト記録部180中の基準テキストに出現する出現頻度を算出する。
【0053】
次に、評価部120は、頻度算出部160により算出された出現頻度と、頻度記録部150に記録された基準頻度とを比較する。そして、評価部120は、これらの頻度の乖離度を算出する。ここで、頻度の乖離度を求める方法は従来公知であるが、最も単純には、基準頻度の値(q)と、算出した出現頻度の値(p)の差分値を乖離度として求めてもよいし、頻度の値の比率(p/q)を乖離度として求めてもよい。その他、評価部120は、これらの頻度の間のKullback−Leibler距離(KL(q|p))を乖離度として求めてもよいし、これらの頻度が等しいという仮説に基づく検定の値(Hp=q)を乖離度として求めてもよいし、AIC(情報量規準)を用いて乖離度を求めてもよい。
【0054】
次に、評価部120は、算出した乖離度が予め定められた基準よりも大きいことを条件に、その表記語が妥当でないと評価する。ここで、基準語句を予め定めることが困難な場合等には、頻度算出部160は、辞書記録部100に記録されたある表記語およびそれに対応する代表語の各々について、その出現頻度を算出してもよい。そして、頻度記録部150は、その代表語を基準語句としてその代表語の出現頻度を基準頻度として記録する。この場合、評価部120は、その表記語の出現頻度のその代表語の基準頻度に対する乖離度に基づいてその表記語の妥当性を評価する。
【0055】
また、更に他の例として、妥当性評価の精度を高めるべく、評価部120は、予め定められた2つの基準語句のそれぞれが出現する2つの基準頻度を用いて表記語の妥当性を評価してもよい。この2つの基準語句を第1の基準語句および第2の基準語句とし、第1の基準語句の出現頻度をq1とし、第2の基準語句の出現頻度をq2とし、q1>q2とする。
【0056】
即ちこの場合、頻度記録部150は、基準テキストにおいて第1の基準語句が出現する出現頻度(q1)、および、基準テキストにおいて第2の基準語句が出現する出現頻度(q2)を記録している。第1の基準語句は、基準カテゴリーで各語句が出現する平均の出現頻度よりも高い頻度で出現することが予め判明している高頻度語句である。また、第2の基準語句は、基準カテゴリーで各語句が出現する平均の出現頻度で出現することが予め判明している通常語句である。
【0057】
評価部120は、頻度算出部160により表記語について算出された出現頻度(p)が、第1の基準語句および第2の基準語句の一方の出現頻度(例えばq2)よりも大きく、かつ、他方の出現頻度(例えばq1)よりも小さいことを条件に、第1の基準語句および第2の基準語句の何れの出現頻度よりも大きい場合よりもその表記語の妥当性を高く評価する。例えば、評価部120は、出現頻度(p)が、第1の基準語句および第2の基準語句の何れの出現頻度(q1およびq2)よりも大きい場合には、表記語が妥当でないと評価する。一方で、評価部120は、出現頻度(p)が、第1の基準語句および第2の基準語句の一方の出現頻度(例えばq2)よりも大きく、かつ、他方の出現頻度(例えばq1)よりも小さいことを条件に、表記語が妥当な可能性があると評価する。この場合、例えば、評価部120は、S750に処理を移してテキスト数の分布に基づく評価を行ってもよい。
【0058】
図10は、S750の処理の詳細を示す。分布記録部170は、基準語句(例えばAAA)を含むテキストの集合について、テキストの属性毎のテキスト数の分布を記録している。即ちこの分布を求めるには、まず、基準語句(AAA)を含むテキストの集合をテキスト記録部180から検索する。検索の対象はテキスト記録部180に限らず、その基準語句が属するカテゴリーのテキストであれば構わない。そして、そのテキストの集合に含まれる各テキストについて、そのテキストが有する属性を調べる。そして、その属性の属性値の分布が、分布記録部170に記録された分布となる。この分布は、例えば、属性値に対するテキスト数の確率密度分布であってもよい。
【0059】
分布生成部190は、妥当性評価の対象となる表記語を辞書記録部100から選択する。この表記語を表記語A−1とする。そして、分布生成部190は、複数のテキストの各々を当該テキストの属性に対応付けてテキスト記録部180から取得する。そして、分布生成部190は、これら複数のテキストのうち、この表記語A−1を含むテキストについて、属性毎のテキスト数の分布を生成する。そして、評価部120は、分布記録部170に記録されたテキスト数の分布、および、分布生成部190により生成されたテキスト数の分布の乖離度を算出する。分布の乖離度を求める方法についても、従来公知の方法が適用できる。例えば、図9で既に述べたようなKullback−Leibler距離によって乖離度を算出できる。そして、分布生成部190は、算出した乖離度が予め定められた基準よりも大きいことを条件に、当該表記語が妥当でないと評価する。
【0060】
図11は、S750の処理の変形例を示す。図10の例において、妥当性を適切に評価するためには、適切な基準語句を選択することが必要となる。基準語句は、その基準語句が属するカテゴリーに詳しい管理者であれば、適切に選択することができる。また、そのカテゴリーのテキストが充分に多く準備できれば、そのテキストに出現する語句の中から基準語句を選択できる。本変形例では、その他の場合についても妥当性を評価するべく、予め基準語句を定めることなく表記語の妥当性を評価する処理を説明する。
【0061】
まず、分布生成部190は、妥当性評価の対象となる表記語、およびそれに対応する代表語の組を辞書記録部100から選択する。選択した代表語を遺伝子Aとし、選択した表記語を表記語A−1とする。そして、分布生成部190は、代表語を含むテキストの集合をテキスト記録部180から検索する。また、分布生成部190は、表記語A−1を含むテキストの集合をテキスト記録部180から検索する。分布生成部190は、代表語を含むテキストの集合について、属性毎のテキスト数の分布を生成する。
【0062】
分布記録部170は、この代表語を基準語句として、生成されたこの分布を記録する。また、分布生成部190は、表記語A−1を含むテキストの集合について、属性毎のテキスト数の分布を生成する。そして、評価部120は、表記語A−1について分布生成部190により生成されたテキスト数の分布、および、その表記語に対応する代表語を基準語句とする分布を比較し、その乖離度を求める。そして、評価部120は、その乖離度が予め定められた基準よりも大きいことを条件に、当該表記語が妥当でないと評価する。
以上、本変形例によれば、予め基準語句を定めることなく表記語の妥当性を適切に評価することができる。
【0063】
図12は、評価装置10として機能する情報処理装置500のハードウェア構成の一例を示す。情報処理装置500は、ホストコントローラ1082により相互に接続されるCPU1000、RAM1020、及びグラフィックコントローラ1075を有するCPU周辺部と、入出力コントローラ1084によりホストコントローラ1082に接続される通信インターフェイス1030、ハードディスクドライブ1040、及びCD−ROMドライブ1060を有する入出力部と、入出力コントローラ1084に接続されるROM1010、フレキシブルディスクドライブ1050、及び入出力チップ1070を有するレガシー入出力部とを備える。
【0064】
ホストコントローラ1082は、RAM1020と、高い転送レートでRAM1020をアクセスするCPU1000及びグラフィックコントローラ1075とを接続する。CPU1000は、ROM1010及びRAM1020に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィックコントローラ1075は、CPU1000等がRAM1020内に設けたフレームバッファ上に生成する画像データを取得し、表示装置1080上に表示させる。これに代えて、グラフィックコントローラ1075は、CPU1000等が生成する画像データを格納するフレームバッファを、内部に含んでもよい。
【0065】
入出力コントローラ1084は、ホストコントローラ1082と、比較的高速な入出力装置である通信インターフェイス1030、ハードディスクドライブ1040、及びCD−ROMドライブ1060を接続する。通信インターフェイス1030は、ネットワークを介して外部の装置と通信する。ハードディスクドライブ1040は、情報処理装置500が使用するプログラム及びデータを格納する。例えば、ハードディスクドライブ1040は、図1に示した辞書記録部100として機能してもよい。CD−ROMドライブ1060は、CD−ROM1095からプログラム又はデータを読み取り、RAM1020又はハードディスクドライブ1040に提供する。
【0066】
また、入出力コントローラ1084には、ROM1010と、フレキシブルディスクドライブ1050や入出力チップ1070等の比較的低速な入出力装置とが接続される。ROM1010は、情報処理装置500の起動時にCPU1000が実行するブートプログラムや、情報処理装置500のハードウェアに依存するプログラム等を格納する。フレキシブルディスクドライブ1050は、フレキシブルディスク1090からプログラム又はデータを読み取り、入出力チップ1070を介してRAM1020またはハードディスクドライブ1040に提供する。入出力チップ1070は、フレキシブルディスク1090や、例えばパラレルポート、シリアルポート、キーボードポート、マウスポート等を介して各種の入出力装置を接続する。
【0067】
情報処理装置500に提供されるプログラムは、フレキシブルディスク1090、CD−ROM1095、又はICカード等の記録媒体に格納されて利用者によって提供される。プログラムは、入出力チップ1070及び/又は入出力コントローラ1084を介して、記録媒体から読み出され情報処理装置500にインストールされて実行される。プログラムが情報処理装置500等に働きかけて行わせる動作は、図1から図11において説明した評価装置10における動作と同一であるから、説明を省略する。
【0068】
以上に示したプログラムは、外部の記憶媒体に格納されてもよい。記憶媒体としては、フレキシブルディスク1090、CD−ROM1095の他に、DVDやPD等の光学記録媒体、MD等の光磁気記録媒体、テープ媒体、ICカード等の半導体メモリ等を用いることができる。また、専用通信ネットワークやインターネットに接続されたサーバシステムに設けたハードディスク又はRAM等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムを情報処理装置500に提供してもよい。
【0069】
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
【図面の簡単な説明】
【0070】
【図1】図1は、評価装置10の概要を示す。
【図2】図2は、辞書記録部100のデータ構造の一例を示す。
【図3】図3は、評価ユニット20の機能構成を示す。
【図4】図4は、関係記録部110のデータ構造を示す。
【図5】図5は、頻度記録部150のデータ構造の一例を示す。
【図6】図6は、分布記録部170のデータ構造の一例を示す。
【図7】図7は、評価装置10が表記語の妥当性を評価する処理の処理フローを示す。
【図8】図8は、S710の処理の詳細を示す。
【図9】図9は、S730の処理の詳細を示す。
【図10】図10は、S750の処理の詳細を示す。
【図11】図11は、S750の処理の変形例を示す。
【図12】図12は、評価装置10として機能する情報処理装置500のハードウェア構成の一例を示す。
【符号の説明】
【0071】
10 評価装置
20 評価ユニット
22 第1部分
25 第2部分
28 第3部分
30 リソース
100 辞書記録部
110 関係記録部
120 評価部
130 入力部
140 警告部
150 頻度記録部
160 頻度算出部
170 分布記録部
180 テキスト記録部
190 分布生成部
500 情報処理装置

【特許請求の範囲】
【請求項1】
テキストに表記された表記語を変換する辞書の妥当性を評価する装置であって、
少なくとも1つの前記表記語を、当該少なくとも1つの表記語を代表する代表語に対応付けて、語句のカテゴリー毎に記録している辞書記録部と、
一の前記カテゴリーの代表語が他の前記カテゴリーの表記語と一致し得ることを条件に、当該一のカテゴリーが当該他のカテゴリーに依存する依存関係を記録している関係記録部と、
前記辞書記録部において第1のカテゴリーの代表語が第2のカテゴリーの表記語と一致し、かつ、前記第1のカテゴリーが前記第2のカテゴリーに依存する依存関係が前記関係記録部に記録されていないことを条件に、当該表記語が、当該代表語により代表される語句として妥当でないと評価する評価部と
を備える装置。
【請求項2】
前記関係記録部は、各々のカテゴリーが他の各々のカテゴリーに依存する依存関係の程度を示す依存度を記録しており、
前記評価部は、前記辞書記録部において第1のカテゴリーの代表語が第2のカテゴリーの表記語と一致することを条件に、前記第1のカテゴリーおよび前記第2のカテゴリーに対応する依存度を前記関係記録部から検索し、検索された前記依存度を当該表記語の妥当性として評価する
請求項1に記載の装置。
【請求項3】
新規カテゴリーの指定を、前記新規カテゴリーが他のカテゴリーに依存する依存関係、または、他のカテゴリーが前記新規カテゴリーに依存する依存関係に対応付けて利用者から入力する入力部と、
入力された依存関係および前記関係記録部に記録された依存関係に基づいて、一のカテゴリーが前記新規カテゴリーに依存し、かつ、前記新規カテゴリーが他のカテゴリーに依存し、かつ、当該他のカテゴリーが当該一のカテゴリーに依存する循環関係が検出されたことを条件に、依存関係が不適切である旨を利用者に警告する警告部と
を更に備える請求項1に記載の装置。
【請求項4】
テキストに表記された表記語を変換する辞書の妥当性を評価する装置であって、
少なくとも1つの前記表記語を、当該少なくとも1つの表記語を代表する代表語に対応付けて、語句のカテゴリー毎に記録している辞書記録部と、
予め定められた基準カテゴリーにおける予め定められた基準テキストにおいて、予め定められた基準語句が出現する出現頻度である基準頻度を記録している頻度記録部と、
前記辞書記録部において前記基準カテゴリーについて記録された表記語が前記基準テキストに出現する出現頻度を算出する頻度算出部と、
前記頻度算出部により算出された出現頻度の前記基準頻度に対する乖離度がより小さいことを条件に、当該乖離度がより大きい場合と比較して当該表記語の妥当性を高く評価する評価部と
を備える装置。
【請求項5】
前記評価部は、表記語について前記頻度算出部により算出された出現頻度が前記基準頻度よりも大きいことを条件に、当該表記語が妥当でないと評価する
請求項4に記載の装置。
【請求項6】
前記頻度記録部は、前記基準テキストにおいて第1の前記基準語句が出現する出現頻度、および、前記基準テキストにおいて第2の前記基準語句が出現する出現頻度を記録しており、
前記評価部は、前記頻度算出部により算出された出現頻度が、前記第1の基準語句および第2の基準語句の一方の出現頻度よりも大きく、かつ、他方の出現頻度よりも小さいことを条件に、前記第1の基準語句および前記第2の基準語句の何れの出現頻度よりも大きい場合よりも当該表記語の妥当性を高く評価する
請求項4に記載の装置。
【請求項7】
前記頻度記録部は、前記辞書記録部に記録された代表語を基準語句として当該代表語の出現頻度を前記基準頻度として記録し、
前記頻度算出部は、当該代表語に対応する表記語の出現頻度を算出し、
前記評価部は、当該表記語の出現頻度の当該代表語の基準頻度に対する乖離度に基づいて当該表記語の妥当性を評価する
請求項4に記載の装置。
【請求項8】
テキストに表記された表記語を変換する辞書の妥当性を評価する装置であって、
少なくとも1つの前記表記語を、当該少なくとも1つの表記語を代表する代表語に対応付けて記録している辞書記録部と、
複数のテキストの各々を当該テキストの属性に対応付けて記録するテキスト記録部と、
予め定められた基準語句を含むテキストの集合について、属性毎のテキスト数の分布を記録している分布記録部と、
前記テキスト記録部に記録された複数のテキストのうち、前記辞書記録部に記録された表記語を含むテキストについて、属性毎のテキスト数の分布を生成する分布生成部と、
前記分布記録部に記録されたテキスト数の分布、および、前記分布生成部により生成されたテキスト数の分布の乖離度がより小さいことを条件に、当該乖離度がより大きい場合と比較して、当該表記語の妥当性を高く評価する評価部と
を備える装置。
【請求項9】
前記分布記録部は、前記辞書記録部に記録されている代表語を基準語句として、当該代表語を含むテキストの集合について、属性毎のテキスト数の分布を記録しており、
前記評価部は、表記語について前記分布生成部により生成されたテキスト数の分布、および、当該表記語に対応する代表語を基準語句とする分布の乖離度に基づいて、当該表記語の妥当性を評価する
請求項8に記載の装置。
【請求項10】
前記辞書記録部は、少なくとも1つの前記表記語を当該少なくとも1つの表記語を代表する代表語に対応付けて語句のカテゴリー毎に記録し、
一の前記カテゴリーの代表語が他の前記カテゴリーの表記語と一致し得ることを条件に、当該一のカテゴリーが当該他のカテゴリーに依存する依存関係を記録している関係記録部を更に備え、
前記評価部は、前記辞書記録部において第1のカテゴリーにおける代表語が第2のカテゴリーにおける表記語と一致し、かつ、前記第1のカテゴリーが前記第2のカテゴリーに依存する依存関係が前記関係記録部に記録されていないことを条件に、当該表記語が、当該代表語により代表される語句として妥当でないと評価し、更に、
前記第1のカテゴリーが前記第2のカテゴリーに依存する依存関係が前記関係記録部に記録されている場合であっても、前記分布記録部に記録されたテキスト数の分布、および、前記分布生成部により生成されたテキスト数の分布の乖離度が、予め定められた基準よりも大きいことを条件に、当該表記語が妥当でないと評価する
請求項8に記載の装置。
【請求項11】
前記辞書記録部は、少なくとも1つの前記表記語を当該少なくとも1つの表記語を代表する代表語に対応付けて語句のカテゴリー毎に記録し、
予め定められた基準カテゴリーにおける予め定められた基準テキストにおいて、予め定められた基準語句が出現する出現頻度である基準頻度を記録している頻度記録部と、
前記辞書記録部において前記基準カテゴリーについて記録された表記語が前記基準テキストに出現する出現頻度を算出する頻度算出部と
を更に備え、
前記評価部は、前記頻度算出部により算出された出現頻度の前記基準頻度に対する乖離度が予め定められた基準よりも大きいことを条件に、当該表記語が妥当でないと評価し、更に、
当該乖離度が当該予め定められた基準以下であっても、前記分布記録部に記録されたテキスト数の分布、および、前記分布生成部により生成されたテキスト数の分布の乖離度が、予め定められた基準よりも大きいことを条件に、当該表記語が妥当でないと評価する
請求項8に記載の装置。
【請求項12】
一の前記カテゴリーの代表語が他の前記カテゴリーの表記語と一致し得ることを条件に、一の前記カテゴリーが他の前記カテゴリーに依存する依存関係を記録している関係記録部を更に備え、
前記評価部は、前記辞書記録部において第1のカテゴリーにおける代表語が第2のカテゴリーにおける表記語と一致し、かつ、前記第1のカテゴリーが前記第2のカテゴリーに依存する依存関係が前記関係記録部に記録されていないことを条件に、当該表記語が、当該代表語により代表される語句として妥当でないと評価し、更に、
前記第1のカテゴリーが前記第2のカテゴリーに依存する依存関係が前記関係記録部に記録されている場合であっても、前記頻度算出部により算出された出現頻度の前記基準頻度に対する乖離度が予め定められた基準よりも大きいことを条件に、当該表記語が妥当でないと評価し、更に、
当該乖離度が当該予め定められた基準以下であっても、前記分布記録部に記録されたテキスト数の分布、および、前記分布生成部により生成されたテキスト数の分布の乖離度が、予め定められた基準よりも大きいことを条件に、当該表記語が妥当でないと評価する
請求項11に記載の装置。
【請求項13】
前記頻度記録部は、前記基準テキストにおいて第1の前記基準語句が出現する出現頻度、および、前記基準テキストにおいて第2の前記基準語句が出現する出現頻度を記録しており、
前記評価部は、前記頻度算出部により算出された出現頻度が、前記第1の基準語句および前記第2の基準語句の何れの出現頻度よりも大きいことを条件に、当該表記語が妥当でないと評価し、また、
前記頻度算出部により算出された出現頻度が、前記第1の基準語句および前記第2の基準語句の何れの出現頻度よりも小さいことを条件に、当該表記語が妥当であると評価し、また、
前記頻度算出部により算出された出現頻度が、前記第1の基準語句および第2の基準語句の一方の出現頻度よりも大きく、かつ、他方の出現頻度よりも小さいことを条件に、前記分布記録部に記録されたテキスト数の分布、および、前記分布生成部により生成されたテキスト数の分布の乖離度を評価する
請求項11に記載の装置。
【請求項14】
情報処理装置によって、テキストに表記された表記語を変換する辞書の妥当性を評価する方法であって、
前記情報処理装置は、
少なくとも1つの前記表記語を、当該少なくとも1つの表記語を代表する代表語に対応付けて、語句のカテゴリー毎に記録している辞書記録部と、
一の前記カテゴリーの代表語が他の前記カテゴリーの表記語と一致し得ることを条件に、当該一のカテゴリーが当該他のカテゴリーに依存する依存関係を記録している関係記録部とを有し、
前記辞書記録部において第1のカテゴリーの代表語が第2のカテゴリーの表記語と一致し、かつ、前記第1のカテゴリーが前記第2のカテゴリーに依存する依存関係が前記関係記録部に記録されていないことを条件に、当該表記語が、当該代表語により代表される語句として妥当でないと評価する段階を備える方法。
【請求項15】
テキストに表記された表記語を変換する辞書の妥当性を評価する装置として、情報処理装置を機能させるプログラムであって、
前記情報処理装置を、
少なくとも1つの前記表記語を、当該少なくとも1つの表記語を代表する代表語に対応付けて、語句のカテゴリー毎に記録している辞書記録部と、
一の前記カテゴリーの代表語が他の前記カテゴリーの表記語と一致し得ることを条件に、当該一のカテゴリーが当該他のカテゴリーに依存する依存関係を記録している関係記録部と、
前記辞書記録部において第1のカテゴリーの代表語が第2のカテゴリーの表記語と一致し、かつ、前記第1のカテゴリーが前記第2のカテゴリーに依存する依存関係が前記関係記録部に記録されていないことを条件に、当該表記語が、当該代表語により代表される語句として妥当でないと評価する評価部と
して機能させるプログラム。
【請求項16】
情報処理装置によって、テキストに表記された表記語を変換する辞書の妥当性を評価する方法であって、
前記情報処理装置は、
少なくとも1つの前記表記語を、当該少なくとも1つの表記語を代表する代表語に対応付けて、語句のカテゴリー毎に記録している辞書記録部と、
予め定められた基準カテゴリーにおける予め定められた基準テキストにおいて、予め定められた基準語句が出現する出現頻度である基準頻度を記録している頻度記録部とを有し、
前記辞書記録部において前記基準カテゴリーについて記録された表記語が前記基準テキストに出現する出現頻度を算出する頻度算出段階と、
算出された出現頻度の前記基準頻度に対する乖離度がより小さいことを条件に、当該乖離度がより大きい場合と比較して当該表記語の妥当性を高く評価する評価段階と
を備える方法。
【請求項17】
テキストに表記された表記語を変換する辞書の妥当性を評価する装置として、情報処理装置を機能させるプログラムであって、
前記情報処理装置を、
少なくとも1つの前記表記語を、当該少なくとも1つの表記語を代表する代表語に対応付けて、語句のカテゴリー毎に記録している辞書記録部と、
予め定められた基準カテゴリーにおける予め定められた基準テキストにおいて、予め定められた基準語句が出現する出現頻度である基準頻度を記録している頻度記録部と、
前記辞書記録部において前記基準カテゴリーについて記録された表記語が前記基準テキストに出現する出現頻度を算出する頻度算出部と、
前記頻度算出部により算出された出現頻度の前記基準頻度に対する乖離度がより小さいことを条件に、当該乖離度がより大きい場合と比較して当該表記語の妥当性を高く評価する評価部と
して機能させるプログラム。
【請求項18】
情報処理装置によって、テキストに表記された表記語を変換する辞書の妥当性を評価する方法であって、
前記情報処理装置は、
少なくとも1つの前記表記語を、当該少なくとも1つの表記語を代表する代表語に対応付けて記録している辞書記録部と、
複数のテキストの各々を当該テキストの属性に対応付けて記録するテキスト記録部と、
予め定められた基準語句を含むテキストの集合について、属性毎のテキスト数の分布を記録している分布記録部とを有し、
前記テキスト記録部に記録された複数のテキストのうち、前記辞書記録部に記録された表記語を含むテキストについて、属性毎のテキスト数の分布を生成する分布生成段階と、
前記分布記録部に記録されたテキスト数の分布、および、前記分布生成段階において生成されたテキスト数の分布の乖離度がより小さいことを条件に、当該乖離度がより大きい場合と比較して、当該表記語の妥当性を高く評価する評価段階と
を備える方法。
【請求項19】
テキストに表記された表記語を変換する辞書の妥当性を評価する装置として、情報処理装置を機能させるプログラムであって、
前記情報処理装置を、
少なくとも1つの前記表記語を、当該少なくとも1つの表記語を代表する代表語に対応付けて記録している辞書記録部と、
複数のテキストの各々を当該テキストの属性に対応付けて記録するテキスト記録部と、
予め定められた基準語句を含むテキストの集合について、属性毎のテキスト数の分布を記録している分布記録部と、
前記テキスト記録部に記録された複数のテキストのうち、前記辞書記録部に記録された表記語を含むテキストについて、属性毎のテキスト数の分布を生成する分布生成部と、
前記分布記録部に記録されたテキスト数の分布、および、前記分布生成部により生成されたテキスト数の分布の乖離度がより小さいことを条件に、当該乖離度がより大きい場合と比較して、当該表記語の妥当性を高く評価する評価部と
して機能させるプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate


【公開番号】特開2007−42028(P2007−42028A)
【公開日】平成19年2月15日(2007.2.15)
【国際特許分類】
【出願番号】特願2005−228143(P2005−228143)
【出願日】平成17年8月5日(2005.8.5)
【出願人】(390009531)インターナショナル・ビジネス・マシーンズ・コーポレーション (4,084)
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MASCHINES CORPORATION
【復代理人】
【識別番号】100104156
【弁理士】
【氏名又は名称】龍華 明裕
【Fターム(参考)】